Bài toán phân cụm giải thuật và các ứng dụng

60 246 0
Bài toán phân cụm giải thuật và các ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÀI TOÁN PHÂN CỤM Giải thuật ứng dụng 11/27/2014 Trường Đại học Bách khoa Hà nội Viện Công nghệ thông tin Truyền thông CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Nguyễn Hoàng Anh Đề tài luận văn: Bài toán phân cụm: giải thuật ứng dụng Chuyên ngành: Công nghệ thông tin Mã số SV: CB120053 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày … .………… với nội dung sau: …………………………………………………………………………………… ……………… ……………………………………………………………………… …………………………… ………………………………………………………… …………………………… ………………………………………………………… Ngày 29 tháng năm 2015 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG PHIẾU GIAO NHIỆM VỤ LUẬN VĂN CAO HỌC Thông tin giao đề tài luận văn cán hướng dẫn: Họ tên học viên: Nguyễn Hoàng Anh MSHV: CB120053 Tên đề tài: Bài toán phân cụm: giải thuật ứng dụng Mã đề tài: 2012BCNTT1-KT13 Hệ: Thạc sĩ kỹ thuật Chuyên ngành: Công nghệ thông tin Lớp: CNTT-1 Khóa: 2012B Cán hướng dẫn: TS Phạm Quang Dũng Đơn vị: Viện Công nghệ thông tin Truyền thông, Trường Đại học Bách Khoa Hà Nội Thời gian làm LVCH: Từ ngày 13/5 /2013 đến 27/11 /2014 Mục đích nội dung LVCH  Tìm hiểu tổng quan thuật toán phân cụm ứng dụng  Bài toán phân cụm cân ứng dụng  Cài đặt thử nghiệm giải thuật phân cụm cân Các nhiệm vụ cụ thể LVCH      Tìm hiểu tổng quan phân cụm ứng dụng thực tế Tìm hiểu thuật toán phân cụm cổ điển ưu nhược điểm chúng Nghiên cứu chi tiết thuật toán phân cụm cân Cài đặt thử nghiệm thuật toán phân cụm cân liệu nguồn OpenStreetMap trạm ATM địa bàn Hà Nội Đánh giá kết luận Học viên : Nguyễn Hoàng Anh – CNTT1 – 2012B Page Lời cam đoan học viên: Tôi - Nguyễn Hoàng Anh - cam kết LVCH công sức đóng góp thân hướng dẫn TS Phạm Quang Dũng Các kết nêu LVCH trung thực, chép toàn văn công trình khác Hà Nội, ngày 25 tháng 12 năm 2014 Tác giả LVCH Nguyễn Hoàng Anh Xác nhận cán hướng dẫn mức độ hoàn thành LVCH cho phép bảo vệ: Hà Nội, ngày 25 tháng 12 năm 2014 Cán hướng dẫn Tiến sĩ Phạm Quang Dũng Học viên : Nguyễn Hoàng Anh – CNTT1 – 2012B Page TÓM TẮT NỘI DUNG LUẬN VĂN CAO HỌC PHẦN I : CƠ SỞ LÍ THUYẾT  CHƯƠNG I : Giới thiệu chung Giới thiệu tổng quan phân cụm, bao gồm định nghĩa tới ứng dụng phân cụm thực tế Chương nêu lên khó khăn việc phân cụm, chi tiết kiểu cụm cuối giới thiệu kĩ thuật phân cụm phổ biến  CHƯƠNG II : Thuật toán phân cụm cổ điển Tìm hiểu thuật toán phân cụm cổ điển K-means, K-medoid tập trung chi tiết vào thuật toán K-means, thuật toán phân cụm phổ biến Sau vấn đề bổ sung, nâng cao thực phân cụm theo thuật toán K-means đề cập cuối ưu nhược điểm thuật toán PHẦN II : PHÂN CỤM CÂN BẰNG  CHƯƠNG III : Bài toán phân cụm cân Chương giới thiệu cụ thể toán phân cụm cân bằng, nhu cầu thực tế phân cụm cần thêm điều kiện ràng buộc cân số điểm cụm Chương trình bày cách tóm tắt tiến trình thực phân cụm liệu theo yêu cầu mở rộng  CHƯƠNG IV : Thuật toán phân cụm cân Chương nghiên cứu cách chi tiết thuật toán phân cụm cân Ba bước trình vắn tắt chương trước : lấy mẫu, phân cụm tập mẫu phân phối, lọc mô tả cụ thể trình bày dạng giả ngôn ngữ Phần trọng tâm thuật toán bước phân phối lọc Sau bước hậu xử lí giúp cải thiện hàm mục tiêu đề xuất  CHƯƠNG V : Cài đặt thử nghiệm Mô tả bước cài đặt thuật toán dựa vào liệu nguồn OpenStreetMap, điểm ATM có địa bàn Hà Nội Các kết so sánh việc phân cụm theo thuật toán cổ điển K-means phân cụm theo thuật toán phân cụm cân bằng, ổn định Học viên : Nguyễn Hoàng Anh – CNTT1 – 2012B Page cụm áp dụng bước hậu xử lí sau áp dụng thuật toán phân cụm cân trình bày cụ thể TỔNG KẾT ĐÁNH GIÁ TÀI LIỆU THAM KHẢO Học viên : Nguyễn Hoàng Anh – CNTT1 – 2012B Page Mục lục PHIẾU GIAO NHIỆM VỤ LUẬN VĂN CAO HỌC TÓM TẮT NỘI DUNG LUẬN VĂN CAO HỌC LỜI NÓI ĐẦU 10 PHẦN I : CƠ SỞ LÍ THUYẾT 11 Chương I : Giới thiệu chung 11 I.1 Tổng quan phân cụm 11 Định nghĩa 11 Ứng dụng 11 I.2 Chi tiết phân cụm 12 I.2.1 Khó khăn việc phân cụm 12 I.2.2 Các kiểu phân cụm 13 Phân cấp phân vùng 13 Duy nhất, xếp chồng mờ 14 Toàn phận 14 I.2.3 Các kiểu cụm 14 Well-separated 15 Prototyped-Based 15 Graph-Based 15 Density-Based 15 Shared-Property 16 I.2.4 Các kĩ thuật phân cụm 17 Kĩ thuật K-means 17 Kĩ thuật phân cấp xếp đống 17 Kĩ thuật DBSCAN 17 Chương II : Thuật toán phân cụm cổ điển 18 II.1 K-means, K-mendoid 18 II.1.1 Cơ thuật toán K-means 18 Giải thuật K-means 18 Gán điểm vào trọng tâm gần 20 Trọng tâm hàm mục tiêu 20 Dữ liệu tọa độ Ơ-clit 21 Học viên : Nguyễn Hoàng Anh – CNTT1 – 2012B Page Dữ liệu văn 21 Trường hợp tổng quát 22 Lựa chọn điểm trọng tâm ban đầu 22 Ví dụ (Các điểm trọng tâm khởi tạo tồi) [2] 22 Ví dụ (Giới hạn khởi tạo ngẫu nhiên) [2] 23 Độ phức tạp tính toán 26 II.1.2 K-mean : Các vấn đề bổ sung 26 Điều khiển cụm rỗng 26 Nằm 27 Giảm SSE bước hậu xử lí 27 Cập nhật tăng điểm trọng tâm 28 II.1.3 Bisecting K-mean 28 Giải thuật Bisecting K-mean 28 Ví dụ ( Bisecting K-mean khởi tạo) 29 II.1.4 K-mean kiểu cụm khác 30 II.1.5 Điểm mạnh điểm yếu 32 PHẦN : PHÂN CỤM CÂN BẰNG 34 Chương III : Bài toán phân cụm cân 34 Tóm tắt 34 Giới thiệu toán 34 Chương IV : Thuật toán phân cụm cân 38 Tóm tắt 38 IV.1 Lấy mẫu 40 IV.2 Phân cụm tập mẫu 40 IV.2.1 K-means Ơ clit 41 IV.2.2 K-means hình cầu 41 IV.3 Phân phối lọc 42 IV.3.1 Thuật toán phân phối 43 IV.3.2 Thuật toán lọc 44 Gán điểm 45 Gán cụm điểm 45 IV.4 Đề xuất bước hậu xử lí 46 Học viên : Nguyễn Hoàng Anh – CNTT1 – 2012B Page Chương V : Cài đặt thử nghiệm 48 V.1 Môi trường phát triển thiết kế ứng dụng 48 Môi trường cài đặt 48 Dữ liệu đồ từ OpenStreetMap 48 Thiết kế liệu cho điểm 49 Xử lí nguồn liệu đồ 49 Hiển thị cụm liệu lên Google Map 50 V.2 Kết thử nghiệm 51 V.2.1 Thuật toán K-means 51 Chia cụm theo K-means 52 Chia cụm theo K-means 53 V.2.2 Thuật toán phân cụm cân 53 Chia cụm theo phân cụm cân 54 Chia cụm theo phân cụm cân 55 V.2.3 Độ ổn định sau bước hậu xử lí 57 TỔNG KẾT ĐÁNH GIÁ 58 Đánh giá kết 58 Kết luận 59 TÀI LIỆU THAM KHẢO 60 Học viên : Nguyễn Hoàng Anh – CNTT1 – 2012B Page LỜI NÓI ĐẦU Sau thời gian tìm hiểu nghiên cứu nhiều thuật toán phân cụm, em nhận thấy thuật toán phân cụm cân thuật toán mang tư tưởng mẻ ràng buộc số điểm nằm cụm nhau, thuật toán có tính ứng dụng cao đời sống Cụ thể công ty muốn phân công cho nhân viên lấy liệu khách hàng từ trạm thông tin, toán đặt không chia trạm thành nhiều cụm mà số trạm cụm phải Mặc dù chưa phải tuyệt đối mĩ mãn lí thuyết kết chạy ứng dụng cài đặt thuật toán thu số thành công định Ngoài nỗ lực thân, em cần tới nhiều trợ giúp nhiều người để hoàn thành luận văn cao học ngày hôm Trước hết, em xin gửi lời cảm ơn chân thành sâu sắc tới TS Phạm Quang Dũng - Bộ môn Khoa học máy tính, Viện Công nghệ thông tin Truyền thông, trường Đại học Bách Khoa Hà Nội hết lòng giúp đỡ, định hướng hướng dẫn tận tình để giúp em vượt qua giai đoạn khó khăn trình làm luận văn cao học Em xin gửi lời cảm ơn tới thầy cô giáo trường Đại học Bách Khoa Hà Nội nói chung thầy cô Viện Công nghệ thông tin Truyền thông nói riêng tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu thời gian học tập chương trình Thạc sĩ kỹ thuật trường Đại học Bách Khoa Hà Nội Cuối em xin gửi lời cảm ơn tới gia đình bên động viên trợ giúp, luôn tin tưởng vào cá nhân em, để em hoàn thành luận văn cao học Học viên : Nguyễn Hoàng Anh – CNTT1 – 2012B Page 10 IV.4 Đề xuất bước hậu xử lí Trong trình cài đặt ứng dụng thử nghiệm, kết thu sau cài đặt bước thuật toán đề xuất thu cụm tương đối ổn định có kích thước số điểm bị lẫn vào cụm Trong luận Học viên : Nguyễn Hoàng Anh – CNTT1 – 2012B Page 46 văn đề xuất thêm bước hậu xử lí giúp loại bỏ vấn đề này, thực tế sau thực thêm phương án này, cụm thu ổn định nhiều Nội dung thực bước hậu xử lí : duyệt qua toàn tập điểm nằm liệu ta có, sau thực đổi chỗ hai điểm A B hai cụm khác để chúng tìm cụm hơn, việc thực nhờ vào ước lượng khoảng cách: dAA : khoảng cách từ điểm A tới điểm trọng tâm cụm chứa dAB : khoảng cách từ điểm A tới điểm trọng tâm cụm chứa điểm B dBB : khoảng cách từ điểm B tới điểm trọng tâm cụm chứa dBA : khoảng cách từ điểm B tới điểm trọng tâm cụm chứa điểm A Nếu điều kiện sau thỏa mãn : dAB + dBA < dAA + dBB thực đổi chỗ hai điểm A,B để làm giảm hàm mục tiêu Chi tiết thực sau : BEGIN FOR ALL nodeA in X FOR ALL nodeB in X IF ( Cụm A Cụm B) BEGIN dAA

Ngày đăng: 25/07/2017, 21:33

Mục lục

  • Chương I : Giới thiệu chung

  • Chương II : Thuật toán phân cụm cổ điển

  • Chương III : Bài toán phân cụm cân bằng

  • Chương IV : Thuật toán phân cụm cân bằng

  • Chương V : Cài đặt thử nghiệm

  • TỔNG KẾT ĐÁNH GIÁ

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan