KỸ THUẬT GOM CỤM TRONG KHAI PHÁ DỮ LIỆU

57 734 0
KỸ THUẬT GOM CỤM TRONG KHAI PHÁ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH  BÁO CÁO THU HOẠCH MÔN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU ĐỀ TÀI: KỸ THUẬT GOM CỤM TRONG KHAI PHÁ DỮ LIỆU Giáo viên hướng dẫn: Sinh viên thực hiện: PGS. TS. ĐỖ PHÚC NGUYỄN NGỌC LÂM MSSV: CH1101098 LỚP: CH-K6 TP.HCM 11-2012 Lời mở đầu LỜI MỞ ĐẦU Thế kỹ 21 là thế kỹ của sự bùm nổ thông tin và chúng ta đang sống trong thế giới đầy ấp thông tin nhưng lại đói tri thức. Sự bùng nổ thông tin đã dẫn tới một yêu cầu cấp thiết là cần có kỹ thuật mới, công nghệ mới để biến thông tin thành những tri thức có ích nhằm phục vụ cho sự phát triển của nhân loại. Nhờ đó, kỹ thuật khai phá dữ liệu trở thành lĩnh vực then chốt trong ngành công nghệ thông tin và thuyền thông. Gom cụm dữ liệu là một trong những phương pháp quan trọng trong quá trình khám phá tri thức. Gom cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiên cứu, bước đầu họ đã đưa ra một số thuật toán như: K-means, k-medoids,… và đã đạt được một số kết quả nhất định trong việc tìm kiếm, phân loại dữ liệu. Tuy nhiên, hầu hết các thuật toán này yêu cầu phải xác định trước số cụm cần thực thi đặt biệt là thuật toán k-means. Ngoài ra, các kỹ thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâm với việc chọn ngẫu nhiên làm trọng tâm sẽ cho các kết quả khác nhau. Do đó, các kết quả có thể không chính xác, với mức độ sai số có thể rất lớn. Nội dung bài tiểu luận gồm 4 chương, chủ yếu lựa chọn và sắp xếp những nội dung then chốt nhất trong khoảng thời gian cho phép. Bài tiểu luận trình bày và giới thiệu một cách tương đối hệ thống những kiến thức cơ bản về vấn đề gom cụm trong khai phá dữ liệu, đồng thời cài đặt một số thuật toán đặc trưng minh họa cho bài toán gom cụm.  Chương 1. TỔNG QUAN VỀ GOM CỤM DỮ LIỆU Nội dung chương 1 trình bày tổng quan các khái niệm cơ bản về lý thuyết gom cụm dữ liệu, đồng thời giới thiệu các lĩnh vực đã ứng dụng thành công phương pháp gom cụm vào thực tiễn.  Chương 2. CÁC KIỂU DỮ LIỆU TRONG BÀI TOÁN GOM CỤM & ĐỘ ĐO Trong chương 2 chúng ta nghiên cứu các kiểu dữ liệu thường xuất hiện trong các bài toán gom cụm cũng như các độ đo thông dụng được sử dụng.  Chương 3. CÁC PHƯƠNG PHÁP GOM CỤM & THUẬT TOÁN CH1101098 – Nguyễn Ngọc Lâm Trang 2 Lời mở đầu Trình bày các phương pháp gom cụm điển hình trong bài toán gom cụm dữ liệu chẳng hạn như: Phương pháp gom cụm phân hoạch, phương pháp gom cụm phân cấp, phương pháp gom cụm dựa trên mật độ, phương pháp gom cụm dựa trên lưới, phương pháp gom cụm dựa trên mô hình, phương pháp gom cụm có dữ liệu ràng buộc…đồng thời trình bày các thuật toán và ví dụ minh họa tương ứng.  Chương 4. CÀI ĐẶT ỨNG DỤNG MINH HỌA Trong chương 4 sẽ cài đặt minh họa một số thuật toán đặc trưng, tiêu biểu cho bài toán gom cụm. CH1101098 – Nguyễn Ngọc Lâm Trang 3 Lời cảm ơn Lời cảm ơn LỜI CẢM ƠN Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý Thầy Cô Khoa Học Máy Tính - Trường Đại Học Công Nghệ Thông Tin đã đem hết tâm huyết của mình truyền đạt vốn kiến thức quý báu cho chúng em. Em xin chân thành cảm ơn PGS. TS. Đỗ Phúc đã truyền đạt kiến thức môn khai phá dữ liệu và kho dữ liệu. Qua đó giúp em có đầy đủ kiến thức để hoàn thành bài thu hoạch này. Nhân đây em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, đồng nghiệp đã động viên tinh thần cho em trong suốt quá trình học tập của mình. Sau cùng, em xin kính chúc quý Thầy Cô Khoa Học Máy Tính cùng PGS. TS. Đỗ Phúc dồi dào sức khỏe để thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau. Một lần nữa em xin chân thành cảm ơn ! TP. HCM, ngày 24 tháng 11 năm 2012 Sinh viên thực hiện (ký và ghi rõ họ tên) Nguyễn Ngọc Lâm Nhận xét của giáo viên hướng dẫn NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẨN …………………………………………………………………………………………………… …………………………………………………………………………………………………… …………………………………………………………………………………………………… ……… …………………………………………………………………………………………………… …………………………………………………………………………………………………… …………………………………………………………………………………………………… ……… …………………………………………………………………………………………………… …………………………………………………………………………………………………… …………………………………………………………………………………………………… ……… …………………………………………………………………………………………………… …………………………………………………………………………………………………… …………………………………………………………………………………………………… ……… …………………………………………………………………………………………………… … …………………………………………………………………………………………………… … …………………………………………………………………………………………………… … …………………………………………………………………………………………………… … …………………………………………………………………………………………………… … Nhận xét của giáo viên hướng dẫn …………………………………………………………………………………………………… … …………………………………………………………………………………………………… … TP. HCM, ngày 24 tháng 11 năm 2012 Sinh viên thực hiện (ký và ghi rõ họ tên) Nguyễn Ngọc Lâm Mục lục MỤC LỤC Chương 1 – Tổng quan về gom cụm dữ liệu DANH SÁCH CÁC HÌNH Hình 3.1 Các chiến lược gom cụm phân cấp ………………………………………… 26 Hình 3.2 Cấu trúc phân cấp ……………………………………………………………. 28 Hình 3.3 Các cách mà gom cụm có thể đưa ra ………………………………………… 28 Hình 3.4 Các thiết lập để xác định ranh giới các cụm ban đầu ………………………… 29 Hình 3.5 Tính toán trọng tâm của các cụm mới ……………………………………… 30 Hình 4.1 Form màn hình chính khi chạy ứng dụng ……………………………………. 45 Hình 4.1 Form màn hình chính khi chạy ứng dụng ……………………………………. 45 Hình 4.3 Chọn giá trị thuộc tính ban đầu ……………………………………………… 46 Hình 4.4 Ma trận distance ……………………………………………………………… 46 Hình 4.5 Bảng thông báo ma trận distance không hợp lệ ……………………………… 47 Hình 4.6 Những ô không hợp lệ trong ma trận distance được tô màu đỏ ……………… 47 Hình 4.7 Ma trận distance hợp lệ ………………………………………………………. 47 Hình 4.8 Ma trận partition …………………………………………………………… 47 Hình 4.9 Bảng thông báo ma trận partition không hợp lệ …………………………… 48 Hình 4.10 Những ô không hợp lệ trong ma trận partition được tô màu đỏ…………… 48 Hình 4.11 Các cột không hợp lệ được tô màu xanh…………………………………….48 Hình 4.12 Bảng thông báo ma trận partition không hợp lệ do cột ……………………. 48 Hình 4.13 Các dòng không hợp lệ được tô màu xanh ………………………………… 48 Hình 4.14 Bảng thông báo ma trận partition không hợp lệ do hàng ………………… 49 Hình 4.15 Ma trận distance hợp lệ ……………………………………………………. 49 Hình 4.16 Kết quả của thuật toán gom cụm ………………………………………… 49 CH1101098 – Nguyễn Ngọc Lâm Trang 9 Chương 1 – Tổng quan về gom cụm dữ liệu chương 1. TỔNG QUAN VỀ GOM CỤM DỮ LIỆU ội dung chương 1 trình bày tổng quan các khái niệm cơ bản về lý thuyết gom cụm dữ liệu, đồng thời giới thiệu các lĩnh vực đã ứng dụng thành công phương pháp gom cụm vào thực tiễn. 1.1 Gom cụm dữ liệu là gì? Gom cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho việc ra quyết định. Do đó, gom cụm dữ liệu là một quá trình phân chia tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các đối tượng trong cùng một cụm thì phải “tương tự” nhau và các đối tượng trong các cụm khác nhau thì “phi tương tự” với nhau. Các cụm dữ liệu được xác định bằng kinh nghiệm hoặc bằng một số phương pháp gom cụm tự động. Sau khi xác định các đặc tính dữ liệu, người ta sử dụng các độ đo thích hợp để xác định khoảng cách giữa các đối tượng hay các phép đo tương tự dữ liệu. Đây chính là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu. Giá trị của các hàm tính độ đo tương tự càng lớn thì sự giống nhau giữa các đối tượng càng lớn và ngược lại. Trong quá trình gom cụm dữ liệu thì khó khăn lớn nhất gặp phải đó chính là nhiễu. Nhiễu xuất hiện trong quá trình thu thập thông tin làm cho dữ liệu thiếu chính xác hoặc không đầy đủ. Vì vậy, chúng ta cần phải khử nhiễu trong quá trình tiến hành gom cụm dữ liệu. CH1101098 – Nguyễn Ngọc Lâm Trang 10 N [...]... phương pháp gom cụm & thuật toán Chương 3 CÁC PHƯƠNG PHÁP GOM CỤM & THUẬT TOÁN Chương 3 – Các phương pháp gom cụm & thuật toán T rình bày các phương pháp gom cụm điển hình trong bài toán gom cụm dữ liệu chẳng hạn như: Phương pháp gom cụm phân hoạch, phương pháp gom cụm phân cấp …đồng thời trình bài các thuật toán và ví dụ minh họa tương ứng 3.1 Các phương pháp gom cụm điển hình Các kỹ thuật gom cụm có... Tổng quan về gom cụm dữ liệu   Chấp nhận các ràng buộc do người dùng chỉ định … 1.5 Một số phương pháp gom cụm dữ liệu Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân các thuật toán gom cụm theo các phương pháp chính sau:  Phương pháp gom cụm phân hoạch  phương pháp gom cụm phân cấp  phương pháp gom cụm dựa trên mật độ  phương pháp gom cụm dựa trên lưới  phương pháp gom cụm dựa trên... – Tổng quan về gom cụm dữ liệu Hình A: là tập hợp tất cả các điểm dữ liệu trước khi gom cụm Hình B: là tập hợp tất cả các điểm dữ liệu sau khi gom cụm    Ci là cụm thứ i C = C1 C2 … Ci Cngoại lai Ci Cj = 1.2 Mục tiêu của gom cụm Mục tiêu chính của phương pháp gom cụm dữ liệu là nhóm các đối tượng “tương tự’ nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm phải “tương... dụng tiêu biểu của gom cụm dữ liệu Gom cụm dữ liệu được ứng dụng vào rất nhiều lĩnh vực như thương mại, sinh học, phân tích dữ liệu không gian, lập quy hoạch đô thị, nghiên cứu trái đất, địa lý, WEB, … 1.7.1 Gom cụm dữ liệu phục vụ cho việc biểu diễn dữ liệu gene: Gom cụm là một trong những phân tích được sử dụng thường xuyên nhất trong việc biểu diễn dữ liệu genee Dữ liệu gene là một tập hợp các phép... gom cụm & độ đo Chương 2 CÁC KIỂU DỮ LIỆU TRONG BÀI TOÁN GOM CỤM & ĐỘ ĐO T Chương 2 – Các kiểu dữ liệu trong bài toán gom cụm & độ đo rong chương 2 chúng ta nghiên cứu các kiểu dữ liệu thường xuất hiện trong các bài toán gom cụm cũng như các độ đo thông dụng được sử dụng 2.1 Phân loại các kiểu dữ liệu Cho không gian dữ liệu D chứa n đối tượng trong không gian k chiều trong đó x, y, z là các đối tượng... phương pháp gom cụm có dữ liệu ràng buộc  … 1.6 Quy trình cho bài toán gom cụm Các bước chính để xây dựng bài toán gom cụm bao gồm:      Xây dựng hàm tính độ tương tự Xây dựng các tiêu chuẩn gom cụm Xây dựng mô hình cho cấu trúc dữ liệu Xây dựng thuật toán gom cụm và xác lập các đều kiện khởi tạo Xây dựng các thủ tục biểu diễn và đánh giá kết quả gom cụm 1.7 Một số ứng dụng tiêu biểu của gom cụm dữ. .. đối tượng theo các khái niệm mà chúng xử lí  Chương 3 – Các phương pháp gom cụm & thuật toán Gom cụm mờ: Sử dụng kỹ thuật mờ để gom cụm dữ liệu Các thuật toán thuộc loại này chỉ ra lược đồ gom cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn  Gom cụm mạng Kohonen: Loại gom cụm này dựa trên khái niệm của các mạng nơron Mạng Kohonen có tầng... một cụm duy nhất K là số cụm đã được cho trước Trong phương pháp gom cụm phân hoạch, hầu hết các ứng dụng làm theo một trong hai phương pháp heuristic phổ biến:   Giải thuật k-means: mỗi cụm được đại diện bằng một trong tâm của cụm Giải thuật k-medoids: với mỗi cụm được đại diện bởi một trong số các đối tượng định vị gần tam của cụm Phương pháp gom cụm phân hoạch làm việc tốt khi tìm kiếm các cụm. .. định các ràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình gom cụm Để gom cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán gom cụm Hình 3.3 Các cách mà gom cụm có thể đưa ra Hiện nay, các phuơng pháp gom cụm trên đã và đang được phát triển và áp dụng nhiều trong các lĩnh vực khác... và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện các thuật toán Hiện nay, các kỹ thuật gom cụm có thể phân loại theo các cách tiếp cận chính sau: 3.1.1 Phương pháp gom cụm phân hoạch Phương pháp gom cụm phân hoạch là phương pháp tạo phân hoạch cơ sở dữ liệu D có n đối tượng thành k cụm sao cho:    Mỗi cụm chứa ít nhất . thuyết gom cụm dữ liệu, đồng thời giới thiệu các lĩnh vực đã ứng dụng thành công phương pháp gom cụm vào thực tiễn. 1.1 Gom cụm dữ liệu là gì? Gom cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu. phân hoạch, phương pháp gom cụm phân cấp, phương pháp gom cụm dựa trên mật độ, phương pháp gom cụm dựa trên lưới, phương pháp gom cụm dựa trên mô hình, phương pháp gom cụm có dữ liệu ràng buộc…đồng thời. phương pháp chính sau:  Phương pháp gom cụm phân hoạch.  phương pháp gom cụm phân cấp.  phương pháp gom cụm dựa trên mật độ.  phương pháp gom cụm dựa trên lưới.  phương pháp gom cụm dựa

Ngày đăng: 09/04/2015, 22:43

Từ khóa liên quan

Mục lục

  • LỜI MỞ ĐẦU

  • LỜI CẢM ƠN

  • NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẨN

  • chương 1. TỔNG QUAN VỀ GOM CỤM DỮ LIỆU

    • 1.1 Gom cụm dữ liệu là gì?

    • 1.2 Mục tiêu của gom cụm

    • 1.3 Thế nào là gom cụm tốt

    • 1.4 Các yêu cầu của gom cụm dữ liệu

    • 1.5 Một số phương pháp gom cụm dữ liệu.

    • 1.6 Quy trình cho bài toán gom cụm

    • 1.7 Một số ứng dụng tiêu biểu của gom cụm dữ liệu

      • 1.7.1 Gom cụm dữ liệu phục vụ cho việc biểu diễn dữ liệu gene:

      • 1.7.2 Gom cụm dữ liệu đối với hoạt động nghiên cứu thị trường

      • 1.7.3 Gom cụm dữ liệu phục vụ trong lĩnh vực y tế

      • 1.7.4 Gom cụm dữ liệu đối với hoạt động phân đoạn ảnh

      • 1.7.5 Gom cụm dữ liệu trong phân tích dữ liệu không gian

      • 1.7.6 Gom cụm dữ liệu trong lập quy hoạch đô thị

      • 2.1 Phân loại các kiểu dữ liệu

        • 2.1.1 Phân loại các kiểu dữ liệu dựa trên kích thước miền

        • 2.1.2 Phân loại các kiểu dữ liệu dựa trên độ đo

        • 2.2 Cấu trúc dữ liệu trong phép gom cụm

        • 2.3 Tương tự và phi tương tự giữa hai đối tượng

        • 2.4 Biến trị khoảng

Tài liệu cùng người dùng

Tài liệu liên quan