Phương pháp phân cụm và ứng dụng

100 1.3K 7
Phương pháp phân cụm và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phương pháp phân cụm và ứng dụng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  Nguyễn Trung Sơn PHƢƠNG PHÁP PHÂN CỤM ỨNG DỤNG Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 60.48.01 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS. TS VŨ ĐỨC THI Thái Nguyên – 2009 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  Nguyễn Trung Sơn PHƢƠNG PHÁP PHÂN CỤM ỨNG DỤNG Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 60.48.01 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS. TS VŨ ĐỨC THI Thái Nguyên – 2009 -2- MỤC LỤC TRANG LỜI CẢM ƠN 5 LỜI MỞ ĐẦU 6 CHƢƠNG I : TỔNG QUAN THUYẾT VỀ PHÂN CỤM DỮ LIỆU 7 1. Phân cụm dữ liệu 7 1.1 Định nghĩa về phân cụm dữ liệu 7 1.2 Một số ví dụ về phân cụm dữ liệu 7 2. Một số kiểu dữ liệu 10 2.1 Dữ liệu Categorical 10 2.2 Dữ liệu nhị phân 13 2.3 Dữ liệu giao dịch 14 2.4 Dữ liệu Symbolic 15 2.5 Chuỗi thời gian(Time Series) 16 3. Phép Biến đổi Chuẩn hóa dữ liệu 16 3.1 Phép chuẩn hóa dữ liệu 17 3.2 Biến đổi dữ liệu 21 3.2.1 Phân tích thành phần chính 21 3.2.2 SVD 23 3.2.3 Phép biến đổi Karhunen-Loève 24 CHƢƠNG II. CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 28 1. Thuật toán phân cụm dữ liệu dựa vào phân cụm phân cấp 28 1.1 Thuật toán BIRCH 28 1.2 Thuật toán CURE 30 1.3 Thuật toán ANGNES 32 1.4 Thuật toán DIANA 33 1.5 Thuật toán ROCK 33 1.6 Thuật toán Chameleon 34 -3- 2. Thuật toán phân cụm dữ liệu mờ 35 2.1 Thuật toán FCM 36 2.2 Thuật toán εFCM 37 3. Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm 37 3.1 . Thuật toán K – MEANS 37 3.2 Thuật toán PAM 41 3.3 Thuật toán CLARA 42 3.4 Thuật toán CLARANS 44 4. Thuật toán phân cụm dữ liệu dựa vào tìm kiếm 46 4.1 Thuật toán di truyền (GAS) 46 4.2 J- Means 48 5. Thuật toán phân cụm dữ liệu dựa vào lƣới 49 5.1 STING 49 5.2. Thuật toán CLIQUE 51 5.3. Thuật toán WaveCluster 52 6. Thuật toán phân cụm dữ liệu dựa vào mật độ 53 6.1 Thuật toán DBSCAN 53 6.2. Thuật toán OPTICS 57 6.3. Thuật toán DENCLUDE 58 7. Thuật toán phân cụm dữ liệu dựa trên mẫu 60 7.1 Thuật toán EM 60 7.2 Thuật toán COBWEB 61 CHƢƠNG III :ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU 62 1. Phân đoạn ảnh 62 1.1. Định nghĩa Phân đoạn ảnh 63 1.2 Phân đoạn ảnh dựa vào phân cụm dữ liệu 65 2. Nhận dạng đối tƣợng ký tự 71 2.1 Nhận dạng đối tượng 71 -4- 2.2 Nhận dạng ký tự. 75 3. Truy hồi thông tin 76 3.1 Biểu diễn mẫu 78 3.2 Phép đo tương tự 79 3.3 Một giải thuật cho phân cụm dữ liệu sách 80 4. Khai phá dữ liệu 81 4.1 Khai phá dữ liệu bằng Phương pháp tiếp cận. 82 4.2 Khai phá dữ liệu có cấu trúc lớn. 83 4.3 Khai phá dữ liệu trong Cơ sở dữ liệu địa chất. 84 4.4 Tóm tắt 86 KẾT LUẬN ,HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 90 PHỤ LỤC 91 TÀI LIỆU THAM KHẢO 99 -5- LỜI CẢM ƠN Em xin chân thành cảm ơn PGS. TS Vũ Đức Thi đã tận tình hướng dẫn khoa học, giúp đỡ em hoàn thành tốt luận văn tốt nghiệp này. Em cũng xin gửi lời cảm ơn tới các thầy, cô giáo đã dạy dỗ, truyền đạt kiến thức cho em trong suốt quá trình học tập nghiên cứu HỌC VIÊN NGUYỄN TRUNG SƠN -6- LỜI MỞ ĐẦU Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT đã làm cho khả năng thu thập lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó, việc tin học hóa một cách ồ ạt nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý ., trong đó có nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền CNTT thế giới hiện nay nói chung Việt Nam nói riêng. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình thu được những lợi ích to lớn. Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính: - Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. - Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời. Bản luận văn này trình bày một số vấn đề về Phân cụm dữ liệu, một trong những kỹ thuật cơ bản để Khai phá dữ liệu. Đây là hướng nghiên cứu có triển vọng chỉ ra những sơ lược trong việc hiểu khai thác CSDL khổng lồ, khám phá thông tin hữu ích ẩn trong dữ liệu; hiểu được ý nghĩa thực tế của dữ liệu. Luận văn đƣợc trình bày trong 3 chƣơng phần phụ lục : Chương 1 : Trình bày tổng quan lý thuyết về Phân cụm dữ liệu, các kiểu dữ liệu, Phép biến đổi chuẩn hóa dữ liệu. Chương 2 : Giới thiệu, phân tích, đánh giá các thuật toán dùng để phân cụm dữ liệu Chương 3 : Trình bày một số ứng dụng tiêu biểu của phân cụm dữ liệu. Kết luận : Tóm tắt các vấn đề được tìm hiểu trong luận văn các vấn đề liên quan trong luận văn, đưa ra phương hướng nghiên cứu tiếp theo. -7- CHƢƠNG I : TỔNG QUAN LÝ THUYẾT VỀ PHÂN CỤM DỮ LIỆU 1. Phân cụm dữ liệu 1.1 Định nghĩa về phân cụm dữ liệu Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tương tự. Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau cùng trong một cụm phi tương tự với các đối tượng trong các cụm khác. Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng. 1.2 Một số ví dụ về phân cụm dữ liệu 1.2.1 Phân cụm dữ liệu phục vụ cho biểu diễn dữ liệu gene Phân cụm là một trong những phân tích được sử dụng thường xuyên nhất trong biểu diễn dữ liệu gene (Yeung et al., 2003; Eisen at al., 1998). Dữ liệu biểu diễn gene là một tâp hợp các phép đo được lấy từ DNA microarray (còn gọi là DNA chip hay gene chip) là một tấm thủy tinh hoặc nhựa trên đó có gắn các đoạn DNA thành các hàng siêu nhỏ. Các nhà nghiên cứu sử dụng các con chip như vậy để sàng lọc các mẫu sinh học nhằm kiểm tra sự có mặt hàng loạt trình tự cùng một lúc. Các đoạn DNA gắn trên chip được gọi là probe (mẫu dò). Trên mỗi điểm của chip có hàng ngàn phân tử probe với trình tự giống nhau. Một tập hợp dữ liệu biểu diễn gene có thể được biểu diễn thành một ma trận giá trị thực : ,212222111211ndnnddxxxxxxxxxD Trong đó : - n là số lượng các gen - d là số lượng mẫu hay điều kiện thử - xij là thước đo biểu diễn mức gen i trong mẫu j -8- Bởi vì các biểu ma trận gốc chứa nhiễu, giá trị sai lệch, hệ thống biến thể, do đó tiền xử lý là đòi hỏi cần thiết trước khi thực hiện phân cụm. Hình 1 Tác vụ của Khai phá dữ liệu Dữ liệu biểu diễn gen có thể được phân cụm theo hai cách. Cách thứ nhất là nhóm các các mẫu gen giống nhau, ví dụ như gom các dòng của ma trận D. Cách khác là nhóm các mẫu khác nhau trên các hồ sơ tương ứng, ví dụ như gom các cột của ma trận D. 1.2.2 Phân cụm dữ liệu phục trong sức khỏe tâm lý Phân cụm dữ liệu áp dụng trong nhiều lĩnh vực sức khỏe tâm lý, bao gồm cả việc thúc đẩy duy trì sức khỏe, cải thiện cho hệ thống chăm sóc sức khỏe, công tác phòng chống bệnh tật người khuyết tật (Clatworthy et al., 2005). Trong sự phát triển hệ thống chăm sóc sức khỏe, phân cụm dữ liệu được sử dụng để xác định các nhóm của người dân mà có thể được hưởng lợi từ các dịch vụ cụ thể (Hodges Wotring, 2000). Trong thúc đẩy y tế, nhóm phân tích được sử dụng để lựa chọn nhắm mục tiêu vào nhóm sẽ có khả năng đem lại lợi ích cho sức khỏe cụ thể từ các chiến dịch quảng bá tạo điều kiện thuận lợi cho sự phát triển của quảng cáo. Ngoài ra, phân cụm dữ liệu Khai phá dữ liệu Khai phá dữ liệu trực tiếp Khai phá dữ liệu gián tiếp Phân loại Ước lượng Dự đoán Phân cụm Luật kết hợp Diễn giải trực quan hóa -9- được sử dụng để xác định các nhóm dân cư bị rủi ro do phát triển y tế các điều kiện những người có nguy cơ nghèo. 1.2.3 Phân cụm dữ liệu đối với hoạt đông nghiên cứu thị trường Trong nghiên cứu thị trường, phân cụm dữ liệu được sử dụng để phân đoạn thị trường xác định mục tiêu thị trường (Chrisoppher, 1969; Saunders, 1980, Frank and Green, 1968). Trong phân đoạn thị trường, phân cụm dữ liệu thường được dùng để phân chia thị trường thành nhưng cụm mang ý nghĩa, chẳng han như chia ra đối tượng nam giới từ 21-30 tuổi nam giới ngoài 51 tuổi, đối tượng nam giới ngoài 51 tuổi thường không có khuynh hướng mua các sản phẩm mới. 1.2.4 Phân cụm dữ liệu đối với hoạt động Phân đoạn ảnh Phân đoạn ảnh là việc phân tích mức xám hay mầu của ảnh thành các lát đồng nhất (Comaniciu and Meer, 2002). Trong phân đoạn ảnh, phân cụm dữ liệu thường được sử dụng để phát hiện biên của đối tượng trong ảnh. Phân cụm dữ liệu là một công cụ thiết yếu của khai phá dữ liệu, khai phá dữ liệu là quá trình khám phá phân tích một khối lượng lớn dữ liệu để lấy được các thông tin hữu ích (Berry and Linoff, 2000). Phân cụm dữ liệu cũng là một vấn đề cơ bản trong nhận dạng mẫu (pattern recognition). Hình 1.1 đưa ra một danh sách giản lược các tác vụ đa dạng của khai phá dữ liệu chứng tỏ vai trò của phân cụm dữ liệu trong khai phá dữ liệu. Nhìn chung, Thông tin hữu dụng có thể được khám phá từ một khối lượng lớn dữ liệu thông qua phương tiện tự động hay bán tự động (Berry and Linoff, 2000). Trong khai phá dữ liệu gián tiếp, không có biến nào được chọn ra như một biến đích, mục tiêu là để khám phá ra một vài mối quan hệ giữa tất cả các biến. Trong khi đó đối với khai phá dữ liệu gián tiếp một vài biến lại được chọn ra như các biến đích. Phân cụm dữ liệu là khai phá dữ liệu gián tiếp, bởi vì trong khai phá dữ liệu, ta không đảm bảo chắc chắn chính xác cụm dữ liệu mà chúng ta đang tìm kiếm, đóng vai trò gì trong việc hình thành các cụm dữ liệu đó, nó làm như thế nào. Vấn đề phân cụm dữ liệu đã được quan tâm một cách rộng rãi, mặc dù chưa có định nghĩa đồng bộ về phân cụm dữ liệu có thể sẽ không bao giờ là một đi đến thống nhất.(Estivill-Castro,2002; Dubes, 1987; Fraley and Raftery, 1998). Nói một cách đại khái là : Phân cụm dữ liệu, có nghĩa là ta [...]... hoặc nhiều cụm thông qua bậc thành viên Ruspini(1969) giới thiệu khái quát khái niệm phân hoạch mờ để mô tả cấu trúc cụm của tập dữ liệu đề xuất một thuật toán để tính toán tối ưu phân hoạch mờ Dunn(19730 mở rộng phương pháp phân cụm và đã phát triển thuật toán phân cụm mờ Ý tưởng của thuật toán là xây dựng một phương pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu Bezdek(1981) cải tiến tổng... phân hoạch, một mẫu là được xác định ngẫu nhiên trước khi được phân hoạch, sau đó được tiến hành phân cụm trên mỗi phân hoạch, như vậy mỗi phân hoạch là từng phần đã được phân cụm, các cụm thu hoạch, như vậy mỗi phân hoach là từng phần đã được phân cụm, các cụm thu được lại được phân cụm lần thứ hai để thu được các cụm con mong muốn, nhưng mẫu ngẫu nhiên không nhất thiết đưa ra một mô tả tốt... thông mối quan hệ gần nhau của các nhóm con Do đó, thuật toán không phụ thuộc vào người sử dụng các tham số như K-means có thể thích nghi Thuật toán này khảo sát mô hình động trong phân cụm phân cấp Trong đó, hai cụm được hòa nhập nêu giữa hai cụm có liên quan mật thiết tới quan hệ kết gần nhau của các đối tượng trong các cụm Quá trình hòa nhập dễ dàng khám phá các cụm tự nhiên đồng nhất, ứng. .. 2, … , nj j = 1, 2, …d 2.2 Dữ liệu nhị phân Một thuộc tính nhị phân là một thuộc tính có hai giá trị chính xác nhất có thể, chẳng hạn như "Đúng" hay "Sai" Lưu ý rằng các biến nhị phân có thể được chia thành hai loại: biến nhị phân Đối xứng các biến nhị phân bất đối xứng Trong một biến nhị phân đối xứng, hai giá trị có quan trọng không kém nhau Một ví dụ là "nam-nữ" Biến nhị phân đối xứng là một... 1.6 Thuật toán Chameleon Phương pháp Chameleon một cách tiếp cận khác trong việc sử dụng mô hình động để xác định các cụm nào được hình thành Bước đầu tiên của Chameleon là xây dựng một đồ thị mật độ thưa sau đó ứng dụng một thuật toán phân hoạch đồ thị để PCDL với số lớn của các cụm con Tiếp theo, Chameleon thực hiện tích tụ phân cụm phân cấp, như AGNES, bằng hòa nhập các cụm con nhỏ theo hai phép... khác phương pháp phải được thực hiện Tổng thể Klett (1972) đề xuất một cách tiếp cận lặp rằng các cụm thu được đầu tiên dựa trên số ước lượng tổng thể sau đó sử dụng các cụm để giúp xác định các biến bên trong nhóm chênh lệch đối với chuẩn hoá trong một phân cụm thứ hai Để chuẩn hóa dữ liệu thô được đưa ra trong phương trình (4,1), ta có thể trừ một thước đo vị trí phân chia một biện pháp. .. dữ liệu vào trong một số lớn một cách tương đối nhỏ của các cụm con Chameleon sử dụng thuật toán phân cụm phân cấp để tìm các cụm xác thực bằng cách lặp nhiều lần kết hợp hoặc hòa nhập các cụm con Để xác định các cặp của nhiều cụm con tương tự, phải tính toán cả hai liên kết gần nhau của các cụm, đặc biệt các đặc trưng bên trong của các cụm đang được hòa nhập Như vậy, nó không phụ thuộc vào mô hình... vào mô hình tĩnh có thể từ động thích nghi với đặc trưng bên trong của các cụm đang được hòa nhập Nó có khả năng hơn để khám phá các cụm có hình thù bất kỳ có chất lượng cao hơn CURE DBSCAN nhưng chi phí xử lý dữ liệu đa chiều phụ thuộc vào O(n2) thời gian cho n các đối tượng trong trường hợp xấu nhất 2 Thuật toán phân cụm dữ liệu mờ Phân cụm dữ liệu mờ (FCM) là phương pháp phân cụm dữ liệu cho... toán phân cụm khác cho tập dữ liệu lớn, được gọi là BIRCH Ý tưởng của thuật toán là không cần lưu toàn bộ các đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉ lưu các đại lượng thống kê Thuật toán đưa ra hai khái niệm mới để theo dõi các cụm hình thành , phân cụm đặc trưng là tóm tắt thông tin về một cụm cây phân cụm đặc trưng(cây CF) là cây cân bằng được sử dụng lưu trữ cụm đặc trưng( được sử dụng. .. trong các cụm riêng lẻ Các cụm được hòa nhập theo một số loại của cơ sở luật, cho đến khi chỉ có một cụm ở đỉnh của phân cấp, hoặc gặp điều kiện dừng Hình dạng này của phân cụm phân cấp cũng liên quan đến tiếp cận bottom-up bắt đầu ở dưới với các nút lá trong mỗi cụm riêng lẻ duyệt lên trên phân cấp tới nút gốc, nơi tìm thấy cụm đơn cuối cùng với tất cả các đối tượng dữ liệu được chứa trong cụm đó . Định nghĩa về phân cụm dữ liệu Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại,. 61 CHƢƠNG III :ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU 62 1. Phân đoạn ảnh 62 1.1. Định nghĩa Phân đoạn ảnh 63 1.2 Phân đoạn ảnh dựa vào phân cụm dữ liệu 65

Ngày đăng: 07/11/2012, 09:28

Hình ảnh liên quan

Trong phần này, chỳng ta sẽ giới thiệu cỏc bảng biểu tượng và bảng tần số và ký hiệu một số bộ dữ liệu Categorical - Phương pháp phân cụm và ứng dụng

rong.

phần này, chỳng ta sẽ giới thiệu cỏc bảng biểu tượng và bảng tần số và ký hiệu một số bộ dữ liệu Categorical Xem tại trang 12 của tài liệu.
Cho D x 1, x2 , x n là một tập dữ liệu tuyệt đối với khoảng cỏch - Phương pháp phân cụm và ứng dụng

ho.

D x 1, x2 , x n là một tập dữ liệu tuyệt đối với khoảng cỏch Xem tại trang 12 của tài liệu.
Bảng 4: Bảng tớnh toỏn tần số từ bảng biểu tượng trong bản g2 - Phương pháp phân cụm và ứng dụng

Bảng 4.

Bảng tớnh toỏn tần số từ bảng biểu tượng trong bản g2 Xem tại trang 15 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan