Tìm hiểu và cài đặt một số thuật toán phân cụm dữ liệu cơ bản

37 100 0
Tìm hiểu và cài đặt một số thuật toán phân cụm dữ liệu cơ bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI MỞ ĐẦU Trong năm gần đây, phát triển vượt bậc, không ngừng vươn lên kinh tế đất nước, kéo theo hệ thống liệu phục vụ cho lĩnh vực kinh tế - xã hội phát triển bùng nổ, lượng liệu khổng lồ tạo gay lớn Sự phong phú liệu, thông tin với khả kịp thời khai thác chúng mang đến xuất chất lượng cho công tác quản lý, hoạt động kinh doanh,…Khơng dừng lai đó, yêu cầu thông tin, khám phá tri thức lĩnh vực này, đặc biệt lĩnh vực định, ngày đòi hỏi cao Trước nhu cầu đó, hàng loạt lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, thuật toán nhận dạng, …và đặc biệt Data Mining đời ` Data Mining lĩnh vực xuất hiện, nhằm tự động khai thác thông tin, tri thức tính tiềm ẩn, hữu ích từ CSDL lớn cho đơn vị, tổ chức, doanh nghiệp, …từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Từ ứng dụng thành công khám phá tri thức, cho thấy Data Mining lĩnh vực phát triển bền vững mang lại nhiều lợi ích nhiều triển vọng, đồng thời ưu hẳn so với cơng cụ phân tích liệu truỳên thống Hiện nay, Data Mining ứng dụng ngày rộng rãi lĩnh vực như: thương mại, tài chính, điều trị y học, viễn thông, tin-sinh, … Một hướng nghiên cứu Data Mining phân cụm liệu(Data Clustering) Phân cụm liệu trình tìm kiếm phát cụm liệu tự nhiên tiềm ẩn, quan tâm sở liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định nhiều kĩ thuật phân cụm liệu như:phân cụm liệu phân hoạch, phân cụm liệu phân cấp, phân cụm dựa mật độ, …Tuy nhiên kĩ thuật hướng tới hai mục tiêu chung chất lượng cụm khám phá tốc độ thực thuật tốn Trong đó, kĩ thuật phân cụm liệu phân hoạch kĩ thuật đáp ứng mục tiêu toán phân cụm với khả làm việc CSDL lớn Yêu cầu phương pháp khai phá liệu việc thực thuật toán hiệu thực tế vấn đề thu hút nhiều quan tâm Đo đó, em chọn đề tài nghiên cứu “ Tìm hiểu cài đặt số thuật toán phân cụm liệu bản” cho đồ án tốt nghiệp Nội dung đồ án gồm chương: Chƣơng 1: Giới thiệu phân cụm liệu: Trong chương em trình bày tổng quan phân cụm liệu, bao gồm kiểu liệu phân cụm, ứng dụng kỹ thuật phân cụm liệu Đây hướng tiếp cận Data Mining Trong đó, sâu phân tích chi tiết vấn đề PCDL ý nghĩa PCDL, đặc điểm kiểu liệu thường sử dụng PCDL như: liệu thuộc tính hạng mục (Categorical), liệu thuộc tính số, … Các khái niệm “tương tự” “phi tương tự” trình bày chương Chƣơng 2: Trình bày phƣơng pháp phân cụm liệu phân hoạch: trình bày vắn tắt thuật tốn PCDL phân hoạch, đồ án sâu vào tìm hiểu thuật tốn phân cụm liệu phân hoạch điển hình: K-MEANS, PAM Chƣơng 3: Cài đặt thực nghiệm: Để khẳng định cho khả hiệu thuật toán phân cụm liệu phân hoạch, em lựa chọn cài đặt thuật toán K-MEANS, PAM, sở liệu điểm ảnh biểu diễn toạ độ khơng gian Kết chương trình ảnh điểm ảnh gần gom vào nhóm Cuối phần kết luận trình bày tóm tắt kết thu đề xuất cho hướng phát triển đề tài CHƢƠNG 1: PHÂN CỤM DỮ LIỆU - Data Clustering 1 Vấn đề phân cụm liệu Phân cụm liệu hướng nghiên cứu trọng tâm lĩnh vực khai phá liệu (Data Mining) lĩnh vực khám phá tri thức (KDD) Mục đích phân cụm nhóm đối tượng vào cụm cho đối tượng cụm tính tương đồng cao độ bất tương đồng cụm lớn, từ cung cấp thơng tin, tri thức hữu ích cho việc định Ở mức nhất, người ta đưa định nghĩa PCDL sau: "PCDL kỹ thuật DATA MINING, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định" Như vậy, PCDL trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" (Similar) với phần tử cụm khác "phi tương tự" (Dissimilar) với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định phương pháp phân cụm Chúng ta minh hoạ vấn đề phân cụm hình sau đây: Hình 1: Mơ vấn đề PCDL Trong hình trên, sau phân cụm thu bốn cụm phần tử "gần nhau" "tương tự" xếp vào cụm, phần tử "xa nhau" "phi tương tự" chúng thuộc cụm khác Để minh hoạ cụ thể cho vấn đề ta quan sát hình ảnh sau: Hình 2: Dữ liệu nguyên thuỷ Hình Hình 4 Hình Hình Hình 7: Kết trình phân cụm Các hình 2, 3, 4, 5, ,7 thể trình phân cụm từ khi“bắt đầu” “kết thúc” Trong PCDL khái niệm (Concept Clustering) hai hoặc nhiều đối tượng xếp vào cụm chúng chung định nghĩa khái niệm chúng xấp xỉ với khái niệm mô tả cho trước, vậy, PCDL không sử dụng khái niệm “tương tự” trình bày Trong học máy, phân cụm liệu xem vấn đề học khơng giám sát, phải giải vấn đề tìm cấu trúc tập hợp liệu chưa biết biết trước thông tin lớp hay thơng tin tập ví dụ huấn luyện Trong nhiều trường hợp, phân lớp (Classification) xem vấn đề học giám sát phân cụm liệu bước phân lớp liệu, PCDL khởi tạo lớp cho phân lớp cách xác định nhãn cho nhóm liệu Một vấn đề thường gặp PCDL hầu hết liệu cần cho phân cụm chứa liệu "nhiễu" (noise) q trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lược cho bước tiền xử lý liệu nhằm khắc phục loại bỏ "nhiễu" trước bước vào giai đoạn phân tích phân cụm liệu "Nhiễu" đối tượng liệu khơng khơng xác, đối tượng liệu khuyết thiếu thông tin số thuộc tính Một kỹ thuật xử lý nhiễu phổ biến việc thay giá trị thuộc tính đối tượng "nhiễu" giá trị thuộc tính tương ứng đối tượng liệu gần Tóm lại, phân cụm vấn đề khó, người ta phải giải vấn đề sau: Xây dụng hàm tính độ tương tự Xây dựng tiêu chuẩn phân cụm Xây dụng mơ hình cho cấu trúc cụm liệu Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo Xây dựng thủ tục biểu diễn đánh giá kết phân cụm Phân cụm liệu toán thuộc vào lĩnh vực học máy không giám sát ứng dụng rộng rãi để khai thác thông tin từ liệu Phân cụm liệu trình phân chia tập liệu ban đầu thành cụm cho đối t ượng cụm “tương tự “ Việc tính “khoảng cách “ đối tượng, hay phép đo tương tự cặp đối tượng để phân chia chúng vào cum khác dựa vào hàm tính độ tương tự cho phép xác định hai đối tượng tương tự hay không theo quy ước, giá trị hàm tính độ đo tương tự lớn tương đồng đối tượng lớn ngược lại hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ t ương tự 1.2 Bài tốn phân cụm liệu Bài toán phân cụm liệu thường hiểu tốn học khơng giám sát phát biểu sau: Cho tập N đối tượng liệu X= {x1, …, xn } (bài ta hạn chế xét đối tượng không gian số học n - chiều: xi € Rn), ta cần chia X thành cụm đôi không giao nhau: cho đối tượng cụm C i tương tự đối tượng cụm khác khác theo cách nhìn Số lượng k cụm cho trước xác định nhờ phương pháp phân cụm Để thực phân cụm ta cần xác định mức độ tương tự đối tượng, tiêu chuẩn để phân cụm, sở xây dựng mơ hình thuật tốn phân cụm theo nhiều cách tiếp cận Mỗi cách tiếp cận cho ta kết phân cụm với ý nghĩa sử dụng khác 1.3 Kiểu liệu độ đo tƣơng tự sử dụng toán phân cụm liệu Trong phần phân tích kiểu liệu thường sử dụng PCDL Trong PCDL, đối tượng liệu cần phân tích người, nhà, tiền lương, thực thể phần mềm, … Các đối tượng thường diễn tả dạng đặc tính hay gọi thuộc tính Các thuộc tính tham số cho giải vấn đề PCDL lựa chọn chúng tác động đáng kể đến kết phân cụm Phân loại khái niệm kiểu thuộc tính khác vấn đề cần giải hầu hết tập liệu nhằm cung cấp phương tiện thuận lợi để nhận dạng khác phần tử liệu Dưới cách phân lớp dựa hai đặc trưng là: kích thước miền (Domain Size) hệ đo (Measurement Scale) Cho CSDL D chứa n đối tượng khơng gian k chiều x, y, z đối tượng thuộc D: x=(x1, x2, ., xk); y=(y1, y2, ., yk); z=(z1, z2, ., zk), i 1, k xi, yi, zi với đặc trưng thuộc tính tương ứng đối tượng x, y, z Vì vậy, hai khái niệm “các kiểu liệu” “các kiểu thuộc tính liệu” xem tương đương với nhau, vậy, kiểu liệu sau : Phân loại kiểu liệu dựa kích thước miền Thuộc tính liên tục (Continuous Attribute): miền giá trị vơ hạn khơng đếm được, nghĩa hai giá trị tồn vô số giá trị khác Thí dụ thuộc tính màu, nhiệt độ cường độ âm Thuộc tính rời rạc (DiscretteAttribute): Nếu miền giá trị tập hữu hạn, đếm Thí dụ thuộc tính số serial sách, số thành viên gia đình, … Lớp thuộc tính nhị phân trường hợp đặc biệt thuộc tính rời rạc mà miền giá trị phần tử diễn tả như: Yes / No Nam/Nữ, False/true, … Phân loại kiểu liệu dựa hệ đo Giả sử hai đối tượng x, y thuộc tính x i, yi tương ứng với thuộc tính thứ i chúng Chúng ta lớp kiểu liệu sau: * Thuộc tính định danh (nominal Scale): dạng thuộc tính khái qt hố thuộc tính nhị phân, miền giá trị rời rạc không phân biệt thứ tự nhiều hai phần tử - nghĩa x y hai đối tượng thuộc tính xác định x y x=y * Thuộc tính thứ tự (Ordinal Scale): thuộc tính định danh thêm tính thứ tự, chúng không định lượng Nếu x y hai thuộc tính thứ tự ta xác định x y x=y x>y xyi ta nói x cách y khoảng xi – yi tương ứng với thuộc tính thứ i Một thí dụ thuộc tính khoảng thuộc tính số Serial đầu sách thư viện * Thuộc tính tỉ lệ (Ratio Scale): thuộc tính khoảng xác định cách tương đối so với điểm mốc đầy ý nghĩa, thí dụ thuộc tính chiều cao cân nặng lấy điểm làm mốc Trong thuộc tính liệu trình bày trên, thuộc tính định danh thuộc tính thứ tự gọi chung thuộc tính hạng mục (Categorical), thuộc tính khoảng thuộc tính tỉ lệ gọi thuộc tính số (Numeric) Người ta đặc biệt quan tâm đến liệu không gian (Spatial Data) Đây loại liệu thuộc tính số khái quát không gian nhiều chiều, liệu không gian mô tả thông tin liên quan đến không gian chứa đựng đối tượng, thí dụ thơng tin hình học, … Dữ liệu khơng gian liệu liên tục rời rạc: -Dữ liệu khơng gian rời rạc: điểm không gian nhiều chiều cho phép ta xác định khoảng cách đối tượng liệu không gian -Dữ liệu không gian liên tục: bao chứa vùng khơng gian Thơng thường, thuộc tính số đo đơn vị xác định kilogams centimeter Tuy nhiên, đơn vị đo ảnh hưởng đến kết phân cụm Thí dụ thay đổi độ đo cho thuộc tính cân nặng từ kilogams sang Pound mang lại kết khác phân cụm Để khắc phục điều người ta phải chuẩn hoá liệu, tức sử dụng thuộc tính liệu khơng phụ thuộc vào đơn vị đo Thực chuẩn hoá phụ thuộc vào ứng dụng người dùng, thông thường chuẩn hoá liệu thực cách thay thuộc tính thuộc tính số thêm trọng số cho thuộc tính 1.4 Khái niệm tƣơng tự phi tƣơng tự Khi đặc tính liệu xác định, người ta tìm cách thích hợp để xác định "khoảng cách" đối tượng, phép đo tương tự liệu Đây hàm để đo giống cặp đối tượng liệu, thông thường hàm để tính độ tương tự (Similar) tính độ phi tương tự (Dissimilar) đối tượng liệu Giá trị hàm tính độ đo tương tự lớn giống đối tượng lớn ngược lại, hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự Độ tương tự độ phi tương tự nhiều cách để xác định, chúng thường đo koảng cách đối tượng Tất cách đo độ tương tự phụ thuộc vào kiểu thuộc tính mà phân tích Thí dụ, thuộc tính hạng mục (Categorical) người ta không sử dụng độ đo khoảng cách mà sử dụng hướng hình học liệu Tất độ đo xác định không đo gian metric Bất kỳ metric độ đo, điều ngược lại không Để tránh nhầm lẫn, thuật ngữ độ đo đề cập đến hàm tính độ tương tự hàm tính độ phi tương tự Một khơng gian metric tập xác định "khoảng cách" cặp phần tử, với tính chất thơng thường khoảng cách hình học Nghĩa là, tập X (các phần tử đối tượng bất kỳ) đối tượng liệu CSDL D đề cập gọi không gian metric  Với cặp phần tử x, y thuộc X xác định, theo quy tắc đó, số thực δ(x, y), gọi khoảng cách x y  Quy tắc nói thoả mãn hệ tính chất sau: (i)δ(x, y)>0 x ≠y ; (ii)δ(x, y)=0 =y; (iii) δ(x, y) = δ(y, x) với x, y; (iv) δ(x, y) ≤ δ(x, z)+δ(z, y) Hàm δ(x, y) gọi metric không gian Các phần tử X gọi điểm không gian 10 này, thay Om đối tượng medoid Op Oj thuộc cụm đối tượng đại diện Oj, Vì vậy, giá trị hốn chuyển Cjmp xác định sau: Cjmp = d(Oj, Oj, 2) – d(Oj, Om) (1) Giá trị Cjmp không âm Trƣờng hợp 2: Oj thời thuộc cụm đại diện Om, Oj tương tự với Oj, so với Op (Nghĩa là, d(Oj, Op)

Ngày đăng: 16/03/2019, 19:52

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan