Tiểu luận môn toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu

Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH MÔN TOÁN HỌC CHO KHOA HỌC MÁY TÍNH ĐỀ TÀI: ỨNG DỤNG LOGIC MỜ TRONG PHÂN CỤM DỮ LIỆU GVHD : PGS. TS. Nguyễn Văn Nhơn SVTH : Bùi Lê Thuận MSSV : CH1301062 Lớp : Cao học khóa 8 Tháng 01/2014 CH1301062 Trang 1 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu NHẬN XÉT CỦA GIẢNG VIÊN CH1301062 Trang 2 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu MỤC LỤC CH1301062 Trang 3 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu CHƯƠNG I : MỞ ĐẦU Với sự phát triển mạnh mẽ của ngành Công nghệ thông tin, việc xây dựng cơ sở dữ liệu và ứng dụng các chương trình máy tính đang trở nên quan trọng hơn nhiều so với thời gian trước đây, đặc biệt là trong thương mại và các ngành khoa học kỹ thuật. Do áp lực cạnh tranh nên các doanh nghiệp hiện nay hầu hết đều tập trung đầu tư mạnh cho các ứng dụng Công nghệ thông tin vào việc xây dựng hình ảnh cho đến quản lý điều hành. Bên cạnh đó thì khối lượng dữ liệu thu thập và lưu trữ cũng rất lớn, như hóa đơn mua hàng tại siêu thị, các trung tâm mua sắm, dữ liệu giao dịch tại ngân hàng, thẻ tín dụng. Đối với các ngành khoa học kỹ thuật, các công nghệ thu thập dữ liệu đã được cải thiện đáng kể, có thể lên đến hàng triệu terabyte (TB/h) như thiết bị remote sensor trên vệ tinh, kính thiên văn quan sát bầu trời, microarray tạo dữ liệu biểu diễn gien, các thử nghiệm khoa học tạo hàng terabyte. Các nhiệm vụ phân tích thông tin ở nghĩa rộng có ý nghĩa ngày càng to lớn theo đà phát triển của các hệ thông tin. Hiện nay, khối lượng thông tin ở các cơ sở dữ liệu, Internet v.v… đã vượt giới hạn rất nhiều, xét về khả năng nhận thức của con người, do vậy, giải quyết vấn đề tách rút từ khối lượng khổng lồ đó lượng thông tin thực sự cần thiết cho ứng dụng cụ thể, đã trở nên tuyệt đối cần thiết. Với khối lượng dữ liệu thu thập rất lớn như vậy thì các kỹ thuật truyền thống không đủ khả năng làm việc với dữ liệu thô. Khai thác dữ liệu ra đời trong bối cảnh “Giàu dữ liệu, nghèo tri thức”, đây là giải pháp giúp phân tích và hỗ trợ ra quyết định. Khai phá dữ liệu gồm nhiều hướng tiếp cận, các kỹ thuật chính phần lớn được kế thừa từ các lĩnh vực cơ sở dữ liệu, máy học, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê. Vấn đề gom cụm, phân lớp là một trong những bài toán quan trọng cốt lõi trong khai thác dữ liệu. Với sự ra đời và phát triển của lý thuyết tập mờ, ngành công nghệ thông tin đã có cái nhìn gần với thực tiễn hơn, các công cụ của logic mờ cho phép xử lý những thông tin không đầy đủ, không chính xác. Do đó, việc sử dụng logic mờ trong việc phân vùng dữ liệu sẽ mềm dẻo, linh hoạt hơn rất nhiều. Nó cho phép một lượng dữ liệu có thể thuộc vào một hoặc nhiều phân vùng khác nhau tùy vào mức độ hàm thuộc. Như vậy có thể nói, sự ra đời của lý thuyết tập mờ đã mở ra một nhánh quan trọng trong việc biểu diễn tri thức và ý nghĩ của con người. Nội dung của bài thu hoạch này tập trung nghiên cứu tìm hiểu về logic mờ, quan hệ mờ và thuật toán Fuzzy C-Means, thuật toán này sử dụng logic mờ để gom cụm dữ liệu. Bên cạnh đó, thuật toán gom cụm rõ K-Means cũng sẽ được trình bày để làm rõ sự khác nhau giữa phân cụm mờ và phân cụm rõ. CH1301062 Trang 4 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu Em xin gửi lời cám ơn sâu sắc đến PGS. TS. Nguyễn Văn Nhơn đã tận tình giảng dạy, truyền đạt kiến thức, giúp em hiểu hơn về ứng dụng của toán học trong máy tính, đặc biệt là logic mờ. Đối với em, đây là kiến thức rất hay và bổ ích, tạo cho em định hướng để thực hiện bài thu hoạch này. Tuy nhiên do thời gian nghiên cứu có hạn nên bài thu hoạch này không thể tránh khỏi những thiếu sót nhất định, em rất mong nhận được sự góp ý của Thầy để có thể hoàn thiện bài thu hoạch một cách tốt nhất. CH1301062 Trang 5 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu CHƯƠNG II : TẬP MỜ 2.1 Đặt vấn đề Xét tập X là tập hợp các sinh viên của một trường đại học. A là tập hợp các sinh viên của lớp CLASS. Như vậy với một sinh viên bất kỳ của trường thì có thể khẳng định sinh viên đó có thuộc A hay không. Ta thấy mỗi tập hợp có thể đặt tương ứng hàm một hàm đặc trưng: Tuy nhiên trong cuộc sống người ta vẫn dùng những khái niệm mặc dù không rõ ràng nhưng vẫn hiểu được. Chẳng hạn nói “một người cao”. Mặc dù không biết đích xác người đó cao bao nhiêu người ta đều hình dung được người cao là gì? Từ đó, nếu ta xét tập B = {các sinh viên cao} thì một sinh viên thuộc vào tập B với một mức độ nào đó. Chẳng hạn nếu sinh viên đó cao 1,8m thì có thể nói sinh viên đó chắc chắn thuộc B, còn một sinh viên cao 1,65m thì có thể 60% là thuộc B. Thực tế cho thấy khái niệm mờ luôn luôn tồn tại, ứng dụng trong các bài toán và ngay cả trong cách suy luận của con người. Bằng các phương pháp tiếp cận khác nhau các nhà nghiên cứu đã đưa ra kết quả về lý thuyết cũng như ứng dụng trong các bài toán điều khiển mờ, hệ hỗ trợ ra quyết định. 2.2 Định nghĩa A là tập mờ trên không gian nền X nếu A được xác định bởi hàm: µA: X[0,1] xµ A (x) Trong đó:  µA là hàm liên thuộc (membership function)  µA(x) là độ liên thuộc của x vào tập mờ A. Không giống như tập rõ, mỗi phần tử luôn xác định hoặc thuộc hoặc không thuộc nó, thì với tập mờ chỉ có thể xác định một phần tử liệu thuộc vào nó là nhiều hay ít, tức mỗi một đối tượng chỉ là phần tử của tập mờ với một khả năng nhất định. CH1301062 Trang 6 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu 2.3 Các phép toán trên tập mờ a. Giao của hai tập mờ Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần luợt là µ A , µ B . Giao của hai tập mờ A và B, ký hiệu A∩B, là một tập mờ có hàm thuộc µ A∩B xác định như sau: µA∩B (x) = min(µ A (x), µB (x)) ∀x∈X b. Hợp của hai tập mờ Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần luợt là µA , µB. Hợp của hai tập mờ A và B trong X, ký hiệu A∪B, là một tập mờ có hàm thuộc µ A∪B xác định như sau: µA∪B (x) ) = max(µ A (x), µ B (x)) ∀x∈X c. Tích đại số của hai tập mờ Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là µ A (x), µ B (x). Tích đại số của hai tập mờ A và B trong X, ký hiệu A.B là một tập mờ có hàm thuộc được xác định như sau: µA.B (x) = µA (x).µB (x) ∀x∈X d. Tổng đại số của hai tập mờ Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là µA , µB. Tổng đại số của hai tập mờ A và B trong X, ký hiệu A+B là một tập mờ có hàm thuộc được xác định như sau: µ A+B (x) = µA (x) + µB(x) - µA(x).µB(x) ∀x∈X e.Phần bù của một tập mờ Cho A là tập mờ trong X có hàm thuộc µA . Phần bù A của A trong X là một tập mờ có hàm thuộc xác định như sau: µ ¬ A = 1 - µA (x) ∀x∈X. f. Tổng rời của hai tập mờ CH1301062 Trang 7 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu Cho X là tập hợp, A và B là hai tập mờ trong X. Tổng rời của hai tập mờ A và B trong X, ký hiệu A⊕B định nghĩa như sau: A⊕B = (A∩B) ∪ (A∩B) g. Phép trừ hai tập mờ Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là µA, µB . Phép trừ của hai tập mờ A và B trong X ký hiệu A\B được định nghĩa như sau: A\B = A∩B . h. Cho X là tập hợp, A và B là hai tập mờ trong X, có các hàm thuộc lần lượt là µA, µB. A gọi là nằm trong B, ký hiệu A⊂B nếu hàm thuộc thỏa mãn: µA(x) ≤ µB (x) ∀x∈X. i. Cho X là tập hợp, A và B là hai tập mờ trong X, có các hàm thuộc lần lượt là µA , µB. A gọi là bằng B, ký hiệu A=B nếu và chỉ nếu: µA(x) = µB (x) ∀x∈X j. Tập hợp mức α của tập mờ. Cho α ∈[0,1], X là tập hợp, A là một tập mờ trong X có hàm thuộc µ A . Tập hợp Aα thoả mãn Aα={x∈X | µ A (x) ≥ α} gọi là tập hợp mức α của tập mờ A. k. Khoảng cách Euclid trên tập mờ X là tập hợp có hữu hạn n phần tử, A và B là hai tập mờ trên X. Khoảng cách Euclid (trong không gian n chiều) trên tập mờ được tính như sau: Khoảng cách e 2 (A,B) được gọi là một chuẩn Euclid. CH1301062 Trang 8 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu 2.4 Biểu diễn tập mờ Khi X = {x1,x2,…,xn} thì tập con mờ A có thể được biểu diễn bằng cách liệt kê A = {(x 1 , µA(x 1 )), (x 2 , µA(x 2 )), …, (x n , µA(x n ))}. Nếu X là một tập liên tục thì hàm thuộc của A thường được biểu diễn bằng đồ thị. Người ta thường chọn các hàm thuộc có hình tam giác, hình bậc thang hay hình chuông… Ví dụ: Cho X là tập các sinh viên một trường đại học, B là tập các sinh viên cao. Khi đó hàm thuộc của B được xác định bởi hình vẽ sau  Nếu µA(x) = 0 thì có thể nói x chắc chắn không thuộc B.  Nếu µA(x) = 1 thì có thể nói x chắc chắn thuộc B. CH1301062 Trang 9 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu CHƯƠNG III : QUAN HỆ MỜ 3.1 Khái niệm Quan hệ mờ đóng vai trò quan trọng trong logic mờ và lập luận xấp xỉ. Khái niệm quan hệ mờ là sự tổng quát hóa trực tiếp của khái niệm quan hệ (quan hệ rõ). Giả sử U và V là hai tập hợp và một quan hệ R từ U đến V (quan hệ hai ngôi) là một tập con của tích đề-các UV. Trong trường hợp U = V, ta nói R là quan hệ trên U. Khi U và V là các tập hữu hạn, chúng ta sẽ biểu diễn quan hệ R từ U đến V bởi ma trận, trong đó các dòng được đánh dấu bởi các phần tử xU và các cột được đánh dâu bởi các phần tử yV. Phần tử của ma trận nằm ở dòng x, cột y là R(x,y). 3.2 Định nghĩa 3.2.1 Quan hệ mờ trên tích đề-các Cho X,Y là hai tập và x∈X, y∈Y. Ký hiệu (x,y) là cặp thứtựnằm trong tích Đề-các XY. Tập mờR = {(x,y), µR(x,y)|(x,y) ∈XxY} được gọi là một quan hệ mờ trên X×Y với hàm thuộc: µR(x,y): X×Y →[0,1] Nếu R là một tập mờtrong X = X1×X2×….×Xnthì R được gọi là một quan hệ mờ n ngôi. 3.2.2 Quan hệ mờ trên tập mờ Cho X,Y là hai tập mờvà x∈X, y∈ Y. Ký hiệu (x,y) là cặp thứtựnằm trong tích Đề-các X×Y. R = {(x,y), µR(x,y)|(x,y) ∈X×Y} được gọi là một quan hệmờtrên tập mờA, B nếu: µR(x,y)≤µA(x,y), ∀X×Y và µR(x,y) ≤µB(x,y) ∀X×Y 3.3 Các phép toán trên quan hệ mờ Ngoài một số phép toán giống như trên tập mờ trong tích Đề-các: Phép hợp, giao, tổng đại số, tích đại số…, người ta còn đưa ra thêm một số phép toán khác trong quan hệ mờ như sau: CH1301062 Trang 10 [...]... định mô hình tốt nhất phù hợp với dữ liệu Thuật toán: MCLUST… Phân cụm mờ Giả thiết: không có phân cụm “cứng” cho dữ liệu và đối tượng có thể thuộc một số cụm Sử dụng hàm mờ từ các đối tượng tới các cụm Thuật toán: FCM (Fuzzy CMEANS),… CH1301062 Trang 15 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu CHƯƠNG V : THUẬT TOÁN K-MEANS 5.1 Tổng quan Đây là một giải thuật gom nhóm đơn... Thuật toán dừng tại đây Sau khi sử dụng thuật toán K-mean ta thu được 2 nhóm A và B như sau: A: Lan, Minh, Vân, Thiện B: Lâm, Hưng, Mai, Thủy, Tuấn, Ngọc CH1301062 Trang 18 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu CHƯƠNG VI : THUẬT TOÁN FUZZY CMEANS (FCM) 6.1 Giới thiệu Thuật toán phân cụm dữ liệu mờ FCM giống như k-means đều sử dụng chung một chiến lược phân cụm dữ liệu. .. phân cụm mới các đối tượng CH1301062 Trang 24 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu TÀI LIỆU THAM KHẢO 1 Slide bài giảng Fuzzy Logic – PGS TS Nguyễn Văn Nhơn 2 Gom nhóm dữ liệu – TS Nguyễn Đình Thuân 3 Bài giảng của Khai thác dữ liệu và ứng dụng của Giảng viên Th.S Nguyễn Hoàng Tú Anh, ĐH Khoa học Tự nhiên TP.HCM 4 Phân cụm dữ liệu – PGS TS Hà Quang Thụy 5 Algorithms for... (phân lớp) trước Gom nhóm : học không giám sát (Unsupervised learning ): tìm các nhóm /cụm/ lớp “tự nhiên” của các mẫu chưa được gán nhãn CH1301062 Trang 12 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu  Ứng dụng:  Nhận dạng  Phân tích dữ liệu không gian  Xử lý ảnh  Khoa học kinh tế ( đặc biệt nghiên cứu tiếp thị)  Gom nhóm tài liệu liên quan để dễ tìm kiếm  Gom dữ liệu. . .Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu Phép hợp thành max-min Giả sử R1 là quan hệ mờ trong X×Y, R2 là quan hệ mờ trong Y×Z Phép hợpthành max-min của hai quan hệ mờ R1, R2 (kí hiệu R1 o R2) là một quan hệ mờ trong X×Zthoả mãn: µR1oR2(x,z) = maxy(min(µR1(x,y), µR2(y,z))) ∀x∈X, ∀y∈Y, ∀z∈Z Phép hợp thành max-tích Giả sử R1 là quan hệ mờ trong X×Y, R2 là quan hệ mờ trong. .. khi: CH1301062 Trang 19 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu Và Để có một phân hoạch tối ưu thì hàm mục tiêu đạt giá trị tối thiểu, hay hai công thức trên phải được thỏa mãn 6.3 Thuật toán FCM Đầu vào: Số cụm c và tham số mũ m cho hàm tiêu chuẩn J Kết quả trả về: c cụm dữ liệu sao cho hàm tiêu chuẩn trong (2) đạt giá trị tối thiểu B1: Nhập giá trị cho hai tham số c (1 . Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH MÔN TOÁN HỌC CHO KHOA HỌC MÁY TÍNH ĐỀ. tính Ứng dụng logic mờ trong phân cụm dữ liệu NHẬN XÉT CỦA GIẢNG VIÊN CH1301062 Trang 2 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu MỤC. B. CH1301062 Trang 9 Toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu CHƯƠNG III : QUAN HỆ MỜ 3.1 Khái niệm Quan hệ mờ đóng vai trò quan trọng trong logic mờ và lập luận xấp xỉ.

Tiểu luận môn toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan