Bài toán phân cụm dữ liệu và phân cụm mờ

Thông tin tài liệu

Khái niệm t-chuẩn có ngưỡng do Dubois, Prade giới thiệu đầu tiên trong [14], sau đó được Iancu xem xét một cách đầy đủ hơn trong [31]. Sau đó, một số kết quả về các lớp toán tử mờ có ngưỡng, t-chuẩn, t-đối chuẩn, và kéo theo đã được xem xét trong [9-13]. Cũng giống như toán tử mờ, toán tử mờ có ngưỡng có một phạm vi ứng dụng rộng lớn tử trong điều khiển học, trong trí tuệ nhân tạo, đặc biệt là trong các vấn đề về hệ suy diễn và khai phá dữ liệu. Tìm kiếm luật kết hợp là một trong những hướng nghiên cứu quan trọng trong khai phá dữ liệu [38]. Bài toán tìm luật kết hợp boolean được giới thiệu lần đầu tiên trong [2]. Ví dụ cho luật này có thể là như sau: “90% số người mua bơ và sữa sẽ mua cả bánh mì”. Đã có nhiều thuật toán được đưa ra nhằm giải quyết bài toán này, như Apriori [3], FP-growth [27,23], Eclat [1]… Bài toán luật kết hợp lượng hoá được nêu ra trong [40]. Lấy ví dụ, một luật kết hợp lượng hoá cho cơ sở dữ liệu với ba thuộc tính về có thể là “ và → ”. Thuật toán đưa ra trong [40] phân hoạch miền giá trị của các thuộc tính thành các khoảng và sau đó kết hợp các khoảng rời nhau để cho lời giải của bài toán. Thao tác này thực chất là chuyển bài toán luật kết hợp lượng hoá về bài toán luật kết hợp boolean. Mặc dù phương pháp phân hoạch dữ liệu cũng giải quyết được một số bài toán tìm luật kết hợp trên cơ sở dữ liệu lượng hoá. Tuy nhiên, cũng có một số vấn đề phát sinh như trong [35] đã chỉ ra. Đó là vấn đề mất mát thông tin nếu như có nhiều giá trị tập trung xung quanh các biên của các khoảng. Việc chia các giá trị gần nhau vào các khoảng khác nhau sẽ dẫn tới việc mất thông tin trong các phân tích về sau. Một phương pháp tiếp cận khác là chia miền dữ liệu thành các vùng có chồng lên nhau. Khi đó, các phần tử nằm gần biên có thể thuộc nhiều hơn một khoảng, và sẽ giải quyết được phần nào vấn đề mất mát thông tin tại các lân cận biên. Tuy nhiên, tiếp cận này vẫn có phần bất hợp lý do việc phần tử gần biên cũng sẽ có vai trò quan trọng trong việc mô tả đặc trưng của khoảng giống như các phần tử gần trung tâm. Tất cả những vấn đề trên chủ yếu xuất phát từ việc sử dụng biên rõ ràng để chia khoảng. Từ đó, trong [35] đã đề nghị sử dụng tiếp cận mờ. Tập mờ cung cấp thay đổi uyển chuyển giữa các vùng dữ liệu, và vấn đề xuất phát từ biên rõ sẽ được loại bỏ. Trong [35], các luật kết hợp mờ có dạng, “Nếu X là A thì Y là B”, trong đó “X là A” được gọi là phần tiền tố của luật, “Y là B” được gọi là phần hệ quả của luật. X và Y là các tập thuộc tính của cơ sở dữ liệu, A và B là các tập từ mô tả X và Y tương ứng. Báo cáo này tập trung nghiên cứu sâu về toán tử mờ có ngưỡng, đồng thời xem xét một khía cạnh ứng dụng vào bài toán luật kết hợp mờ. Chương 2 của báo cáo tập trung vào các nghiên cứu sâu về toán tử mờ có ngưỡng, mô tả các khái niệm về lớp toán tử mờ có ngưỡng đồng dạng, cặp hàm sinh của lớp các toán tử mờ có ngưỡng đồng dạng. Chương 3 của báo cáo mô tả về bài toán luật kết hợp mờ, vấn đề mờ hóa dữ liệu đầu vào, đồng thời xem xét ứng dụng t-chuẩn có ngưỡng vào việc bài toán luật kết hợp mờ. Phần phụ lục cuối báo cáo cung cấp các lớp toán tử mờ có ngưỡng có tham số, mô tả về chương trình Fuzzy Rules Miner cài đặt thuật toán F-Apriori, cấu trúc các file dữ liệu đầu vào và các kết quả chạy thử nghiệm chương trình.

Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu LỜI CẢM ƠN Đầu tiên, em xin chân thành cảm ơn thày giáo Bùi Công Cường đã giúp đỡ em rất nhiều trong quá trình tìm kiếm tài liệu cũng như hoàn thành báo cáo của mình. Sự chỉ bảo tận tình của thày trong suốt quá trình từ những ý tưởng ban đầu cho đến khi báo cáo được hoàn thành là trợ giúp lớn nhất đối với em. Sau đó, em xin chân thành cảm ơn các thày, cô giáo đã giảng dạy em, đặc biệt là các thày, cô giáo của khoa Toán Tin ứng dụng, trường Đại học Bách Khoa Hà Nội. Những kiến thức thu nhận được từ các thày, cô đã hỗ trợ em rất nhiều trong quá trình hoàn thành báo cáo này. Em cũng xin cảm ơn các bạn học cùng lớp Toán Tin-KSTN K45, Đại học Bách Khoa Hà Nội, các anh chị và các bạn thuộc Seminar Lý thuyết mờ và Mạng Nơron, những đóng góp của mọi người đã giúp em có thể hoàn chỉnh được báo cáo. Cuối cùng, em xin gửi lời cảm ơn tới cha mẹ, chị gái của em, sự cổ vũ động viên của mọi người là động lực rất lớn giúp em có thể hoàn thành được báo cáo này. Em xin phép được sử dụng cụm từ “chúng tôi” trong báo cáo bao gồm em và mọi nguời. 1 Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu MỤC LỤC GIỚI THIỆU .4 GIỚI THIỆU .4 TOÁN TỬ MỜ CÓ NGƯỠNG 7 TOÁN TỬ MỜ CÓ NGƯỠNG 7 2.1 Toán tử mờ 9 2.1.1. Phủ định .9 2.1.2. T-chuẩn 9 2.1.3. T-đối chuẩn 10 2.1.4. Kéo theo .10 2.2 Toán tử mờ có ngưỡng .11 2.2.1. t-chuẩn có ngưỡng .11 2.2.2. Đẳng cấu giữa các t-chuẩn có ngưỡng 19 2.2.3. t-đối chuẩn có ngưỡng và bộ ba De Morgan có ngưỡng 23 2.2.4. Kéo theo có ngưỡng 27 2.2.5. Các toán tử mờ tham số .29 2.3 Kết luận .38 LUẬT KẾT HỢP MỜ 39 LUẬT KẾT HỢP MỜ 39 3.1 Giới thiệu 39 3.2 Mô tả bài toán .44 3.2.1. Thuộc tính và cơ sở dữ liệu .44 3.2.2. Từ .44 3.2.3. Mệnh đề .45 3.2.4. Luật kết hợp .47 3.2.5. t-chuẩn có ngưỡng và độ ủng hộ .49 3.3 Không gian tìm kiếm 49 3.3.1. Tìm mệnh đề 50 3.3.2. Tìm luật 51 3.4 Thuật toán .53 3.4.1. Tìm mệnh đề 53 3.4.2. Tìm luật kết hợp 56 3.5 Vấn đề mờ hoá dữ liệu .57 3.5.1. Bài toán phân cụm dữ liệu và phân cụm mờ 58 3.5.2. Thuật toán FCM 60 3.5.3. Phương pháp chia đều .61 3.6 Kết luận .62 Phụ lục A. Các toán tử mờ có ngưỡng tham số .64 Phụ lục A. Các toán tử mờ có ngưỡng tham số .64 Phụ lục B. Chương trình Fuzzy Rules Miner .77 Phụ lục B. Chương trình Fuzzy Rules Miner .77 1. Các Module chương trình .77 1. Các Module chương trình .77 1.1. mdiMain 77 1.2. frmFuzzySetFinder .77 2 Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu 1.3. frmDataMiner .78 2. Cấu trúc các file dữ liệu 79 2. Cấu trúc các file dữ liệu 79 2.1. .CFF 79 2.2. .QDF .79 2.3. .FDF 79 2.4. .TF .79 2.5. .PF .80 2.6. .RF .80 3. Cơ sở dữ liệu chạy thử nghiệm 80 3. Cơ sở dữ liệu chạy thử nghiệm 80 3.1. Mô tả .80 3.2. Kết quả 80 TÀI LIỆU THAM KHẢO 82 TÀI LIỆU THAM KHẢO 82 3 Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu 1 GIỚI THIỆU Khái niệm t-chuẩn có ngưỡng do Dubois, Prade giới thiệu đầu tiên trong [14], sau đó được Iancu xem xét một cách đầy đủ hơn trong [31]. Sau đó, một số kết quả về các lớp toán tử mờ có ngưỡng, t-chuẩn, t-đối chuẩn, và kéo theo đã được xem xét trong [9-13]. Cũng giống như toán tử mờ, toán tử mờ có ngưỡng có một phạm vi ứng dụng rộng lớn tử trong điều khiển học, trong trí tuệ nhân tạo, đặc biệt là trong các vấn đề về hệ suy diễn và khai phá dữ liệu. Tìm kiếm luật kết hợp là một trong những hướng nghiên cứu quan trọng trong khai phá dữ liệu [38]. Bài toán tìm luật kết hợp boolean được giới thiệu lần đầu tiên trong [2]. Ví dụ cho luật này có thể là như sau: “90% số người mua bơ và sữa sẽ mua cả bánh mì”. Đã có nhiều thuật toán được đưa ra nhằm giải quyết bài toán này, như Apriori [3], FP-growth [27,23], Eclat [1]… Bài toán luật kết hợp lượng hoá được nêu ra trong [40]. Lấy ví dụ, một luật kết hợp lượng hoá cho cơ sở dữ liệu với ba thuộc tính về <tuổi,tình trạng hôn nhân,số 4 Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu xe> có thể là “<tuổi:30 39> và <đã kết hôn:đúng> → <số xe:2>”. Thuật toán đưa ra trong [40] phân hoạch miền giá trị của các thuộc tính thành các khoảng và sau đó kết hợp các khoảng rời nhau để cho lời giải của bài toán. Thao tác này thực chất là chuyển bài toán luật kết hợp lượng hoá về bài toán luật kết hợp boolean. Mặc dù phương pháp phân hoạch dữ liệu cũng giải quyết được một số bài toán tìm luật kết hợp trên cơ sở dữ liệu lượng hoá. Tuy nhiên, cũng có một số vấn đề phát sinh như trong [35] đã chỉ ra. Đó là vấn đề mất mát thông tin nếu như có nhiều giá trị tập trung xung quanh các biên của các khoảng. Việc chia các giá trị gần nhau vào các khoảng khác nhau sẽ dẫn tới việc mất thông tin trong các phân tích về sau. Một phương pháp tiếp cận khác là chia miền dữ liệu thành các vùng có chồng lên nhau. Khi đó, các phần tử nằm gần biên có thể thuộc nhiều hơn một khoảng, và sẽ giải quyết được phần nào vấn đề mất mát thông tin tại các lân cận biên. Tuy nhiên, tiếp cận này vẫn có phần bất hợp lý do việc phần tử gần biên cũng sẽ có vai trò quan trọng trong việc mô tả đặc trưng của khoảng giống như các phần tử gần trung tâm. Tất cả những vấn đề trên chủ yếu xuất phát từ việc sử dụng biên rõ ràng để chia khoảng. Từ đó, trong [35] đã đề nghị sử dụng tiếp cận mờ. Tập mờ cung cấp thay đổi uyển chuyển giữa các vùng dữ liệu, và vấn đề xuất phát từ biên rõ sẽ được loại bỏ. Trong [35], các luật kết hợp mờ có dạng, “Nếu X là A thì Y là B”, trong đó “X là A” được gọi là phần tiền tố của luật, “Y là B” được gọi là phần hệ quả của luật. X và Y là các tập thuộc tính của cơ sở dữ liệu, A và B là các tập từ mô tả X và Y tương ứng. Báo cáo này tập trung nghiên cứu sâu về toán tử mờ có ngưỡng, đồng thời xem xét một khía cạnh ứng dụng vào bài toán luật kết hợp mờ. Chương 2 của báo cáo tập trung vào các nghiên cứu sâu về toán tử mờ có ngưỡng, mô tả các khái niệm về lớp toán tử mờ có ngưỡng đồng dạng, cặp hàm sinh của lớp các toán tử mờ có ngưỡng đồng dạng. Chương 3 của báo cáo mô tả về bài toán luật kết hợp mờ, vấn đề mờ hóa dữ liệu đầu vào, đồng thời xem xét ứng dụng t- chuẩn có ngưỡng vào việc bài toán luật kết hợp mờ. 5 Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu Phần phụ lục cuối báo cáo cung cấp các lớp toán tử mờ có ngưỡng có tham số, mô tả về chương trình Fuzzy Rules Miner cài đặt thuật toán F-Apriori, cấu trúc các file dữ liệu đầu vào và các kết quả chạy thử nghiệm chương trình. 6 Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu 2 TOÁN TỬ MỜ CÓ NGƯỠNG Sự ra đời của công nghệ tính toán mờ xuất phát từ các giới thiệu về tập mờ của Zadeh năm 1965 [41]. Hiện nay, có thể nói, công nghệ tính toán mờ là một trong những lĩnh vực nghiên cứu phát triển mạnh mẽ nhất, được đánh dấu bằng sự ra đời của hàng loạt phương pháp và kỹ thuật ứng dụng trong nhiều lĩnh vực khác nhau. Việc tích hợp các kỹ thuật của lôgíc mờ với các phương pháp phân tích khác ngày càng diễn ra mạnh mẽ. Lôgíc mờ được ứng dụng rộng rãi để giải quyết rất nhiều bài toán của khoa học ứng dụng. Những lĩnh vực có thể kể ra ở đây là vận trù học, hỗ trợ quyết định, điều khiển, nhận dạng mẫu, kinh tế, quản lý, xã hội học, mô hình thống kê, máy học, thiết kế cơ khí, chế tạo, phân lớp, suy luận, thu nhận thông tin, quản lý cơ sở dữ liệu, chẩn đoán y tế, hệ cơ sở tri thức. Đặc biệt, trong lĩnh vực xử lý tri thức, công nghệ tính toán mờ tỏ ra vô cùng hiệu quả. Do tri thức thường con người thường được biểu diễn bằng các thể hiện ngôn ngữ, bằng các câu hỏi, các phát biểu về thế giới đang xét. Vấn đề đối với việc xử lý tri thức là không chỉ ở việc liên kết các tri thức, các phát biểu về thế giới đang xét, mà còn ở việc đánh giá sự đúng đắn của chúng. Lôgíc hình thức cổ điển cho 7 Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu phép chúng ta đánh giá một phát biểu về thế giới là hoặc đúng, hoặc sai. Tuy nhiên, trong thực tế, đánh giá một phát biểu chỉ có đúng hoặc sai là rất khó nếu không muốn nói là phi thực tế. Lấy ví dụ: đối với các tri thức dạng “Áp suất cao”, “Thể tích nhỏ”, “Quả táo đỏ”, việc xác định một cách chính xác trị chân lý của chúng là không hay một là rất khó khăn do các từ “cao”, “nhỏ”, hay “đỏ” hoàn toàn có tính chất mờ hồ. Từ đó, Zadeh đã mở rộng lôgíc mệnh đề thành lôgíc mờ, trong đó, mỗi mệnh đề P sẽ được gán cho một trị chân lý υ(P), là một giá trị trong đoạn [0,1], biểu diễn mức độ đúng đắn của mệnh đề đó. Hay Để có thể tiến hành các thao tác lôgíc trên các mệnh đề, chúng ta cần phải có các phép toán lôgíc mờ. Đó chính là các phép toán t-chuẩn tương ứng với phép hội, t- đối chuẩn ứng với phép tuyển, và phép kéo theo mờ. Bên cạnh đó, ngưỡng cũng là khái niệm hết sức tự nhiên trong các bài toán của thế giới thực. Những suy luận có sử dụng ngưỡng là rất hay gặp trong đời sống. Lấy ví dụ, trong công tác chẩn đoán bệnh nhân. Nếu một số thông số đầu vào đạt những giá trị ngưỡng, dạng như nhiệt độ trên 41 o C, nhịp tim trên 150, … hiển nhiên chúng ta phải có những suy luận khác với khi các giá trị này chưa đạt giá trị ngưỡng. Chương này tập trung vào việc nghiên cứu các toán tử mờ có ngưỡng sử dụng làm công cụ cho quá trình trích rút các luật mờ. Mở đầu của các nghiên cứu về toán tử mờ có ngưỡng chính là t-chuẩn có ngưỡng. Khái niệm t-chuẩn có ngưỡng do Dubois, Prade giới thiệu đầu tiên trong [14], sau đó được Iancu xem xét một cách đầy đủ hơn trong [31]. Sau đó, một số kết quả về các lớp toán tử mờ có ngưỡng t-chuẩn, t-đối chuẩn, và kéo theo đã được xem xét trong [9-13]. Chương này sẽ nhắc lại các khái niệm về toán tử mờ, toán tử mờ có ngưỡng, lớp toán tử mờ có ngưỡng đồng dạng. Đồng thời, chúng tôi sẽ tiến hành xem xét một số tính chất đại số của các lớp này. Phần cuối chương là các xem xét giải tích đối với các lớp toán tử mờ tham số nhằm làm tiền đề cho việc tạo ra các toán tử mờ có ngưỡng tham số. 8 Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu Trước hết, chúng ta bắt đầu bằng việc tìm hiểu về các toán tử mờ và một số tính chất đặc trưng của chúng. 2.1 Toán tử mờ Toán tử mờ là những phép toán trên lôgíc mờ, nghĩa là những phép toán trên các giá trị lôgíc của các mệnh đề. Như thế, một cách tổng quát, các phép toán trên đoạn [0,1] đều có thể là toán tử mờ. Trong phần này chúng ta sẽ tìm nhắc lại các định nghĩa và một số tính chất của các phép toán lôgíc cơ bản, đó là phép phủ định, phép hội hay t- norm, phép tuyển hay t-conorm. 2.1.1. Phủ định Định nghĩa 2.1.1[28]. i) Hàm n : [0,1] → [0,1] được gọi là hàm phủ định nếu nó không tăng đồng thời n(0) = 1 và n(1) = 0. ii) Một hàm phủ định được gọi là phủ định chặt nếu nó giảm chặt. iii) Một hàm phủ định được gọi là phủ định mạnh nếu nó là phủ định chặt, đồng thời n(n(x)) = x với mọi x ∈ [0,1]. Định lý 2.1.1[28]. n là phép phủ định chặt nếu và chỉ nếu tồn tại f thuộc Aut(J) sao cho n(x) = f -1 (1-f(x)). Ở đây, ta chú ý η = 1 - x là một hàm phủ định chặt, và biểu diễn của n trong định lý có thể được viết thành n(x) = f -1 (η(f(x))). f khi đó được gọi là hàm sinh của n, và n có thể được biểu diễn dạng η f . 2.1.2. T-chuẩn Định nghĩa 2.1.2[28]. Một hàm T : [0,1]×[0,1] → [0,1] được gọi là một t-chuẩn (tương ứng với phép hội trong lôgíc mệnh đề), nếu nó có tính giao hoán, kết hợp, đơn điệu không giảm theo từng biến, đồng thời T(x,1) = x với mọi x ∈ [0,1]. i) Một t-chuẩn được gọi là liên tục nếu nó liên tục theo từng biến. 9 Nghiên cứu sâu hơn về t-chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu ii) Một t-chuẩn được gọi là t-chuẩn Archimedean nếu nó liên tục, đồng thời: T(x,x) < x với mọi x ∈ (0,1). iii) Một t-chuẩn được gọi là t-chuẩn chặt nếu nó là Archimedean, đồng thời: không tồn tại x, y ∈ (0,1) sao cho T(x,y) = 0. iv) Một t-chuẩn được gọi là t-chuẩn nilpotent nếu nó là Archimedean, đồng thời: tồn tại x, y ∈ (0,1) sao cho T(x,y) = 0. 2.1.3. T-đối chuẩn Định nghĩa 2.1.3[28]. Một hàm S : [0,1]×[0,1] → [0,1] được gọi là một t-đối chuẩn (tương ứng với phép tuyển) nếu nó có tính giao hoán, kết hợp, đơn điệu không giảm theo từng biến, đồng thời S(0,x) = x với mọi x ∈ [0,1]. Kết quả sau đây cho ta thấy mối tương quan giữa t-chuẩn và t-đối chuẩn. Định lý 2.1.2[28]. S là t-đối chuẩn nếu và chỉ nếu tồn tại t-chuẩn T và phủ định mạnh n sao cho S(x,y) = n(T(n(x),n(y))) với mọi x,y ∈ [0,1]. Cặp (T,S) được gọi là đối ngẫu nhau qua phủ định mạnh n. Bộ ba (T,n,S) được gọi là bộ ba De Morgan. Một t-đối chuẩn được gọi là liên tục, Archimedean, chặt, nilpotent nếu đối ngẫu của nó là liên tục, Archimedean, chặt, nilpotent tương ứng. 2.1.4. Kéo theo Định nghĩa 2.1.4[19]. Một hàm I: [0,1]×[0,1]→[0,1] là một hàm kéo theo nếu thoả các tính chất sau: i) I(x,y) ≥ I(u,y) nếu x ≤ u ii) I(x,y) ≥ I(x,v) nếu y ≥ v iii) I(0,x) = 1 iv) I(x,1) = 1 10

Ngày đăng: 07/08/2013, 14:50

Xem thêm: Bài toán phân cụm dữ liệu và phân cụm mờ, Bài toán phân cụm dữ liệu và phân cụm mờ

Bài toán phân cụm dữ liệu và phân cụm mờ

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan