ỨNG DỤNG CỦA TẬP THÔ TOLERANT TRONG PHÂN LỚP DỮ LIỆU

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN LỚP CAO HỌC QUA MẠNG – KHÓA 6 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU ỨNG DỤNG CỦA TẬP THÔ TOLERANT TRONG PHÂN LỚP DỮ LIỆU Giảng viên: PGS TS Đỗ Phúc Sinh viên thực hiện: Nguyễn Hoàng Hạc MSHV: CH1101081 TP. HCM, NĂM 2012 LỜI CÁM ƠN!  Tôi xin trân trọng dành nhưng lời cảm ơn đầu tiên tới PGS TS Đỗ Phúc, người trực tiếp hướng dẫn và giảng dạy môn Khai phá dữ liệu này. Xin chân thành cám ơn các thầy cô khác trong trường Đại Học Công nghệ Thông tin Thành phố Hồ Chí Minh. Xin gởi lời cảm tới các bạn và những người đã hổ trợ và tạo điều kiện cho tôi hoàn thành đề tài này. Một lần nữa, xin chân thành cảm ơn mọi người bằng cả tấm lòng!. Học viên thực hiện: Nguyễn Hoàng Hạc 2 MỤC LỤC MỞ ĐẦU 4 Chương 1 TẬP THÔ TOLERANT 5 1.1 Giới thiệu 5 1.2 Tập thô tolerant 7 1.3 Quan hệ tương tự 8 1.4 Tập xấp xỉ trên và tập xấp xỉ dưới 9 1.5 Độ đo tương tự và ngưỡng tương tự 9 Chương 2 XÁC ĐỊNH NGƯỠNG TƯƠNG TỰ BẰNG THUẬT GIẢI DI TRUYỀN.11 2.1 Giải thuật chung cho thuật giải di truyền 11 2.2 Biểu diễn nhiễm sắc thể cho thuật giải di truyền 13 2.3 Khởi tạo quần thể ban đầu 13 2.4 Hàm thích nghi 13 2.5 Các phép toán di truyền 16 2.5.1 Phép chọn lọc tái sinh 16 2.5.2 Phép lai ghép 18 2.5.3 Phép đột biến 18 Chương 3 PHÂN LỚP DỮ LIỆU DỰA TRÊN TẬP THÔ TOLERANT 20 3.1 Giai đoạn 1: dùng xấp xỉ dưới 21 3.2 Giai đoạn 2: dùng xấp xỉ trên 21 3.3 Ứng dụng tập thô tolerant trong phân lớp dữ liệu IRIS 24 3.3.1 Bộ dữ liệu IRIS 24 3.3.2 Xác định tập thô tolerant 26 3.3.3 Phân lớp dữ liệu 27 3.3.4 So sánh kết quả phân lớp với các phương pháp phân lớp khác 30 3.4 Kết luận 31 Chương 4 CÀI ĐẶT VÀ KẾT QUẢ THỰC HIỆN 33 4.1 Cấu trúc dữ liệu 33 4.1.1 Lớp CUniverse 33 4.1.2 Lớp CObjects 34 4.1.3 Lớp CChromosome 35 4.1.4 Lớp CSimilarity 36 4.1.5 Lớp CApproximation 37 4.1.6 Lớp CTolerant 37 4.2 Thử nghiệm với bộ dữ liệu IRIS 38 4.2.1 Bộ dữ liệu IRIS 38 4.2.2 Các tham số cho chương trình 38 4.2.3 Kết quả thực hiện phân lớp 39 4.3 Thử nghiệm với bộ dữ liệu gồm 25 ký tự 39 4.3.1 Bộ dữ liệu của 25 ký tự 39 4.3.2 Các tham số cho chương trình 42 4.3.3 Kết quả thực hiện 42 4.4 Đánh giá 43 3 MỞ ĐẦU Ngày nay, cùng với sự phát triển không ngừng của Công nghệ thông tin kèm theo đó là dữ liệu về thế giới thực được lưu trữ nhiều hơn. Với nguồn dữ liệu được lưu trữ ngày càng lớn làm cho việc phân lớp dữ liệu trở nên hết sức khó khăn, đôi khi là bất khả thi. Để thực hiện việc phân lớp dữ liệu, các nhà Trí tuệ nhân tạo đã đưa ra các phương pháp phân lớp như: thuật toán Quinland, cây định danh, thuật toán Apriori, thuật toán Apriori Tid…. Nhưng các phương pháp này có nhược điểm không phân lớp được phần dữ liệu mơ hồ (không chắn chắn, không xác định). Sau này, các phương pháp mới hơn được đưa ra như: Back-propagation neural networks (BPNN), the Object function-based unsupervised neural networks (OFUNN), Fuzzy C-means (FCM),…giải quyết vấn đề phân lớp dữ liệu mơ hồ nhưng với độ chính xác không cao và thời gian xử lý khá lâu. Đề tài “Ứng dụng của tập thô tolerant trong phân lớp dữ liệu” tập trung chủ yếu vào lý thuyết tập thô, tập thô tolerant, các bài toán sử dụng tập thô phân lớp dữ liệu và ứng dụng của tập thô tolerant trong phân lớp dữ liệu. Đây là phương pháp thực hiện phân lớp dữ liệu chính xác hơn và thời gian xử lý nhanh hơn so với các phương pháp đã đưa ra trước đó. 4 Chương 1 TẬP THÔ TOLERANT 1.1 Giới thiệu Vấn đề của việc phân lớp dữ liệu đó là phân chia một không gian dữ liệu ℜ n vào trong các lớp và sau khi xác định một điểm x∈ℜ n tới một điểm thuộc các lớp khác. Nhiều ứng dụng đã được tìm thấy trong các ngành khoa học như: nhận dạng dấu vân tay, phần phân lớp trong sự quan sát của máy tính, phân tích máu,…và hơn thế nữa. Các phương pháp phân lớp dữ liệu được phân lớp thành 3 cách khác nhau: Phân lớp dữ liệu thống kê, phân lớp dữ liệu cú pháp và phân lớp dữ liệu mạng nơron cơ sở (neural network-based). Một vài thuộc tính đã có bởi quan niệm của người phân lớp dữ liệu được đề cập như sau: 1. Thích nghi tức thì (On-line adaptation): Chương trình phân lớp dữ liệu cần học những lớp mới và tinh chế những lớp đang tồn tại nhanh chóng mà không phá hủy thông tin của lớp cũ. 2. Phân chia không định hướng (Nonlinear separation): Chương trình phân lớp dữ liệu cần xây dựng những ranh giới quyết định đó là những lớp ngăn cách giữa hình dạng và kích thước 3. Các lớp chồng chéo (Overlapping classes): Chương trình phân lớp dữ liệu cần có khả năng định dạng một ranh giới quyết định đó là việc giảm tối thiểu số lượng lớp không được phân lớp đối với tất cả các lớp chồng chéo nhau. 4. Thời gian huấn luyện (Training time): Chương trình phân lớp dữ liệu cần có khoảng thời gian học ngắn cho việc tạo những ranh giới quyết định 5. Các quyết định dễ và khó (Soft and hard decisions): Chương trình phân lớp dữ liệu cần cung cấp cả hai loại quyết định phân lớp dễ và khó. 6. Kiểm tra và xác nhận (Verification and validation): 5 Chương trình phân lớp dữ liệu cần có kỹ thuật để kiểm tra và xác nhận lại sự thực hiện của chương trình bằng nhiều cách. 7. Tham số điều chỉnh (Tuning parameters): Chương trình phân lớp dữ liệu nên có càng nhiều tham số điều chỉnh hệ thống càng tốt. 8. Sự phân lớp không giới hạn (Nonparametric classification): Chương trình phân lớp dữ liệu sẽ hoạt động tối ưu mà không cần biết đến sự phân phối dữ liệu bên dưới. Như đã đề cập ở trên, nhiều nhà nghiên cứu đã từng thực hiện bằng nhiều cách khác nhau. Carpenter và Grossberg đã phát triển nhanh chóng và đáng tin cậy các bộ mẫu tuần tự của hệ thống gọi là lý thuyết Fuzzy Adaptive Resonance (ART) nó liên kết logic mờ với ART1, Lin và Lee giới thiệu tổng quát mạng nơron cho việc điều khiển logich mờ và các hệ thống ra quyết định nó có thể thành lập các luật logich mờ và tối ưu chức năng nhập / xuất của các thành viên. Simpson đã phát triển sự phân lớp min_max không rõ ràng của mạng nơron nó sử dụng các tập mờ như là những lớp mẫu, việc học trong mạng nơron được thực hiện tại một nơi nhất định và sự điều chỉnh hyberboxes trong không gian mẫu. Bởi vì, các lý thuyết phân lớp trên có một cấu trúc kết nối giữa logic mờ và mạng nơron nên họ dự tính sẽ gặp những khó khăn giống như mạng nơron như sau:  Khả năng có giải pháp không hội tụ bởi vì sự chọn lựa sai các giá trị trọng số ban đầu.  Có liên quan đến thời gian học dài.  Khả năng có những giải pháp không tối ưu vì những vấn đề cục bộ. Gần đây Banzan đề xuất hai ứng dụng của logich cho việc phân lớp các đối tượng bằng cách sử dụng multi-modal logics cho việc tự động lấy các đặc trưng ban đầu và sử dụng sự phương pháp qui nạp của tập thô để khám phá các tập đặc trưng tối ưu nhất đối với chất lượng của việc phân lớp. Phương pháp của họ nhấn mạnh sự tối ưu các lựa chọn của những thuộc tính liên quan từ việc linh động thu nhỏ. Nhưng số lượng những đối tượng không thể phân biệt được thì quá hạn chế để xác 6 định sự tương tự của nó, bởi vì sự giao nhau không luôn luôn đúng trong trường hợp của vấn đề phân lớp mẫu. Nguyễn đề xuất việc sử dụng số lượng mối quan hệ tolerant của các đối tượng cho việc phân lớp mẫu. Nhưng phương pháp này không đề cập như thế nào xác định ngưỡng khởi tạo tối ưu của các thuộc tính cho việc phân lớp tốt nhất của một vấn đề được đưa ra. Những yêu cầu đã gặp ở trên đã cho ra ý tưởng của người phân lớp càng nhiều càng tốt khắc phục một số trở ngại của các phương pháp đã đề xuất trước đó, đó là lý do cho việc đề xuất một phương pháp phân lớp mới dựa trên tập thô tolerant. 1.2 Tập thô tolerant Tập thô được Z. Pawlak giới thiệu vào đầu thập niên 80 là công cụ tính toán mới giải quyết tính gần đúng và không chắc chắn trong các lĩnh vực: máy học, thu nhận tri thức, phân tích quyết định, khám phá tri thức từ cơ sở dữ liệu, lập luận qui nạp và nhận dạng mẫu. Khi một số đối tượng không phân biệt từ những đối tượng khác với các thuộc tính đã cho có một mối quan hệ không phân I biệt thoả mãn các tính chất: Phản xạ (Reflexive):xIx Đối xứng (Symmetric): xIy → yIx Bắc cầu (Transitive): xIy ∧ yIz → xIz Với x, y và z là các đối tượng trong vũ trụ của đối tượng U. Vì vậy mối quan hệ không phân biệt là mối quan hệ tương đương nó sẽ phân chia tập U vào những lớp tương đương. Tuy nhiên, trong thực tế nhiều bài toán phân lớp không phải lúc nào tính chất bắc cầu cũng được thoả mãn. Ví dụ: xét bài toán phân lớp các điểm gần biên sau: 7 biên 1 2 3 Rõ ràng, điểm 1 gần điểm 2 và điểm 2 gầ điểm 3, nhưng điểm 1 không gần điểm 3. Trong trường hợp này tính chất bắc cầu không còn đúng. Bởi vì 2 đối tượng dữ liệu x và z không thể được bảo đảm trong cùng một lớp thậm chí khi một cặp dữ liệu x và y được chứa trong cùng một lớp và cặp dữ liệu y và z cũng được chứa trong cùng một lớp thì chưa hẳn x và z thuộc về cùng một lớp (tính chất bắc cầu không thoả mãn). Vì vậy, tập thô Tolerant mở rộng quan hệ không phân biệt thành quan hệ tolerant (quan hệ tương tự) cho phù hợp với các bài toán phân lớp mà quan hệ giữa các đối tượng chỉ thoả mãn hai tính chất: phản xạ và đối xứng. 1.3 Quan hệ tương tự Cho A = (U, A ∪ d) là một bảng quyết định. U là một tập gồm các yếu tố (các đối tượng, các mẫu). A là tập những thuộc tính điều kiện, ∀a ∈ A tập những giá trị của thuộc tính a là V a , và {d} là một tập quyết định với d = {1, 2, …, r(d)}, r(d) là số các lớp quyết định. Cho ℜ A = {R a : R a ⊆ V a x V a ∧ a ∈ A} là một tập của mối quan hệ tolerant. Mỗi mối quan hệ tolerant thoả mãn: Phản xạ (Reflexive): ∀ v 1 ∈ V a , v 1 R a v 1 , Đối xứng (Symmetric): v 1 R a v 2 → v 2 R a v 1 Với v 1 và v 2 là các thuộc tính giá trị trong V a . Hai đối tượng x và y là tương tự nhau đối với thuộc tính a. Khi giá trị a(x) và a(y) thoả mãn a(x)R a a(y). Hơn nữa, chúng ta nói hai đối tượng x và y là tương tự đối với trong toàn bộ thuộc tính A khi nó thoả mãn mối quan hệ tolerant với việc thừa nhận tất cả các thuộc tính nghĩa là: ∀ a ∈ A, a(x)R a a(y) 8 Một tập thô tolerant (tolerance rough set) TS(x) của một đối tượng x được định nghĩa bởi một tập của tất cả các đối tượng có mối quan hệ tolerant với đối tượng x đối với tất cả các thuộc tính như sau: TS(x) = {y ∈ U | x τ A y} 1.4 Tập xấp xỉ trên và tập xấp xỉ dưới Xấp xỉ dưới A τ (Y) và xấp xỉ trên A τ (Y) của tập Y ⊆ U nó có mối quan hệ tolerant đối với tất cả cá thuộc tính của A được định nghĩa như sau: A τ (Y) = U Ux∈ {TS(x) | TS(x) ⊆ Y} A τ (Y) = U Ux∈ {TS(x) | TS(x) ∩ Y ≠ ∅ } Ý nghĩa của 2 tập xấp xỉ trong mối quan hệ tolerant là như nhau đó là mối quan hệ tương tự. Để thành lập một mối quan hệ tolerant giữa dữ liệu với nhau chúng ta cần xác định một độ đo tương tự, nó xác định số lượng tính chặt chẽ giữa những giá trị thuộc tính của các đối tượng. 1.5 Độ đo tương tự và ngưỡng tương tự Để xác định độ đo tương tự S a (x,y) đối với thuộc tính a giữa hai đối tượng x và y. Hai đối tượng là tương tự với thuộc tính a khi S a (x,y) ≥ t(a), với t(a) là một ngưỡng tương tự khởi tạo của thuộc tính a, giá trị của a nằm trong khoảng t(a) ∈ [0,1]. Vì vậy, chúng ta có thể liên hệ mối quan hệ tolerant với độ đo tương tự như sau: a(x)R a a(y) ⇔ S a (a,y) ≥ t(a) Trong vấn đề phân lớp dữ liệu, thông thường sử dụng độ đo tương tự được dựa trên cơ sở một khoảng cách: S a (x,y) = max ))(),(( 1 d yaxad − Với d max là giá trị khoảng cách tối đa giữa hai giá trị thuộc tính a(x) và a(y). Sự chọn lựa hàm khoảng cách phụ thuộc vào loại ứng dụng. Trong trường hợp này, 9 chúng ta chọn sự khác nhau hoàn toàn giữa các giá trị thuộc tính như sau: d(a(x),a(y))=|a(x) - a(y)|. Tiếp theo, chúng ta có thể mở rộng độ đo tương tự S A (x,y) giữa hai đối tượng x và y đối với tất cả các thuộc tính bởi một phép tính trung bình của các độ đo tương tự của tất cả các thuộc tính: S A (x,y) = ∑ ∈∀ A ),( 1 a a yxS A Với |A| là số các thuộc tính trong A. Trong trường hợp xét tất cả các thuộc tính của A cùng lúc, chúng ta có thể liên hệ mối quan hệ tolerant với độ đo tượng tự như sau: x τ A y ⇔ S A (x,y) ≥ t(A) Với t(A) ∈ [0,1] là một ngưỡng tương tự khởi tạo cho sự phân lớp dữ liệu dựa trên tất cả các thuộc tính A. Vấn đề ở đây là làm thế nào để xác định ngưỡng một cách tối ưu có thể. Bởi lẻ ngưỡng tương tự ảnh hưởng trực tiếp đến quan hệ tolerant từ đó ảnh hưởng đến việc xác định các tập thô tolerant, và kết quả phân lớp sau này. Nói cách khác việc xác định ngưỡng đóng vai trò rất quan trọng đến kết quả phân lớp như sẽ thấy ở các phần sau. Có nhiều cách để xác định bộ ngưỡng tối ưu như: vét cạn, heuristic, thuật giải di truyền…. Trong đó thuật giải di truyền thích hợp nhất. Bởi vì không gian tìm kiếm tương đối lớn, các miền giá trị của ngưỡng liên tục do đó chúng ta sử dụng thuật giải di truyền để giải quyết vấn đề này. Lúc này hàm thích nghi sẽ được xây dựng sao cho kết quả phân lớp là tốt nhất. 10 [...]... thực hiện phân lớp dữ liệu dựa trên tập tolerant xấp xỉ dưới và tập tolerant xấp xỉ trên có được từ 75 mẫu dữ liệu huấn luyện Dữ liệu mẫu cho việc kiểm tra là cùng mẫu dữ liệu sử dụng cho việc huấn luyện Vài dữ liệu có các giá trị thành viên thô nhỏ hơn 0.1 được loại ra trong việc phân lớp dữ liệu 27 Thử nghiệm 2: Thử nghiệm này thực hiện phân lớp dữ liệu dựa trên các vector trọng lượng của three-layer... Bảng 4-4: Các tập xấp xỉ trên của tập mẫu huấn luyện 3.3.3 Phân lớp dữ liệu Dưới đây là phần trình bày kết quả phân lớp của bài báo Data classification based on tolerant rough set – Daijin Kim – Pattern Recognition 34, 2001, pp 16131624 Sử dụng tập thô tolerant phân lớp Chúng ta thực hiện 4 công việc phân lớp dữ liệu khác nhau sử dụng tập thô tolerant và sử dụng multi-layer back-propagation của mạng nơron... mẫu vào lớp có hàm thành viên thô lớn nhất Hình 4-1: Lược đồ phương pháp phân loại hai giai đoạn 23 Bỏ qua Kết quả phân lớp (đúng - sai) 3.3 Ứng dụng tập thô tolerant trong phân lớp dữ liệu IRIS 3.3.1 Bộ dữ liệu IRIS Dữ liệu IRIS được dùng trong thực nghiệm gồm có 3 lớp (setosa, vesicolor và virginica) Với mỗi lớp gồm 50 thực thể, mỗi thực thể gồm có 4 thuộc tính Bảng 4-1 cho thấy một tập dữ liệu huấn... chỉ rỏ thứ tự của mẫu dữ liệu được chứa trong mỗi lớp, cột 3 thể hiện các mẫu dữ liệu trong mỗi lớp dù có được chứa trong tập xấp xỉ dưới hay không (1 (hoặc 0) nghĩa là được chứa (hoặc không được chứa) trong tập xấp xỉ dưới) và cột 4 trình bày tập tolerant của 2 mẫu dữ liệu chi tiết nó được chứa trong tập xấp xỉ dưới Khái niệm mỗi cột trong phần dưới của bảng 5-4 tương tự với phần trên của bảng 5-4... mẫu Dữ liệu mẫu cho kiểm tra chứa 150 mẫu dữ liệu với 75 mẫu dữ liệu không bao gồm các giai đoạn huấn luyện Bảng 4-5 trình bày một vài mẫu dữ liệu cho ra các kết quả phân lớp khác nhau giữa 2 phương pháp phân lớp (sử dụng tập thô tolerant và sử dụng mạng nơron) Trong trường hợp thử nghiệm 1 và 2, với duy nhất mẫu dữ liệu được chứa trong từng giai đoạn huấn luyện sẽ được kiểm tra và mỗi mẫu dữ liệu. .. phân lớp dữ liệu IRIS và được so sánh với các phương pháp phân lớp khác như: PBNN, OFUNN và FCM dựa trên việc thực hiện phân lớp dữ liệu và thời gian xử lý Kết quả thực nghiệm được đưa ra của phương pháp phân lớp dữ liệu hai giai đoạn được đề xuất sử dụng tập xấp xỉ dưới và tập xấp xỉ trên dựa trên tập thô tolerant làm tốt hơn các phương 31 pháp phân lớp khác như: PBNN, OFUNN và FCM dưới quan điểm của. .. 4 thuộc tính Trong thử nghiệm 1, tất cả các mẫu được phân lớp chính xác bằng cách sử dụng tập xấp xỉ dưới ngoại trừ mẫu thứ 48 Trong trường hợp mẫu dữ liệu thứ 35, tập xấp xỉ dưới bằng (0, 5, 0) có nghĩa 5 mẫu dữ liệu được chấp nhận với mẫu dữ liệu thứ 35 và chúng thuộc trong lớp II Trong trường hợp mẫu thứ 48, tập xấp xỉ dưới bằng (0, 0, 0) nghĩa là không có mẫu dữ liệu nào có quan hệ tolerant với... trị lớn nhất trong số các hàm thành viên thô của mẫu dữ liệu được chứa trong lớp Trong trường hợp thực nghiệm 2, tất cả các mẫu được phân lớp chính xác bằng cách sử dụng mạng nơron ngoại trừ mẫu thứ 35 và mẫu thứ 48 trong số 75 mẫu huấn luyện Mẫu dữ liệu thứ 35 bị loại ra vì phạm vi mơ hồ của nó trong lớp bao phủ (|0.32-0.31| / 0.32 = 0.02 < 0.33) là quá mơ hồ để xác định lớp bao phủ Mẫu dữ liệu thứ 48... quả phân lớp Bỏ qua C3 (Sai) Bảng 4-5: So sánh thử nghiệm 1 và thử nghiệm 2 Bảng 4-6 trình bày một vài mẫu dữ liệu cho ra các kết quả phân lớp khác nhau giữa 2 phương pháp phân lớp (sử dụng tập thô tolerant và sử dụng mạng nơron) trong trường hợp thử nghiệm 3 và 4 với 75 mẫu dữ liệu thêm vào không chứa trong các giai đoạn huấn luyện được kiểm tra và mỗi mẫu dữ liệu được thể hiện bởi 4 thuộc tính Sử dụng. .. viên thô của tất cả các mẫu trong tập tolerant TSb(x) của mẫu thử x chưa phân lớp đối với các lớp quyết định Cho tập tolerant TSb(x) của mẫu thử chưa phân lớp x là {γ1,γ2,…,γM}, với M là số các mẫu thử trong vùng biên có quan hệ tolerant đối với mẫu thử x và thừa nhận mỗi mẫu γj có hàm thành viên thô {µdi(γi)|i=1,2,…,r(d)} Ta có công thức tính hàm thành viên thô trung bình của mẫu thử x đối với mỗi lớp . thuyết tập thô, tập thô tolerant, các bài toán sử dụng tập thô phân lớp dữ liệu và ứng dụng của tập thô tolerant trong phân lớp dữ liệu. Đây là phương pháp thực hiện phân lớp dữ liệu chính xác hơn. phân lớp dữ liệu mơ hồ nhưng với độ chính xác không cao và thời gian xử lý khá lâu. Đề tài Ứng dụng của tập thô tolerant trong phân lớp dữ liệu tập trung chủ yếu vào lý thuyết tập thô, tập. PHÂN LỚP DỮ LIỆU DỰA TRÊN TẬP THÔ TOLERANT 20 3.1 Giai đoạn 1: dùng xấp xỉ dưới 21 3.2 Giai đoạn 2: dùng xấp xỉ trên 21 3.3 Ứng dụng tập thô tolerant trong phân lớp dữ liệu IRIS 24 3.3.1 Bộ dữ