Quy nạp quy tắc phân lớp sử dụng lý thuyết tập thô Lê Quang Đạt.

76 303 0
Quy nạp quy tắc phân lớp sử dụng lý thuyết tập thô  Lê Quang Đạt.

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i S húa bi Trung tõm Hc liu i hc Thỏi Nguyờn http://www.lrc-tnu.edu.vn/ đại học thái nguyên Tr-ờng đại học CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG Lấ QUANG T QUY NP QUY TC PHN LP S DNG Lí THUYT TP THễ LUN VN THC S KHOA HC MY TNH thái nguyên - năm 2014 ii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ®¹i häc th¸i nguyªn Tr-êng ®¹i häc C¤NG NGHÖ TH¤NG TIN Vµ TRUYÒN TH¤NG LÊ QUANG ĐẠT QUY NẠP QUY TẮC PHÂN LỚP SỬ DỤNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 Người hướng dẫn khoa học: PGS.TS. NGUYỄN THANH TÙNG Thái Nguyên, 2014 iii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Để hoàn thành được luận văn này tôi đã nhận được rất nhiều sự động viên, giúp đỡ của nhiều cá nhân và tập thể. Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS. TS. Nguyễn Thanh Tùng đã hướng dẫn tôi thực hiện nghiên cứu của mình. Xin cùng bày tỏ lòng biết ơn chân thành tới các thầy cô giáo, người đã đem lại cho tôi những kiến thức bổ trợ, vô cùng có ích trong những năm học vừa qua. Cũng xin gửi lời cám ơn chân thành tới Ban Giám hiệu, Phòng Đào tạo sau đại học, Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên đã tạo điều kiện cho tôi trong quá trình học tập. Cuối cùng tôi xin gửi lời cám ơn đến gia đình, bạn bè, những người đã luôn bên tôi, động viên và khuyến khích tôi trong quá trình thực hiện đề luận văn của mình. Thái Nguyên, ngày 18 tháng 07 năm 2014 Tác giả Lê Quang Đạt ii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của tôi dưới sự hướng dẫn của PGS.TS. Nguyễn Thanh Tùng. Các số liệu, kết quả nghiên cứu trong luận văn là trung thực và chưa được ai công bố. Tác giả Lê Quang Đạt iii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC HÌNH vi MỞ ĐẦU 1 Chương 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LỚP 4 1.1. Khái quát về khai phá dữ liệu 4 1.1.1. Khai phá dữ liệu là gì 4 1.1.2. Quy trình khai phá dữ liệu 5 1.1.3. Các kỹ thuật khai phá dữ liệu 6 1.1.4. Các ứng dụng của khai phá dữ liệu 8 1.1.5. Một số thách thức đặt ra cho việc khai phá dữ liệu 11 1.2. Bài toán phân lớp 12 1.2.1. Phát biểu bài toán 12 1.2.2. Phương pháp tiếp cận chung để giải quyết bài toán phân lớp 15 1.3. Kết luận chương 1 18 Chương 2: CƠ SỞ LÝ THUYẾT TẬP THÔ 19 2.1. Giới thiệu 19 2.2. Hệ thông tin 20 2.3. Quan hệ bất khả phân biệt 21 2.3.1. Sự dư thừa thông tin 21 2.3.2. Quan hệ tương đương - Lớp tương đương 22 2.3.3. Thuật toán xác định lớp tương đương 23 2.3.4. Xấp xỉ tập hợp 24 iv Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 2.3.5. Sự không chắc chắn và hàm thuộc 34 2.3.6. Sự phụ thuộc giữa các tập thuộc tính 35 2.4. Rút gọn thuộc tính 36 2.4.1. Khái niệm 36 2.4.2. Ma trận phân biệt và hàm phân biệt 39 2.5. Kết luận chương 2 42 Chương 3: SỬ DỤNG LÝ THUYẾT TẬP THÔ VÀO VIỆC QUY NẠP QUY TẮC QUYẾT ĐỊNH TỪ TẬP CÁC VÍ DỤ HỌC 43 3.1 Mở đầu 43 3.2. Một số khái niệm về quy nạp quy tắc quyết định 45 3.2.1. Quy tắc quyết định 45 3.2.2. Các loại thuật toán quy nạp quy tắc 49 3.3. Các thuật toán quy nạp quy tắc quyết định 50 3.3.1 Thuật toán sinh bộ quy tắc tối tiểu 51 3.3.2 Thuật toán sinh bộ quy tắc vét cạn 57 3.3.3 Các thuật toán sinh bộ quy tắc thỏa mãn yêu cầu 58 3.4. Về tính toán thực nghiệm 61 3.5. Kết luận chương 3 63 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 67 v Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ DANH MỤC BẢNG Bảng 1.1 Tập đối tượng Động vật có xương sống 13 Bảng 1.2. Ma trận liên hợp (trường hợp 2 lớp) 17 Bảng 2.1. Một hệ thông tin đơn giản 20 Bảng 2.2. Một hệ quyết định với C = {Age, LEMS} và D = {Walk} 21 Bảng 2.3. Một bảng dữ liệu thừa thông tin 22 Bảng 2.4. Một hệ quyết định điều tra vấn đề da cháy nắng 25 Bảng 2.5. Hệ thông tin về thuộc tính của xe hơi 28 Bảng 2.6. Bảng quyết định dùng minh họa hàm thuộc thô 35 Bảng 2.7. Hệ thông tin dùng minh họa ma trận phân biệt 39 Bảng 3.1. Một ví dụ về tập dữ liệu 53 a ba thuật toán (thể hiện bằng %) . 62 Bảng 3.3. So sánh đặc điểm của quy tắc quyết định 63 vi Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ DANH MỤC HÌNH Hình 1.1. Các bước thực hiện quá trình khai phá dữ liệu 6 Hình 1.2. Bài toán phân lớp 14 Hình 1.3. Phương pháp tiếp cận phổ biến xây dựng mô hình phân lớp 17 Hình 2.1: Xấp xỉ tập đối tượng trong bảng 1-2 bằng các thuộc tính điều kiện Age và LEMS. Mỗi vùng được thể hiện kèm theo tập các lớp tương ứng. 28 Hình 2.2: Ma trận phân biệt của Bảng 2.7 39 Hình 2.3: Ma trận phân biệt của hệ thông tin Bảng 2.7 xây dựng trên tập thuộc tính {a,b} 40 Hình 2.4: Ma trận phân biệt Hình 2.2 sau khi chọn c vào tập rút gọn f A = I,j,i j, cij {˅c ij * | c ij * c ij } 41 1 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Trong nhiều tình huống, ta cần phải xếp một đối tượng vào một trong những lớp khác nhau, dựa vào một số thuộc tính của nó. Chẳng hạn, dựa vào các kết quả xét nghiệm (số đo huyết áp, mức cholesterol, số lượng hồng cầu, số lượng bạch cầu, … ), ta cần khẳng định một người có mắc phải một chứng bệnh nào đó không. Các tình huống như thế được gọi là các bài toán phân lớp (classification) hay bài toán nhận dạng mẫu (Pattern Recognition). Để giải quyết một bài toán phân lớp, người ta dựa vào một tập các đối tượng đã được phân lớp. Tập các đối tượng này được gọi là tập các ví dụ học (set of learning examples) hay tập huấn luyện (training set). Quy nạp quy tắc phân lớp (hay quy tắc quyết định) là việc phát hiện ra các quy tắc phân lớp từ tập các ví dụ học S đã cho. Một quy tắc phân lớp có thể được mô tả bằng một biểu thức toán học hoặc bằng một mệnh đề có dạng if R then K trong đó, R là hội của các biểu thức điều kiện liên quan đến các giá trị thuộc tính, K là biểu thức dạng i dd chỉ ra nhãn lớp gán cho đối tượng mới cần phân lớp. Phân lớp là nhiệm vụ vô cùng quan trọng, con người thường phải đối mặt trong mọi lĩnh vực của đời sống. Nghiên cứu các phương pháp phân lớp vì thế từ lâu đã trở thành lĩnh vực khoa học thu hút sự quan tâm của nhiều nhà nghiên cứu. Cho đến nay, nhiều phương pháp tiếp cận bài toán phân lớp đã được đề xuất. Tuy nhiên, trong những năm gần đây, nhu cầu giải quyết các vấn đề phân lớp phức tạp xuất hiện ngày một nhiều, các phương pháp thống kê toán học tỏ ra kém hiệu quả. Mặt khác, trong vài ba thập niên vừa qua, khả năng lưu trữ và xử lý dữ liệu của máy tính không ngừng được nâng cao, con người sở hữu ngày một nhiều những cơ sở dữ liệu lớn, chứa đựng những tri thức 2 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ hữu ích. Thực tế này đòi hỏi con người phải “Tìm cách dạy cho máy tính biết khai thác những khối tri thức khổng lồ mà con người có được, từ đó làm cho nó có thể nhận biết các sự kiện, bày tỏ cảm xúc với con người, có thể trả lời các câu hỏi một cách thông minh” [4]. Do đó, nhiều lĩnh vực khoa học mới đã ra đời: Học máy (Machine Learning) hay còn gọi là Học thống kê (Statistical Learning), Khai phá dữ liệu, Lý thuyết tập thô, … . Các lĩnh vực khoa học mới này nhằm giải quyết nhiều vấn đề khác nhau của khoa học máy tính, trong đó có bài toán quy nạp quy tắc quyết định. Lý thuyết tập thô, do Z. Pawlak đề xuất vào những năm đầu thập niên tám mươi thế kỷ hai mươi, là một công cụ toán học nhằm xử lý những sự mơ hồ, không chắc chắn trong khai phá dữ liệu. Lý thuyết tập thô bắt nguồn từ quan sát rằng các đối tượng trong một quần thể nào đó có thể là bất khả phân biệt do thông tin có được về chúng bị hạn chế. Do đó, sẽ tồn tại những khái niệm (là những tập các đối tượng trong lý thuyết tập thô) không thể định nghĩa được một cách chính xác thông qua những thông tin có sẵn có mà chỉ có thể định nghĩa một cách xấp xỉ. Với lý do đó, Pawlak đã đề xuất khái niệm “tập thô”. Tập thô được đặc trưng bởi một cặp khái niệm chính xác gọi là xấp xỉ dưới và xấp xỉ trên. Xấp xỉ dưới của một khái niệm X là tập tất cả các đối tượng trong U chắc chắn thuộc X , còn xấp xỉ trên là tập các đối tượng trong U có thể thuộc X dựa trên những thông tin từ tập dữ liệu. Các nghiên cứu gần đây cho thấy Lý thuyết tập thô có thể được coi như là cơ sở lý thuyết để giải quyết hiệu quả một số vấn đề quan trọng trong học máy, khai phá dữ liệu, trí tuệ nhân tạo. Các vấn đề quan trọng nhất bao gồm: tìm kiếm mô tả cho các tập các đối tượng thông qua các giá trị thuộc tính, kiểm tra phụ thuộc (hoàn toàn hay một phần) giữa các thuộc tính, rút gọn [...]... tính, phân tích mức ý nghĩa của các thuộc tính, quy nạp quy tắc phân lớp từ cơ sở dữ liệu mẫu Luận văn nhằm nghiên vấn đề quy nạp quy tắc phân lớp sử dụng cơ sở toán học của lý thuyết tập thô Nội dung luận văn gồm 3 chương: Chương 1 trình bày tổng quan về khai phá dữ liệu và bài toán phân lớp Chương 2 nghiên cứu cơ sở lý thuyết tập thô Chương 3 trình bày các thuật toán quy nạp quy tắc phân lớp sử dụng lý. .. thuật toán quy nạp quy tắc phân lớp sử dụng lý thuyết tập thô, gồm 3 loại: thuật toán quy nạp bộ quy tắc tối tiểu, thuật toán quy nạp bộ tất cả các quy tắc có thể và thuật toán quy nạp bộ quy tắc đáp ứng yêu cầu người sử dụng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 4 Chương 1 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LỚP 1.1 Khái quát về khai phá dữ liệu 1.1.1... tiếp cận phổ biến để giải quy t bài toán phân lớp Đầu tiên, cung cấp một tập đối tượng huấn luyện bao gồm các tập đối tượng mà nhãn lớp đã được xác định Tập huấn luyện này được sử dụng để xây dựng mô hình phân lớp rồi sau đó áp dụng cho các tập đối tượng kiểm tra, tập này bao gồm các tập đối tượng chưa xác định nhãn lớp Việc đánh giá một mô hình phân lớp dựa trên số lượng tập kiểm tra mà mô hình dự... định càng tốt) rằng một đối tượng nào đó thuộc tập hợp hay không Lý thuyết tập thô với cách tiếp cận như vậy đã được ứng dụng trong rất nhiều lĩnh vực của đời sống xã hội Trong chương này chúng ta sẽ nghiên cứu các khái niệm và ý nghĩa cơ bản của lý thuyết tập thô Đây là những kiến thức quan trọng cho việc áp dụng tập thô vào bài toán quy nạp các quy tắc phân lớp được đề cập trong chương 3 Số hóa bởi Trung... người sử dụng và kết hợp với các tri thức đã có Tích hợp với các hệ thống khác… 1.2 Bài toán phân lớp 1.2.1 Phát biểu bài toán Chúng ta hiểu bài toán phân lớp ở đây là bài toán phân lớp có giám sát Bài toán phân lớp là bài toán tìm quy tắc xếp các đối tượng đã cho vào một trong các lớp đã được định nghĩa trước dựa vào một tập đối tượng mẫu (tập đối tượng huấn luyện) Bài toán phân lớp có rất nhiều ứng dụng. .. chỉ ra nhãn lớp của dữ liệu Đó là đặc điểm chính để phân biệt bài toán phân lớp so với bài toán hồi quy, bài toán dự đoán trong đó y là một thuộc tính liên tục Định nghĩa 1.1 (Phân lớp) Phân lớp là việc phát hiện ra hàm mục tiêu f, ánh xạ từ tập các thuộc tính x lên tập các nhãn lớp đã được định nghĩa trước y dựa vào một tập đối tượng mẫu (tập đối tượng huấn luyện) Hình 1.2 Bài toán phân lớp Hàm mục... nói rằng các đối tượng này không phân biệt từng đôi đối với thuộc tính {Age, LEMS} Trong nhiều ứng dụng, tập vũ trụ được chia thành các tập đối tượng con bởi một tập các thuộc tính phân biệt được gọi là tập thuộc tính quy t định Nói cách khác tập vũ trụ đã được phân lớp bởi tập thuộc tính quy t định Hệ thông tin trong trường hợp này được gọi là một hệ quy t định hay bảng quy t Số hóa bởi Trung tâm Học... tượng thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện với thông tin về nhãn lớp đã biết Nếu căn cứ vào các lớp bài toán cần giải quy t, thì khai phá dữ liệu bao gồm các kỹ thuật sau: Phân lớp và dự đoán (classification and prediction): Là việc xếp các đối tượng vào những lớp đã biết trước Ví dụ, phân lớp các bệnh nhân, phân lớp các loài thực vật, Hướng tiếp cận này thường sử dụng một số kỹ... trợ quy t định, lập luận dựa trên quy nạp và nhận dạng [1,3,7] Lý thuyết tập thô dựa trên giả thiết rằng đề định nghĩa một tập hợp, chúng ra cần phải có thông tin về mọi đối tượng trong tập vũ trụ Ví dụ, nếu các đối tượng là những bệnh nhân bị một bệnh nhất định thì các triệu chứng của bệnh tạo thành thông tin về bệnh nhân Như vậy tập thô có quan điểm hoàn toàn khác với quan điểm truyền thống của tập. .. thúc 2.3.4 Xấp xỉ tập hợp Như trên đã nói, một quan hệ tương đương cho ta một sự phân hoạch các đối tượng của tập vũ trụ Các lớp tương đương này có thể được sử dụng để tạo nên các tập con của tập vũ trụ Các tập con này thường chứa các đối tượng có cùng giá trị tại các tập thuộc tính quy t định Trong trường hợp này ta nói rằng các khái niệm, hay tập các giá trị tại các tập thuộc tính quy t định, Số hóa

Ngày đăng: 11/01/2015, 18:31

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan