DSpace at VNU: Ứng dụng cây quyết định mờ trong khai phá dữ liệu

15 136 0
DSpace at VNU: Ứng dụng cây quyết định mờ trong khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CAO HÙNG CƯỜNG ỨNG DỤNG CÂY QUYẾT ĐỊNH MỜ TRONG KHAI PHÁ DỮ LIỆU Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS HỒ THUẦN Hà Nội - 2007 MỤC LỤC DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU .5 CHƢƠNG 1.1 LÝ THUYẾT KHAI PHÁ DỮ LIỆU .7 Giới thiệu tổng quan khai phá liệu 1.1.1 Quy trình khai phá tri thức 1.1.2 Các kỹ thuật khai phá liệu 1.1.2.1 Kỹ thuật tiền xử lý 1.1.2.2 Kỹ thuật học có giám sát .9 1.1.2.3 Kỹ thuật học khơng có giám sát 1.2 Bài toán học có giám sát 1.3 Cây định Error! Bookmark not defined 1.3.1 hình toán học định Error! Bookmark not defined 1.3.2 Cấu trúc chung giải thuật định Error! Bookmark not defined 1.3.3 Giải thuật ID3 Error! Bookmark not defined 1.4 1.3.3.1 Giới thiệu Error! Bookmark not defined 1.3.3.2 Mã giả Error! Bookmark not defined 1.3.3.3 Yếu điểm Error! Bookmark not defined Tập mờ Error! Bookmark not defined 1.4.1 Khái niệm tập mờ Error! Bookmark not defined 1.4.2 Logic mờ Error! Bookmark not defined 1.4.3 Hệ thống suy luận mờ Error! Bookmark not defined 1.5 Cây định mờ Error! Bookmark not defined 1.6 Kết luận chƣơng Error! Bookmark not defined 3 CHƢƠNG THUẬT TOÁN QUY NẠP CÂY QUYẾT ĐỊNH MỜ Error! Bookmark not defined 2.1 Biểu diễn nhận thức không chắn toán phân loại Error! Bookmark not defined 2.1.1 Bài toán phân loại cổ điển Error! Bookmark not defined 2.1.2 Tính hồ nhập nhằng toán phân loại Error! Bookmark not defined 2.1.3 Lý thuyết tập mờ Error! Bookmark not defined 2.1.4 Bài toán phân loại mờ Error! Bookmark not defined 2.2 Định lƣợng nhận thức không chắn Error! Bookmark not defined 2.2.1 Đo tính hồ Error! Bookmark not defined 2.2.2 Phân bố khả độ đo nhập nhằng Error! Bookmark not defined 2.3 Luật phân loại mờ nhập nhằng phân loại Error! Bookmark not defined 2.3.1 Luật mờ mức độ xác luật mờ Error! Bookmark not defined 2.3.2 Khả phân loại với chứng mờ Error! Bookmark not defined 2.3.3 Nhập nhằng phân loại với chứng mờ phân vùng mờ Error! Bookmark not defined 2.4 Quy nạp định mờ Error! Bookmark not defined 2.4.1 Tƣ tƣởng thuật toán Error! Bookmark not defined 2.4.2 Mờ hóa liệu huấn luyện Error! Bookmark not defined 2.4.3 Quy nạp định mờ Error! Bookmark not defined 2.4.4 Chuyển định thành tập luật phân loại Error! Bookmark not defined 2.4.5 Áp dụng luật cho phân loại Error! Bookmark not defined 4 2.5 Kết luận chƣơng Error! Bookmark not defined CHƢƠNG CÀI ĐẶT THUẬT TOÁN Error! Bookmark not defined 3.1 Mã giả thuật toán Error! Bookmark not defined 3.2 Kết luận chƣơng Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Các bƣớc quy trình khai phá tri thức Hình 1.2: Ngƣời chơi tennis 12 Hình 1.3: Cây định đƣợc xây dựng ID3 21 Hình 2.1: Một tập ví dụ huấn luyện 46 Hình 2.2: Cây định mờ đƣợc xây dựng từ thuật toán 60 Hình 2.3: Kết học từ tập ví dụ huấn luyện 63 MỞ ĐẦU Trong vài thập kỷ gần đây, với phát triển nhanh chóng cơng nghệ, mà định luật Moore minh chứng, bùng nổ chóng mặt lƣợng thơng tin giới Các công cụ lƣu trữ thông tin cổ điển nhƣ sổ sách, tài liệu khơng đáp ứng đƣợc nhu cầu lƣu trữ thông tin việc sử dụng công cụ lƣu trữ thông tin nhƣ băng từ, ổ cứng, điều tất yếu Bên cạnh phát triển nhanh chóng dung lƣợng nhƣ độ tin cậy thiết bị kỹ thuật số nhằm lƣu trữ thông tin, câu hỏi đƣợc đặt làm để xử lý lƣợng thông tin khổng lồ đó? Rõ ràng việc xử lý thơng tin nhằm rút tri thức nằm vƣợt khả xử lý đơn ngƣời Ví dụ nhƣ chuyên gia phân tích thị trƣờng hàng năm trời để tính tốn hình định dựa hàng ngàn thơng số liệu thị trƣờng thay đổi nhanh chóng đòi hỏi phải định kịp thời Chính ngƣời ta nghĩ đến việc xử lý liệu tự động máy tính nhằm khai thác tri thức tiềm ẩn bên Điều tảng đời môn khoa học đƣợc gọi khai phá liệu Khai phá liệu đƣợc ứng dụng vào nhiều mặt sống, kể đến số ứng dụng nhƣ:  Y học: phân tích phản ứng phụ thuốc, phân tích gen, chẩn đốn bệnh,  Tài chính: phán đốn xu hƣớng thị trƣờng chứng khoán, phát gian lận tài chính,  Phân tích xu hƣớng mua, phán đốn tâm lý khách hàng,  Kỹ thuật số: mã hóa liệu, ƣớc lƣợng thơng tin, Trong khuôn khổ luận văn bảo vệ thạc sĩ Công Nghệ Thông Tin trƣờng Đại Học Quốc Gia Hà Nội, định chọn hƣớng nghiên cứu kết hợp kỹ thuật định với độ đo mờ áp dụng vấn đề khai phá liệu Luận văn đƣợc tổ chức thành chƣơng với nội dung nhƣ sau Chƣơng tả lý thuyết khai phá liệu, định độ đo mờ nói chung Chƣơng trình bày thuật toán quy nạp định mờ đƣa ƣu khuyết điểm thuật toán Chƣơng giới thiệu chƣơng trình thuật tốn quy nạp xây dựng định mờ Em xin chân thành gửi lời cảm ơn PGS TS Hồ Thuần, thầy cô giáo trƣờng Đại học Công nghệ, anh chị đồng nghiệp bạn lớp trang bị kiến thức có nhiều đóng góp quý báu giúp em hoàn thành luận văn 8 CHƯƠNG LÝ THUYẾT KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu tổng quan khai phá liệu 1.1.1 Quy trình khai phá tri thức Ngƣời ta coi khai phá liệu bƣớc trình phát tri thức Quy trình phát tri thức bao gồm bƣớc sau: Tìm hiểu lĩnh vực áp dụng, thông tin liên quan đến vấn đề cần giải xác định mục tiêu trình khai phá tri thức dƣới quan điểm ngƣời sử dụng Tạo tập liệu đích cách lựa chọn liệu sử dụng tập trung vào tập biến liệukhai phá tri thức đƣợc thực Áp dụng kỹ thuật tiền xử lý nhằm loại bỏ nhiễu, tập hợp thông tin cần thiết dùng để hình hóa, lựa chọn chiến lƣợc xử lý thông tin bị thiếu thông tin thời gian thực Giảm số chiều không gian liệu, tìm thuộc tính quan trọng mục tiêu phát tri thức cách chuyển sang không gian Áp dụng kỹ thuật khai phá liệu tƣơng ứng với mục đích đề Điều đồng nghĩa với việc lựa chọn hình tri thức giới Sau bƣớc này, tri thức ẩn chứa hình lựa chọn tham số tìm thấy hình 9 Cuối việc đánh giá kết thu đƣợc chuyển sang dạng thơng tin hiểu đƣợc cho ngƣời sử dụng Hình 1.1 tóm lƣợc giai đoạn trình khai phá tri thức Hình 1.1: Các bước quy trình khai phá tri thức 1.1.2 Các kỹ thuật khai phá liệu  Các kỹ thuật tiền xử lý  Các kỹ thuật học có giám sát  Các kỹ thuật học khơng có giám sát 1.1.2.1 Kỹ thuật tiền xử lý Các kỹ thuật tiền xử lý kỹ thuật dùng để chuyển liệu sang dạng tạo điều kiện dễ dàng cho q trình xử lý Ví dụ nhƣ việc loại bỏ nhiễu liệu, loại bỏ liệu thừa, giảm chiều liệu nhằm giảm độ phức tạp tốn, chuyển liệu sang khơng gian để làm bật chiều quan trọng, Một số ví dụ kỹ thuật tiền xử lý nhƣ kỹ thuật phân tích thành phần nhằm giảm số chiều liệu, kỹ thuật 10 bootstrap nhằm sinh thêm liệu cho toán liệu đầu vào ít, kỹ thuật rời rạc hóa liệu để xử lý vấn đề thuộc tính liên tục, 1.1.2.2 Kỹ thuật học có giám sát Khai phá liệu chất nhằm xây dựng hình giới thực dựa liệu đƣợc cung cấp Với kỹ thuật học có giám sát, hình dung hình giới nhƣng khơng biết đƣợc tham số hình Dữ liệu đƣợc cung cấp bao gồm đầu vào đầu hình Từ liệu đầu vào đầu này, điều chỉnh tham số hình, cố gắng xấp xỉ liệu cho cách tốt Các kỹ thuật thuộc nhóm kể đến định, mạng neuron lan truyền ngƣợc, kỹ thuật hồi quy, lọc tối ƣu, 1.1.2.3 Kỹ thuật học khơng có giám sát Tuy nhiên đầu liệu không đƣợc cho trƣớc, xử lý liệu hoàn toàn dựa thuộc tính liệu cho Nhiệm vụ lúc nhằm tách phân bố liệu cách độc lập dựa độ đo cho trƣớc 1.2 Bài tốn học có giám sát Trong phần này, kỹ thuật học có giám sát đƣợc trình bày chi tiết Bài tốn học có giám sát kỹ thuật cho phép xây dựng hàm từ liệu huấn luyện Dữ liệu huấn luyện bao gồm đối tƣợng đầu vào đầu mong muốn Từ liệu huấn luyện, hình học đƣợc tạo Sau đó, liệu khác gọi liệu kiểm thử đƣợc đƣa vào nhằm đánh giá độ xác hình vừa xây dựng Chúng ta hình tốn học có giám sát toán học nhƣ sau: 11 Cho trƣớc cặp (xi, yi) Mối quan hệ x y hàm số f mà ta trƣớc Bài tốn đặt tìm cách xây dựng ƣớc lƣợng y biết x cách tốt từ cặp (xi, yi) Đầu tiên ta xét trƣờng hợp giá trị đầu liên tục, tốn học có giám sát có tên gọi tốn hồi quy Chúng ta đặt tên cho ƣớc lƣợng ^ ^ cần tìm f Khi với giá trị x, sai số ƣớc lƣợng f y là: ^  x  f ( x)  y (1.1) Với định nghĩa  , tìm cách trả lời câu hỏi quan trọng, tốt nhất? Có nhiều định nghĩa tốt ƣớc lƣợng, phổ biến tiêu chuẩn bình phƣơng tối thiểu:   ^ E  x2   f ( x)  y p( x)dx (1.2) x với p(x) hàm phân bố x miền giá trị E tốn tử kỳ vọng Các giải thuật tìm cách tối thiểu hàm E x2  Thế nhƣng thực tế khơng biết xác phân bố x nhƣ vét cạn giá trị x Tất thơng tin có gói gọn cặp số (x i, yi) Thế nên thông thƣờng ngƣời ta hi vọng tối ƣu công thức 1.2 cách tối ƣu công thức sau: ^ Minimize G   f ( xi )  yi i Tuy nhiên đạt đƣợc tối ƣu với công thức 1.2 (G = 0) khơng đồng nghĩa với việc đạt đƣợc tối ƣu với công thức 1.2 ( E x2 ) 12 TÀI LIỆU THAM KHẢO [1] R.L.P Chang and T Pavlidis, Fuzzy decision tree algorithms, IEEE Trans Systems Man Cybernet SMC-7 (1977) 28 35 [2] K.J Cios and L.M Sztandera, Continuous ID3 algorithm with fuzzy entropy measures, Proc IEEE lnternat Con/i on Fuzz Systems (San Diego, CA, 12 March 1992) 469 476 [3] M.R Civanlar and H.J Trussell, Constructing membership functions using statistical data, Fuzzy Sets and Systems 18 (1986) 14 [4] A De Luca and S Termin, A definition of a nonprobabilistic entropy in the setting of fuzzy sets theory, InJorm and Control 20 (1972) 301-312 [5] M.M Gupta, Twenty-five years of fuzzy sets and systems: A tribute to Professor Lotfi A Zadeh, Fuzzy Sets and Systems 40 (1991) 409-413 [6] C Hagg, Possibility and cost in decision analysis, Fuzzy Sets and Systems (1978) 81 86 [7] M Higashi and G.J Klir, Measures of uncertainty and information based on possibility distributions, lnternat J Gen Systems (1983) 43 58 [8] G.J Klir, Where we stand on measures of uncertainty, ambiguity, fuzziness and the like? Fuzzy Sets and Systems 24 (1987) 141 160 13 [9] G.J Klir, and T.A Folger, Fuzzy Sets, Uncertainty, and lnformation (Prentice-Hall, Englewood Cliffs, N J, 1988) [10] G.J Klir and M Mariano, On the uniqueness of possibilistic measure of uncertainty and information, Fuzzy Sets and Systems 24 (1987) 197-219 [11] T Kohonen, Self-Organization and Associative Memory (Springer, Berlin, 1988) [12] B Kosko, Fuzzy entropy and conditioning, Inform Sci 30 (1986) 165 174 [13] B Kosko, Neural Networks and Fuzzy Systems (Prentice-Hall, Englewood Cliffs, N J, 1992) [14] C.C Lee, Fuzzy logic in control systems: fuzzy logic controller, Part II, IEEE Trans Systems Man Cybernet 20 (1990) 419-435 [15] C.-T Lin and C.S.G Lee, Neural-network-based fuzzy logic control and decision system, IEEE Trans Comput 12 (1991) 1320-1336 [16] W Meier, R Weber and H.-J Zimmermann, Fuzzy data analysis - methods and industrial applications, Fuzzy Sets and Systems 61 (1994) 19-28 [17] J.R Quinlan, Induction of decision trees, Mach Learning 1(1)(1986) 81 106 [18] J.R Quinlan, Decision trees as probabilistic classifiers, Proc 4th lnternat Workshop on Machine Learning (Morgan Kauffman, LosAltos, CA, 1987) 31 37 14 [19] J.R Quinlan, Simplifying decision trees, lnternat J Man Mach Studies 27 (1987) 221 234 [20] J.R Quinlan, Decision trees and decision making, 1EEE Trans Systems Man Cybernet 20 (1990) 339 346 [21] D Ruan and E.E Kerre, Fuzzy implication operators and generalized fuzzy method of cases, Fuzzy Sets and Systems 54 (1993) 23-37 [22] S.R Safavian and D Landgrebe, A survey of decision tree classifier methodology, IEEE Trans Systems Man Cybernet 21 (1991) 66(~674 [23] C.E Shannon, A mathematical theory of communication, Bell System Tech J 27 (1948) 379 423; 623-656 [24] T Tani and M Sakoda, Fuzzy modeling by ID3 algorithm and its application to prediction of heater outlet Nhiệt độ, Proc.IEEE lnternat Conj' on Fuzz), Systems (San Diego, CA, 8-12 March 1992) 923 930 [25] R Weber, Automatic knowledge acquisition for fuzzy control applications, Proc lnternat Symp on Fuzzy Systems (lizuka, Japan, 12 15 July 1992) 12 [26] R Weber, Fuzzy-ID3: a class of methods for automatic knowledge acquisition, Proc 2nd Internat (lizuka, Japan, 17 22 July 1992) 265 268 [27] L.A Zadeh, Fuzzy Sets, Inform and Control (1965) 338 353 15 [28] L.A Zadeh, Fuzzy Sets as a basis for a theory of possibility, Fuzzy Sets and Systems (1978) 28 [29] trees Yufei Yuan, Michael J.Shaw, Induction of fuzzy decision ... 8 CHƯƠNG LÝ THUYẾT KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu tổng quan khai phá liệu 1.1.1 Quy trình khai phá tri thức Ngƣời ta coi khai phá liệu bƣớc trình phát tri thức Quy trình phát tri thức bao gồm... học đƣợc gọi khai phá liệu Khai phá liệu đƣợc ứng dụng vào nhiều mặt sống, kể đến số ứng dụng nhƣ:  Y học: phân tích phản ứng phụ thuốc, phân tích gen, chẩn đốn bệnh,  Tài chính: phán đốn xu... .5 CHƢƠNG 1.1 LÝ THUYẾT KHAI PHÁ DỮ LIỆU .7 Giới thiệu tổng quan khai phá liệu 1.1.1 Quy trình khai phá tri thức 1.1.2 Các kỹ thuật khai phá liệu 1.1.2.1 Kỹ thuật

Ngày đăng: 18/12/2017, 05:08

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan