Sử dụng cây quyết định trong khai phá dữ liệu

73 368 0
Sử dụng cây quyết định trong khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

http://www.ictu.edu.vn MỤC LỤC http://www.ictu.edu.vn ii DANH MỤC CÁC BẢNG VÀ CÁC HÌNH TRONG LUẬN VĂN Danh mục bảng Danh mục hình http://www.ictu.edu.vn LỜI MỞ ĐẦU Ngày lĩnh vực khoa học kỹ thuật ngày phát triển mạnh mẽ Đặc biệt nghành khoa học máy tính phát triển, ứng dụng nhiều lĩnh vực khác sống như: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dựng… Với bùng nổ phát triển công nghệ thông tin năm gần đây, mang lại nhiều hiệu khoa học hoạt động thực tế, phát triển mạnh mẽ công nghệ thông tin làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách nhanh chóng, lượng liệu mà lưu trữ trở nên nhiều, gây lung túng cho việc lấy thông tin hữu ích Do vậy, cần có kỹ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức hữu ích Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thu hút nhiều nhà khoa học quan tâm nghiên cứu nhờ vào ứng dụng cao thực tiễn sống Với hàng loạt công trình nghiên cứu, giải pháp thử nghiệm ứng dụng thành công vào đời sống chứng minh khai phá liệu lĩnh vực nghiên cứu có tảng lý thuyết vững Một phương pháp khai phá liệu có hiệu quả, ứng dụng nhiều vấn đề quan trọng nhiều nhà khoa học nghiên cứu nhiều năm qua phương pháp Cây định Với khả ứng dụng thiết thực vào đời sống xã hội phương pháp này, với niềm say mê khám phá lĩnh vực khoa học công nghệ có nhiều triển vọng, chọn hướng nghiên cứu đề tài “Sử dụng định khai phá liệu” cho luận văn Luận văn xây dựng tổng hợp nội dung dựa số nghiên cứu chủ yếu lĩnh vực khai phá liệu nhà nghiên cứu năm gần số hội nghị quốc tế số báo công bố tạp chí chuyên nghành, Internet… Luận văn bao gồm nội dung sau: http://www.ictu.edu.vn Chương 1: Tìm hiểu kiến thức tổng quan khai phá liệu Chương trình bày nét khái quát khai phá liệu, khai phá liệu trình phát tri thức, hướng tiếp cận, lĩnh vực ứng dụng, trình bày số kỹ thuật áp dụng việc khai phá liệu sử dụng thời gian qua Chương 2: Kỹ thuật khai phá liệu sử dụng định Chương trình bày phương pháp khai phá liệu định sử dụng qua thuật toán CLS, thuật toán ID3, thuật toán C4.5 Chương 3: Cài đặt thử nghiệm Chương trình bày giải toán khai phá liệu định Cài đặt mô thuật toán ID3 Kết luận hướng phát triển Tài liệu tham khảo http://www.ictu.edu.vn Chương 1: TÌM HIỂU NHỮNG KIẾN THỨC TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tính cấp bách việc khai phá liệu Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu thu thập, tích luỹ ngày nhiều lên Người ta lưu trữ liệu cho ẩn chứa giá trị Tuy nhiên, có lượng nhỏ liệu phân tích, sử dụng cách hiệu Số lại phải làm việc thu thập, lưu trữ tốn diễn thường xuyên lo ngại dung đến chúng lúc Mặt khác, môi trường cạnh tranh, ngày cần có thông tin với tốc độ nhanh để trợ giúp cho việc định Ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng khổng lồ liệu có Như vậy, bên cạnh chức khai phá liệu có tính chất tác nghiệp, ứng dụng kinh doanh không liệu đơn hệ thống mà sở liệu cần đem lại “tri thức” liệu Với lý vậy, phương pháp quản trị, khai thác sở liệu truyền thống, ngôn ngữ hỏi ngày không đáp ứng yêu cầu đặt Để lấy thông tin có tính “tri thức” khối liệu khổng lồ này, người ta tìm kỹ thuật có khả hợp liệu từ hệ thống liệu khác nhau, chuyển đổi thành tập hợp sở liệu ổn định, có chất lượng sử dụng riêng cho vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (Data Warehousing) môi trường liệu gọi kho liệu Tuy nhiên, việc sử dụng cách khai thác liệu theo khai thác truyền thống dừng lại cách khai thác liệu với kỹ thuật cao để đưa http://www.ictu.edu.vn liệu tinh xác chưa đưa liệu mang tính ‘tri thức” Kho liệu sử dụng để hỗ trợ cho phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết hay sai đưa giả thuyết Kỹ thuật học máy đưa giả thuyết khả lại hạn chế tập liệu lớn kho liệu Phương pháp thống kê cải tiến để phù hợp với phát triển liệu Đây lý khối lượng lớn liệu chưa khai thác chí lưu chủ yếu kho liệu không trực tuyến Điều tạo nên lỗ hổng lớn việc hỗ trợ phân tích tìm hiểu liệu, tạo khoảng cách việc tạo liệu việc khai thác liệu Trong đó, ngày người ta nhận thấy phân tích thông minh liệu nguồn tài nguyên quí cạnh tranh thương trường Một giải pháp công nghệ nghiên cứu, đáp ứng nhu cầu khoa học hoạt động thực tiễn Đó công nghệ phát tri thức khai phá liệu (Knowledge Discovery and Data Mining – KDD) 1.2 Mục tiêu khai phá liệu Trong thập niên gần đây, lượng thông tin lưu trữ thiết bị đĩa cứng, CD-ROM, băng từ,….không ngừng tăng lên Sự tích luỹ liệu xẩy với tốc độ chóng mặt Nguời ta ước đoán, lượng thông tin toàn cầu tăng khoảng gấp đôi sau hai năm Đồng thời theo đó, số lượng dung lượng sở liệu tăng lên cách nhanh chóng Trong lĩnh vực kinh doanh, nhà quản lý thực ngập liệu lại cảm thấy thiếu tri thức thông tin hữu ích Lượng liệu khổng thực trở thành nguồn tài nguyên giá trị thông tin yếu tố then chốt hoạt động thương mại thông tin giúp người điều hành nhà quản lý có nhìn sâu sắc, xác, khách quan vào tiến trình kinh doanh doanh nghiệp trước định Việc khai thác thông tin tiềm ẩn mang tính dự đoán từ sở liệu lớn mục tiêu khai phá liệu Những http://www.ictu.edu.vn công cụ khai phá liệu dự đoán xu hướng tương lai cho phép tổ chức, doanh nghiệp định kịp thời định hướng tri thức mà công nghệ khai phá liệu đem lại Sự phân tích liệu cách tự động mang tính dự báo khai phá liệu khiến có ưu hẳn so với phân tích thông thường dựa kiện khứ hệ hỗ trợ định truyền thống trước Công cụ khai phá liệu trả lời câu hỏi lĩnh vực kinh doanh mà trước xem tốn nhiều thời gian để xử lý Với tất ưu trên, khai phá liệu chứng tỏ tính hữu dụng môi trường kinh tế, xã hội đầy tính cạnh tranh ngày Giờ khai phá liệu trở thành hướng nghiên cứu lĩnh vực khoa học máy tính công nghệ tri thức Phạm vi ứng dụng ban đầu khai phá liệu lĩnh vực thương mại tài Nhưng ngày nay, khai phá liệu ứng dụng rộng rãi lĩnh vực khác như: Tin sinh học, điều trị y học, viễn thông, giáo dục, trí tuệ nhân tạo, sở liệu, thuật toán học, thu thập tri thức cho hệ chuyên gia Đặc biệt, khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mô hình liệu phát luật… Qua nội dung trình bày trên, hiểu cách sơ lược khai phá liệu trình tìm kiếm thông tin hữu ích, tiềm ẩn mang tính dự báo sở liệu lớn Khai phá liệu cốt lõi trình khám phá tri thức Khai phá liệu nhằm tìm mẫu mới, mẫu có tính chất không tầm thường, thông tin tiềm ẩn mang tính dự động chưa biết đến có khả mang lại ích lợi http://www.ictu.edu.vn 1.3 Quá trình phát tri thức Quá trình phát tri thức tiến hành qua bước sau: Hình thành Định nghĩa toán Thu thập Tiền xử lý liệu Khai phá liệu Rút tri thức Phân tích kiểm định kết Sử dụng tri thức phát Hình 1.1: Quá trình phát tri thức Bước 1: Hình thành định nghĩa toán Đây bước tìm hiểu lĩnh vực ứng dụng hình thành toán, định cần rút tri thức dạng nào, đồng thời lựa chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước 2: Thu thập tiền xử lý liệu Bước thứ hai thu thập xử lý thô gọi tiền xử lý liệu nhằm loại bỏ nhiễu xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết Bước xử lý thường chiếm nhiều thời gian trình phát tri thức Bước 3: Khai phá liệu rút tri thức Bước thứ khai phá liệu hay nói cách khác trích mẫu hoặc/ mô hình ẩn liệu Đây bước quan trọng tiến trình phát tri thức Bước 4: Phân tích kiểm định kết quả: Bước thứ tư hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đoán Trong bước này, kết tìm biến đổi sang dạng phù hợp với lĩnh vực ứng dụng dễ hiểu cho người dùng http://www.ictu.edu.vn Bước 5: Sử dụng tri thức phát Trong bước này, tri thức khám phá củng cố, kết hợp lại thành hệ thống, đồng thời giải xung đột tiềm tri thức Các mô hình rút đưa vào hệ thống thông tin thực tế dạng môdun hỗ trợ việc đưa định Các giai đoạn trình phát tri thức có mối quan hệ chặt chẽ với bối cảnh chung hệ thống Các kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn Các bước trình phát tri thức lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực 1.4 Quá trình khai phá liệu Khai phá liệu khái niệm đời vào năm cuối thập kỹ 1980 Nó trình khám phá thông tin ẩn tìm thấy sở liệu xem bước trình khám phá tri thức Data Mining giai đoạn quan trọng tiến trình khai phá tri thức từ sở liệu, tri thức hỗ trợ việc định khoa học kinh doanh Quá trình khai phá liệu thực qua giai đoạn Hình 1.2 Hình 1.2 Quá trình khai phá liệu Quá trình khai phá liệu bắt đầu với kho liệu thô kết thúc với tri thức chiết xuất Về lý thuyết có lẽ đơn giản thực http://www.ictu.edu.vn trình khó khăn gặp phải nhiều vướng mắc như: quản lý tập liệu, phải lặp lặp lại toàn trình,.v v Giai đoạn 1: Gom liệu (gathering) Tập hợp liệu bước khai phá liệu Bước lấy liệu từ sở liệu, kho liệu chí liệu từ nguồn cung ứng web Giai đoạn Trích lọc liệu (selection) Ở giai đoạn liệu lựa chọn phân chia theo số tiêu chuẩn đó, ví dụ chọn tất người có tuổi đời từ 30-35 có trình độ đại học Giai đoạn Làm tiền xử lý liệu (cleansing, pre-processing preparation) Giai đoạn thứ ba giai đoạn hay bị lãng, thực tế bước quan trọng trình khai phá liệu Một số lỗi thường mắc phải gom liệu liệu không đầy đủ không thống nhất, thiếu chặt chẽ Vì liệu thường chứa giá trị vô nghĩa khả kết nối lại với Ví dụ Sinh viên có tuổi = 155 Giai đoạn thứ ba nhằm xử lý dạng liệu không chặt chẽ nói Những liệu dạng thường xem thông tin dư thừa, giá trị Bởi vậy, trình quan trọng Nếu liệu không “làm - tiền xử lý - chuẩn bị trước” gây nên kết sai lệch nghiêm trọng sau Giai đoạn Chuyển đổi liệu (transformation ) Trong giai đoạn này, liệu tổ chức sử dụng lại Mục đích việc chuyển đổi liệu làm cho liệu phù hợp với mục đích khai phá Giai đoạn Phát trích mẫu liệu (pattern extraction and discovery) Đây bước mang tính tư khai phá liệu Ở giai đoạn nhiều thuật toán khác sử dụng để trích mẫu từ liệu Thuật toán thường dùng để trích mẫu liệu thuật toán phân loại liệu, kết hợp liệu, thuật toán mô hình hoá liệu tuần tự… http://www.ictu.edu.vn - 57 Tài thị trường chứng khoán: Khai phá liệu dung để phân tích tình hình tài chính, phân tích đầu tư, phân tích cổ phiếu - Khai thác liệu Web - Trong thông tin thương mại: dung để phân tích liệu người dung, phân tích liệu marketing, phân tích đầu tư, phát gian lận http://www.ictu.edu.vn 58 Chương 3: CÀI ĐẶT THỬ NGHIỆM Ở Chương 2, luận văn trình bày việc khái phá liệu phương pháp sử dụng định Để minh họa cho lý thuyết trình bày luận văn, phần luận văn trình bày trình xây dựng cài đặt toán mô kỹ thuật khai phá liệu định dựa thuật toán ID3 Mục đích chương trình mô cho phần lý thuyết sở liệu sử dụng chương trình tập mẫu nhỏ Chương trình xây dựng thử nghiệm ngôn ngữ lập trình Microsoft Visual C#.Net 3.1 Thiết kế tổng thể Hình 3.1 Giao diện giới thiệu chương trình http://www.ictu.edu.vn 59 3.2 Chuẩn bị liệu Dùng thuật toán ID3 để tìm luật phân lớp cho mối liên hệ triệu chứng bệnh nhân để chuẩn đoán bệnh - nhiễm cúm H1N1? bảng liệu cho Vào: Tập liệu giấu hiệu, triệu chứng Đầu, Mũi, Cổ họng, Cơ thể bệnh nhân Dữ liệu nhập bảng tính điện tử Microsoft Excel, lưu ổ C:/> với tên data.xls Ra: Một định chuẩn đoán bệnh Ngôn ngữ: Microsoft Visual C#.Net Tệp liệu chương trình bảng tổng hợp liệu giấu hiệu bệnh nhân nhiễm cúm H1N1 Trong bảng thuộc tính Đầu, Mũi, Cổ họng, Cơ thể thuộc tính ứng viên dùng để xét, thuộc tính Result thuộc tính định dùng để phân lớp mẫu liệu ĐẦU MŨI CỔ_HỌNG CƠ_THỂ result Nhức đầu Không nhức đầu Nhức đầu Nhức đầu Không nhức đầu Không nhức đầu Không nhức đầu Nhức đầu Không nhức đầu Không nhức đầu Không nhức đầu Không nhức đầu Nhức đầu Không nhức đầu Hắt Xổ mũi nặng Xổ mũi nặng Xổ mũi nhẹ Xổ mũi nặng Hắt Xổ mũi nhẹ Xổ mũi nặng Xổ mũi nhẹ Xổ mũi nhẹ Xổ mũi nặng Hắt Xổ mũi nặng Xổ mũi nhẹ Ho thường Ho có đờm Ho có đờm Ho có đờm Ho thường Ho khan Ho có đờm Ho khan Ho khan Ho thường Ho thường Ho có đờm Ho thường Ho khan Nhức mỏi toàn thân Chỉ bị đau vùng đầu Nhức mỏi toàn thân Chỉ bị đau vùng đầu Nhức mỏi toàn thân Chỉ bị đau vùng đầu Nhức mỏi toàn thân Chỉ bị đau vùng đầu Nhức mỏi toàn thân Nhức mỏi toàn thân Nhức mỏi toàn thân Chỉ bị đau vùng đầu Chỉ bị đau vùng đầu Chỉ bị đau vùng đầu true true true true false false true true true false false true true false Bảng 3.1 Bảng liệu giấu hiệu bệnh nhân nhiễm cúm H1N1 Thuộc tính Result bảng có miền giá trị { True, False}, (Trong đó: “True” ứng với “Bị cúm H1N1”, “False” “Không bị cúm H1N1”) http://www.ictu.edu.vn  60 Thuật toán ID3 chương trình thực sau: Tập liệu S cho bảng gồm 14 mẫu liệu, có mẫu có giá trị “True” mẫu có giá trị “False” Ký hiệu [9+,5-], Entropy tập S là: Entropy(S) =Entropy(True, False) = Entropy([9+ ,5- ]) = - 9 5 log − log = 0.94 14 14 14 14 Tính giá trị Gain cho thuộc tính ta có:  Với thuộc tính Đầu = {Nhức đầu, Không nhức đầu} ta có: + Đầu = Nhức đầu có mẫu nhận giá trị "True" mẫu nhận giá trị "False": [5+,0-] + Đầu = Không nhức đầu có mẫu nhận giá trị "True",5 mẫu nhận giá trị "False": [4+,5-] Khi ta có: 5 5 Snhức đầu = [5+,0-]=> Entropy(Snhuc dau )= Entropy([5+ ,0- ]) = - log − log =0 Skhông nhức đầu = [4+,5-]=> 4 5 Entropy(Skhong nhuc dau )= Entropy([4 + ,5- ]) = - log − log = 0.99 9 9 Từ kết ta có: Thuộc tính Đầu Số lượng [True; False] Entropy(True, False) Nhức đầu [5+,0-] Không nhức đầu [4+,5-] 0.99 Entropy(S Nhucđau ) Entropy(SKhôngnhucđau ) 14 14 = Entropy([9 + ,5- ]) Entropy([5 + ,0 - ]) Entropy([4+ ,5- ]) = 0.303 14 14 => Gain ( S , Dau ) = Entropy(S)-  Với thuộc tính Mũi = {Hắt hơi, Xổ mũi nặng, Xổ mũi nhẹ} Khi ta có: Thuộc tính Mũi Số lượng [True; False] Entropy(True, False) Hắt + [2 ,1 ] 0.918 Xổ mũi nặng + [4 ,2 ] 0.92 Xổ mũi nhẹ + [3 ,2 ] 0.971 http://www.ictu.edu.vn 61 Entropy(SHathoi )- Entropy(S Xomuinang )- Entropy(S Xomuinhe ) 14 14 14 = 0.94 - *0.918 * 0.92 - * 0.971 = 0.003 14 14 14 => Gain(S , Mui ) = Entropy(S)-  Xét thuộc tính Cổ họng = {Ho thường, ho có đờm, ho khan} Khi ta có: Thuộc tính Cổ họng Ho thường Ho có đờm Ho khan Số lượng 5 + + + [True; False] [2 ,3 ] [5 ,0 ] [2 ,2 ] Entropy(True, False) 0.971 5 => Gain( S , Cohong ) = Entropy([9+ ,5- ])- Entropy([2 + ,3- ])- Entropy([5+ ,0- ])- Entropy([2+ ,2- ]) 14 14 14 5 = 0.94 - *0.971 * - * 1= 0.308 14 14 14  Với thuộc tính Cơ thể ={Nhức mỏi toàn thân,Chỉ bị đau vùng đầu} Khi ta có: Thuộc tính Cơ thể Số lượng [True; False] Entropy(True, False) Nhức mỏi toàn thân Chỉ bị đau vùng đầu 7 + + [4 ,3 ] [5 ,2 ] 0.985 0.87 7 => Gain(S , Cothe) = Entropy(S) Entropy(S Nhuc moi toàn thân ) Entropy(SChi biđau vùngđau ) 14 14 7 = Entropy([9+ ,5- ]) Entropy([4 + ,3- ]) Entropy([5+ ,2- ]) = 0.015 14 14 Vậy ta có: Gain(S, Đầu) = 0.303 ; Gain(S, Mũi) = 0.003 Gain(S, Cổ họng) = 0.308 ; Gain(S, Cơ thể) = 0.015 So sánh giá trị Gain(S, Đầu), Gain(S, Cổ họng), Gain(S, Mũi), Gain(S, Cơ thể), ta nhận thấy Gain(S, Cổ họng) có giá trị lớn Vậy ta chọn thuộc tính “Cổ họng” thuộc tính dùng để triển khai Cây có dạng: Ho thường ? [2+,3-] Cổ họng [ 9+,5-] Ho có đờm ? + [5 ,0 ] Ho khan ? [2+,2-] http://www.ictu.edu.vn 62 Hình 3.1 : Khai triển định theo thuộc tính “Cổ Họng”  Xét nhánh cây, Cổ họng = Ho có đờm Ta nhận thấy mẫu thuộc lớp "True" => nút với nhãn nút "True " Chúng ta tiếp tục thu hình sau: Cổ [họng 9+,5-] Ho thường Ho có đờm ? + [2 ,3 ] Ho khan ? [2+,2-] Tru [5+e,0-] Hình 3.2: Khai triển định theo thuộc tính Cổ Họng = “Ho có đờm”  Xét nhánh bên trái cây, Cổ họng = Ho thường, Ta nhận thấy mẫu nhánh không thuộc lớp nên phải tính giá trị Gain thuộc tính ứng viên lại Khi đó: Entropy (Sho thường) = Entropy ([2+,3-]) = 0.971 Tính Gain cho thuộc tính ứng viên lại để chọn thuộc tính mở rộng Tính Entropy cho thuộc tính {Đầu, Mũi, Cơ thể} Ta có tập liệu ứng với Cổ họng = Ho thường ĐẦU Nhức đầu Không nhức đầu Không nhức đầu Không nhức đầu Nhức đầu MŨI Hắt Xổ mũi nặng Xổ mũi nhẹ Xổ mũi nặng Xổ mũi nặng CƠ_THỂ Nhức mỏi toàn thân Nhức mỏi toàn thân Nhức mỏi toàn thân Nhức mỏi toàn thân Chỉ bị đau vùng đầu result true false false false true Bảng 3.2 Bảng tập liệu ứng với Cổ họng = Ho thường * Với thuộc tính Đầu = {Nhức đầu, Không nhức đầu} Khi ta có: Thuộc tính Đầu Số lượng [True; False] Entropy(True, False) Nhức đầu [2+,0-] Không nhức đầu [0+,3-] => Gain( S Hothuong , Dau ) = Entropy(SHothuong )- Entropy(SNhuc dau )- Entropy(SKhong nhuc dau ) 5 = Entropy([2+ ,3- ])- Entropy([2+ ,0- ])- Entropy([0+ ,3- ]) = 0.971 5 http://www.ictu.edu.vn 63 * Xét thuộc tính Mũi = {Hắt hơi, Xổ mũi nặng, Xổ mũi nhẹ} Khi ta có: Thuộc tính Mũi Số lượng [True; False] Entropy(True, False) Hắt Xổ mũi nặng Xổ mũi nhẹ [1+,0-] [1+,2-] [0+,1-] 0.918 => Gain( S hothuong , Mui) = Entropy(Shothuong )- Entropy(SHathoi )- Entropy(S Xomuinang )- Entropy(SXomuinhe ) 5 = 0.971 - *0 - * 0.918 - * = 0.421 5 * Xét thuộc tính Cơ thể = {Nhức mỏi toàn thân, Chỉ bị đau vùng đầu} Khi ta có: Thuộc tính Cơ thể Số lượng [True; False] Entropy(True, False) Nhức mỏi toàn thân Chỉ bị đau vùng đầu + + [1 ,3 ] [1 ,0 ] 0.811 => Gain( S Hothuong , Co the) = Entropy([2+ ,3- ]) - Entropy([1+ ,3- ]) - Entropy([1+ ,0- ]) 5 = 0.971- *0.811- *0 = 0.971 - 0.65 = 0.321 5 Vậy ta có: Gain(S, Đầu) = Gain(S, Mũi) = 0.421 Gain(S, Cơ thể)= 0.321 0.971 Ta nhận thấy thuộc tính “Đầu” có Gain (độ lợi thông tin) lớn Vậy ta chọn thuộc tính “Đầu” thuộc tính dùng để triển khai Với nhánh: + Đầu = Nhức đầu ta thấy mẫu thuộc lớp "True" => Đây nút nhãn nút " True " + Đầu = Không nhức đầu ta thấy mẫu thuộc lớp "False" => Đây nút nhãn nút "False" Cây có dạng: http://www.ictu.edu.vn 64 Cổ họng [ 9+,5-] Ho thường Nhức đầu Đầu True [2+,3-] Không nhức đầu [5+,0-] Ho khan ? [2+,2-] False [0+,3-] True + Ho có đờm - [2 ,0 ] Hình 3.3: Khai triển định theo thuộc tính Đầu  Xét nhánh bên phải cây, Cổ họng = Ho khan, Ta nhận thấy mẫu nhánh không thuộc lớp nên phải tính giá trị Gain thuộc tính ứng viên lại Khi đó: Sho khan = [2+,2-] => Entropy (Sho khan) = Entropy ([2+,2-]) = Tính Gain cho thuộc tính ứng viên lại để chọn thuộc tính mở rộng Tính Entropy cho thuộc tính {Mũi, Cơ thể} Ta có tập liệu ứng với Cổ họng = Ho khan MŨI Hắt Xổ mũi nặng Xổ mũi nhẹ Xổ mũi nhẹ CƠ_THỂ Chỉ bị đau vùng đầu Chỉ bị đau vùng đầu Nhức mỏi toàn thân Chỉ bị đau vùng đầu result false true true false Bảng 3.3 Bảng tập liệu ứng với Cổ họng = Ho khan * Xét thuộc tính Mũi = {Hắt hơi, Xổ mũi nặng, Xổ mũi nhẹ} Khi ta có: Thuộc tính Mũi Số lượng [True; False] Entropy(True, False) Hắt [0+,1-] Xổ mũi nặng [1+,0-] Xổ mũi nhẹ [1+,1-] 1 => Gain( S hokhan , Mui ) = Entropy(Shokhan )- Entropy(SHathoi )- Entropy(S Xomuinang )- Entropy(SXomuinhe ) 4 1 = - *0 - * - * 1=1 − 0.5 = 0.5 4 http://www.ictu.edu.vn 65 * Xét thuộc tính Cơ thể = {Nhức mỏi toàn thân, Chỉ bị đau vùng đầu} ta có: Thuộc tính Cơ thể Số lượng [True; False] Entropy(True, False) Nhức mỏi toàn thân Chỉ bị đau vùng đầu + + [1 ,0 ] [1 ,2 ] 0.918 => Gain( S Ho khan , Co the) = Entropy([2+ ,2- ]) - Entropy([1+ ,2- ]) - Entropy([1+ ,0- ]) 4 = - *0.918 - *0 = - 0.6885 = 0.31 4 Vậy ta có: Gain(S, Mũi) = 0.5; Gain(S, Cơ thể) = 0.31 Ta nhận thấy thuộc tính “Mũi” có Gain (độ lợi thông tin) lớn Vậy ta chọn thuộc tính “Mũi” thuộc tính dùng để triển khai Chúng ta tiếp tục thu hình sau: Cổ họng [ 9+,5-] Ho thường Nhức đầu True [2+,0-] Ho có đờm Đầu True [2+,3-] Không nhức đầu [5+,0-] False [0+,3-] Ho khan Mũi [2+,2-] Xổ mũi nặng Hắt Xổ mũi nhẹ True + - [1 ,0 ] ? False [0+,1-] + [1 ,1-] Hình 3.4: Khai triển định theo thuộc tính Mũi  Xét nhánh Mũi = Xổ mũi nhẹ Ta nhận thấy mẫu nhánh không thuộc lớp nên chọn thuộc tính ứng viên “Cơ thể” lại để khai triển Thuộc tính Cơ thể = {Nhức mỏi toàn thân, Chỉ bị đau vùng đầu} Ta thấy: - Cơ thể = Nhức mỏi toàn thân mẫu thuộc lớp "True" => nút với nhãn nút "True " - Cơ thể = Chỉ bị đau vùng đầu, mẫu thuộc lớp "False" => nút với nhãn nút "False " http://www.ictu.edu.vn 66 Kết chương trình cho định hình sau: Cổ họng [ 9+,5-] Ho có đờm Ho khan Ho thường Đầu True [2+,3-] [5+,0-] Nhức đầu Mũi [2+,2-] Xổ mũi nặng Hắt Xổ mũi nhẹ Không nhức đầu False True [2+,0-] + - [0 ,3 ] False True + - [1 ,0 ] Cơ thể [0+,1-] [1+,1-] Nhức mỏi toàn thân Chỉ bị đau vùng đầu True + - [1 ,0 ] False [0+,1-] Hình 3.5: Cây định sử dụng thuật toán ID3  Từ định hình 3.5 mà chương trình đưa ta đưa Luật sau: IF (Cổ họng = Ho có đờm) THEN Bị cúm H1N1 ELSE IF (Cổ họng = Ho thường) and (Đầu = Nhức đầu) THEN Bị cúm H1N1 ELSE IF (Cổ họng = Ho thường) and (Đầu = Không nhức đầu) THEN Không bị cúm H1N1 ELSE IF (Cổ họng = Ho Khan) and (Mũi = Hắt hơi) THEN Không bị cúm H1N1 ELSE IF (Cổ họng = Ho Khan) and (Mũi = Xổ mũi nặng ) THEN Bị cúm H1N1 ELSE IF (Cổ họng =Ho Khan) and (Mũi =Xổ mũi nhẹ ) and (Cơ thể =Chỉ bị đau vùng đầu) THEN Không bị cúm H1N1 ELSE Bị cúm H1N1 http://www.ictu.edu.vn 67 3.3 Thiết kế chương trình Sau số hình giao diện chương trình: Giao diện chương trình Hình 3.7 Giao diện chương trình Giao diện nhập liệu Hình 3.8 Dữ liệu nhập vào cho chương trình http://www.ictu.edu.vn 68 Giao diện xây dựng định Hình 3.9 Giao diện xây dựng định Thuộc tính Result bảng có giá trị:  Ứng với giá trị True “Bị cúm H1N1”  Ứng với giá trị False “Không bị cúm H1N1” 3.4 Kết qủa thực nghiệm đánh giá - Chương trình minh họa vấn đề lý thuyết đặt khai phá liệu định - Chương trình có giao diện thân thiện, dễ sử dụng - Chương trình chạy thử liệu khác thu kết ổn định http://www.ictu.edu.vn 69 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Nhiện vụ luận văn sử dụng định khai phá liệu, luận văn xây dựng tổng hợp nội dung dựa số nghiên cứu chủ yếu lĩnh vực khai phá liệu nhà nghiên cứu năm gần Internet…Các nội dung tìm hiểu là: Tìm hiểu kiến thức tổng quan khai phá liệu Trình bày kỹ thuật khai phá liệu sử dụng định thuật toán sử dụng cho việc xây dựng định Xây dựng chương trình mô vấn đề lý thuyết nghiên cứu, (bài toán cài đặt mô theo thuật toán ID3) Tuy nhiên, kỹ thụât khai phá liệu sử dụng đa dạng phong phú, phụ thuộc vào sáng tạo người triển khai ứng dụng vào kết lĩnh vực nghiên cứu khác Vì điều kiện hạn hẹp thời gian tài liệu, số phương pháp khai phá luận văn chưa đề cập đến sâu nghiên cứu Những mà luận văn trình bày bước đầu lĩnh vực nghiên cứu, không tránh khỏi sai xót Tác giả luận văn mong muốn nhận quan tâm góp ý Thầy cô, bạn bè để luận văn hoàn thiện Hướng phát triển: - Về lý thuyết: Từ kết nghiên cứu luận văn, tiếp tục nghiên cứu, phát triển thuật toán định Nghiên cứu giải pháp kết hợp phương pháp khai phá liệu nhằm đạt kết khai phá liệu tốt - Về phát triển ứng dụng: Kết nghiên cứu luận văn sử dụng để cài đặt ứng dụng giải toán thực tiễn http://www.ictu.edu.vn 70 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Gs.TS Đỗ Phúc, Bài giảng khai phá liệu, Đại học Quốc gia TP.Hồ Chí Minh, 2007 [2] Nguyễn Thanh Thuỷ, Khai phá liệu – Kỹ thuật ứng dụng Hà Nội Tháng – 2001 [3] Vũ Đức Thi, Cơ sở liệu - Kiến thức thực hành, Nhà xuất Thống kê (1997) [4] Vũ Đức Thi, Thuật toán tin học, Nhà xuất khoa học kỹ thuật (1999) Tài liệu tiếng Anh [5] Han J and Kamber (2000), Data mining Concepts and Techniques, Morgan Kanufmann [6] Murthy, S.K (1998), “Automatic construction of decision trees from data: A multi – disciplication survey” Data mining and Knowledge Discovery 2(4), pp 345 – 389 Danh sách Website [7] Sử dụng công cụ tìm kiếm Google.com [8] Một số địa trang Web để tìm hiểu phương pháp định Wikipedia – Bách khoa toàn thư mở -Khai phá liệu, Cây định: http://Vi.wikipedia.org/wiki/decision_tree http://www.ictu.edu.vn 71 PHỤ LỤC Bảng phụ lục: Logarit số hai số nguyên từ đến 100 [...]... Chương 2: KỸ THUẬT KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 2.1 Giới thiệu kỹ thuật khai phá dữ liệu sử dụng cây quyết định Kỹ thuật khai phá dữ liệu sử dụng cây quyết định là kỹ thuật được trình bày trọng tâm trong luận văn này Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo Các đối tượng dữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệu chưa biết sẽ... trong dữ liệu http://www.ictu.edu.vn 17 2.2 Thuật toán sử dụng cho việc xây dựng cây quyết định Trong khai phá dữ liệu bằng cây quyết định thì xây dựng cây là vấn đề mấu chốt và quan trọng nhất Các thuật toán xây dựng cây quyết định đã được các nhà khoa học phát triển, công bố và cải tiến qua thời gian Dưới đây là một số thuật toán xây dựng cây quyết định: 2.2.1 Thuật toán CLS Xây dựng cây quyết định. .. hiện 1.5 Các dạng dữ liệu có thể khai phá Khai phá dữ liệu được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau được chấp nhận để khai phá, sau đây là một số loại điển hình: Cơ sở dữ liệu quan hệ (relational databases): là các cơ sở dữ liệu tác nghiệp được tổ chức theo mô hình dữ liệu quan hệ Hầu hết các hệ quản trị cơ sở dữ liệu đều hỗ trợ dạng cơ sở dữ liệu này Cơ sở dữ liệu đa chiều (multimensional... bản 1.7 Một số lĩnh vực ứng dụng của khai phá dữ liệu Khai phá dữ liệu là một lĩnh vực mới phát triển nhưng thu hút được nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó Nó được vận dụng trong nhiều lĩnh vực khác nhau nhằm khai thác nguồn dữ liệu phong phú được lưu trữ trong các hệ thống thông tin Tuỳ theo bản chất của từng lĩnh vực, việc vận dụng khai phá dữ liệu có những cách tiếp cận... đường đi trên cây, qua các cạnh tương ứng với giá trị của thuộc tính của đối tượng tới lá So với các phương pháp khai phá dữ liệu khác, cây quyết định có một số ưu điểm: - Cây quyết định tương đối dễ hiểu Người ta có thể hiểu được mô hình của cây quyết định chỉ cần sau khi được giải thích ngắn gọn - Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản, đôi khi không cần thiết phải xử lý dữ liệu trước... lĩnh vực ứng dụng điển hình: • Khai phá dữ liệu được sử dụng để phân tích dữ liệu, hỗ trợ ra quyết định • Trong y học: Khai phá dữ liệu giúp tìm ra mối liên hệ giữa các triệu chứng, chuẩn đoán bệnh • Trong sinh học: nó dùng để tìm kiếm, so sánh các hệ gen và thông tin di truyền, tìm mối liên hệ giữa các hệ gen và chuẩn đoán một số bệnh di truyền • Trong thông tin kỹ thuật: khai phá dữ liệu dùng để... giai đoạn cuối cùng trong quá trình khai phá dữ liệu, ở giai đoạn này các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải mẫu dữ liệu nào cũng hữu ích, đôi khi nó còn bị sai lệch Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ ưu tiên cho các mẫu dữ liệu để rút ra được những tri thức cần thiết Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5... trình • Trong thông tin thương mại: dùng để phân tích dữ liệu người dùng, phân tích dữ liệu marketing, phân tích đầu tư, phát hiện các gian lận • Tài chính và thị trường chứng khoán: khai phá dữ liệu dùng để phân tích tình hình tài chính, phân tích đầu tư, phân tích cổ phiếu • Khai thác dữ liệu web 1.8 Lựa chọn các kỹ thuật khai phá Các giải thuật khai phá dữ liệu tự động mới chỉ ở giai đoạn phát triển... luật được tạo ra nhằm suy diễn cho một số mẫu dữ liệu có ý nghĩa về mặt thống kê Các luật có dạng “Nếu P thì Q”, trong đó P là mệnh đề đúng với một phần dữ liệu trong cơ sở dữ liệu và Q là mệnh đề dự đoán Cây quyết định là phương pháp dùng trong các bài toán phân loại dữ liệu theo một tiêu chuẩn nào đó dựa trên mức độ khác nhau của thuộc tính Cây quyết định và luật có ưu điểm là hình thức miêu tả đơn... kho dữ liệu được tập hợp, chọn lọc từ nhiều nguồn dữ liệu khác nhau Dạng dữ liệu này mang tính lịch sử (tức có tính thời gian) và chủ yếu phục vụ cho quá trình phân tích cũng như là khai phá tri thức nhằm hỗ trợ cho việc ra quyết định Cơ sở dữ liệu dạng giao dịch (transactional databases): là dạng cơ sở dữ liệu tác nghiệp nhưng các bản ghi thường là các giao dịch Dạng dự liệu này thường phổ biến trong ... KỸ THUẬT KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 2.1 Giới thiệu kỹ thuật khai phá liệu sử dụng định Kỹ thuật khai phá liệu sử dụng định kỹ thuật trình bày trọng tâm luận văn Kỹ thuật định công... quan khai phá liệu Chương trình bày nét khái quát khai phá liệu, khai phá liệu trình phát tri thức, hướng tiếp cận, lĩnh vực ứng dụng, trình bày số kỹ thuật áp dụng việc khai phá liệu sử dụng. .. vận dụng khai phá liệu có cách tiếp cận khác http://www.ictu.edu.vn 11 Một số lĩnh vực ứng dụng điển hình: • Khai phá liệu sử dụng để phân tích liệu, hỗ trợ định • Trong y học: Khai phá liệu

Ngày đăng: 09/12/2016, 15:08

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan