ứng dụng cây quyết định trong khai phá dữ liệu

57 761 3
ứng dụng cây quyết định trong khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i LỜI CAM ĐOAN Tôi xin cam đoan, kết luận văn hoàn toàn kết tự thân tơi tìm hiểu, nghiên cứu Các tài liệu tham khảo trích dẫn thích đầy đủ Học viên Nguyễn Thanh Huyền ii LỜI CẢM ƠN Trong suốt thời gian học tập, hồn thành luận văn tơi Thầy, Cô truyền đạt cho kiến thức phương pháp nghiên cứu khoa học hữu ích gia đình, quan, đồng nghiệp bạn bè quan tâm, động viên nhiều Trước hết, muốn gửi lời cảm đến Thầy, Cô khoa Công nghệ thông tin- Trường Đại học Công nghệ - Đại học Quốc gia Hà nội truyền đạt kiến thức quý báu cho suốt thời gian học tập trường Đặc biệt, xin gửi lời cảm ơn sâu sắc tới thầy giáo hướng dẫn PGS.TS Đồn Văn Ban, người Thầy tận tình bảo hướng dẫn mặt chuyên môn cho suốt trình thực luận văn Cũng qua đây, xin gửi lời cảm ơn đến ban giám hiệu trường Trung cấp kinh tế Hà Nội, nơi đangcông tác tạo điều kiện thuận lợi cho thời gian học tập suốt trình làm luận văn tốt nghiệp Cuối cùng, xin cảm ơn bố mẹ, anh, chị, chồng, bạn bè, đồng nghiệp ủng hộ, động viên nhiều để yên tâm nghiên cứu hồn thành luận văn Trong suốt q trình làm luận văn, thân cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm nhiều tài liệu liên quan Tuy nhiên, thời gian hạn chế thân cịn chưa có nhiều kinh nghiệm nghiên cứu khoa học, chắn luận văn cịn nhiều thiếu sót Tơi mong nhận bảo Thầy Cô giáo góp ý bạn bè, đồng nghiệp để luận văn hoàn thiện Hà Nội, ngày 12 tháng 06 năm 2011 Nguyễn Thanh Huyền iii MỤC LỤC MỤC LỤC iii Lý chọn đề tài .1 Mục tiêu nghiên cứu .2 Mục đích luận văn nghiên cứu vấn đề lý thuyết tập thơ, định thuật tốn xây dựng định hệ thông tin đầy đủ dựa tập thô; cài đặt đánh giá thuật toán xây dựng định nghiên cứu; bước đầu áp dụng mơ hình định xây dựng vào khai phá liệu (hỗ trợ định vay vốn) Bố cục luận văn .2 Chương - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ Chương 2- CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 15 Chương - ỨNG DỤNG KIỂM CHỨNG VÀ ĐÁNH GIÁ 40 iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CÁC KÝ HIỆU: S = (U, A) Va IND(B) [ui]p U/B DT=(U,C∪D) B( X ) Hệ thông tin Tập giá trị thuộc tính a Quan hệ tương đương tập thuộc tính B Lớp tương đương chứa đối tượng ui Phân hoạch U sinh quan hệ IND(B) Bảng định B-Xấp xỉ X B( X ) B-xấp xỉ X POSC ( d ) Miền C-khẳng định d Tổng số đối tượng DT Lực lượng tập U Phân hoạch U sinh quan hệ IND(d) |DT| |U| [U]d CÁC CHỮ VIẾT TẮT: ADTDA Algorithm for Buiding Decision Tree Based on Dependency of Attributes FID3 Fixed Iterative Dichotomiser ID3 Iterative Dichotomiser IG Information Gain v DANH MỤC CÁC BẢNG Bảng Hệ thông tin đơn giản .10 Bảng Một bảng định với C={Age, LEMS} D={Walk} 11 Bảng Dữ liệu huấn luyện 23 Bảng Bảng thuộc tính tập liệu Bank_data 41 Bảng Độ xác thuật tốn 45 vi DANH MỤC CÁC HÌNH Hình Q trình phân lớp liệu – Bước xây dựng mơ hình Hình Quá trình phân lớp liệu – Ước lượng độ xác mơ hình Hình Quá trình phân lớp liệu –Phân lớp liệu .8 Hình Xấp xỉ tập đối tượng Bảng thuộc tính điều kiện Age LEMS 14 Hình Mơ tả chung định 15 Hình Ví dụ Cây định 16 Hình Mơ hình phân lớp mẫu .19 Hình Cây sau chọn thuộc tính Humidity (ID3) .25 Hình Cây sau chọn thuộc tính Outlook (ID3) 26 Hình 10 Cây kết (ID3) 27 Hình 11 Cây sau chọn thuộc tính Humidity (ADTDA) 31 Hình 12 Cây sau chọn thuộc tính Outlook (ADTDA) 32 Hình 13 Cây kết (ADTDA) 33 Hình 14 Cây định sau chọn thuộc tính Humidity (FID3) 36 Hình 15 Cây định sau chọn thuộc tính Windy (FID3) .37 Hình 16 Cây kết (FID3) 38 Hình 17 Dạng định ID3 42 Hình 18 Dạng định ADTDA 42 Hình 19 Dạng định FID3 43 Hình 20 Một số luật định ID3 .44 Hình 21 Một số luật định ADTDA .44 Hình 22 Một số luật định FID3 44 Hình 23 Giao diện ứng dụng 46 MỞ ĐẦU • Lý chọn đề tài Trong năm gần Công nghệ thông tin phát triển mạnh mẽ có tiến vượt bậc Cùng với phát triển Công nghệ thông tin bùng nổ thông tin Các thông tin tổ chức theo phương thức sử dụng giấy giao dịch dần số hóa, nhiều tính vượt trội mà phương thức mang lại như: lưu trữ lâu dài, cập nhật, sửa đổi, tìm kiếm cách nhanh chóng Đó lý khiến cho số lượng thơng tin số hóa ngày tăng dần theo cấp số nhân Hiện nay, không lĩnh vực lại không cần đến hỗ trợ công nghệ thông tin thành công lĩnh vực phụ thuộc nhiều vào việc nắm bắt thông tin cách nhạy bén, nhanh chóng hữu ích Với nhu cầu sử dụng thao tác thủ cơng truyền thống độ xác khơng cao nhiều thời gian Do việc khai phá tri thức từ liệu tập tài liệu lớn chứa đựng thông tin phục vụ nhu cầu nắm bắt thơng tin có vai trò to lớn Việc khai phá tri thức có từ lâu bùng nổ xảy năm gần Các công cụ thu thập liệu tự động công nghệ sở liệu phát triển dẫn đến vấn đề lượng liệu khổng lồ lưu trữ sở liệu kho thông tin tổ chức, cá nhân Do việc khai phá tri thức từ liệu vấn đề nhận nhiều quan tâm nhà nghiên cứu Một vấn đề quan trọng phổ biến kỹ thuật khai phá liệu phân lớp, ứng dụng rộng rãi thương mại, y tế, công nghiệp Trong năm trước đây, phương pháp phân lớp đề xuất, khơng có phương pháp tiếp cận phân loại cao xác hẳn phương pháp khác Tuy nhiên với phương pháp có lợi bất lợi riêng sử dụng Một công cụ khai phá tri thức hiệu sử dụng định để tìm luật phân lớp Phân lớp sử dụng lý thuyết tập thô, đề xuất Zdzislaw Pawlak vào năm 1982, nghiên cứu rộng rãi năm gần Lý thuyết tập thô cung cấp cho nhiều nhà nghiên cứu phân tích liệu với nhiều kỹ thuật khai phá liệu khái niệm đặc trưng cách sử dụng số kiện Nhiều nhà nghiên cứu sử dụng lý thuyết tập thô ứng dụng phân biệt thuộc tính, giảm số chiều, khám phá tri thức, phân tích liệu thời gian, Đây cơng cụ tốn học áp dụng khai phá liệu dùng để lựa chọn thuộc tính để phân nhánh việc xây dựng cấu trúc định có nhiều cách tiếp cận khác để chọn thuộc tính phân nhánh tối ưu, làm cho có chiều cao nhỏ Chính vậy, luận văn tơi tìm hiểu phương pháp xây dựng định dựa vào tập thô Việc ứng dụng định để khai phá liệu tiếp tục tìm hiểu, nghiên cứu Với mong muốn tìm hiểu nghiên cứu lĩnh vực này, chọn đề tài “Ứng dụng định khai phá liệu” làm luận văn tốt nghiệp • Mục tiêu nghiên cứu Mục đích luận văn nghiên cứu vấn đề lý thuyết tập thô, định thuật toán xây dựng định hệ thông tin đầy đủ dựa tập thơ; cài đặt đánh giá thuật tốn xây dựng định nghiên cứu; bước đầu áp dụng mơ hình định xây dựng vào khai phá liệu (hỗ trợ định vay vốn) • Bố cục luận văn Luận văn gồm chương chính: Chương 1: Tổng quan khai phá tri thức lý thuyết tập thô Trong chương trình bày tổng quan khai phá liệu lý thuyết tập thô Chương 2: Cây định thuật tóan xây dựng định Trong chương giới thiệu tổng quan đinh, phương pháp tổng quát xây dựng định ba thuật toán xây dựng định: ID3, ADTDA, FID3 Chương 3: Thực nghiệm đánh giá Phát biểu toán, cài đặt ứng dụng đánh giá Chương - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 1.1 Giới thiệu khai phá liệu 1.1.1 Khám phá tri thức Trong thời đại bùng nổ công nghệ thông tin, công nghệ lưu trữ liệu ngày phát triển nhanh chóng tạo điều kiện cho đơn vị thu thập liệu nhiều tốt Đặc biệt lĩnh vực kinh doanh, doanh nghiệp nhận thức tầm quan trọng cuả việc nắm bắt xử lí thơng tin Nó hỗ trợ chủ doanh nghiệp việc đưa chiến lược kinh doanh kịp thời mang lại lợi nhuận to lớn cho doanh nghiệp Tất lí khiến cho quan, đơn vị doanh nghiệp tạo lượng liệu khổng lồ cỡ Gigabyte chí Terabyte cho riêng Các kho liệu ngày lớn tiềm ẩn nhiều thông tin có ích Sự bùng nổ dẫn tới yêu cầu cấp thiết phải có kĩ thuật công cụ để biến kho liệu khổng lồ thành thơng tin đọng có ích Khám phá tri thức từ liệu (Knowledge Discovery from Data - KDD) đời kết tất yếu đáp ứng nhu cầu Q trình khám phá tri thức từ liệu thông thường gồm bước sau [2]-[7]: Bước 1: Xác định vấn đề lựa chọn nguồn liệu (Problem Understanding anh Data Understanding) Trong giai đoạn chuyên gia lĩnh vực cần phải thảo luận với chuyên gia tin học, để xác định mong muốn khám phá gì, thống giải pháp cho trình khám phá liệu (muốn có luật hay muốn phân lớp, phâm cụm liệu…) Đây giai đoạn quan trọng xác định sai vấn đề tồn q trình phá sản, trở nên vơ ích Bước 2: Chuẩn bị liệu (Data preparation) Bao gồm trình sau: - Thu thập liệu (data gathering) - Làm liệu (data cleaning) - Tích hợp liệu ( data integeration) - Chọn liệu (data selection) - Biến đổi liệu (data transformation) Đây giai đoạn quan trọng liệu đầu vào khơng xác hiển nhiên khơng thể có kết xác Bước : Khai phá liệu (Data Mining) Đây bước xác định nhiệm vụ khai phá liệu lựa chọn kỹ thuật khai phá liệu Kết trình tìm tri thức, mơ hình hay quy luật tiềm ẩn bên liệu Bước 4: Đánh giá mẫu (Partern Evalution) Đánh giá xem tri thức thu có xác có giá trị hay khơng, khơng quay lại bước Việc đánh giá thực thông qua chuyên gia lĩnh vực người dùng là chuyên gia tin học Bước 5: Biểu diễn tri thức triển khai (Knowlegde presentation and Deployment) Biểu diễn tri thức phát dạng tường minh, thân thiện hữu ích với đa số người dùng tiến hành đưa tri thức phát vào ứng dụng cụ thể 1.1.2 Khai phá liệu Khai phá liệu bước trình khám phá tri thức từ sở liệu Khai phá liệu bao gồm giai đoạn sau [7]: Giai đoạn 1: Gom liệu (Gathering) Đây bước tập hợp liệu khai thác sở liệu, kho liệu chí liệu từ nguồn ứng dụng Web Giai đoạn 2: Trích lọc liệu (Selection) 37 Vậy:  IGfix(U1, Windy)= γ (Windy, d ) * IG (U , Windy ) 0.65 = 1* = 0.57 | Windy |  IGfix(U1, Outlook)= γ (Outlook , d ) *  IGfix(U1, Temp)= γ (Temp, d ) * IG (U , Outlook ) 0.65 = 1* = 0.465 | Outlook | IG (U , Temp ) 0.65 = 1* = 0.465 | Temp | Ta thấy IGfix(U1, Windy) có giá trị lớn nên thuộc tính “Windy” chọn làm thuộc tính phân chia Do đó, thuộc tính “Windy” làm nhãn cho nút bên trái nối với nhánh “high” Thuộc tính có hai giá trị “true” “false” nên ta tiếp tục tạo thành hai nhánh “true” “false”:  Với nhánh “true” gồm mẫu {1} có giá trị định “Y” nên ta tạo nút “Y”  Với nhánh “false” gồm năm mẫu {2, 3, 6, 7, 12} có giá trị định “N” nên tạo nút “N” Sau thực xong thuật toán đệ quy: FID3(U1, C-{Humidity}, {d}), ta có sau: Humidity {1, 2,…, 12} high low windy {1, 2, 3, 6, 7, 12} true TRUE {1 } TRUE {5, } Normal FID3(U2, C-{humidity}, {d}) {4, 8, 10 , 11} false FALSE {2, 3, 6, 7, 12 } Hình 15 Cây định sau chọn thuộc tính Windy (FID3)  Bước gọi thuật toán đệ quy: FID3(U 2, C{Humidity}, {d})  Theo thuật tốn ADTDA ta có: [U2]d= {{10}, {4, 8, 11}} 38  [U2]Outlook = {{4}, {8, 10, 11}} Do đó, γ (Outlook , d ) = | posOutlook (d ) | | {4} | = = |U2 | |U2 |  [U2]windy = {{4, 8, 10}, {11} γ ( windy , d ) = | pos windy (d ) | |U2 | = | {11} | = |U2 |  [U2]Temp={{4, 8, 11}, {10}} γ (Temp, d ) = | posTemp (d ) | |U2 | = | {4,8,10,11} | = =1 |U2 |  Theo thuật toán ID3 ta có:  IG(U2, Outlook) =0.123  IG(U2, Windy) = 0.123  IG(U2, Temp) = 0.811 Vậy:  IGfix(U2, Windy)= γ (Windy, d ) * IG (U , Windy ) = | Windy | 0.123 * = 0.124  IGfix(U2, Outlook)= γ (Outlook , d ) * IG (U , Outlook ) = | Outlook |  IGfix(U2, Temp)= γ (Temp, d ) * 0.1235 * = 0.101 IG (U , Temp) 0.811 = 1* = 0.519 | Temp | Ta thấy số IGfix(U2,Temp) lớn nhất, nên chọn để phân chia Tương tự thuật toán ID3 ta có cuối sau: Humidity {1, 2,…, 12} high low windy {1, 2, 3, 6, 7, 12} Normal TRUE {5, } true false TRUE {1 } FALSE {2, 3, 6, 7, 12 } temp {4, 8, 10 , 11} hot FALSE {4, 8, 11} Hình 16 Cây kết (FID3) mild TRUE {10 } 39 2.5 Kết luận chương Trong chương trình bày phương pháp tổng quát xây dựng định; ba thuật toán xây dựng định ID3, ADTDA, FID3; ví dụ cụ thể để minh họa bước thuật toán; 40 Chương - ỨNG DỤNG KIỂM CHỨNG VÀ ĐÁNH GIÁ 3.1 Giới thiệu toán Chúng ta sống giới thừa thông tin thiếu tri thức – nhận định nhiều người thời đại bùng nổ thông tin Sử dụng phương pháp khai phá tri thức từ liệu để dự đốn rủi ro tín dụng phương pháp nhằm nâng cao chất lượng tín dụng Ngân hàng Rủi ro tín dụng hiểu nguy người vay trả gốc và/hoặc lãi thời hạn quy định Hiện nay, để phịng ngừa rủi ro tín dụng, chuyên gia Ngân hàng thực phương pháp thu thập, phân tích đánh giá thơng tin khách hàng, tài sản bảo đảm khoản vay… Phương pháp truyền thống có nhiều hạn chế phụ thuộc vào trình độ, tâm lý yếu tố chủ quan khác cán thẩm định hồ sơ vay nợ khách hàng Chính mà cơng cụ trợ giúp thẩm định ước đốn chất lượng tín dụng cách khách quan dựa sở khoa học có ý nghĩa cần thiết Việc đề xuất cho vay hay không dựa vào luật định (phân lớp) xây dựng thông qua định nghiên cứu Nhờ luật định hỗ trợ cán tín dụng có định cho khách hàng vay hay không Trong phạm vi luận văn tập trung nghiên cứu cơng tác tín dụng tiêu dùng khách hàng với tập liệu Bank_data Dựa vào tập Bank_data xây dựng mơ hình định, từ định rút luật định Dựa vào luật định ta phân lớp tập liệu (dữ liệu khách hàng xin vay tiêu dùng, chưa phân lớp) tập liệu sau phân lớp hỗ trợ cho cán tín dụng định cho khách hàng vay hay không 3.2 Giới thiệu sở liệu Trong trình thử nghiệm, tơi sử dụng tập liệu Bank_data trích từ sở liệu sưu tầm giáo sư Bamshad Mobasher Khoa “School of Computing, College of Computing and Digital Media” đại học “DePaul University” Mỹ (http://maya.cs.depaul.edu/classes/ect584/WEKA/data/ bank-data.csv) Tập liệu gồm 600 đối tượng, sau tiền sử lí với phần mềm Weka lưu dạng file excel ta có tập liệu gồm 600 đối tượng, 10 41 thuộc tính điều kiện thuộc tính định “result” định khách hàng vay không vay Các thuộc tính giá trị thuộc tính tập liệu Bank_data mô tả bảng sau: Tên Thứ tự thuộc tính Tuoi Gioi_tinh Khu_vuc Thu_nhap Ket_hon Con 10 Xe TKTK (tài khoản tiết kiệm) TK_Htai (tài khoản tại) The_chap 11 RESULT (Cho vay) Giá trị Giải thích Tre, Trẻ, trung niên, già Trung nien, Gia Nam, Nu Nam, Nữ NT, TTran, Nông thôn, Thị trấn, Ngoai o, TP ngoại ơ, thành phố Thấp, trung bình, Thap, TB, Cao cao C, K Có, khơng 0_Con, 1_con, Khơng con, 2_con, 3_con con, hai con, ba C, K Có, khơng C, K Có, khơng C, K Có, khơng C, K Có, khơng Có (True), khơng (False) True, false Bảng Bảng thuộc tính tập liệu Bank_data 3.3 Cài đặt ứng dụng Ứng dụng viết môi trường Visual Studio 2008, viết ngơn ngữ lập trình Visal Basic Ứng dụng tập trung vào xây dựng đánh giá độ xác thuật tốn trình bày chương Từ định hay luật định rút từ định hỗ trợ cho cán tín dụng ngân hàng định cho khách hàng vay hay không 42 3.4 Kết đánh giá thuật tốn 3.4.1 Mơ hình định tương ứng với tập liệu Bank_data • Cây định ứng với thuật tốn ID3 Hình 17 Dạng định ID3 • Cây định ứng với thuật tốn ADTDA Hình 18 Dạng định ADTDA 43 • Cây định ứng với thuật tốn FID3 Trong q trình thực nghiệm tác giả thấy thuật toán FID3 áp dụng sở liệu lớn độ phục thuộc thuộc tính điều kiền vào thuộc tính định (ở bước xây dựng định) Do đó, lượng thơng tin thu thêm ổn định IG fix thuộc tính điều kiện Trong trường hợp thuật tốn chọn thuộc tính (thuộc tính đầu tiên) làm thuộc tính phân chia, định khơng tối ưu Vì vậy, tác giả mạnh dạn cải tiến dựa theo thuật tốn ADTDA, tất các độ phụ thuộc thuộc tính điều kiện vào thuộc tính định 0, lượng thơng tin thu ổn định IG fix tính dựa vào độ phụ thuộc xác β, tức là: IG fix (U , c ) = γ β (d , c) * IG (U , c) |c| Và định thuật tốn FID3 sở liệu Bank_data sau: Hình 19 Dạng định FID3 44 3.4.2 Các luật định tương ứng với tập liệu Bank_data • Các luật định ứng với định ID3 Hình 20 Một số luật định ID3 • Các luật định ứng với định ADTDA Hình 21 Một số luật định ADTDA • Các luật định ứng với định FID3 Hình 22 Một số luật định FID3 3.4.3 Đánh giá thuật toán Đánh giá độ xác thuật tốn với số nếp gấp (fold) 10 liệu tennis (Bảng 3) liệu Bank_data, ta kết sau: 45 Dữ liệu Số mẫu Bank_data Tennis Trung bình 600 12 Số thuộc tính 11 ID3 ADTDA FID3 77.33% 80% 78.67% 78.57% 80% 79.29% 80.71% 80% 80.36% Bảng Độ xác thuật tốn 3.4.4 Ứng dụng định khai phá liệu Ứng dụng hỗ trợ ngân hàng định cho khách hàng vay hay không Với tin khách hàng xin vay (đã biết giá trị thuộc tính điều kiện chưa phân lớp) dựa vào mơ hình định xây dựng ta dự đốn lớp liệu (cho vay hay khơng cho vay) Từ hỗ trợ cho cán ngân hàng trình định cho vay hay không Trong ứng dụng, xây dựng mơ hình định có đánh giá độ xác luật định dựa liệu đưa vào để training Do đó, việc phân lớp mẫu liệu đưa độ tin cậy việc phân lớp Ví dụ đánh giá độ xác luật dựa liệu training 90% Quá trình phân lớp mẫu liệu dựa vào luật 9, độ tin cậy lớp 90% Độ tin cậy luật định phụ thuộc lớn vào liệu training, liệu training đủ lớn độ tin cậy luật cao Tuy nhiên, ứng dụng việc xây dựng định dựa liệu training gồm 600 liệu, độ tin cậy luật mang tính chất minh họa (tính xác khơng cao) 46 Hình 23 Giao diện ứng dụng 3.5 Kết luận chương Trong chương phát biểu toán để kiểm chứng thuật toán xây dựng định chương liệu mẫu Bank_data Đồng thời cài đặt, đánh giá độ xác thuật tốn đánh giá độ xác luật Dựa vào mơ hình định (các luật định) xây dựng, phân lớp mẫu liệu 47 KẾT LUẬN Khai phá liệu lĩnh vực đã, luôn thu hút nhà nghiên cứu lĩnh vực cho phép phát tri thức sở liệu khổng lồ phương thức thông minh Nghiên cứu lĩnh vực đòi hỏi người nghiên cứu phải biết tổng hợp kết nghiên cứu nhiều lĩnh vực khoa học máy tính việc ứng dụng nhiệm vụ khai phá liệu Qua hai năm học tập, tìm tịi, nghiên cứu, đặc biệt khoảng thời gian làm luận văn, tác giả hoàn thiện luận văn với mục tiêu đặt ban đầu Cụ thể luận văn đạt kết sau: - Trình bày kiến thức khai phá liệu; hệ thống hóa kiến thức lý thuyết tập thô áp dụng để xây dựng định - Giới thiệu phương pháp tổng quát xây dựng định, trình bày ba thuật tốn xây dựng định ID3, ADTDA, FID3 số ví dụ minh họa cho phương pháp xây dựng định trình bày - Cài đặt Visual Basic ba thuật toán xây dựng định ID3, ADTDA, FID3 sở liệu mẫu Bank_data Đánh giá độ xác thuật tốn đánh giá độ xác luật mơ hình định Qua trình học tập, nghiên cứu tác giả khơng tích lũy thêm kiến thức mà nâng cao khả lập trình, phát triển ứng dụng Tác giả nhận thấy luận văn giải tốt nội dung, yêu cầu nghiên cứu đặt ra, có ví dụ minh họa cụ thể Song thời gian có hạn nên luận văn cịn tồn số thiếu sót, số vấn đề mà tác giả phải tiếp tục nghiên cứu, tìm hiểu Hướng phát triển đề tài là: Về lý thuyết: - Cần tiếp tục nghiên cứu thuật toán khai phá liệu định dựa vào tâp thơ như: thuật tốn ADTCCC (dựa vào CORE 48 đại lượng đóng góp phân lớp thuộc tính), thuật tốn ADTNDA (dựa vào độ phụ thuộc thuộc tính), … - Nghiên cứu phương pháp xây dựng định hệ thống thong tin không đầy đủ, liệu liên tục khơng chắn Về chương trình demo: - Cần bổ sung thêm liệu cho tập training để mơ hình định có độ tin cậy cao hoạt động hiệu - Cần tiếp tục phát triển hoàn thiện theo hướng trở thành phần mềm khai phá liệu tín dụng tiêu dùng nhằm hỗ trợ cho cán tín dụng đưa định cho khách hàng vay hay khơng - Tìm hiểu nhu cầu thực tế để từ cải tiến chương trình, cài đặt lại toán theo thuật toán nghiên cứu để làm việc tốt với sở liệu lớn có sản phẩm thị trường 49 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hồ Thuần, Hoàng Thị Lan Giao (2005), “Một thuật tốn tìm tập rút gọn sử dụng ma trận phân biệt được”, Chun san cơng trình nghiên cứu triển khai Viễn thông CNTT, (15), tr 83-87 [2] Nguyễn Thanh Bình (2007), “Ứng dụng định toán phân lớp”, Luận văn thạc sỹ khoa học Trường đại học Khoa học - Đại học Huế [3] Nguyễn Thanh Tùng (2009), “Một tiêu chuẩn chọn nút xây dựng định”, Tạp chí Khoa học Công nghệ, 47(2), tr 15–25 Tiếng Anh [4] Andrzej Skowron, Ning Zhong (2000), “Rough Sets in KDD”, Tutorial Notes [5] Baoshi Ding, Yongqing Zheng, Shaoyu Zang (2009), "A New Decision Tree Algorithm Based on Rough Set Theory", Asia-Pacific Conference on Information Processing, (2), pp 326-329 [6] Cuiru Wang, Fangfang OU (2008), "An Algorithm for Decision Tree Construction Based on Rough Set Theory", International Conference on Computer Science and Information Technology, pp 295-298 [7] Ho Tu Hao, Knowledge Discovery and Dataming Techniques and Practice, http:// www.netnam.vn/unescocourse/knowledge [8] Jan Komorowski, Lech Polkowski, Andrzej Skowron, “Rough Sets: A Tutorial” http://www/folli.loria.fr/cds/1999/library/pdf/skowron.pdf [9] John Ross Quilan (1990), “Decision trees and decision making”, IEEE transactions on Man and Cybernetics, (20), pp 339-346 [10] Longjun Huang, Minghe Huang, Bin Guo, Zhimming Zhang (2007), "A New Method for Constructing Decision Tree Based on Rough Set Theory", IEEE International Conference on Granular Computing, pp 50 241- 244 [11] Ramadevi Yellasiri, C.R.Rao, Vivekchan Reddy (2007), “Decision Tree Induction Using Rough Set Theory – Comparative Study”, Journal of Theoretical and Applied Information Technology, pp 110-114 [12] Sang Wook Han, Jae Yearn Kim (2007), "Rough Set-based Decision Tree using the Core Attributes Concept", Second International Conference on Innovative Computing Information and Control, pp 298 - 301 [13] Weijun Wen (2009), “A New Method for Constructing Decision Tree Based on Rough Set Theory”, Proceedings of the International Symposium on Intelligent Information Systems and Applications Qingdao China, pp 416-419 [14] Z Pawlak (1998) - Rough Set Theory and Its Application to Data Analysis, Cybernetics and Systems: An International Journal 29, pp 661-688 ... luyện 2.1.3 Ứng dụng định khai phá liệu Sau xây dựng thành công định ta sử dụng kết từ mơ hình định Đây bước sử dụng mơ hình để phân lớp liệu rút tri thức phương pháp khai phá liệu phương pháp phân... liệu Khai phá liệu bước trình khám phá tri thức từ sở liệu Khai phá liệu bao gồm giai đoạn sau [7]: Giai đoạn 1: Gom liệu (Gathering) Đây bước tập hợp liệu khai thác sở liệu, kho liệu chí liệu. .. LEMS 1.5 Kết luận chương + Chương giới thiệu tổng quan khai phá liệu, ứng dụng khai phá liệu, giới thiệu số phương pháp khai phá liệu thơng dụng + Trình bày tổng quan lý thuyết tập thô bao gồm

Ngày đăng: 02/07/2014, 21:46

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • Lý do chọn đề tài

  • Mục tiêu nghiên cứu

  • Mục đích của luận văn là nghiên cứu các vấn đề cơ bản của lý thuyết tập thô, cây quyết định và các thuật toán xây dựng cây quyết định trên hệ thông tin đầy đủ dựa trên tập thô; cài đặt và đánh giá các thuật toán xây dựng cây quyết định đã nghiên cứu; bước đầu áp dụng mô hình cây quyết định đã xây dựng vào trong khai phá dữ liệu (hỗ trợ ra quyết định trong vay vốn).

  • Bố cục luận văn

  • Chương 1 - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ

    • 1.1. Giới thiệu về khai phá dữ liệu

      • 1.1.1 Khám phá tri thức

      • 1.1.2. Khai phá dữ liệu

      • 1.2. Ứng dụng của khai phá dữ liệu

      • 1.3. Một số phương pháp khai phá dữ liệu thông dụng

        • 1.3.1. Phân lớp (Classification)

        • 1.3.2. Phân cụm (Clustering)

        • 1.3.3. Luật kết hợp (Association Rules)

        • 1.4. Lý thuyết tập thô

          • 1.4.1. Hệ thông tin

          • 1.4.2. Bảng quyết định

          • 1.4.3. Quan hệ không phân biệt được

          • 1.4.4. Xấp xỉ tập hợp

          • 1.5. Kết luận chương 1

          • Chương 2- CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH

            • 2.1. Tổng quan về cây quyết định

              • 2.1.1. Định nghĩa

              • 2.1.2. Thiết kế cây quyết định

              • 2.1.3. Phương pháp tổng quát xây dựng cây quyết định

              • 2.1.3. Ứng dụng cây quyết định trong khai phá dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan