Luận văn nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và ứng dụng

57 656 0
Luận văn nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

B ộ• GIÁO DỤC VÀ ĐÀO TẠO • • TRƯỜNG ĐẠI HỌC s PHẠM HÀ NỘI • • • • ===£ EQ cs=== TRÀN THI PHƯƠNG LIÊN NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GON THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ VÀ ỨNG DỤNG LUÂN VĂN THAC SĨ MÁY TÍNH • • HÀ NỘI, 2015 B ộ• GIÁO DỤC VÀ ĐÀO TẠO • • TRƯỜNG ĐẠI HÀ NỘI • HỌC • s PHẠM • • ===£0lũ3o8=== TRÀN THI PHƯƠNG LIÊN NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GON THUỘC TÍNH TRONG BẢNG QUYÉT ĐỊNH KHÔNG ĐẰY ĐỦ VÀ ỨNG DỤNG Chuyên ngành: Khoa Học Máy Tính Mã số: 604801*01 LUÂN VĂN THAC Sĩ MÁY TÍNH • • Ngưòi hướng dẫn khoa học: TS Nguyễn Long Giang HÀ NỘI, 2015 L Ờ I CÁM ƠN Trong thời gian qua để hoàn thành luận văn nhận giúp đỡ tận tình thầy hướng dẫn khoa học, thầy cô trường Đại học Sư phạm Hà Nội Tôi xin chân thành cảm ơn thầy cô trường Đại học Sư phạm Hà Nội tạo điều kiện học tập, nghiên cứu giúp đỡ nhiều trình làm luận văn Đặc biệt xin cảm ơn thầy TS.Nguyễn long Giang tận tình hướng dẫn, bảo suốt trình học tập, nghiên cứu đề tài giúp đỡ hoàn thành luận văn Vĩnh Phúc, ngày 21 tháng 11 năm 2015 Học viên T rần Thị Phương Liên LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học TS Nguyễn Long Giang Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Học viên T rần Thị Phương Liên MUC LUC • • LỜ I CẢM ƠN LỜ I CAM ĐOAN MỤC L Ụ C i DANH MỤC CÁC THUẬT N G Ữ iii DANH MỤC CÁC B Ả N G iv DANH MỤC CÁC HÌNH V Ẽ V M Ở Đ Ầ U Chương CÁC K H Á I NIỆM c B Ả N 1.1 Hệ thông tin đầy đủ mô hình tập thô truyền thống 1.1.1 Hệ thông tin đầy đ ủ 1.1.2 Bảng định đầy đủ 1.1.3 Tập rút gọn tập lõ i 1.2 Hệ thông tin không đầy đủ mô hình tập thô dung s a i .8 1.2.1 Hệ thông tin không đầy đ ủ 1.1.2 Bảng định không đầy đ ủ Chương RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐÀY ĐỦ 11 2.1 Rút gọn thuộc tính trích lọc luật bảng định không đầy đủ .11 2.1.1 Tổng kết, phân nhóm phương pháp rút gọn thuộc tín h 11 2.1.2 Luật định độ đo đánh giá hiệu 16 2.1.3 Lựa chọn, so sánh, đánh giá phương pháp rút gọn thuộc tính 20 2.2 Xây dựng phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng khoảng cách 2 2.2.1 Xây dựng khoảng cách hai tập thuộc tính 23 2.2.2 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 27 2.2.3 Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách 32 Chương THỬ N G HIỆM VÀ ĐÁNH GIÁ KẾT Q U Ả 33 3.1 Bài to n 33 ii 3.2 Phân tích, lựa chọn công c ụ 33 3.2.1 Phương pháp rút gọn thuộc tính sử dụng độ đo lượng thông tin 34 3.2.2 Lựa chọn công cụ cài đặt 35 3.3 Một số kết thử nghiệm 35 3.3.1 Kết thử nghiệm rút gọn thuộc tính sử dụng khoảng cách 35 3.3.2 Kết thử nghiệm trích lọc luật mô hình tập thô dung sai .37 3.4 ứ n g dụng toán chuẩn đoán bệnh viêm gan B 39 3.4.1 Bài toán chuẩn đoán bệnh viêm gan B 39 3.4.2 Mô tả liệ u 39 3.4.3 Kết thực h iệ n 40 KẾT L U Ậ N 44 TÀI LIỆU THAM K H Ả O 45 PHỤ LỤC DANH MUC CÁC THUÃT NGỮ • • T h u ật ngữ tiếng Việt T huật ngữ tiếng Anh Tập thô Rough Set Tập thô dung sai Tolerance Rough Set Hệ thông tin Information System Hệ thông tin đẩy đủ Complete Information System Hệ thông tin không đẩy đủ Incomplete Information System Bảng quyêt định Decision Table Bảng quyêt định đủ Complete Decision Table Bảng quyêt định không đủ Incomplete Decision Table Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Xâp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Luật định Decision Rule Khoảng cách Distance DANH MUC CÁC BẢNG Bảng 1.1 Bảng thông tin bệnh c ú m Bảng 1.2 Bảng định không đầ đủ xe 10 Bảng 2.1 Các phương pháp rút gọn thuộc tính công trình [3, 8, 14] 13 Bảng 2.2 Bảng định không đầy đủ xe h i 17 Bảng 2.3 Bảng định không đầy đủ xe h i 30 Bảng 3.1 Kết thực Thuật toán DBAR Thuật toán IQBAR 36 Bảng 3.2 Tập rút gọn Thuật toán DBAR Thuật toán IQBAR .36 Bảng 3.3 Kết thực Thuật toán DBAK Thuật toán IQBAK sổ liệu lớn 37 Bảng 3.4 Tập rút gọn tốt nhẩt số liệu Soybean-small 38 Bảng 3.5 Các luật phân lớp bảng định rút gọn 38 V DANH MỤC CÁC HÌNH VẼ H ình 2.1 Mối liên hệ tập rút gọn bảng định không đầy đ ủ 15 Hình 3.1 Ket rút gọn thuộc tính 42 Hình 3.2 Ket sinh luật định 43 MỞ ĐẦU Lý chọn đề tài Rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu trình khai phá liệu khám phá tri thức Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa liệu nhằm tìm thuộc tính cốt lõi Dựa vào tập thuộc tính cốt lõi tìm được, thuật toán khai phá liệu đạt hiệu cao Với lớp toán trích lọc luật bảng định, rút gọn thuộc tính trình tìm tập rút gọn (reduct) tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp bảng định Dựa vào tập rút gọn, việc sinh luật định đạt hiệu cao Lý thuyết tập thô truyền thống Pawlak [11] xem công cụ hiệu để giải toán rút gọn thuộc tính sinh luật bảng định đầy đủ Tuy nhiên với toán thực tế, miền giá trị thuộc tính bảng định thường không đầy đủ giá trị Ví dụ lĩnh vực y tế, bác sỹ thu thập đầy đủ triệu trứng bệnh nhân để phục vụ chuẩn đoán bệnh Các bảng định gọi bảng định không đầy đủ (Incomplete Decision Table) Đe giải toán rút gọn thuộc tính trích lọc luật bảng định không đầy đủ, công trình nghiên cứu Kryszkiewicz [5] thực mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai đề xuất mô hình tập thô dung sai nhằm rút gọn thuộc tính trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựa mô hình tập thô dung sai, số công trình công bố năm gần đề xuất số độ đo không chắn nhằm giải toán rút gọn thuộc tính trích lọc luật, đáng ý công trình [2], [3], [4], [6 ], [7], [8 ], [9], [10] Như trình bày trên, rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu trình khai phá liệu khám phá tri thức Do đó, việc nghiên cứu phương pháp rút gọn thuộc tính có ý nghĩa thực tiễn cao Hơn nữa, mô hình tập thô dung sai chứng minh công cụ hiệu để giải toán rút gọn thuộc tính, việc tiếp tục nghiên cứu nhằm tìm phương pháp mới, 34 3.2.1 Phương pháp rút gọn thuộc tính sử dụng độ đo lượng thông tin Trong [4], Huang B cộng đưa khái niệm tập rút gọn dựa lượng thông tin (information quantity) Với B œ A, lượng thông tin B {dỊ /(i?|{í/}) = / ( ? u { < i} )-/( ?) với I ( b ) = 1— ĩ/ i=l u = {uv u2, ,un} Tập rút gọn dựa lượng thông tin định nghĩa sau: Cho bảng định không đầy đủ IDS =ịư,Au{dỴj Nếu R Œ A thỏa mãn: (1)/(*|{d}) = /(A {d}); VR' g R,I (/?’|{ DI 0.12766 c4(l) and c22(0) ==> DI 0.08511 c4(2) and c22(3) ==> D2 0.12766 c4( 1) and c22(3) ==> D2 0.08511 c4(0) and c22(l) ==> D3 0.21277 c4( 1) and c22(2) ==> D4 0.21277 c4(0) and c22(2) ==> D4 0.14894 39 Chú thích: Trên bảng Bảng 3.5, c4(l) nghĩa thuộc tính c4 nhận giá trị (c4 = 1) D l, D2, D3, D4 giá trị thuộc tính định (tổng số lớp định) Kết thử nghiệm cho thấy, tập rút gọn tốt thu Thuật toán DB AR, số lượng luật từ 47 giảm xuống 7, độ dài luật từ 35 giảm xuống Độ chắn tập luật không thay đổi (bằng 1) Kết khẳng định ý nghĩa việc rút gọn thuộc tính bước tiền xử lý liệu 3.4 ứ n g dụng toán chuẩn đoán bệnh viêm gan B 3.4.1 Bài toán chuẩn đoán bệnh viêm gan B Viêm gan siêu vi B loại virut công gan, gây bệnh viêm gan Tổ chức Y tế Thế giới thông kê có khoảng 350 triệu người nhiễm virut viêm gan B Việt Nam có khoảng 20% dân số nhiễm virut viêm gan B Những người nhiễm virut viêm gan B không kiểm soát điều trị tốt gây viêm gan, xơ gan ung thư gan Như biết, từ bảng định có nhiều đối tượng, tập luật định rút trích lớn Đe rút gọn tập luật định mà không làm tính đặc trưng bảng định ta rút gọn tập thuộc tính Dựa sở nghiên cứu lý thuyết chương “Rút gọn thuộc tính trích lọc luật bảng định không đầy đủ”, luận văn thử nghiệm thuật toán vào triệu chứng bệnh Viêm gan B 3.4.2 Mô tả liệu Chương trình tìm luật rút gọn cho thuộc tính điều kiện từ đưa luật định để dùng vào sở tri thức hệ chuyên gia nhằm mục đích chuẩn đoán bệnh Số thuộc tính rút gọn phải nhỏ số thuộc tính ban đầu có giá trị việc đưa luật định Luật tạo có số thuộc tính nhỏ không ảnh hưởng đến việc đưa định Số liệu thực nghiệm lấy từ kho liệu UCI[13] với liệu viêm gan H epatitis.data để sinh luật định phục vụ cho bác sĩ chuyên ngành chuẩn đoán bệnh viêm gan cho bệnh nhân Thông tin thuộc tính 40 Class: DIE, LIVE AGE: 10, 20, 30, 40, 50, 60, 70, 80 SEX: male, female STEROID: no, yes ANTIVIRALS: no, yes FATIGUE: no, yes MALAISE: no, yes ANOREXIA: no, yes LIVER BIG: no, yes 10.LIVER FIRM: no, yes 11 SPLEEN PALPABLE: no, yes 12.SPIDERS: no, yes 13 ASCITES: no, yes 14 VARICES: no, yes 15.BILIRUBIN: 0.39, 0.80, 1.20, 2.00, 3.00, 4.00 16 ALK PHOSPHATE: 33, 80, 120, 160, 200, 250 17.SGOT: 13, 100, 200, 300, 400, 500, 18 ALBUMIN: 2.1, 3.0, 3.8, 4.5, 5.0, 6.0 19.PROTIME: 10, 20, 30, 40, 50, 60, 70, 80, 90 20 HISTOLOGY: no, yes 3.4.3 Kết thực Chương trình tiến hành khai phá liệu sở liệu bệnh nhân bị viêm gan Dữ liệu đầu vào với liệu viêm gan Hepatitis.data có cấu trúc sau: - Các thuộc tính điều kiện tương ứng với 19 triệu chứng thu thập từ bệnh nhân có biểu viêm gan, kí hiệu: {Ci, c2, c3, c 19} - Mỗi dòng thông tin bệnh nhân, dòng bệnh nhân thể thuộc tính, hai thuộc tính “dấu cách” Với thuộc tính có giá trị cách dấu 41 - Thuộc tính “?” có giá trị {0, 1, 2} - Thuộc tính cuối thuộc tính định mang giá trị {1}- Có bệnh, {0}- Không có bệnh Các thuộc tính tương ứng với số đại lượng dùng để xác định tình trạng bệnh bệnh nhân: - C l' Age- số tuổi bệnh nhân 10 đến 80 Lớp 0: [10-23], Lớp 1: [23- 46], Lớp 2: [46-80] - c2: Sex- Giới tính: = Male, = Female - c3: Steroid- Thuốc kháng viêm: = No, = Yes - c4: Antiviral- Thuốc kháng viruts: = No, = Yes - c5: Fatigue- Mệt mỏi: 0= No, = Yes - c6: Malaise- Khó ở: 0= No, = Yes - c7: Anorexia- Chán ăn: 0= No, = Yes - cg: Liver big- Gan sưng to: 0= No, = Yes - c9: Liver firm- Viêm gan: 0= No, = Yes - c10: Spleen palpable- Viêm lách: 0= No, = Yes - Cn: Spiders- Mạch máu hình nhện da: 0= No, = Yes - c12: Ascites- Hạch ổ bụng: 0= No, = Yes - c13: Varices- Giãn tĩnh mạch: 0= No, = Yes - c14: Bilirubin- Sắc tố da (vàng da): Lớp 0: [0.39-1.20], Lớp 1: [1.20- 2.40], Lớp 2:[2.40- 4.00] - c15: Aik phosphate- Huyết tương: Lớp 0: [33-72.3], Lớp 1: [72.3- 144.6], Lớp 2: [144.6- 250] - c16: SGOT- Enzym men gan: Lớp 0: [13- 162.3], Lớp 1: [162.3- 324.6], Lớp 2: [324.6- 500] - c17: Albumin- Nồng độ albumin: Lớp 0: [2.1- 3.0], Lớp 1: [3.8- 4.5], Lớp 2: [5.0- 6.0] - clg: Protime- Tình trạng đông máu người bệnh: từ 10 đến 90 Lớp 0: [10-26.7], Lớp 1: [26.7- 53.4], Lớp 2: [53.4- 90] 42 - Cl9 : Histology- Tiền sử mắc bệnh: 0= No, = Yes - d: Class- Lớp định: = Live, = Die Sau nạp liệu viêm gan H epatitis.data với thuộc tính nêu vào chương ttìrih thu kết tập rút gọn thuộc tính sinh tập luật định cho theo hình 3.1 3.2 Tập rú t g ọ n c1 ► L ^ U ẽL e4 c2 C17 d 30 1S = 50 42 — 78 32 31 - 52 34 200 3-4 2-S 1 51 t 23 ■* 39 43 30 120 39 30 32 249 41 60 30 144 47 ÕQ 5S ■S9 66 53 Sinhluát định r Hình 3.1 Kêt rứt gọn thuộc tính 43 aĩ Tập luật Độ ellẩe đ iể n (Alpha) Luât định ► g1 (2) í i and c2 1 0.00645 I o1 (2) and c2(?8) and c*C2) and d 7(32) ==> 1 0.0D645 c1 (2) andl c2(31) and c4rT} and c17(52) »*> '1 0.0Ữ64S C1 (2) and! C2(34) ari-d C4Í2) and C17\2Ữ0) ==> 1 0.00645 c1 (2) and c21 0.00645 C1 (2) and; C2(23) ar 1 0.00645 d (2) and c2[...]... tớnh trong bng quyt nh khụng y s dng khong cỏch Trong phn 2.1, lun vn ó tng kt cỏc kt qu nghiờn cu v cỏc phng phỏp rỳt gn thuc tớnh v lut quyt nh trong bng quyt nh khụng y , bao gm: kt qu v phõn nhúm cỏc phng phỏp da vo tp rỳt gn; kt qu v so sỏnh v ỏnh giỏ cỏc phng phỏp da trờn tiờu chun cht lng phõn lp ca tp rỳt gn K thut s dng khong cỏch úng vai trũ quan trng trong khai phỏ d liu v hc mỏy Trong. .. dng Entropy thụng tin - Trong bng quyt nh khụng y , cỏc tỏc gi trong cụng trỡnh [7] ó xõy dng cụng thc tớnh khong cỏch gia hai ph (sinh bi hai tp thuc tớnh) da vo o Entropy Liang m rng, t ú xut phng phỏp rỳt gn thuc tớnh trong h thụng tin khụng y v bng quyt nh khụng y Tip tc hng nghiờn cu v k thut s dng khong cỏch, trong phn ny lun vn xõy dng phng phỏp rỳt gn thuc tớnh trong bng quyt nh khụng y... phng phỏp rỳt gn thuc tớnh trong bng quyt nh khụng y Theo tip cn mụ hỡnh tp thụ dung sai, cho n nay ó cú rt nhiu phng phỏp rỳt gn thuc tớnh da trờn cỏc o khỏc nhau ó c cụng b [3, 7, 8 , 14] Trong cụng trỡnh [7, 8 , 14], cỏc tỏc gi ó tng kt khỏ y cỏc phng phỏp rỳt gn thuc tớnh trong bng quyt nh khụng y v cỏc tp rỳt gn tng ng 13 Bng 2.1 Cỏc phng phỏp rỳt gn thuc tớnh trong cụng trỡnh [3, 8, 14]... u Trong trng hp bng khụng nht quỏn thỡ POSc (Ê>) chớnh l tp con cc i ca u sao cho ph thuc hm c ^>D ỳng 1.1.3 Tp rỳ t gn v tp lừi Trong bng quyt nh, cỏc thuc tớnh iu kin c phõn thnh ba nhúm: thuc tớnh lừi (core attrbute), thuc tớnh rỳt gn (reductive attrbute) v thuc tớnh d tha (redundant attrbute) Thuc tớnh lừi l thuc tớnh khụng th thiu trong vic phõn lp chớnh xỏc tp d liu Thuc tớnh lừi xut hin trong. .. tp d liu, thuc tớnh d tha khụng xut hin trong bt k tp rỳt gn no ca bng quyt nh Thuc tớnh rỳt gn l thuc tớnh xut hin trong mt tp rỳt gn no ú ca bng quyt nh 8 Vi bng quyt nh DS = ( U , C 'u D ,V ,f ) Thuc tớnh c e C c gi l khụng cn thit (dispensable) trong DS nu POSc (z)) = POS(C_c^ (Z)); Ngc li, c c gi l cn thit (indispensable) Tp tt c cỏc thuc tớnh cn thit trong DS c gi l tp lừi v c ký hiu l PCORE^C)... nhúm cỏc phng phỏp rỳ t gn thuc tớnh Rỳt gn thuc tớnh theo tip cn tp thụ truyn thng ca Pawlak [10] l ch nghiờn cu sụi ng trong nhiu nm qua [1] Tuy nhiờn trong cỏc bi toỏn thc t, cỏc h thụng tin thng thiu giỏ ờn min giỏ tr ca thuc tớnh, cũn gi l cỏc h thụng tin khụng y Vớ d, trong cỏc kho d liu thuc lnh vc y khoa, cỏc bỏc s thng khụng thu thp cỏc triu trng ca cỏc bnh nhõn chun oỏn bnh Trờn h thụng... nghiờn cu: Cỏc bng quyt nh khụng y (thiu giỏ tr) vi kớch thc trung bỡnh v kớch thc ln trong lnh vc nghiờn cu v bng quyt nh y - Phm vi nghiờn cu: Nghiờn cu bi toỏn rỳt gn thuc tớnh trong bc tin x lý d liu ca quỏ trỡnh khai phỏ d liu v khỏm phỏ tri thc 5 Phng phỏp nghiờn cu - Nghiờn cu lý thuyt: Nghiờn cu cỏc kt qu ó cụng b trong lnh vc liờn quan Trờn c s ú phõn tớch, tng hp, ỏnh giỏ cỏc kt qu ó cụng b 3... gia cỏc tp rỳt gn, cỏc tỏc gi trong [7, 8 , 14] ó thc hin phõn nhúm cỏc tp rỳt gn v ch ra mi liờn quan h gia cỏc tp rỳt gn ca cỏc nhúm C th: Cỏc tp rỳt gn trong bng khụng nht quỏn c chia thnh bn nhúm: Nhúm 1: Bao gm tp rỳt gn Rp Nhúm 2: Bao gm cỏc tp rỳt gn Rừ, Rg, RM Nhúm 5: Bao gm cỏc tp rỳt gn R , RjM , RD, Rp Nhúm 4: Bao gm tp rỳt gn R Mi liờn h gia cỏc tp rỳt gn trong cỏc nhúm nh sau: Nu R3 l... ỏnh giỏ hiu nng trong bng quyt nh y v khụng y tụi cng tng hp kt qu nghiờn cu v s thay i cỏc o trờn cỏc tp rỳt gn ca cỏc nhúm phng phỏp, t ú trỡnh by kt qu so sỏnh, ỏnh giỏ cỏc phng phỏp rỳt gn thuc tớnh da trờn tiờu chun cht lng phõn lp ca tp rỳt gn 2.1.2 L u t quyt nh v cỏc o ỏnh giỏ hiu nng a) Lut quyt nh v cỏc o ỏnh giỏ hiu nng Khỏi nim v lut quyt nh trong bng quyt nh khụng y trong cụng trỡnh... Neu (ớ,v)eZ/VD(.P) thỡ hai i tng v V khụng phõn bit c bi cỏc thuc tớnh trong p Quan h tng ng 7èVD(p) xỏc nh 5 mt phõn hoch trờn u , ký hiu l u ND(P) hay u / p Ký hiu lp tng ng u/ p trong phõn hoch cha i tng u l [u]p , khi ú [w]p = |v et/|(w ,v )e/iV D (P )j Cho h thụng tin IS = ( U ,A ,V ,f) , tp thuc tớnh B ỗ A v tp i tng X u Trong lý thuyt tp thụ truyn thng ca Pawlak [10], biu din tp X thụng qua

Ngày đăng: 09/05/2016, 10:42

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan