Nghiên cứu một số thuật toán trên bảng quyết định nhất quán

62 369 1
Nghiên cứu một số thuật toán trên bảng quyết định nhất quán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC MỞ ĐẦU - CHƢƠNG CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ VÀ LÝ THUYẾT VỀ CƠ SỞ DỮ LIỆU - 1.1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ - 1.1.1 Hệ thông tin đầy đủ - 1.1.2 Mô hình tập thô truyền thống - 1.1.3 Bảng định đầy đủ - 1.1.4 Tập rút gọn tập lõi - 1.1.5 Ma trận phân biệt hàm phân biệt - 10 1.2 LÝ THUYẾT VỀ CƠ SỞ DỮ LIỆU - 11 1.2.1 Quan hệ - 11 1.2.2 Phụ thuộc hàm - 11 1.2.3 Hệ tiên đề Armstrong - 12 1.2.4 Sơ đồ quan hệ - 12 1.2.5 Khoá phản khoá - 12 1.2.6 Hệ hệ cực đại - 13 1.3 MỘT SỐ THUẬT TOÁN CƠ BẢN - 14 CHƢƠNG 2: MỘT SỐ PHƢƠNG PHÁP TÌM MỘT TẬP RÚT GỌN VÀ TÌM CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH - 19 2.1.Thuật toán tìm tập rút gọn bảng định sử dụng metric - 19 2.1.1.Khoảng cách Jaccard hai tập hợp hữu hạn - 19 2.1.2 Một số tính chất metric bảng định - 21 2.2 THUậT TOÁN TÌM TậP TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG QUYếT ĐịNH NHấT QUÁN - 33 - 2.2.1 Đặt vấn đề - 33 2.2.2 Thuật toán - 34 - 2.3 THUậT TOÁN TÌM Họ TấT Cả CÁC TậP RÚT GọN CủA BảNG QUYếT ĐịNH NHấT QUÁN - 37 - 2.4 THUậT TOÁN XÂY DựNG CÁC PHụ THUộC HÀM Từ BảNG QUYếT ĐịNH NHấT QUÁN - 40 2.5 THUậT TOÁN XÂY DựNG BảNG QUYếT ĐịNH Từ TậP PHụ THUộC HÀM - 41 CHƢƠNG 3: THỰC NGHIỆM THUẬT TOÁN TÌM MỘT TẬP RÚT GỌN - 46 3.1 THử NGHIệM CÁC THUậT TOÁN HEURISTIC TÌM MộT TậP RÚT GọN TốT NHấT - 46 3.1.1.Mô tả thuật toán CEBARKCC - 47 3.1.2.Thử nghiệm đánh giá thuật toán số liệu mẫu UCI - 48 3.2 THử NGHIệM THUậT TOÁN TÌM TậP RÚT GọN THEO THAM Số Độ CHắC CHắN - 51 3.3 THử NGHIệM THUậT TOÁN TÌM TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG QUYếT ĐịNH NHấT QUÁN - 52 - 3.4 MộT Số GIAO DIệN CHƢƠNG TRÌNH THử NGHIệM - 53 3.4.1 Giao diện chƣơng trình - 53 3.4.2.Nạp tệp liệu mẫu lấy từ kho liệu UCI - 53 3.4.3 Thực thuật toán CEBARKCC - 54 3.4.4 Thực thuật toán sử dụng khoảng cách - 55 3.4.5.Thực thuật toán sinh luật định từ tập rút gọn - 55 3.4.6.Thực thuật toán tìm tất thuộc tính rút gọn - 56 KẾT LUẬN - 57 - -1- MỞ ĐẦU Khai phá liệu vấn đề sôi động đƣợc ứng dụng rộng rãi Có nhiều phƣơng pháp khai phá liệu, phƣơng pháp sử dụng lý thuyết tập thô - công cụ quan trọng khai phá liệu Từ xuất hiện, lý thuyết tập thô đƣợc sử dụng hiệu bƣớc trình khai phá liệu khám phá tri thức, bao gồm rút gọn liệu, trích lọc tri thức tiềm ẩn liệu dƣới dạng mẫu luật định, bảng định Trong thực tế, liệu bảng định thƣờng đa dạng không đầy đủ, thiếu xác mà lại dƣ thừa nên toán rút gọn thuộc tính đƣợc đặt nhằm mục tiêu tạo thuộc tính cốt yếu cần thiết sở liệu (bảng) Hay nói cách khác, Rút gọn toán quan trọng lý thuyết tập thô Mục tiêu toán rút gọn thuộc tính bảng định loại bỏ (tối đa) thuộc tính dƣ thừa mà phần lại chứa đầy đủ thông tin bảng, dựa vào tập thuộc tính rút gọn thu đƣợc, việc sinh luật phân lớp đạt hiệu cao Trong năm gần chứng kiến phát triển mạnh mẽ sôi động hƣớng nghiên cứu rút gọn thuộc tính lý thuyết tập thô Trong xu nhiều nhóm nhà khoa học giới nghiên cứu phƣơng pháp rút gọn thuộc tính theo phƣơng pháp khác nhau, đáng ý phƣơng pháp dựa miền dƣơng, phƣơng pháp sử dụng lý thuyết thông tin, phƣơng pháp sử dụng ma trận phân biệt đƣợc, phƣơng pháp dựa tính toán hạt, phƣơng pháp dựa metric… Mỗi phƣơng pháp phù hợp với lớp toán thực tế Đối với bảng định quán có nhiều thuật toán khác Tuy nhiên, thực hành thƣờng không đòi hỏi tìm tất tập rút gọn mà cần tìm đƣợc tập rút gọn tốt theo tiêu chuẩn đánh giá đủ Vì vậy, phƣơng pháp rút gọn thuộc tính đề xuất -2- thuật toán heuristic tìm tập rút gọn Các thuật toán giảm thiểu đáng kể khối lƣợng tính toán, nhờ áp dụng toán có khối lƣợng liệu lớn Chính vậy, mà Tôi chọn đề tài: “Nghiên cứu số thuật toán bảng định quán” làm luận văn tốt nghiệp Trong luận văn này, nghiên cứu vấn đề sau: - Tìm hiểu số lý thuyết hệ thống thông tin, bảng định, tập rút gọn - Tìm hiểu số lý thuyết sở liệu - Tìm hiểu số thuật toán tìm tập rút gọn tất tập rút gọn bảng định - Cài đặt thử nghiệm thuật toán tìm tập rút gọn bảng định Bố cục luận văn gồm: Mở đầu: Đặt vấn đề ý nghĩa, tính cấp thiết đề tài Chƣơng 1: Các khái niệm Trong chƣơng này, tìm hiểu khái niệm hệ thống thông tin, bảng định, tập rút gọn, quan hệ, phụ thuộc hàm, tiên đề Armstrong, khoá, phản khoá số thuật toán sở liệu quan hệ đƣợc sử dụng để xây dựng thuật toán rút gọn bảng định Đây phần lý thuyết sở để triển khai, nghiên cứu chƣơng Chƣơng 2: Tìm hiểu số thuật toán tìm tập rút gọn thuật toán tìm tất tập rút gọn bảng định Trong chƣơng này, đề xuất số thuật toán bảng định liên quan đến tập rút gọn: xác định tập rút gọn tất tập rút gọn bảng định (dựa lý thuyết sở liệu quan hệ) Chƣơng 3: Triển khai cài đặt thử nghiệm thuật toán tìm tập rút gọn bảng định, từ rút số kết luận Kết luận -3- Chƣơng CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ VÀ LÝ THUYẾT VỀ CƠ SỞ DỮ LIỆU Lý thuyết tập thô - Zdzislaw Pawlak [12] đề xuất vào năm đầu thập niên tám mƣơi kỷ hai mƣơi - đƣợc xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu mơ hồ không chắn Công cụ cho phép biểu diễn mô hình toán học tri thức, nhờ tri thức đƣợc định nghĩa cách rõ ràng dƣới dạng toán học đƣợc phân tích xử lý công cụ mạnh mẽ hiệu toán học Từ xuất hiện, lý thuyết tập thô đƣợc sử dụng hiệu bƣớc trình khai phá liệu khám phá tri thức, bao gồm tiền xử lý số liệu, trích lọc tri thức tiềm ẩn liệu đánh giá kết thu đƣợc Trong lý thuyết tập thô, liệu đƣợc biểu diễn thông qua hệ thông tin IS  U , A với U tập đối tƣợng A tập thuộc tính Phƣơng pháp tiếp cận lý thuyết tập thô dựa quan hệ không phân biệt để đƣa tập xấp xỉ biểu diễn tập đối tƣợng cần quan sát Khi đó, tập đối tƣợng đƣợc xấp xỉ hai tập rõ xấp xỉ dƣới xấp xỉ Xấp xỉ dƣới bao gồm đối tƣợng chắn thuộc tập đó, xấp xỉ chứa tất đối tƣợng có khả thuộc tập Nếu tập xấp xỉ dƣới tập xấp xỉ tập đối tƣợng cần quan sát tập rõ, ngƣợc lại tập thô Các tập xấp xỉ sở để đƣa kết luận từ liệu Bảng định hệ thông tin IS với tập thuộc tính A đƣợc chia thành hai tập khác rỗng rời C D , lần lƣợt đƣợc gọi tập thuộc tính điều kiện tập thuộc tính định Nói cách khác, DS  U , C  D với C  D   Bảng định mô hình thƣờng gặp thực tế, mà giá trị liệu thuộc tính điều kiện cung cấp cho ta thông tin giá trị thuộc tính định Bảng định quán phụ thuộc hàm C  D đúng, trái lại không quán -4- 1.1 CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ 1.1.1 Hệ thông tin đầy đủ Hệ thông tin công cụ biểu diễn tri thức dƣới dạng bảng liệu gồm p cột ứng với p thuộc tính n hàng ứng với n đối tƣợng Một cách hình thức, hệ thông tin đƣợc định nghĩa nhƣ sau Định nghĩa 1.1 Hệ thông tin tứ IS  U , A,V , f  U tập hữu hạn, khác rỗng đối tƣợng; A tập hữu hạn, khác rỗng thuộc tính; V   Va với Va tập giá trị thuộc tính a  A ; f hàm thông tin, a A với a  A u U hàm f cho giá trị f u, a  Va Với u U , a  A , ta ký hiệu giá trị đối tƣợng u thuộc tính a u  a  thay f u, a  Nếu B  b1, b2 , , bk   A tập thuộc tính ta ký hiệu giá trị u  bi  u  B  Nhƣ vậy, u v hai đối tƣợng, ta viết u  B  v  B u bi   v bi  với i  1, , k Nếu với u U a  A , u  a  chứa giá trị khác rỗng hệ thông tin đƣợc gọi hệ thông tin đầy đủ Trong luận văn này, hệ thông tin đầy đủ đƣợc gọi tắt hệ thông tin đƣợc ký hiệu IS  U , A,V , f  Xét hệ thông tin IS  U , A,V , f  Với tập thuộc tính P  A , tồn quan hệ hai U, ký hiệu IND  P  , xác định   IND  P    u, v  U U a  P, u  a   v  a  IND  P  đƣợc gọi quan hệ B - không phân biệt đƣợc Dễ thấy quan hệ tƣơng đƣơng U Nếu u, v   IND B  hai đối tƣợng u v không phân biệt đƣợc thuộc tính B Quan hệ tƣơng đƣơng IND  P  xác định phân hoạch U, ký hiệu U / IND  P  hay U / P Ký hiệu lớp -5- tƣơng đƣơng phân hoạch U / P chứa đối tƣợng u u P , u P  v U u, v   IND  P  Định nghĩa 1.2 [9] Cho hệ thông tin IS  U , A,V , f  P, Q  A Ta nói: 1) Phân hoạch U / P phân hoạch U / Q nhƣ (viết U / P  U / Q ), u U , u P  u Q 2) Phân hoạch U / P mịn phân hoạch U / Q (viết U / P  U / Q ) u U , u P  u Q Tính chất 1.1 [9] Xét hệ thông tin IS  U , A,V , f  P, Q  A 1) Nếu P  Q U / Q  U / P , lớp U / P lớp hợp số lớp thuộc U / Q 2) Với u U ta có u PQ  u P  u Q 1.1.2 Mô hình tập thô truyền thống Cho hệ thông tin IS  U , A,V , f  tập đối tƣợng X  U Với tập thuộc tính B  A cho trƣớc, có lớp tƣơng đƣơng phân hoạch U / B , tập đối tƣợng X biểu diễn thông qua lớp tƣơng đƣơng nhƣ nào? Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua lớp tƣơng đƣơng U / B (còn gọi biểu diễn X tri thức có sẵn B), ngƣời ta xấp xỉ X hợp số hữu hạn lớp tƣơng đƣơng U / B Có hai cách xấp xỉ tập đối tƣợng X thông qua tập thuộc tính B , đƣợc gọi B-xấp xỉ B-xấp xỉ X, ký hiệu lƣợt BX BX , đƣợc xác định nhƣ sau:     BX  u U u B  X , BX  u U u B  X   Tập BX bao gồm tất phần tử U chắn thuộc vào X, tập BX bao gồm phần tử U có khả đƣợc phân loại vào X dựa -6- vào tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa tập BNB  X   BX  BX : B-miền biên X , U  BX : B-miền X Dễ thấy B-miền biên X tập chứa đối tƣợng thuộc X, B-miền X chứa đối tƣợng chắn không thuộc X Sử dụng lớp phân hoạch U/B, xấp xỉ dƣới X viết lại BX  Y U / B Y  X  , BX  Y U / B Y  X   Trong trƣờng hợp BN B  X    , X đƣợc gọi tập rõ, ngƣợc lại X đƣợc gọi tập thô Với B, D  A , ta gọi B- miền dƣơng D tập đƣợc xác định nhƣ sau POS B ( D )    BX  X U / D Rõ ràng POS B ( D) tập tất đối tƣợng u cho với v U mà u  B   v  B  ta có u  D   v  D  Nói cách khác,   POS B ( D)  u U u B  u D Ví dụ 1.1 Xét hệ thông tin biểu diễn triệu chứng cúm bệnh nhân cho Bảng 1.1 Bảng 1.1 Bảng thông tin bệnh cúm Đau đầu Thân nhiệt Cảm cúm Có Bình thƣờng Không Có Cao Có Có Rất cao Có Không Bình thƣờng Không Không Cao Không Không Rất cao Có Không Cao Có Không Rất cao Không Ta có: U / {Đau đầu} = u1 , u2 , u3  , u4 , u5 , u6 , u7 , u8  U u1 u2 u3 u4 u5 u6 u7 u8 U / {Thân nhiệt} = u , u ,u , u , u ,u , u , u  -7- u , u , u , u ,u , u , u , u  U / {Cảm cúm} = U / {Đau đầu, Cảm cúm} = u ,u , u ,u , u , u ,u , u  Nhƣ vậy, bệnh nhân u2 , u3 không phân biệt đƣợc đau đầu cảm cúm, nhƣng phân biệt đƣợc thân nhiệt Các lớp không phân biệt đƣợc B = {Đau đầu, Thân nhiệt} là: u1, u2 , u3, u4 , u5 , u7 , u6 , u8  Đặt X  {u u (Cảm cúm) = Có} = u2 , u3 , u6 , u7  Khi đó: BX  u2 , u3  BX  u2 , u3 , u5 , u6 , u7 , u8  Nhƣ vậy, B-miền biên X tập hợp BNB  X   u5 , u6 , u7 , u8 Nếu đặt D = {Cảm cúm} U / D   X1  u1, u4 , u5 , u8 ; X  u2 , u3 , u6 , u7  , BX1  u1 , u4  ; BX  u2 , u3 , POS B ( D)    BX   u , u , u , u  X U / D Với khái niệm tập xấp xỉ phân hoạch U / B , tập thô đƣợc chia thành bốn loại nhƣ sau: 1) Tập X B-xác định thô BX   BX  U 2) Tập X B-không xác định BX   BX  U 3) Tập X B-không xác định BX   BX  U 4) Tập X B-không xác định hoàn toàn BX   BX  U 1.1.3 Bảng định đầy đủ Một lớp đặc biệt hệ thông tin có vai trò quan trọng nhiều ứng dụng bảng định Bảng định đầy đủ dạng đặc biệt hệ thông tin đầy đủ, tập thuộc tính A bao gồm hai tập tách biệt nhau: tập thuộc tính điều kiện C tập thuộc tính định D Trong luận văn -8- này, bảng định đầy đủ đƣợc gọi tắt bảng định đƣợc ký hiệu DS  U , C  D,V , f  với C  D   Bảng định DS đƣợc gọi quán phụ thuộc hàm CD nghiệm đúng, nghĩa với u, v U , u C   v C  kéo theo u  D   v  D  Ngƣợc lại DS không quán Dễ thấy bảng định DS quán POSC D  U Trong trƣờng hợp bảng không quán POSC  D  tập cực đại U cho phụ thuộc hàm C  D 1.1.4 Tập rút gọn tập lõi Trong bảng định, thuộc tính điều kiện đƣợc phân thành thuộc tính lõi thuộc tính không cần thiết Thuộc tính lõi thuộc tính cốt yếu, thiếu việc phân lớp xác tập liệu Thuộc tính không cần thiết thuộc tính dƣ thừa mà việc loại bỏ thuộc tính không ảnh hƣởng đến việc phân lớp liệu Các thuộc tính không cần thiết đƣợc phân thành hai nhóm: Thuộc tính dư thừa thực thuộc tính rút gọn Thuộc tính dư thừa thực thuộc tính dƣ thừa mà việc loại bỏ tất thuộc tính nhƣ không ảnh hƣởng đến việc phân lớp liệu Thuộc tính rút gọn, với tổ hợp thuộc tính đó, thuộc tính dƣ thừa với tổ hợp thuộc tính khác cốt yếu Định nghĩa 1.3 [8] (Tập lõi dựa miền dƣơng) Cho bảng định DS  U , C  D,V , f  Thuộc tính c  C đƣợc gọi không cần thiết (dƣ thừa) DS dựa miền dƣơng POSC  D   POS(C c)  D  ; Ngƣợc lại, c đƣợc gọi cần thiết Tập tất thuộc tính cần thiết DS đƣợc gọi tập lõi dựa miền dƣơng đƣợc ký hiệu PCORE C  Lúc đó, thuộc tính cần thiết đƣợc gọi thuộc tính lõi Định nghĩa 1.4 [8] (Tập rút gọn dựa miền dƣơng) Cho bảng định DS  U , C  D,V , f  tập thuộc tính R  C Nếu - 46 - Chƣơng 3: THỰC NGHIỆM THUẬT TOÁN TÌM MỘT TẬP RÚT GỌN Xây dựng thuật toán heuristic tìm tập rút gọn tốt theo tiêu chuẩn đánh giá độ quan trọng thuộc tính (chất lƣợng phân lớp thuộc tính) Thuật toán giảm thiểu đáng kể khối lƣợng tính toán, nhờ áp dụng toán có liệu lớn Các thuật toán heuristic thƣờng đƣợc xây dựng theo hai hƣớng tiếp cận khác nhau: hƣớng tiếp cận từ dƣới lên (bottom-up) hƣớng tiếp cận từ xuống (top-down) Dựa vào nhận xét tập lõi xuất tập rút gọn nên thuật toán xây dựng theo hƣớng tiếp cận bottom-up đƣợc chia thành hai nhóm: thuật toán tính toán lõi thuật toán không tính toán lõi Ý tƣởng chung thuật toán tính toán lõi xuất phát từ tập lõi, bổ sung thuộc tính có độ quan trọng lớn vào tập lõi thu đƣợc tập rút gọn Các thuật toán không tính toán lõi xuất phát từ tập rỗng bổ sung dần thuộc tính có độ quan trọng lớn cho thu đƣợc tập rút gọn Các thuật toán đƣợc xây dựng theo hƣớng tiếp cận buttom-up xuất phát từ tập thuộc tính điều kiện ban đầu, loại bỏ dần thuộc tính có độ quan trọng nhỏ thu đƣợc tập rút gọn Cả hai hƣớng tiếp cận đòi hỏi phải xếp danh sách thuộc tính theo thứ tự giảm dần tăng dần độ quan trọng bƣớc lặp 3.1 Thử nghiệm thuật toán heuristic tìm tập rút gọn tốt Trong phần này, chọn thuật toán tìm tập rút gọn tốt sử dụng entropy Shannon có điều kiện có tính toán lõi [18] (gọi tắt thuật toán CEBARKCC) để so sánh với thuật toán sử dụng khoảng cách đề xuất (gọi tắt thuật toán MBAR – Metric Based Attribute Reduction) thời gian thực kết thực Để tiến hành thử nghiệm, thực công việc sau: - 47 - - Cài đặt thuật toán CEBARKCC thuật toán MBAR ngôn ngữ C# Cả hai thuật toán sử dụng thuật toán [11] để tính U / C - Chạy thử nghiệm hai thuật toán cấu hình máy tính, so sánh kết thực hai thuật toán đánh giá tính hiệu thuật toán MBAR thời gian thực Trƣớc hết, trình bày thuật toán CEBARKCC 3.1.1.Mô tả thuật toán CEBARKCC Thuật toán CEBARKCC [19] (Conditional Entropy Based Algorithm for Reduction of Knowledge with Computing Core) Input: Bảng định DS = (U, CD, V, f) Output: Một tập rút gọn R // Tìm tập lõi dựa entropy Shannon có điều kiện HCORE C    ; Tính H  D C  ; For each a  C Begin Tính H  D C  a ; If H  D C  a  H  D C  then HCORE C  : HCORE C  a ; End; // Tìm tậprút gọn Entropy Shannon R  HCORE C  ; While H  D R   H  D C  10 Begin 11 For each a  C  R tính SIGR  a   H  D R   H  D R a ; 12 Chọn am  C  R cho SIGR  am   Max SIGR  a  ; aC  R - 48 - 13 R  R am  ; 14 End; //Loại bỏ thuộc tính dư thừa R có 15 R*  R  HCORE C  ; 16 For each a  R * 17 If H  D R  a  H  D C  then R  R  a ; 18 Return R ; 3.1.2.Thử nghiệm đánh giá thuật toán số liệu mẫu UCI Sau cài đặt, tiến hành thử nghiệm thuật toán CEBARKCC thuật toán MBAR số liệu vừa nhỏ lấy từ kho liệu UCI [21] Môi trƣờng chạy thử nghiệm máy tính PC với cấu hình Pentium dual core 2.20 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tƣợng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn thu đƣợc; t thời gian thực thuật toán (đơn vị giây s) Kết chạy thử nghiệm đƣợc tổng kết Bảng 4.1 Bảng 4.2 sau đây: Bảng 4.1 Kết thực Thuật toán CEBARKCC Thuật toán MBAR Thuật toán CEBARK TT STT Bộ số liệu U C Thuật toán MBAR CC R t R T Tic-tac-toe.data 958 8.213 5.312 Hepatitis.data 155 19 0.316 0.219 Lung-cancer.data 32 56 0.65 0.59 - 49 - Automobile.data 205 Abalone.data 25 3.512 4177 240.35 125.48 Liver-disorders 345 0.658 0.514 Iris 150 0.86 0.59 Chess End Game (kr-vs- 3196 35 29 182.62 29 296.2 2.125 kp.data) Bảng 4.2 Tập rút gọn Thuật toán CEBARKCC Thuật toán MBAR Tập rút gọn STT Bộ số liệu Tập rút gọn Thuật toán Thuật toán MBAR CEBARKCC Tic-tac-toe.data {1, 2, 3, 4, 5, 7, 8, 9} {1, 2, 3, 4, 5, 7, 8, 9} Hepatitis.data {2, 15, 16} {2, 15, 16} Lung- {3, 4, 9, 43} {3, 4, 9, 43} Cancer.data Automobile.data {1, 2, 7, 14, 20, 21} Abalone.data {2, 5, 6} {2, 5, 6} Liver-disorders {1, 2, 5} {1, 2, 5} Iris {1, 2, 3} {1, 2, 3} {1,3,4,5,6,7,9,10,11,12,13 {1,3,4,5,6,7,9,10,11,12,13 , , 15,16,17,18,20,21,23,24,2 15,16,17,18,20,21,23,24,2 5, 5, 26,27,28,30,31,33,34,35,3 26,27,28,30,31,33,34,35,3 6} 6} Chess End Game (kr-vs-kp.data) {1, 2, 7, 14, 20, 21} - 50 - Kết thử nghiệm số liệu vừa nhỏ cho thấy  Trên số liệu đƣợc chọn, tập rút gọn thu đƣợc Thuật toán MBAR Thuật toán CEBARKCC nhƣ Hơn nữa, số liệu này, tập rút gọn Thuật toán CEBARKCC thử nghiệm luận văn thử nghiệm công trình [16, 17, 18] nhƣ Điều khẳng định tính đắn thử nghiệm  Thời gian thực Thuật toán MBAR nhanh Thuật toán CEBARKCC, Thuật toán MBAR hiệu Thuật toán CEBARKCC Tiếp theo, tiến hành thử nghiệm Thuật toán MBAR số liệu kích thƣớc lớn số liệu đƣợc chọn để thử nghiệm có miền giá trị thuộc tính giá trị nguyên dƣơng, giá trị rời rạc (đã qua bƣớc tiền xử lý liệu) đƣợc lấy từ kho liệu UCI [21] Kết thử nghiệm đƣợc mô tả bảng sau: Bảng 4.3 Kết thực Thuật toán CEBARKCC Thuật toán MBAR số liệu lớn TT STT Bộ số liệu U C Thuật toán Thuật toán CEBARKCC MBAR R t R t Census-Income.data 299285 40 21 10450 21 4256 Adult.data 48842 14 868 436 Dorothea.data 1950 10000 92 2462 92 1152 Poker-hand- 1000000 11 8360 3964 581012 54 17 13568 17 6824 testing.data CovType.data - 51 - Với số liệu có kích thƣớc lớn, rõ ràng thời gian thực Thuật toán MBAR nhỏ nhiều Thuật toán CEBARKCC, số liệu kích thƣớc lớn, Thuật toán MBAR hiệu 3.2 Thử nghiệm thuật toán tìm tập rút gọn theo tham số độ chắn Để tiến hành thử nghiệm, cài đặt thuật toán tìm tập rút gọn theo tham số độ chắn (Gọi tắt thuật toán CP_MBAR) ngôn ngữ C# Thử nghiệm Thuật toán CP_MBAR máy tính PC với cấu hình Pentium dual core 2.20 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Bộ số liệu thử nghiệm Tic-tac-toe.data lấy từ kho liệu UCI [21] Tic-tac-toe.data số liệu quán với 958 đối tƣợng thuộc tính điều kiện đƣợc đánh số từ đến Đầu tiên, thực thuật toán với tham số độ chắn   Sau đó, thực thuật toán với tham số  giảm dần, bƣớc giảm 0.1 Kết thực cho Bảng 4.6 Bảng 4.6 Sự thay đổi tập rút gọn theo ngưỡng độ chắn  STT Tham số Tập rút gọn  Số thuộc tính Thời gian tập rút gọn thực (s) 1 {1, 2, 3, 4, 5, 7, 8, 9} 2.586 0.95 {1, 2, 3, 5, 7, 9} 2.96 0.9 {1, 2, 3, 5, 7, 9} 2.54 0.85 {1, 3, 5, 7, 9} 1.956 0.8 {1, 3, 5, 9} 1.154 0.75 {1, 3, 5, 9} 1.235 0.7 {1, 5} 0.435 0.65 {1, 5} 0.411 0.6 {} 0.195 - 52 - Số thuộc tính tập rút gọn 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 Ngưỡng độ chắn Hình 4.1 Sự thay đổi tập rút gọn theo ngưỡng độ chắn  3.3 Thử nghiệm thuật toán tìm tất thuộc tính rút gọn bảng định quán Để tiến hành thử nghiệm, cài đặt thuật toán tìm tất thuộc tính rút gọn bảng định quán (Gọi tắt thuật toán REATA) ngôn ngữ C# Chạy thử nghiệm thuật toán máy tính PC với cấu hình Pentium dual core 2.12 GHz CPU, 2GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Thử nghiệm đƣợc tiến hành số liệu quán lấy từ kho liệu UCI [21] Với số liệu, giả sử U số đối tƣợng, C số thuộc tính điều kiện, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đƣợc đánh số thứ tự từ 1, C Kết thử nghiệm Thuật toán REATA đƣợc mô tả Bảng 4.7 - 53 - Bảng 4.7 Kết thử nghiệm Thuật toán REATA C Tập thuộc tính Tập thuộc tính dƣ rút gọn thừa thực Tập liệu U Adult-stretch 20 Soybean- 47 35 1.92 {1,2,3,4,5,6,7,8,9, TT t 0.76 {3,4} 10,12,20,21,22,23, small.data {1,2} {11,13,14,15,16,17, 18,19,29,30,31,32, 24,25,26,27,28,35} 33,34} Sponge.data 76 45 1.83 {1,…,11,13,…,34, {12,35} 36,…,45} Zoo.data 101 17 2.96 {1,2,4,5,7,8,9,10, {3,6,16} 11,12,13,14,15,17} 3.4 Một số giao diện chƣơng trình thử nghiệm 3.4.1 Giao diện chƣơng trình Giao diện chƣơng trình nhƣ sau: 3.4.2.Nạp tệp liệu mẫu lấy từ kho liệu UCI Dowload liệu mẫu dùng cho thử nghiệm từ kho liệu UCI: http://archive.ics.uci.edu/ml/datasets.html - 54 - Vào Menu: Tệp liệu \ Nạp liệu từ UCI để thực nạp liệu Ví dụ: tệp liệu adult+stretch.data 3.4.3 Thực thuật toán CEBARKCC - Kết thực thuật toán CEBARKCC tìm tập rút gọn tốt sử dụng entropy Shannon với liệu adult+stretch.data nhƣ sau: - 55 - 3.4.4 Thực thuật toán sử dụng khoảng cách - Kết thực thuật toán MBAR tìm tập rút gọn tốt sử dụng khoảng cách đề xuất với liệu adult+stretch.data nhƣ sau: 3.4.5.Thực thuật toán sinh luật định từ tập rút gọn Nhƣ mô tả trên, tiến hành thử nghiệm với số liệu adult+stretch.data Thực thuật toán MBAK tìm tập rút gọn tốt nhất: - 56 - 1) Thực thuật toán RuleExtract sinh luật định từ tập rút gọn tìm đƣợc: - Nhấn nút “Xem tập rút gọn” - Nhấn nút “Sinh luật định”, thu đƣợc luật sau: 3.4.6.Thực thuật toán tìm tất thuộc tính rút gọn - Kết thực Thuật toán REATA tìm tất thuộc tính rút gọn đề xuất với liệu adult+stretch.data nhƣ sau: - 57 - KẾT LUẬN Trong trình nghiên cứu hoàn thành luận văn, luận văn đạt đƣợc kết sau: Kết đạt đƣợc  Tìm hiểu khái niệm hệ thống thông tin, bảng định, tập rút gọn…  Tìm hiểu lý thuyết sở liệu quan hệ, khái niệm số thuật toán liên quan  Tìm hiểu số thuật toán tìm tập rút gọn thuật toán tìm tất tập rút gọn bảng định  Cài đặt thử nghiệm thành công số chƣơng trình thử nghiệm để từ so sánh phƣơng pháp có với phƣơng pháp đề xuất dựa lý thuyết tìm hiểu máy tính, liệu thử nghiệm liệu UCI, từ đó, rút nhận xét thời gian thực hiện, kết thực phƣơng pháp trình bày Hƣớng nghiên cứu Trong thực tế, việc tìm tập rút gọn bảng định cần thiết có tính thực tế cao Do đó, việc nghiên cứu tìm hiểu tập rút gọn thuật toán tìm tập rút gọn bảng định hƣớng nghiên cứu tiếp luận văn - 58 - TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hoàng Thị Lan Giao (2007), “Khía cạnh đại số lôgic phát luật theo tiếp cận tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin [2] Nguyễn Thanh Tùng (2010), “Về metric họ phân hoạch tập hợp hữu hạn”, Tạp chí Tin học Điều khiển học, T.26, S.1, tr 73-85 Nguyễn Long Giang (2012), “ Nghiên cứu số phƣơng pháp khai phá [3] liệu theo tiếp cận lý thuyết tập thô ’’, Luận án tiến sỹ CNTT , Viện Công Nghệ Thông Tin Tài liệu tiếng Anh [3] Chen D.G, Zhao S.Y., Zhang L., Yang Y.P and Zhang X (2011), “Sample pair selection for attribute reduction with rough set”, IEEE Transaction on Knowledge and Data Engineering, 29 March 2011 [4] Chin K.S., Liang J.Y and Dang C.Y (2003), “Rough Set Data Analysis Algorithms for Incomplete Information Systems”, Proceedings of the 9th international conference on Rough sets, fuzzy sets, data mining, and granular computing, RSFDGrC'03, pp 264-268 [5] Demetrovics J and Thi V.D (1987), “Keys, antikeys and prime attributes”, Ann Univ Scien Budapest Sect Comput 8, pp 37-54 [6] Demetrovics J and Thi V.D (1995), “Some remarks on generating Armstrong and inferring functional dependencies relation”, Acta Cybernetica 12, pp 167-180 [7] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 [8] Luo P., He Q and Shi Z.Z (2005), “Theoretical study on a new information entropy and its use in attribute reduction”, ICCI, pp 73-79 [9] Lv Y.J and Li J.H (2007), “A Quick Algorithmfor Reduction of Attribute in Information Systems”, The First International Symposium on Data, Privacy, and E-Commerce (ISDPE 2007), pp 98-100 - 59 - [10] Miao D.Q and Hu G.R (1999), “A heuristic algorithm for knowledge reduction”, Computer Research and Development, Vol 36, No 6, pp 681-684 [11] Nguyen S Hoa, Nguyen H Son (1996), "Some Efficient Alogrithms for Rough Set Methods", Proceedings of the sixth International Conference on Information Processing Management of Uncertainty in Knowledge Based Systems, pp 1451 - 1456 [12] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers [13] Pawlak Z (1998), “Rough set theory and its applications to data analysis”, Cybernetics and systems 29, pp 661-688 [14] Qian Y.H., Liang J.Y., Dang C.Y., Wang F and Xu W (2007), “Knowledge distance in information systems”, Journal of Systems Science and Systems Engineering, Vol 16, pp 434-449 [15 ] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202 [16] Sun L., Xu J.C and Cao X.Z (2009), “Decision Table Reduction Method Based on New Conditional Entropy for Rough Set Theory”, International Workshop on Intelligent Systems and Applications, pp 1-4 [17] Wang B.Y and Zhang S.M (2007), “A Novel Attribute Reduction Algorithm Based on Rough Set and Information Entropy Theory”, 2007 International Conference on Computational Intelligence and Security Workshops, IEEE CISW, pp.81-84 [18] Wang C.R and OU F.F (2008), “An Attribute Reduction Algorithm in Rough Set Theory Based on Information Entropy”, 2008 International Symposium on Computational Intelligence and Design, IEEE ISCID, pp 3-6 [19] Wang G.Y., Yu H and Yang D.C (2002), “Decision table reduction based on conditional information entropy”, Journal of Computers, Vol 25 No 7, pp 759-766 - 60 - [20] Yao Y.Y., Zhao Y and Wang J (2006), “On reduct construction algorithms”, Proceedings of International Conference on Rough Sets and Knowledge Technology, pp 297-304 [21] The UCI machine learning repository,

Ngày đăng: 23/11/2016, 21:02

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan