Báo cáo nghiên cứu khoa học: "Xây dựng cây quyết định đa trị dựa trên tập thô." pdf

Đại học Vinh Tạp chí khoa học, tập XXXVI, số 4A-2007 57 XÂY DựNG CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ Nguyễn Thị Minh Tâm (a) Tóm tắt. Bài báo này giới thiệu một cách tiếp cận để xây dựng cây quyết định đa trị có khả năng chịu lỗi dựa trên mô hình tập thô có độ chính xác thay đổi. Một khái niệm mới về quan hệ tơng đơng với độ chính xác đợc đa ra trong lý thuyết tập thô có độ chính xác thay đổi và đợc áp dụng để xây dựng cây quyết định đa trị. I. GIớI THIệU Hiện nay, các phơng pháp phân lớp đang đợc quan tâm nghiên cứu trong nhiều lĩnh vực: khai phá dữ liệu, thống kê, học máy, Mục đích phân lớp là phân loại các đối tợng dựa trên giá trị của các thuộc tính ban đầu và thuộc tính nhãn. Trong bài báo này chúng tôi đa ra một trong những cách tiếp cận mới để lựa chọn thuộc tính là xây dựng cây quyết định dựa trên lý thuyết tập thô. Lý thuyết tập thô đợc Pawlak đề xuất, đã trở thành một công cụ toán học để giải quyết với những thông tin mờ, không chắc chắn. Lý thuyết tập thô tổ hợp các quan hệ không phân biệt (quan hệ tơng đơng) thành các tập xấp xỉ của các đối tợng dựa trên tập xấp xỉ trên và xấp xỉ dới ([8]). Một trong những vấn đề của lý thuyết tập thô là phân lớp, nhng các lớp trong lý thuyết tập thô phải là chính xác và chắc chắn. Trong thực tế, hai điểm lân cận có thể không giống nhau về cơ bản do thiếu các đặc trng dẫn đến việc phân lớp không chắc chắn. Bằng cách tổ hợp xác suất các luật quyết định, mô hình tập thô có độ chính xác thay đổi cho phép phân lớp từng phần. Khi một đối tợng đợc phân lớp bằng lý thuyết tập thô, nếu thông tin về đối tợng đầy đủ và chắc chắn thì đó là phân lớp đúng, còn mô hình tập thô có độ chính xác thay đổi phân lớp đối tợng với một độ chính xác nào đó ([11]). II. Lý THUYếT TậP THÔ ở đây ta chỉ xét mô hình tập thô gồm tập các đối tợng U của hệ thông tin, các kết quả thu đợc từ mô hình này chỉ có thể áp dụng đợc cho tập đối tợng thuộc mô hình đó. Giả sử ta có tập đối tợng có các nhãn lớp để chỉ ra lớp mà mỗi đối tợng thuộc vào lớp đó. Ta gọi nhãn lớp là thuộc tính quyết định và các thuộc tính còn lại là thuộc tính điều kiện. Định nghĩa 1. Nếu S = (U, A {d}) là bảng quyết định, trong đó A là tập thuộc tính điều kiện, d là tập thuộc tính quyết định, ta xác định hàm: A (u) = {i: tồn tại u IND(A)u và d(u) = i} (u IND(A)u tức là u không phân biệt đợc với u theo tập thuộc tính A). Bảng quyết định S là nhất quán nếu card( A (u)=1 với mọi uU, ngợc lại thì S là không nhất quán. Nhận bài ngày 14/9/2007. Sửa chữa xong 27/11/2007. Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr. 57-64 58 Tơng tự ta định nghĩa: A (u,i) = {u U}: u IND(A)u & d(u) = i trong đó u U & i A (u) ( ) ( ) ( ) ( )( ) ( ) = uj A A A A iucard iucard iu , , , u U & i A (u) A (u) = {i: A (u,i) } u U. Bảng quyết định S là nhất quán với độ chính xác nếu card( A (u) = 1 u U, ngợc lại thì S là không nhất quán với độ chính xác . Định nghĩa 2. Nếu X)|Pr(Y YX X Y , thì ta nói X đợc chứa với độ chính xác trong Y hay Y chứa X với độ chính xác (01). Định nghĩa 3. Cho (U, R) là một không gian xấp xỉ, trong đó U là tập đối tợng khác rỗng, R là họ quan hệ tơng đơng trên U. U/R = {E 1 , E 2 , , E n } là các lớp tơng đơng của R, với mọi X U, các xấp xỉ trên và xấp xỉ dới với độ chính xác đợc định nghĩa nh sau: i) Tập xấp xỉ trên của X theo quan hệ R với độ chính xác : { } ( ) = == i EX R XEXRUEXPOSXR |Pr i E|/)( . ii) Tập xấp xỉ dới theo quan hệ R của X với độ chính xác : { } ( ) = == 1|Pr i 1 E|/)( i EX R XEXRUEXNONNEGXR . Tập XR là tập các phần tử của U đợc phân lớp là phần tử của X với xác suất . Tri thức cho trớc đợc biểu diễn bằng các thuộc tính từ R; XR là tập các phần tử của U đợc phân lớp thuộc X hoặc -X với xác suất 1-, 01. iii) ( ) XRXRBN R = đợc gọi là miền biên của X có độ chính xác . Nó bao gồm tất cả đối tợng không thể phân lớp rõ ràng thuộc vào tập X. Một tập đợc gọi là thô nếu miền biên của nó khác rỗng, ngợc lại tập đó đợc gọi là tập chính xác. Hình 1. Xấp xỉ trên và xấp xỉ dới của một tập Tập hiện tại Xấp xỉ trên Xấp xỉ d ới Đại học Vinh Tạp chí khoa học, tập XXXVI, số 4A-2007 59 Định nghĩa 4. Nếu B là tập con của tập thuộc tính A của bảng quyết định nhất quán có độ chính xác : S = (U,A{d}), thì B đợc gọi là quan hệ rút gọn của S có độ chính xác khi và chỉ khi là tập tối thiểu có tính chất: A (u) = B (u) với mọi uU. - Đặt tập các quan hệ rút gọn của S có độ chính xác là RED (S, A{d}). - Đặt tập các thuộc tính cần thiết thuộc A có độ chính xác là CORE (S, A{d}) thì CORE (S, A{d}) = RED (S, A{d}). Định nghĩa 5. Nhân tố quan trọng của một thuộc tính C j trong C đợc định nghĩa nh sau: importance-factor = 1 - )( )( dCcard CdCcard j + + . Định nghĩa 6. Giả sử P, Q là 2 họ các quan hệ tơng đơng của tập đối tợng U. Ký hiệu U/IND(P) = {X 1 , X 2 , , X n }; U/IND(Q) = {Y 1 , Y 2 , , Y m } Đặt )(/ | PINDUx ijji j YXXH = , )(/ 1 | PINDUx ijjm j YXXH + = , thì {H 1 , H 2 , , H m+1 } đợc gọi là suy rộng của P với độ chính xác có quan hệ với Q, đợc ký hiệu là GENQ (P) và có thể gọi {H 1 , H 2 , , H m+1 } là một phép tách của tập đối tợng U. III. CÂY QUYếT ĐịNH ĐA TRị 3.1. Tập dữ liệu huấn luyện đa trị Bảng 1 là ví dụ minh hoạ tập dữ liệu huấn luyện đa trị. Mỗi bản ghi của tập dữ liệu có 4 thuộc tính thông thờng và một thuộc tính nhãn lớp. Thuộc tính maker, performance, color là thuộc tính có giá trị phi số còn thuộc tính price là thuộc tính có giá trị số. Thuộc tính nhãn lớp gồm 3 giá trị A, B, C. Sản phẩm p3 là một ví dụ về dữ liệu đa trị bởi nó có 2 giá trị đối với thuộc tính color: yellow và green. Bảng 1. Tập dữ liệu huấn luyện đa trị Id maker price performance color Class label p1 A $100 not good yellow A,B,C p2 B $880 good yellow B,C p3 A $370 not good yellow, green A p4 C $1230 good blue B p5 B $910 good yellow, blue B,C p6 B $770 not good yellow A,B,C p7 B $590 not good yellow, green A,B p8 C $1350 good green A,B,C p9 C $1250 good yellow, green A,B,C p10 B $1140 good yellow, green A p11 A $340 not good yellow, blue A,C p12 C $1300 good yellow A,B p13 B $1090 good blue C p14 B $810 good green A p15 B $520 not good yellow, blue, green C Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr. 57-64 60 3.2. Cây đa trị Một cây quyết định đa trị tơng ứng với tập dữ liệu trong bảng 1 đợc minh hoạ ở hình 2. Trong cây này, mỗi nút trong tơng đơng với một thuộc tính, mỗi nhánh của thuộc tính số tơng đơng với một khoảng giá trị, mỗi nhánh của thuộc tính phi số tơng đơng với một giá trị, các nút lá là các nhãn. Sau khi cây quyết định đa trị đợc xây dựng, ta có thể phân lớp một đối tợng thông qua cây đó. Ví dụ trong bảng 1 ta có sản phẩm p7 với thuộc tính maker = B, price = '590, performance = not good và color = green, yellow. Bắt đầu với thuộc tính price = 590 ta đi dọc theo nhánh 477 - 599 và nhận đợc thuộc tính color. Tiếp tục đi theo nhánh green ta nhận đợc hai nhãn A, B và đi theo nhánh yellow ta nhận đợc nhãn C. Hợp các nhãn này lại ta đợc kết quả dự đoán là A, B, C. Việc lựa chọn thuộc tính đa trị tốt nhất khác với lựa chọn thuộc tính đơn trị theo phơng pháp truyền thống: - Đối với dữ liệu đa trị, việc nhóm đầy đủ nghĩa là mỗi nút con xấp xỉ có cùng nhiều nhãn, trong khi đối với dữ liệu đơn trị thì mỗi nút con xấp xỉ có cùng một nhãn. - Trong phân lớp bản ghi, một bản ghi có thuộc tính đa trị đi đến nhiều nhánh trong khi một bản ghi đơn trị chỉ đi đến một nhánh. 3.3. Giải thuật cơ bản xây dựng cây quyết định đa trị Các giải thuật xây dựng cây quyết định thờng tránh xây dựng những cây lớn bởi vì chúng sẽ sinh ra nhiều luật, điều này sẽ không hiệu quả trong việc dự đoán price performanc e color A,B,C A,C A B,C C A,B,C A C C A,B A A,B,C blue green yello w good not good 100~224 225~349 350~474 475~599 725~849 850~974 975~109 1100~1224 1225~1350 Hình 2. Ví dụ về cây quyết định đa trị Đại học Vinh Tạp chí khoa học, tập XXXVI, số 4A-2007 61 phân lớp. Vì vậy việc xây dựng cây quyết định nhỏ để đa ra các luật tốt nhất là vấn đề có tầm quan trọng. Giải thuật: Input: Tập dữ liệu huấn luyện đa trị D. Output: Cây quyết định đa trị T. Begin 1. Khởi tạo cây T và đặt tất cả các bản ghi của T ở gốc. 2. while (các nút lá trong T là nút NONSTOP) 3. for mỗi thuộc tính i của nút NONSTOP do 4. for mỗi khoảng giá trị của thuộc tính i do 5. đánh giá độ tốt đối với cách chia của thuộc tính i; 6. for mỗi nút lá NONSTOP do 7. lấy cách chia tốt nhất đối với nút lá này; 8. tách các bản ghi và phát triển cây thêm 1 mức theo cách chia tốt nhất; 9. xác định các nút có thể dừng, đánh dấu chúng là các nút STOP và xác định tập nhãn kết quả của chúng. 10. return T. End; Các bớc 3-5 và bớc 9 là các bớc điều kiện. Bớc 3-5 xác định nút lá và các nhánh của nó. Bớc 9 xác định nút lá. IV. XÂY DựNG CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ 4.1. Giải thuật RS_DTA (Rough Set base Decision Tree Algorithm) Input: Bảng quyết định S = (U, A {d}). Output: Cây quyết định đa trị T. Procedure Khởi tạo cây có biến T là cây rỗng. Nhãn ở gốc là tập các đối tợng U và tập các thuộc tính điều kiện hiện tại A (Current Condition Attributes Set - CCAS). Trạng thái của nút gốc là unready. while (có nút lá mang trạng thái unready) do begin for (mỗi nút lá nhãn N là unready của cây T) begin if (tồn tại 1 đối tợng u nhãn N có A (u) = ) then begin prinf (bảng quyết định là không nhất quán với độ chính xác ); return; end if (mọi đối tợng đang gán nhãn N có cùng A (u)) then begin Thay thế tập đối tợng tại N bằng cái chung của nó: A (u); Thay đổi trạng thái của N là ready; end else begin Tính P = CORE (N, CCAS {d}); if P = | P = CCAS then begin P = thuộc tính từ tập CCAS có importance factor cao nhất; Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr. 57-64 62 end Tính GEND (P); CCAS = CCAS \ P; Thay thế nhãn của nút N bằng P và đánh dấu là ready; Tạo m+1 nút mới N 1 , N 2 , , N m+1 với trạng thái unready là các cây con của nút N, trong đó N i = H i , i = 1,2, ,m+1 và gán nhãn chúng với CCAS. end end end return T 4.2. Ví dụ minh hoạ Giả sử ta có bảng quyết định nh trong bảng 2. Dễ nhận thấy bảng trên là không nhất quán vì tồn tại u 9 IND u 10 và d(u 9 )d(u 10 ), do đó không thể phân lớp cho các đối tợng này nh các đối tợng ở bảng 1. Tuy nhiên các đối tợng trên nhất quán với một độ chính xác nào đó, giả sử = 0,6. Từ bảng 2 ta có: U/IND(C) = { {1}, {2, 4,18, 21, 22}, {3, 7, 9, 10, 14}, {5}, {6}, {8}, {11}, {12}, {13}, {15}, {16}, {17}, {19}, {20} }. U/IND(D) = { {1, 2, 3, 4, 7, 9, 12, 14, 18, 20}, {5, 6, 8, 10, 11, 13, 15, 16, 17, 19, 21, 22}} P = CORE (N, CCAS {d}) = {C1,C4} U/P = { {1, 12, 13}, {2, 4, 16, 18, 21, 22}, {3, 7, 9, 10, 14, 20}, {5, 19}, {6, 8,1 5}, {11, 17}} Tính GEND (P): H1 = {3, 7, 9, 10, 14, 20}; H2 = {5, 6, 8, 11, 15, 17, 19}; H3 = {1, 2, 4, 12, 13, 16, 18, 21, 22} Bảng 2. Ví dụ về bảng quyết định Các thuộc tính điều kiện Thuộc tí nh quyết định Tập đối tợng U C1 C2 C3 C4 Lớp (D) 1 high high high normal H 2 high high high good H 3 low or less than zero low normal good H 4 high high high good H 5 middle high high normal F 6 low or less than zero middle high normal F 7 low or less than zero low normal good H 8 low or less than zero low normal normal F 9 low or less than zero low normal good H 10 low or less than zero low normal good F 11 middle low normal good F 12 high middle high normal H Đại học Vinh Tạp chí khoa học, tập XXXVI, số 4A-2007 63 13 high low normal normal F 14 low or less than zero low normal good H 15 low or less than zero middle normal normal F 16 high middle normal good F 17 middle middle high good F 18 high high high good H 19 middle high normal normal F 20 low or less than zero middle high good H 21 high high high good F 22 high high high good F áp dụng giải thuật RS_DTA, tập đối tợng U đợc phân lớp dựa vào H1,H2,H3 và xây dựng cây quyết định nh sau: V. KếT LUậN Việc xây dựng cây quyết định dựa trên lý thuyết tập thô truyền thống chỉ thực hiện đối với các bảng quyết định nhất quán (bảng 1). Trên đây chúng tôi đã đa ra một cách tiếp cận tập thô để xây dựng cây quyết định đa trị nhằm quản lý các hệ thông tin đa trị và đa ra một giải thuật xây dựng cây quyết định dựa trên mô hình tập thô có độ chính xác thay đổi có khả năng chịu lỗi. Cho dù tồn tại sự không nhất quán trong bảng quyết định nhng giải thuật vẫn có thể đa ra kết quả khá vừa ý. So với giải thuật ID3 [9] thì cây quyết định xây dựng dựa trên giải thuật RS_DTA có cấu trúc đơn giản hơn và có các luật tốt hơn. Tập đối tợng U C1: low or less than zero C4: good {3,7,9,10,14,20} C1: high C4: good {1,2,4,12,13,16,18, 21,22} C1: low or less than zero C4: normal Hoặc C1:middle {5,6,8,11,15,17,19} H F C3: hig h {1,2,4,12,18, 21,22} C3: normal {13,16} H F Hình 3. Cây quyết định đa trị xây dựng bởi giải thuật RS_DTA Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr. 57-64 64 TàI LIệU THAM KHảO [1] Hồ Cẩm Hà, Một cách tiếp cận mở rộng cơ sở dữ liệu quan hệ với thông tin không đầy đủ, Luận án tiến sĩ Toán học, Trờng ĐHBK Hà Nội, 2002. [2] Nguyễn Đăng Khoa, Nghiên cứu một vài khía cạnh của lý thuyết tập thô và ứng dụng, Luận án tiến sĩ Toán học, Trờng ĐHBK Hà Nội, 2002. [3] N. T. Thuy, N. N. Hieu, A framework for knowledge discovery in multivalued tables using rough set approach, Proceeding of Joint Workshop of Vietnamese Society of AI, SIGKBS-JSAI, ICS-IPSJ and IEICE-SIGAI on Active Mining, Hanoi, Vietnam, 2004. [4] H. T. Bao, Introduction To Knowledge Discovery And Data Mining, http://www.ioit.ac.vn, 2000. [5] Chang-Ling Hsu, Multi-valued and Multi-labeled Decision Tree Classifiers For Data Mining, PhD Thesis in Information Management, China, 2004. [6] Jin Mao Wei, Rough Set based approach to selection of node, Yangs Scientific Research Institute, 2002. [7] X. Liu, H. Huang, W. Xu, A Contribution to Decision Tree Construction Based on Rough Set Theory, Springer-Verlag Berlin, 2004. [8] Z. Pawlak, Rough Sets, Theoretical Aspects of Reasoning about Data. Dordrecht, Kluwer, 1991. [9] J. R. Quinlan, Induction of decision trees, In: Machine Learning, 1986. [10] Sonajharia Minz, Rajni Jain, Rough Set based Decision Tree Model for Classification, Springer-Verlag Berlin, 2003. [11] W. Ziarko, Variable Precision Rough Set Model, Journal of computer and System Sciences, 46, 1993, 3959. [12] Y. Zhao, H. Zhang, Q. Pan, Classification Using the Variable Precision Rough Set, Springer-Verlag Berlin, 2003 . SUMMARY A Multivariate Decision Tree Construction Based on Rough Set This paper presented an approach to construct multivariate decision tree, which has the ability of fault tolerance, based on the variable precision rough sets model. A new concept of generalization of one equivalence relation with precision is introduced in the variable precision rough sets model and used for construction of multivariate decision tree. (a) Khoa Công Nghệ Thông Tin, Trờng Đại học Vinh. . Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr. 57-64 60 3.2. Cây đa trị Một cây quyết định đa trị tơng ứng với tập dữ liệu trong bảng 1 đợc minh hoạ ở hình 2. Trong cây này, mỗi. bảng quyết định nhất quán (bảng 1). Trên đây chúng tôi đã đa ra một cách tiếp cận tập thô để xây dựng cây quyết định đa trị nhằm quản lý các hệ thông tin đa trị và đa ra một giải thuật xây dựng. chí khoa học, tập XXXVI, số 4A-2007 57 XÂY DựNG CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ Nguyễn Thị Minh Tâm (a) Tóm tắt. Bài báo này giới thiệu một cách tiếp cận để xây dựng cây quyết

Báo cáo nghiên cứu khoa học: "Xây dựng cây quyết định đa trị dựa trên tập thô." pdf

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan