Báo cáo nghiên cứu khoa học: " XỬ LÝ THÔNG TIN KHÔNG ĐẦY ĐỦ DỰA VÀO QUAN HỆ ĐẶC TRƯNG" pptx

39 TẠP CHÍ KHOA HỌC, Đại học Huế, Số 50, 2009 XỬ LÝ THÔNG TIN KHÔNG ĐẦY ĐỦ DỰA VÀO QUAN HỆ ĐẶC TRƯNG Hoàng Thị Lan Giao Trường Đại học Khoa học, Đại học Huế Nguyễn Thị Lan Anh Trường Đại học Sư phạm, Đại học Huế TÓM TẮT Trên thực tế, các cơ sở dữ liệu thường không đầy đủ vì nhiều nguyên nhân. Có nhiều tác giả (Kononenko,Pyle, Quinlan, Lobo…) đã đề xuất các cách xử lý khác nhau. Bài báo này đư a ra m ột cách tiếp cận trên cơ s ở mở rộng quan hệ Không phân biệt được trong lý thuyết tập thô, đó là quan hệ đặc trư ng ñ ược đề xuất bởi Jerzy W. Grzymala-Busse. Một thuật toán sinh luật quyết định trên bảng quyết định không đầy đủ - thuật toán NewLEM2 - cũng được chúng tôi xây dựng bằng cách sử dụng quan hệ đặc trưng này. I. Mở đầu Bài báo này s ử dụng kỹ thuật xử lý thông tin không đầy đủ dựa vào quan hệ đặc tr ưng - là một mở rộng của quan hệ không phân biệt được - do Jerzy W. Grzymala - Busse đề xuất. Theo hướng tiếp cận này, giá trị thuộc tính thiếu trên hệ thống thông tin không đầy đủ được chia làm hai loại: giá trị bị mất và giá trị điều kiện không quan trọng. Trên c ơ sở quan hệ đặc trưng, ba loại xấp xỉ: xấp xỉ đơn, xấp xỉ khái niệm, xấp xỉ tập con được xây dựng để xấp xỉ cho một tập khái niệm và dùng xấp xỉ khái niệm để sinh lu ật. Trong bài báo này, chúng tôi đề xuất một thuật toán để tìm phủ địa phương của một t ập khái niệm cho trước, trên cơ sở đó sinh luật quyết định mô tả các đối tượng thuộc t ập hợp này. II. Hệ thống thông tin - Quan hệ đặc trưng 2.1. H ệ thống thông tin H ệ thống thông tin là một cặp A = (U,A) trong đó U là một tập hữu hạn khác r ỗng các đối tượng được gọi là tập vũ trụ; A là một tập hữu hạn khác rỗng các thuộc tính sao cho v ới mọi a ∈ A, a : U → V a (V a được gọi là tập giá trị của a), kí hiệu a(u) (hoặc u(a)) là giá trị của đối tượng u tại thuộc tính a. 2.2.Bảng quyết định B ảng quyết định là một hệ thống thông tin có dạng DT = (U, C ∪ D) trong đó C ∩ D = ∅. D g ọi là tập thuộc tính quyết định (hay quyết định) và C là tập thuộc tính điều ki ện. Không mất tính tổng quát, có thể xét tập thuộc tính quyết định D chỉ gồm một phần 40 tử d. Lúc đó, bảng quyết định DT sẽ được viết dưới dạng DT = (U, C∪{d}) (hay để cho đơn giản là DT = (U,C,d) ), d∉C. Tuy nhiên, trên th ực tế, tập dữ liệu thu được thường không đầy đủ mà bị thiếu m ột số giá trị thuộc tính trên một số đối tượng nào đó - tức là chứa giá trị thiếu - vì nhi ều lí do khác nhau. Một hệ thống thông tin như thế được gọi là hệ thống thông tin không đầy đủ - tương ứng ta có bảng quyết định không đầy đủ. Trên b ảng quyết định không đầy đủ, giá trị thuộc tính bị thiếu được chia làm hai lo ại [3,4,6,7]: Giá tr ị bị mất, giá trị này được kí hiệu là “?”: ban đầu, giá trị tại thuộc tính đó c ủa đối tượng đang xét vẫn có và có ảnh hưởng đến việc phân lớp quyết định của đối t ượng. Tuy nhiên, vì lý do nào đó mà giá trị này bị xóa đi và hiện tại chúng ta không thể xác định được. Giá tr ị điều kiện không quan trọng, giá trị này được kí hiệu là “*”: giá trị ban đầu của đối tượng trên thuộc tính đang xét không được lưu lại do không có ý nghĩa trong vi ệc ra quyết định phân lớp đối tượng đó. Cho b ảng quyết định không đầy đủ DT = (U,C,D). Với thuộc tính a∈C, v∈V a , kí hiệu t = (a,v) là cặp thuộc tính-giá trị; [t]: khối (block) của t, là tập tất cả các đối tượng trong U có giá trị trên thuộc tính a bằng v. Lúc đó, nếu tồn tại một đối tượng x sao cho a(x) = ?, ngh ĩa là giá trị của x tại thuộc tính a bị mất, thì x không thuộc vào bất k ỳ một khối [(a,v)] nào với mọi giá trị v của a; nếu tồn tại một đối tượng x sao cho a(x) = *, ngh ĩa là giá trị của x tại thuộc tính a là điều kiện không quan trọng, thì x thuộc vào m ọi khối [(a,v)] với mọi giá trị v của a. B ảng 1 là một ví dụ của bảng quyết định không đầy đủ. Bảng 1: Bảng quyết định không đầy đủ U Temperature Headache Nausea Flu 1 high ? no yes 2 Very-high Yes yes yes 3 ? No no no 4 high Yes yes yes 5 high ? yes no 6 Normal Yes no no 7 Normal No yes no 8 * Yes * yes Với bảng quyết định cho ở Bảng 1, ta có các khối của các cặp thuộc tính - giá tr ị: 41 [(Temperature, high)] = {1,4,5,8} [(Temperature, Very-high)] = {2,8} [(Temperature, Normal)] = {6,7,8} [(Headache,yes)] = {2,4,6,8} [(Headache,no)] = {3,7} [(Nausea,yes)] = {2,4,5,7,8} [(Nausea,no)] = {1,3,6,8} Cho x ∈U; B⊆C. T ập đặc trưng K B (x) của đối tượng x được định nghĩa: [ ] I *)(?,)(, )(,()( ≠≠∈ = xaxaBa B xaaxK Ví d ụ, với Bảng 1 đã cho: K C (1) = K(1,Temperature) ∩ K(1, Headache) ∩ K(1,Nausea) = {1,4,5,8} ∩ U ∩ {1,3,6,8} = {1,8} T ương tự, ta có: K C (2) = {2,8} K C (3) = {3} K C (4) = {4,8} K C (5) = {4,5,8} K C (6) = {6,8} K C (7) = {7} K C (8) = {2,4,6,8} J.W.Grzymala-Busse đã mở rộng quan hệ B-không phân biệt được lên hệ thống thông tin không đầy đủ thành quan hệ đặc trưng R(B) được định nghĩa như sau: R(B) = {(x,y) ∈ ∈∈ ∈U 2    y∈ ∈∈ ∈K B (x)}, ở đây B ⊂ C R(B) có tính ph ản xạ, nhưng nói chung không có tính đối xứng và tính bắc cầu. T ập đặc trưng của X theo quan hệ đặc trưng R(B) cũng có thể xác định: K B (x) = {y   (x,y) ∈ ∈∈ ∈ R(B)} III. X ấp xỉ trên, xấp xỉ dưới Cho X ⊆U. X được gọi là tập khái niệm nếu ∀x,y∈X, d(x) = d(y). Trên b ảng quyết định không đầy đủ, với X⊆U là một tập khái niệm và quan hệ đặc trưng R(B), người ta xây dựng ba cách xấp xỉ tập X như sau : 3.1. X ấp xỉ đơn: xây dựng các tập xấp xỉ dựa vào các tập đơn B-x ấp xỉ dưới đơn của X là tập hợp: { } U XxKUx B xXB ⊆∈ = )(, )( B-x ấ p x ỉ trên đơ n c ủ a X là t ậ p h ợ p: { } U ∅≠∩∈ = XxKUx B xXB )(, )( 42 3.2. Xấp xỉ tập con : xây d ự ng các t ậ p x ấ p x ỉ d ự a vào các t ậ p con c ủ a U B-X ấ p x ỉ d ướ i t ậ p con c ủ a X: U XxKUx B B xKXB ⊆∈ = )(, )()( B-X ấ p x ỉ trên t ậ p con c ủ a X: U ≠∅∩∈ = XxKUx B B xKXB )(, )()( Vì quan h ệ đặ c tr ư ng R(B) có tính ph ả n x ạ nên v ớ i m ỗ i t ậ p khái ni ệ m X, B-x ấ p x ỉ d ướ i đơ n và B-x ấ p x ỉ trên đơ n l ầ n l ượ t là các t ậ p con c ủ a B-x ấ p x ỉ d ướ i t ậ p con và B-x ấ p x ỉ trên t ậ p con c ủ a X. IV. Xấp xỉ khái niệm: đượ c đị nh ngh ĩ a b ằ ng cách thay không gian U trong đị nh ngh ĩ a c ủ a x ấ p x ỉ t ậ p con b ằ ng t ậ p khái ni ệ m X. B-x ấ p x ỉ d ướ i khái ni ệ m c ủ a X: U XxKXx B B xKXB ⊆∈ = )(, )()( B-x ấ p x ỉ trên khái ni ệ m c ủ a X: U ∅≠∩∈ = XxKXx B B xKXB )(, )()( V ớ i B ả ng 1 và hai t ậ p khái ni ệ m X 1 , X 2 đượ c xác đị nh X 1 = {1,2,4,8} và X 2 = {3,5,6,7} thì: T ậ p C-x ấ p x ỉ d ướ i đơ n và t ậ p C-x ấ p x ỉ trên đơ n t ươ ng ứ ng c ủ a X 1 và X 2 là: =)( 1 XC {1,2,4}; =)( 1 XC {1,2,4,5,6,8} =)( 2 XC {3,7}; =)( 2 XC {3,5,6,7,8} T ập C-xấp xỉ dưới tập con và C-xấp xỉ trên tập con của X 1 , X 2 lần lượt là: =)( 1 XC {1,2,4,8}; =)( 1 XC {1,2,4,5,6,8} =)( 2 XC {3,7}; =)( 2 XC {3,4,5,6,7,8} T ập C-xấp xỉ dưới khái niệm và C-xấp xỉ trên khái niệm của X 1 , X 2 : =)( 1 XC {1,2,4,8}; =)( 1 XC {1,2,4,6,8} =)( 2 XC {3, 7}; =)( 2 XC {3,4,5,6,7,8} Ta d ễ dàng nhận thấy rằng B-xấp xỉ dưới khái niệm và B-xấp xỉ dưới tập con của X là nh ư nhau; B-xấp xỉ trên khái niệm là tập con của B-xấp xỉ trên tập con, đồng thời là t ập nhỏ nhất chứa tập X. 43 Theo [3], B-xấp xỉ khái niệm thích hợp cho việc sinh luật nhất. Trong tr ường hợp bảng quyết định đang xét là đầy đủ, ba loại xấp xỉ đơn, xấp xỉ t ập con và xấp xỉ khái niệm là trùng nhau. Nhưng đối với bảng quyết định không đầy đủ thì điều này chưa chắc đúng. V. Sinh luật trên bảng quyết định Theo [3], quá trình sinh luật trên bảng quyết định không đầy đủ sử dụng khối thu ộc tính-giá trị bao gồm các bước: tính các khối thuộc tính - giá trị, tính tập đặc trưng và quan h ệ đặc trưng, tính các tập xấp xỉ, các khối thuộc tính - giá trị kiểu liên tục (nếu có), sinh lu ật; trong đó bước sinh luật được thực hiện bằng thuật toán LEM2. Thuật toán này khai phá không gian tìm ki ếm là các bộ thuộc tính-giá trị, tìm ra một phủ địa ph ương, chính là tập các thành phần điều kiện của tập luật mô tả tập đối tượng đang xét. Tuy nhiên, theo [10,11], ta có th ể làm giảm độ phức tạp của quá trình khai phá lu ật bằng cách rút gọn bảng quyết định trước khi tiến hành quá trình sinh luật. Như vậy, thay vì th ực hiện việc tính các khối thuộc tính-giá trị, tính tập đặc trưng, quan hệ đặc tr ưng,… và sinh luật trên một bảng dữ liệu lớn, ta chỉ tiến hành trên bảng nhỏ hơn, đơn gi ản hơn. Ngoài ra, để cải thiện tốc độ thực hiện thuật toán, trong bài báo này chúng tôi sẽ đề xuất một thuật toán mới cũng nhằm tìm kiếm một phủ địa phương mô tả tập khái ni ệm cho trước là thuật toán NewLEM2. Cho V là t ập xấp xỉ dưới hoặc tập xấp xỉ trên khác rỗng của một tập khái niệm có giá tr ị thuộc tính quyết định là w. V ới một tập các bộ thuộc tính-giá trị bất kỳ T = {t = (a,v)}, ký hiệu Khi đó, tập V được gọi là phụ thuộc vào tập T nếu và chỉ nếu [ ] VT ⊆≠∅ . T được gọi là phức cực tiểu (minimal complex) của V nếu và chỉ nếu V phụ thu ộc vào T và không tồn tại T’ con của T sao cho V phụ thuộc vào T’. Ph ức cực tiểu T của tập xấp xỉ V chính là phần điều kiện của một luật quyết định đúng với các đối tượng x thuộc [T]. G ọi τ là họ các tập khác rỗng thuộc tính-giá trị, τ ≠ ∅. τ được gọi là phủ địa ph ương (local covering) của V khi và chỉ khi thỏa mãn các điều kiện sau: M ỗi phần tử T của τ là một phức cực tiểu của V ∪ T ∈τ [T] = V và τ cực tiểu, nghĩa là τ có số phần tử nhỏ nhất. Nh ư vậy, τ chính là tập nhỏ nhất gồm các phức cực tiểu mô tả một cách đầy đủ t ập xấp xỉ V của tập khái niệm X và việc đi tìm τ chính là đi tìm phần điều kiện của tập các lu ật quyết định mô tả tập V. Thuật toán NewLEM2 trình bày dưới đây làm nhiệm vụ đi tìm tập τ đó. [ ] [ ] I T t tT ∈ = 44 Ta thấy rằng, tập xấp xỉ khái niệm của một tập khái niệm X chính bằng hợp của nh ững tập đặc trưng K C (x) của các đối tượng x trong X mà K C (x) ⊆ V và một phức cực ti ểu nếu đúng với một đối tượng x thì cũng đúng với các đối tượng khác thuộc cùng tập đặc trưng của nó. Vì vậy, thay vì tìm T bằng cách “nhặt” từng bộ thuộc tính-giá trị t sao cho [t] ch ứa nhiều x i thuộc V nhất như trong thuật toán LEM2, chúng ta sẽ tìm T cho cả m ột tập đặc trưng; đồng thời, thay vì tìm t trong tập tất cả các cặp thuộc tính-giá trị thì ch ỉ cần tìm trong số các cặp thuộc tính-giá trị tương ứng với các thuộc tính điều kiện mà giá tr ị của đối tượng ứng với tập đặc trưng đang xét tại thuộc tính đó là xác định bằng thu ật toán NewLEM2. Thu ật toán NewLEM2 là một cải tiến của thuật toán LEM2, cũng nhằm mục đích xây dựng phủ tối tiểu các phức cực tiểu của một tập xấp xỉ khái niệm của một tập khái ni ệm, tức là đi tìm tất cả các vế trái của các luật quyết định mô tả tập (xấp xỉ) khái ni ệm đó. Với mỗi x thuộc V mà lớp đặc trưng của nó là con của V, ta sẽ rút gọn tập thu ộc tính mô tả K C (x), tức là đi tìm C’ ⊂ C nhỏ nhất mà K C’ (x) ⊆ V. Sau đó, loại khỏi C’ nh ững bộ t thừa. C’ chính là T: phức cực tiểu mô tả K C’ (x). Quá trình tìm phức cực ti ểu được tiếp tục với các x còn lại trong V cho tới khi mọi đối tượng đều được miêu tả b ởi một phức cực tiểu tương ứng nào đó. Thu ật toán cụ thể như sau: Thuật toán NewLEM2 Input: T ập xấp xỉ khái niệm V của tập khái niệm X; Output: Ph ủ địa phương τ của V; 1. Begin 2. G := V; 3. τ := ∅ ; 4. while G ≠∅ 5. begin 6. T := ∅ ; 7. Ch ọ n x ∈ G đầ u tiên sao cho K C (x) ⊆ V và GxK C ∩)( là l ớ n nh ấ t. 8. TV(x):={t = (a,a(x))  (a ∈ C) và (a(x) xác đị nh)}; 9. while T = ∅ or [T] ⊄ V 10. begin 11. Ch ọ n m ộ t b ộ t ∈ TV(x) đầ u tiên sao cho Gt ∩ ][ là l ớ n nh ấ t; ư u tiên ch ọ n b ộ t ∈ TV(x) sao cho v ớ i m ọ i (y ∈ [T]) và (y ∉ V) thì y ∉ [t] 12. T := T ∪ {t} ; 13. G :=[t] ∩ G ; 14. TV(x):= TV(x)-T ; 15. end {while 9} 45 16. for m ỗ i t ∈ T do 17. if [T –{t}] ⊆ V then T := T –{t}; 18. τ := τ ∪ {T}; 19. G := [ ] U τ ∈ − T TV ; 20. end {while 4}; 21. for m ỗ i T ∈ τ do 22. if { } [ ] VS TS = −∈ U τ then τ := τ - {T}; 23. end {procedure}. Chứng minh tính đúng đắn của thuật toán: (i) V phụ thuộc T : [T] ⊆ V Vì T = {t = (a,v)  a(x) =v, a∈C, v∈V a , v≠*, v≠? } và K C (x) = I ñònh xaùc a(x) Ca xaa ∈ )](,[ , do đó, khi TV(x) = ∅, ta sẽ có [T] = K C (x). Mà K C (x) ⊆ V. V ậy [T] ⊆ V. (ii) T cực tiểu T ừ dòng 16,17 => T cực tiểu. (iii) [ ] U τ ∈T T = V Theo (i), ∀T ∈τ, [T] ⊆ V => [ ] U τ ∈T T ⊆ V. M ặt khác, cứ mỗi lần thực hiện vòng lặp từ dòng 4-20, ta thu được [T] = K C’ (x) với C’⊂ C và K C (x) ⊆ V, ∀x ∈V. => U Vx C VxK ∈ ⊇)( ' ( Vì K C (x) ⊆ K C’ (x) và U Vx C VxK ∈ =)( ) hay [ ] U VT ⊇ V ậy [ ] U τ ∈T T = V. (iv) τ ττ τ cực tiểu. T ừ dòng 21, 22 => τ cực tiểu. Ví d ụ, xét bảng quyết định không đầy đủ ở Bảng 1, tập khái niệm X= {1,2,4,8}. T ập xấp xỉ dưới khái niệm V = { } 8,4,2,1)( =XC . Quá trình sinh luật bằng thuật toán NewLEM2 nh ư sau: Ta có các t ập đặc trưng của các đối tượng thuộc V là K C (1) = {1,8}; K C (2) = {2,8}; K C (4) = {4,8}; K C (8) = {2,4,6,8}. § Đầu tiên, khởi gán G := V = {1,2,4,8}; τ := ∅; 46 § Thực hiện vòng lặp ngoài cùng (dòng 4-20): • T := ∅; • Trong số các x∈G mà K C (x) ⊆ V, ta chọn x = 1 vì đây là phần tử đầu tiên có GxK C ∩ )( lớn nhất. • TV(1) = {(Temperature,high), (Nausea,no)} • Lúc này, T = ∅, bắt đầu thực hiện vòng lặp trong (dòng 9-15): − Vì GhigheTemperatur ∩)],[( = 3 > GnoNausea ∩)],[( = 2 − chọn t = (Temperature,high) − T = T ∪ {t} = {(Temperature,high)}; − G = [t] ∩ G = {1,4,5,8}∩{1,2,4,8} = {1,4,8}; − TV(1) = {(Nausea,no)}; • [T] = {1,4,5,8}⊄ V nên tiếp tục thực hiện vòng lặp từ dòng 9-15: T ương tự như trên, ta chọn được t = (Nausea,no) ⇒ T = {(Temperature,high), (Nausea,no)}; G = {1,8}; [T] = {1,8}⊆ V ⇒ τ = {{(Temperature,high), (Nausea,no)}}; § Đến đây, G = [ ] U τ ∈ − T TV = {2,4}≠∅ nên chúng ta tiếp tục vòng lặp ngoài (4-20): • T := ∅; • Trong số hai phần tử của G, chọn x = 2 vì GK C ∩ )2( = GK C ∩ )4( =1 và 2 là phần tử đầu tiên. • TV(2) = {(Temperature,Very-high),(Headache,yes), (Nausea,yes)} • T = ∅, bắt đầu thực hiện vòng lặp trong (dòng 9-15): − Chọn t = (Headache,yes) vì GyesHeadache ∩)],[( = 2, lớn nh ất − T = T ∪ {t} = {(Headache,yes)} − G = [t] ∩G = {2,4} − TV(2) = {(Temperature,Very-high), (Nausea,yes)} • [T] = {2,4,6,8} ⊄ V, tiếp tục thực hiện vòng lặp trong: Ch ọn t = (Nausea,yes); T = {(Headache, yes), (Nausea,yes)}; G = {2,4}, [T] = {2,4,8} ⊆ V 47 ⇒ τ = {{(Temperature,high), (Nausea,no)}, {(Headache,yes), (Nausea,yes)} }; § Lúc này, G = [ ] U τ ∈ − T TV = ∅, thoát khỏi vòng lặp. § Loại bỏ T dư thừa khỏi τ (dòng 21-22), kết quả thu được τ = {{(Temperature,high), (Nausea,no)}, {(Headache,yes), (Nausea,yes)} } V ậy, tập luật chắc chắn gồm 2 luật: § (Headache,yes) ∧ ∧∧ ∧(Nausea,yes)    (Flu,yes) § (Temperature, high) ∧ ∧∧ ∧(Nausea,no)    (Flu,yes) Trong trường hợp sử dụng thuật toán LEM2, tập luật chắc chắn tương ứng với t ập khái niệm X ={1,2,4,8} [3] là: § (Temperature, high) ∧ ∧∧ ∧(Headache,yes)    (Flu,yes) § (Temperature,Very high)    (Flu,yes) § (Temperature, high) ∧ ∧∧ ∧(Nausea,no)    (Flu,yes) Nh ận xét: T ập luật chắc chắn sinh ra cho tập X ={1,2,4,8} của bảng quyết định không đầy đủ trên bằng cách dùng thuật toán NewLEM2 tốt hơn so với dùng thuật toán LEM2: số l ượng luật ít hơn, đúng với nhiều đối tượng hơn. G ọi n là số phần tử của tập V, m là số thuộc tính điều kiện của bảng quyết định không đầy đủ đang xét ( m = card(C)). Theo [8], ta có độ phức tạp tính toán của thuật toán LEM2 là O(mn 2 ). Bây gi ờ, ta sẽ tính độ phức tạp tính toán của thuật toán NewLEM2: vòng lặp ngoài cùng (t ừ dòng 4 đến dòng 20) sẽ được thực hiện tối đa là n lần. Ở phần tính phức T (b ắt đầu từ dòng 9), tương ứng với mỗi đối tượng x, thuật toán phải thực hiện tối đa là m l ần vì phải kiểm tra hết mọi cặp thuộc tính-giá trị (a,a(x)) trong TV(x), a ∈ C (card(TV(x)) ≤ m). T ại bước loại bỏ t dư thừa (tương ứng ở dòng 16-17), do T có tối đa m c ặp thuộc tính-giá trị nên bước này có độ phức tạp tính toán là O(m). Từ dòng 21-22 (lo ại T dư thừa), độ phức tạp tính toán là O(n 2 ) vì τ có tối đa n phần tử, ứng với mỗi ph ần tử phải kiểm tra n-1 lần (dòng 22). Lúc đó, độ phức tạp tính toán của thuật toán NewLEM2 là O(n 2 ). Ở đây, chúng ta cần để ý một điều là việc tính các tập đặc trưng K C (x), x∈V được thưc hiện trước khi tiến hành bước sinh luật quyết định cho dù sử dụng thuật toán LEM2 hay NewLEM2. Vì v ậy, để tiện cho việc so sánh độ phức tạp tính toán của hai thu ật toán này, chúng ta có thể xem độ phức tạp tính toán của bước tính K C (x) trong thu ật toán NewLEM2 là 1. 48 Như vậy, độ phức tạp tính toán của thuật toán NewLEM2 là O(n 2 ) bé hơn độ ph ức tạp tính toán của thuật toán LEM2 là O(mn 2 ). Tuy nhiên, trong thực tế, khi sử d ụng thuật toán NewLEM2, chúng ta có thể rút gọn thời gian tìm kiếm các bộ t (dòng 9 đến 15) đi n lần so với LEM2. Điều này có ý nghĩa rất lớn vì các cơ sở dữ liệu thực th ường chứa rất nhiều đối tượng, nghĩa là n rất lớn. Thu ật toán LEM2 và NewLEM2 chỉ mới sinh ra phần điều kiện của tập luật ch ắc chắn (nếu tập đối tượng dùng để huấn luyện là xấp xỉ dưới) hoặc có thể chấp nhận được (nếu dùng tập xấp xỉ trên để huấn luyện). Trường hợp sinh luật chắc chắn, giá trị quy ết định của các luật sinh ra từ một tập khái niệm chính là giá trị quyết định của các đối tượng thuộc tập hợp đó. Tuy nhiên, trong trường hợp dùng tập xấp xỉ trên để sinh lu ật thì giá trị quyết định của từng luật được xác định: trong số các đối tượng thỏa phần điều kiện của luật đang xét, xác định số lượng của từng nhóm đối tượng có giá trị quyết định giống nhau, giá trị quyết định của luật chính là quyết định của nhóm có số phần tử l ớn nhất. VI. Kết luận Dựa vào các khái niệm của lý thuyết tập thô nguyên thủy và quan hệ đặc trưng, chúng tôi đã đưa ra một thuật toán tìm phủ địa phương cho một tập khái niệm và sinh lu ật cho tập hợp này. Thuật toán có độ phức tạp tính toán bé hơn thuật toán do Grzymala-Busse đưa ra, nên hiệu quả hơn về thời gian tính toán và chất lượng của tập lu ật cũng có thể tốt hơn. TÀI LIỆU THAM KHẢO 21. Nguy ễ n Th ị Lan Anh, Nghiên c ứ u các ph ươ ng pháp m ở r ộ ng quan h ệ không phân bi ệ t đượ c trên h ệ th ố ng thông tin không đầ y đủ , Lu ậ n v ă n th ạ c s ĩ khoa h ọ c ngành Khoa h ọ c máy tính, Đạ i h ọ c Hu ế , 2008. 22. Hoàng Th ị Lan Giao, C ơ s ở d ữ li ệ u v ớ i thông tin không đầ y đủ , Lu ậ n v ă n th ạ c s ĩ khoa h ọ c ngành Tin h ọ c, Tr ườ ng Đạ i h ọ c Bách khoa Hà N ộ i, 1998. 23. Grzymala-Busse J.W, Data with Missing Attribute Values: Generalization of Indiscernibility Relation and Rule Induction, Transactions on Rough Sets, Lecture Notes in Computer Science Journal Subline, Springer-Verlag, vol.1 (2004), 78-95. 24. Grzymala-Busse J.W. Three Approaches to Missing Attribute Values-A Rough Set Perspective, Workshop on Foundations of Data Mining, associated with the fourth IEEE International Conference on DataMining, Brighton, UK, 2004. 25. Grzymala-Busse J.W. Chapter 13 Rule Induction, Data Mining and Knowledge Discovery Handbook, Springer US, Part II, (2005), 277-294. 26. Grzymala-Busse J.W. Rough Set Strategies to Data with Missing Attribute Values, Proceedings of the Workshop on Foundations and New Directions in Data Mining, [...]... Linkopings universitet, (2002) 29 Pawlak Z Rough Sets, International Journal of Computer and Information Sciences, grammars.grlmc.com, 1982 30 Skowron A Rough Sets and Boolean Reasoning, Granular computing: an emerging paradigm, (2001), 95-124 31 Skowron A., Zhong N Rough Sets in KDD, Tutorial Notes, 2000 DEALING WITH INCOMPLETE DATA BASED ON CHARACTERISTIC RELATION Hoang Thi Lan Giao College of Sciences, . dựng bằng cách sử dụng quan hệ đặc trưng này. I. Mở đầu Bài báo này s ử dụng kỹ thuật xử lý thông tin không đầy đủ dựa vào quan hệ đặc tr ưng - là một mở rộng của quan hệ không phân biệt được. 39 TẠP CHÍ KHOA HỌC, Đại học Huế, Số 50, 2009 XỬ LÝ THÔNG TIN KHÔNG ĐẦY ĐỦ DỰA VÀO QUAN HỆ ĐẶC TRƯNG Hoàng Thị Lan Giao Trường Đại học Khoa học, Đại học Huế Nguyễn. {7} K C (8) = {2,4,6,8} J.W.Grzymala-Busse đã mở rộng quan hệ B -không phân biệt được lên hệ thống thông tin không đầy đủ thành quan hệ đặc trưng R(B) được định nghĩa như sau: R(B) = {(x,y)

Báo cáo nghiên cứu khoa học: " XỬ LÝ THÔNG TIN KHÔNG ĐẦY ĐỦ DỰA VÀO QUAN HỆ ĐẶC TRƯNG" pptx

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan