Luận văn tốt nghiệp Hệ thống các độ đo gần đúng và lập luận xấp xỉ

87 401 0
Luận văn tốt nghiệp Hệ thống các độ đo gần đúng và lập luận xấp xỉ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận văn tốt nghiệp Hệ thống các độ đo gần đúng và lập luận xấp xỉ Nhu cầu của con người về việc giải quyết các vấn đề thực tế dựa trên nhiều mô hình ngμy cμng phức...

 Luận văn tốt nghiệp Hệ thống độ đo gn ỳng v lp lun xp x Lời nói đầu Nhu cầu ngời việc giải vấn đề thực tế dựa nhiều mô hình ngày phức tạp đà gia tăng dẫn đến cần thiết phải thu thập liệu phức tạp Phân tích kỹ lỡng trình thực tế thu thập thông tin, chóng ta nhËn thÊy r»ng rÊt nhiỊu th«ng tin đợc thu thập số liệu xác rõ ràng Tính không xác cha rõ ràng trình thu thập thông tin xuất phát từ nhiều nguyên nhân khác nhau: dụng cụ đo không hoàn hảo, thông thờng nguồn liệu thông tin đợc thu thập từ một vài cá nhân mà thông tin không xác, không mạch lạc cha đầy đủ Đối với trờng hợp nh thế, phơng pháp xử lý hoàn toàn tợng trng không đáp ứng đầy đủ yêu cầu việc xử lý thông tin Bắt đầu từ năm 1960 đà hình thành phát triển khía cạnh lý thuyết kỹ thuật liên quan đến vấn đề biểu diễn tính không xác không chắn Hiện nay, phơng pháp nghiên cứu nội dung đà đóng góp thành công quan trọng phát triển khoa học máy tính Không nảy sinh khó khăn mong muốn phép đo đợc tiến hành cách xác, mà chí tình tiến hành đợc phép đo kết thu đợc lại hữu ích: ý nghĩa sử dụng thấp lại khó khăn diễn giải hay làm sáng tỏ thông tin thu thập đợc Khó khăn tơng tự xảy tiến hành phân tích hoạt động hệ thống phức tạp hệ thống đa chiều (many-dimensional system) Trong nhiều tình nh việc đa phơng pháp chung để nhận đợc thông tin hữu ích cách kịp thời trở nên có ý nghĩa nhiều so với việc tìm kiếm phơng pháp chi tiết xác Khi độ phức tạp hệ thống tăng lên, khả xây dựng phát biểu xác có ý nghĩa hoạt động hệ thống giảm bớt đạt đợc -1- "ngỡng" đó, mà ngỡng đó, tính xác tính có ý nghĩa trở nên thống Nguyên lý không tơng thích nh đà trình bày phù hợp với cách ng−êi lÜnh héi vµ suy ln: chóng ta chđ u sử dụng cách trình bày thực tế cách giản lợc, vậy, việc trình bày nh định không xác chung chung theo suy nghĩ chủ quan ngời Nh vậy, phơng pháp t ốt cần phải đạt đợc thoả hiệp, đó, tránh đòi hỏi xác mức nh lạm dụng tùy hứng (hay vậy, tính không chắn) cách mức Tính không xác chí đợc nảy sinh khả hiểu biết cá nhân ngời bị giới hạn Giải tích khoảng lý thuyết xác xuất hai cách tiếp cận truyền thống để trình bầy thông tin không hoàn hảo nhiên chúng lại không thích ứng để giải vấn đề đợc nảy sinh Giải tích khoảng đợc áp dụng tình xử lý liệu số không Đối với thông tin không hoàn hảo, lý thuyết xác suất đợc sử dụng với mục ®Ých ®−a mét khung mang tÝnh qui chuÈn vµ quan tâm đến phán không chắn Lý thuyết khả đợc xây dựng dựa khái niệm tập mờ, đợc Zadeh khởi sinh từ năm 1960 Khi áp dụng lý thuyết khả năng, đối tợng đợc tơng ứng với phạm trù chắn mà đối tợng đợc đánh giá theo phạm trù Khi mức độ khả nhận giá trị hoặc tính toán xác lý thuyết khả trùng hợp với giải tích khoảng, thông tin không xác đợc trình bày dới dạng tập giá trị (thay tập giá trị xác) Khi nghiên cứu lý thuyết khả năng, quan tâm đến mối quan hệ kép: mặt, quan hệ lý thuyết khả lý thuyết tập hợp, mặt khác, quan hệ lý thuyết khả khái niệm độ đo Trong nghiên cứu lý thuyết khả năng, -2- tính không xác đợc trình bày dới dạng tập mờ việc xác định tính không chắn đợc thông qua việc xác định cặp độ đo khả độ đo cần thiết Việc nghiên cứu độ đo hệ thống không hoàn hảo đợc quan tâm từ thời điểm khởi đầu lĩnh vực nghiên cứu rộng lớn Tin học Mỗi mô hình hệ thống không hoàn hảo thờng gắn với lớp độ đo Đà có nhiều công trình khoa học nghiên cứu độ đo hệ thống không hoàn hảo đợc đa Hiện tại, vấn đề nghiên cứu độ đo mang tính thời sự, liên quan đến nhiều lĩnh vực khác Tin học đặc biệt, liên quan mật thiết đến lĩnh vực khai phá liệu tìm kiếm tri thức Luận văn "Hệ thống độ đo gần lập luận xấp xỉ" định hớng tới nội dung độ đo hệ thống không hoàn hảo, lập luận gần tìm kiếm tri thức Nội dung luận văn đợc chia làm chơng: - Chơng với tiêu đề "Tập mờ độ đo không xác" trình bầy nội dung lý thuyết tập mờ, phép toán tập mờ, độ đo hệ thống không hoàn hảo Các độ đo đợc trình bày chơng nh: độ đo khả năng, độ đo cần thiết mối liên hệ độ đo, tập mờ độ đo khả đợc xem xét Luận văn trình bày nét khái quát phơng pháp thực tế xây dựng hàm thành viên, xây dựng tập mờ từ liệu thống kê Mối liên hệ phân phối khả xác suất đợc xem xét Việc xây dựng hàm thành viên àG đo mức độ tơng thích giá trị đánh giá đối tợng ý muốn ngời định đợc bàn luận Để đạt đợc mục tiêu chung cần kết hợp từ nhiều tiêu chuẩn khác dẫn đến việc cần xây dựng hàm tổ hợp tiêu chuẩn lại - Chơng có tiêu đề "Các phơng pháp lập luận xấp xỉ hệ chuyên gia" trình bày số mô hình suy luận gần hệ chuyên -3- gia Dựa theo tảng lý thuyết đợc giới thiệu chơng 1, độ đo tin cậy, độ đo hợp lý đợc trình bày Khái niệm mệnh đề không rõ ràng cách ớc lợng giá trị đắn mệnh đề đợc xem xét tơng đối kỹ lỡng Cách tiếp cận logic tiếp cận hàm xây dựng mô hình suy luận hệ chuyên gia từ tiền đề không chắn sử dụng luật Modus ponens Modus tollens đà đợc nghiên cứu chơng - "Tìm kiếm tri thức độ đo gần đúng" tiêu đề chơng Nội dung chơng nêu lên quan điểm độ đo gần kết khai phá liệu tìm kiếm tri thức Các nội dung tìm kiếm tri thức mà tri thức độ đo lĩnh vực lập luận gần đà đợc trình bày Một số độ đo liên quan đến lĩnh vực lập luận xấp xỉ, đặc biệt độ đo liên quan đến khái niệm tập thô đợc hệ thống hóa Giá trị tìm đợc từ độ đo nói cho phép đa số đánh giá độ tin cậy suy luận gần - Chơng với tiêu đề "Đề xuất độ đo gần áp dụng" bớc phát triển nội dung chơng Độ đo đợc đề xuất cha đợc đánh giá so sánh với độ đo chơng song ®é ®o ®ã vÉn cã ý nghÜa lớp mô hình không hạn hẹp Luận án hoàn thành đợc trớc hết nhờ có giúp đỡ hớng dẫn khoa học tận tình PTS Hà Quang Thụy, PTS Đỗ Văn Thành Vì vậy, với tất lòng xin bầy tỏ lòng biết ơn sâu sắc tới hai ngời thầy đà trực tiếp giúp đỡ hớng dẫn làm luận án Và xin chân thành gửi lời cám ơn tới thầy cô giáo khoa Công nghệ thông tin, thầy cô giáo thuộc Phòng Đào tạo sau đại học-trờng Đại học Khoa học tự nhiên đà tạo điều kiện giúp đỡ suốt trình học Ngoài vô cảm ơn ngời gia đình bạn bè thân tôi, đà cho nhiều động viên khích lệ để hoàn thành luận án -4- Với tất tập thể cá nhân đà giúp đỡ trên, xin chân thành gửi cám ơn tới tất ngời -5- Chơng Tập mờ độ đo không xác độ đo khả tập mờ Một cách tiếp cận không truyền thống tính không xác tính không chắn cách tiếp cận tới phép đo khả Trớc hết, xem xét khái niệm tính không xác tính không chắn 1.1 khái niệm tính không xác tính không chắn Tính không xác tính không chắn đợc coi hai khía cạnh tính chất xác thực liên quan đến thông tin không hoàn hảo Một mục (gói) thông tin đợc trình bầy nh mệnh đề logic kho tri thức đợc thu gom từ mục thông tin từ cá nhân (hoặc hệ thống máy tính, nhóm cá nhân) liên quan đến vấn đề Những khẳng định xuất trình biểu diễn thông tin đợc giải thích nh tập miền tham khảo Một mệnh đề đợc coi xác nhận liên quan tíi sù xt hiƯn cđa mét sù kiƯn Nh÷ng sù kiện nh tự đợc trình bầy nh tập miền tham khảo, đợc gọi kiện chắn Chúng ta có ba cách tơng đơng để thu thập mục thông tin: dựa theo cấu trúc (khía cạnh logic), dựa theo nội dung mục thông tin (khía cạnh lý thuyết tập), dựa theo mối liên hệ mục thông tin với kiện thực (khía cạnh thực tế) Theo quan điểm thực tế, mục thông tin đợc định nghĩa bộbốn (thuộc tính, đối tợng, giá trị, độ tin cậy) -6- Đối tợng (object) đợc phần tử tập tổng thể đối tợng đợc quan tâm, nghiên cứu Trong mục thông tin, thành phần đối tợng đợc trình bày tên đối tợng cụ thể liên quan đến mục thông tin đà cho Thuộc tính (attribute) đợc đề cập nh hàm gắn giá trị (hoặc tập giá trị) với đối tợng (object) Thuộc tính thờng liên quan đến "tính chất" đối tợng đợc xem xét Giá trị (value) thuộc tập vùng tham khảo liên quan với thuộc tính Trong mục thông tin, thành phần giá trị phần tử (hoặc tập phần tử) liên quan đến đối tợng cụ thể mục thông tin Độ tin cậy (confident) xác định độ xác thực mục thông tin Mục thông tin đợc mở rộng theo hớng thành phần tổ hợp (một vài đối tợng, vài thuộc tính, mảng n-tính chất, mức độ tin cậy khác nhau) Trong ngữ cảnh này, chóng ta cã thĨ nhËn thÊy sù ph©n biƯt râ ràng khái niệm không xác (imprecision) với khái niệm không chắn (uncertainty): tính không xác liên quan tới nội dung mục thông tin (thành phần giá trị), đó, tính không chắn liên quan tới tính đắn mục thông tin, đợc hiểu nh tính xác thực (thành phần tin cậy) * Tính không chắn Tính không chắn mục thông tin đợc đánh giá thông qua từ nh: (probable), khả năng, cần thiết, hợp lý đáng tin mà mong muốn cố gắng gán cho chúng ý nghĩa xác Mô hình đà đợc nghiên cứu rộng rÃi liên quan tới hai ý nghĩa khác ý nghĩa ý nghĩa vật lý, ràng buộc tới thí nghiệm thống kê, liên quan tới tần số xuất mét sù -7- kiƯn ý nghÜa thø (epistemic) lµ: nói đến cách đánh giá chủ quan Đối với mô hình khả cần thiết, ta nhấn mạnh tính đối ngẫu chúng, kiện cần thiết, kiện đối ngẫu khả Trái ngợc với khái niệm khả năng, khái niệm cần thiết thờng xuyên đợc coi nh phạm trù tất Nhng, giống nh có thể, khả có hai cách giải thích: vật lý, epistemic Mặt khác cần thiết khái niệm mạnh nhiều, ý nghĩa vật lý epistemic Những khái niệm hợp lý đáng tin đặc biệt epistemic liên quan lần lợt đến khái niệm khả cần thiết Từng khái niệm tơng ứng tới cách thức suy luận dựa kho tri thức đợc đa ra: điều mà suy luận từ kho tri thức đáng tin; điều mà không mâu thuẫn với kho tri thức hợp lý (khía cạnh qui nạp) Dới vài ví dụ mệnh đề không chắn: - Cã thĨ Nam cao Ýt nhÊt 1.70 m (®é cao, Nam, 1.7 m, có thể) -Xác suất lợng ma ngày mai đạt10 mm 0.5 (lợng, ma ngày mai, 10 mm, xác suất = 0.5) * Tính không xác Một mục thông tin đợc gọi xác tập tơng ứng với thành phần giá trị chia nhỏ thêm Dựa khía cạnh thông tin đợc nhấn mạnh, phát biểu mệnh đề sơ cấp, singleton (khía cạnh lý thuyết tập), kiện Tính xác dựa cách xác định miền tham khảo Trong số trờng hợp, phát biểu thông tin không xác (imprecise) Trong ngôn ngữ tự nhiên có từ liên quan tới tính không xác, ví dụ nh không rõ ràng, mờ, tổng quát Tổng quát -8- dạng không xác giống với trình trừu tợng hoá Một mục thông tin đợc gọi tổng quát dẫn lớp đối tợng mà đối tợng biểu diễn tính chất chung Nhng tính không rõ ràng tính mờ mục thông tin ngăn cách rõ ràng xem xét tập giá trị đợc gắn tới đối tợng liên quan 1.2 Độ đo tin t−ëng (confidence) Trong viƯc nghiªn cøu kho tri thøc không xác không chắn, kiện tËp cđa mét tËp tham kh¶o Ω cho tr−íc Tập rỗng đợc đồng với kiện khả Giả sử với kiện A ⊆ Ω cho t−¬ng øng víi mét sè thùc g(A) đợc gọi độ tin tởng khả xuất kiện A (qui ớc, g(A) tăng với tăng độ tin cậy) Thực tế g(A) đợc cung cấp từ ngời sở hữu kho tri thức (hoặc từ thủ tục xử lý liệu đợc áp dụng thông tin đợc lu giữ nhớ hệ thống máy tính) Hơn nữa, A kiện chắn g(A)=1, A kiện khả năng, g(A)=0, đặc biệt g()=0 g()=1 (1.1) Tuy nhiên, g(A)=1 (hoặc 0) không thiết có nghĩa A chắn (hoặc khả năng) Tiên đề 1.1 (Tiên đề đơn điệu yếu): Giả sử tập tham khảo, với kiện A g(A) đo độ tin tởng khả xuất kiƯn A Khi ®ã: ∀A ⊆ B g(A) ≤ g(B) (1.2) Định nghĩa 1.1 (độ đo confident): -9- Q xác định, giá trị độ đo RN nằm giá trị độ đo thô Pawlak giá trị độ đo R Định nghĩa 3.10 Giả sử O tập đối tợng, P tập thuộc tính xác định quan hệ tơng đơng O Khi N P (Q) ký hiệu ®é ®o RN ®o møc ®é phơ thc cđa mét tập thuộc tính Q tập thuộc tính P đợc định nghĩa nh sau: N P (Q) = card ( [o ]Q ∩ [o ]P ) min[o ]Q ,( [o ]Q ∩[o ]P )≠ ∅ ∑ card ( [o ]P ) card ( O ) [ ] O P (3.5) Trong vÝ dơ trªn, mức độ phụ thuộc bị_cúm vào nhiệt_độ (3.5) 2/3 3.2.2 Một số độ đo thông dụng Giả sử cho O tập mẫu ban đầu mét ph©n líp víi k líp Ci (i=1,k) tõ tËp O thông qua tập thuộc tính Và giả sử tất thuộc tính riêng biệt, thuộc tính có số hữu hạn giá trị Khi ký hiệu: n tổng số đối tợng (mẫu ban đầu) O, ni số đối tợng lớp Ci, n.j số đối tợng mà thuộc tính A có giá trị j-th, nij số đối tợng lớp Ci mà giá trị thuộc tính A j-th và: p ij = n ij n , p i = n i , n p j = n j n , pi j = n ij n j xác suất từ tập O Khi vài độ đo thông dụng đợc xây dựng công thức sau: - Độ đo Gain-ratio: - 72 - GainR = j p j ∑ ilog p ij − ∑ ip i log p i ∑ j p j log p j (3.6) - Độ đo Gini-index: Gini = ∑ p j ∑ p i2 j − ∑ p i2 (3.7) n ij Re lev = − ∑ ∑ − k j i ≠ i m ( j) n i (3.8) j i i - Độ đo Relevance: đó: n ij ⎫ i m ( j) = arg max i ⎨ n i - Độ đo X2: X = ∑∑ i (e ij − n ij ) e ij j ®ã e ij = , n j n i n (3.9) Gi¶ sư r»ng P = {A , A , , A r } , vµ Q = {B , B , , B q } Ký hiÖu - n tổng số đối tợng O, - n.j j j số đối tợng mà thuộc tính A1, A2, ,Ar có giá trị r j1-th, j2-th, ,jr-th, t−¬ng øng - ni i i |j j j số đối tợng mà c¸c thuéc tÝnh B1, B2, ,Bp cã c¸c p 12 r giá trị i1-th, i2-th, ,ip-th thuộc tính A1, A2, ,Ar có giá trị j1-th, j2-th, ,jr-th, tơng ứng p j j j r = n j j j r n (3.10) - 73 - pi 1i i p j1 j j r = ni 1i i p j1 j j r n j j j j r Ta trình bầy lại độ đo R ®é ®o RN nh− sau: - §é ®o R: ~ µ P (Q) = ∑ p j1 j2 jr max i1i i p p i1i2 ip j1 , j2 , , jr (3.11) j1 j2 jr - Độ đo R N : N (Q) = P ∑ p j1 j2 jr i1i2 ip , p j1 , j2 , , jr i1i i p j1 j2 jr Trong tr−êng hợp đặc biệt r = p = 1, ~ µ P (Q ) ≠0 p i21i i p (3.12) j1 j2 jr đợc viết nh sau: ~ µ P (Q) = ∑ p j max i {p i2 j } (3.13) j T−¬ng tù ta cã: µ N P (Q ) = ∑ p j i , p j i j ≠0 {p } i j (3.14) 3.2.3 Các tiêu chuẩn đánh giá định Có tiêu chuẩn cho đánh giá định: xác dự đoán, kích cỡ định vấn đề hiểu đợc mẫu: - Sự dự đoán xác mô hình định liên quan tới khả phân lớp định phân trờng hợp không đợc biết vào lớp đà học đợc Nó đo mức độ dự đoán xác dới dạng tỷ lệ lỗi Ví dụ, tỷ lệ dự đoán không xác định liệu kiểm tra - Cỡ định liên quan đến qui tắc: số nút tốt - Khả hiểu đợc liên quan đến trình bầy tri thức 3.3 Kỹ thuật đánh giá chéo (cross validation) Theo truyền thống trình học có giám sát, thông thờng mẫu ban đầu đợc cung cấp đợc chia thành hai tập liệu đào tạo tập liệu - 74 - kiểm tra Tập liệu đào tạo đợc sử dụng để phân lớp liệu nhờ phơng pháp liệu kiểm tra đợc sử dụng ®Ĩ ®¸nh gi¸ møc ®é dù ®o¸n chÝnh x¸c cđa phơng pháp Một thí nghiệm đào_tạo_và_ kiểm _tra riêng lẻ thờng đợc sử dụng vấn đề học máy để ®¸nh gi¸ c¸c hƯ thèng häc tù ®éng NhËn thÊy thí nghiệm đào_tạo_và_ kiểm_tra phức tạp làm tốt thí nghiệm đào_tạo_và_ kiểm_tra đơn lẻ Các công việc gần cho thấy kỹ thuật đánh giá chéo kỹ thuật phù hợp cho đánh giá xác, đặc biệt liệu đợc chia từ 10 đến 15 nhóm để đánh giá Kỹ thuật đánh giá chéo đợc xây dựng nh sau: Tập liệu O đợc chia ngẫu nhiên thành k tập nhÊt O1, O2, , Ok cã kÝch cì xÊp xØ Tõng phÐp ®o lùa chän thuéc tÝnh đợc kiểm tra k lần Mỗi lần k, định đợc khởi tạo O \ Ok đợc kiểm tra Ok Tỷ lệ lỗi độ đo trung bình tỷ lệ lỗi sau k lần chạy - 75 - Lặp Phơng pháp qui nạp Mẫu (k-1) Dữ liệu Lịch sử Phơng pháp lấy mẫu Dữ liệu mẫu (sample data) Phơng pháp lấy mẫu Mẫu Mô hình M Mẫu k ớc lợng lỗi Lỗi Ước lợng lỗi Hình 3.4: Mô hình miêu tả kỹ thuật đánh giá chéo: 3.4 Mét sè tÝnh chÊt cđa ®é ®o R N MƯnh đề 3.1 Cho tập tất thuộc tÝnh ∀P, Q ⊆ Ω ta cã ~ µP ( Q ) ≤ µ N P ( Q ) ≤ µ P ( Q ) Chøng minh: * Tõ c¸c định nghĩa (3.9) (3.10) ta có N P (Q) ≤ ~ µ P ( Q) * Ta chøng minh: µ P (Q) ≤ µ N P (Q) - 76 - ⇒ µ N P (Q) = card ([o ]Q ∩ [o ]P ) [o ]Q , ([o ]Q ∩[o ]P ) ≠ ∅ ∑ card([o ]P ) card(O) [ ] O P card ([o ]Q ∩ [o ]P ) = [o ]Q , ([o ]Q ∩[o ]P ) ≠ ∅ ∑ card([o ]P ) card(O) [ ] [ ] [O ]Q O P, O P ⊆ + card ([o ]Q ∩ [o ]P ) [o ]Q , ([o ]Q ∩[o ]P ) ≠ ∅ ∑ card([o ]P ) card(O) [ ] [ ] O P , O P [O ] Q Đặt T = N P (Q) = = ⇒ card ([o ]Q ∩ [o ]P ) ≥0 [o ]Q ([o ]Q ∩[o ]P ) ≠ ∅ ∑ card([o ]P ) card(O) [ ] [ ] O P , O P ⊄ [O ] Q card ([o] P ) +T ∑ card(O) [ ] [ ] card([o] P ) O P , O P ⊆ [O ] Q { card o [o]P ⊆ [o]Q card(O) µ N P (Q) ≥ } +T= µ P (Q ) + T ≥ µ P ( Q ) P (Q) (đpcm) Định nghĩa 3.11 Cho tập tất thuộc tính ∀ P, Q ⊆ Ω, khixÐt ®é phơ thc cđa tập thuộc tính Q vào tập thuộc tính P, P đợc gọi tập thuộc tính điều kiện Q tập thuộc tính định * Đối với luật có dạng if A then B tính đắn chúng phụ thuộc vào biến thiên tham số A B Sau độ đo phụ thuộc thuộc tính, ta xem xét tính đắn luật theo hớng cố định tham số đích B cho tham số điều kiện A biến thiên Mệnh đề 3.2 Cho tập tất thuộc tính P, Q ta có ~ P ( Q ) ≤ - 77 - Chøng minh: ∀P, Q ⊆ Ω, ∀o∈O ta cã ([o] P ∩ [o] Q ) ⊆ [o] P card([o] Q ∩ [o] P ) ⇔ card([o] P ) ≤ card([o] Q ∩ [o] P ) × card([o] P ) card([o] P ) ≤ card([o] Q ∩ [o] P ) ~ µ P (Q ) = ⇔ card([o ]P ∩ [o ]Q ) max [o ]Q ∑ card([o ]P ) card(O) [O ]P ≤ card([o ]P ∩ [o ]Q ) 1 ≤ ∑ card([o]P ) ∑ card([o]P ∩ [o]Q ) card(O) [O ]P card(O) [O ]P ≤ card(O) ∑ card([o]P ) ≤ card(O) = card(O) [O ]P (®pcm) MƯnh đề 3.3 O tập đối tợng, với tập thuộc tính P, Q ta có khẳng định sau: ∀o⊆ O, [ o ] P ⊆ [ o ]Q vµ chØ ~ µ P ( Q ) = µ N P ( Q ) = µ P (Q) = Chứng minh: Đối với độ đo thô Pawlak tính đắn mệnh đề hiển nhiên ~ P ( Q ) µ N P (Q) ≤ µ P (Q ) ~ ⇔ = µ P ( Q ) ≤ µ N P (Q ) ≤ µ P (Q ) ≤ ~ ⇔ = µ ( Q ) = µ N (Q) = µ (Q) =1 Tõ c¸c mƯnh ®Ò (3.1, 3.2) ta cã: ⇒ ∀o⊆ O, [ o] P ⊆ [ o] Q ⇒ ∀o⊆ O, [ o] P ⊆ [o] Q P P ≤1 P (®pcm) HƯ 3.1 Cho tập tất thuộc tính, Q Khi ~ (Q) = µ N Ω (Q) = µ Ω (Q) =1 - 78 - Định nghĩa 3.12 k Đối với độ ®o R N , ∀k lµ sè thùc ≤ k 1, ký hiệu P R định nghĩa Q phụ thuộc độ k vào P nh k = N P Q đợc N ( Q ) - NÕu k = 1, nãi r»ng Q phơ thc hoµn toµn vµo P (ký hiƯu P ⎯ R ⎯→ (Q) N - NÕu < k < nói Q phụ thuộc độ k vào P (phơ thc mét phÇn) - NÕu k = nãi r»ng Q ®éc lËp víi P Bỉ ®Ị 3.1 ∀ a, b, c, d số nguyên dơng ta cã: ( a + b )2 a b ≤ + (c+d ) c d Chøng minh: (a + b) a b (a d + b c) = ≤ + (c + d ) c d cd ⇔ cd( a + b +2ab) ≤ (c+d) ( a d+ b c) ⇔ a cd+ b cd+2abcd ≤ a cd+ b c + a d + b cd ⇔ 2abcd ≤ b c + a d ⇔ (bc − ad) (luôn đúng) (đpcm) Mệnh đề 3.4 Độ ®o th« cđa Pawlak, ®é ®o R, ®é ®o R N đơn điệu tăng Chứng minh: * Độ đo thô Pawlak đơn điệu tăng hiển nhiên * R N đơn điệu tăng Giả sử P, P, P⊆P’ theo mƯnh ®Ị (3.3) ta cã [o] P ' [o] P [o] P hợp sè [o] P' kh«ng giao ⇒ card( [o] P ) = ∑ card( [o] P ' ) ⇒ [ o ]P ' - 79 - card( ([o] P ∩ [o] Q ) ) = ∑ card( ([o] P ' ∩ [o] Q ) ) [ o ]P ' ⇒ µ N P (Q) = card([o ]Q ∩ [o ]P ) [o ]Q , ([o ]Q ∩[o ]P ) ≠ ∅ ∑ card(O) [O ]P card([o ]P ) {card([o]Q ∩ (∪[o]P ' ))} = ∑ [o ]Q , ([o ]Q ∩[o ]P ) ≠ ∅ card(O) [O ]P card(∪[o ]P ' ) {card(∪([o]Q ∩ [o]P ' )} = ∑ [o ]Q , ([o ]Q ∩[o ]P ) ≠ ∅ card(O) [O ]P card(∪[o ]P ' ) 2 ∑ [o ]Q , ([o ]Q ∩[o ]P ) ≠ ∅ card(O) [O ]P ⎧ ⎫ ⎨ ∑ card([o ]Q ∩ [o ]P ' )⎬ ⎩[o ]P ' ⎭ ∑ card([o]P ' ) ≤ ∑ [o ]Q , ([o ]Q ∩[o ]P ) ≠ ∅ card(O) [O ]P {card([o ]Q ∩ [o]P ' )}2 ∑ card([o ]P ' ) [o ] = [o ]P ' P' (áp dụng bổ đề (3.1)) {card([o]Q ∩ [o]P ' )} ∑ [o ]Q , ([o ]Q ∩[o ]P ' ) ≠ ∅ card(O) [O ]P ' card([o ]P ' ) ≤ N P ' (Q) * R đơn điệu tăng Cách chứng minh tơng tự nh với độ đo R N (đpcm) Từ hệ (3.1) mƯnh ®Ị (3.4) ta thÊy r»ng: nÕu coi tËp tÊt thuộc tính tập tham chiếu (tập kiện), rõ ràng ®é ®o th« cđa Pawlak, ®é ®o R, ®é ®o R N độ đo tin tởng đợc giới thiệu chơng Mệnh đề 3.5 P, Q Ω, ( P ∩ Q) = ∅, ký hiÖu P phần bù P , đó: - 80 - µ P(Q ) =µ N P ~ ( Q ) = µ P ( Q ) =1 MƯnh đề đợc chứng minh nhờ mệnh đề (3.3) Mệnh ®Ị 3.6 §èi víi ®é ®o R N ta cã c¸c tÝnh chÊt sau: (1) (2) (3) ⎯→ R NÕu B ⊇ C th× B ⎯ ⎯→ R NÕu B ⎯ ⎯→ R NÕu B ⎯ N N C, N C D có BD R C vµ nÕu C ⎯ ⎯→ R N CD, N D th× B ⎯ ⎯→ R D N Chøng minh: - (1): Do B ⊇ C ta cã [o] B ⊆ [o] C ⇒ B ⎯ ⎯→ R ⎯→ R - (2): Tõ B ⎯ ⇒ ⇒ C ⇒ [o] B ⊆ [o] C (mƯnh ®Ị 3.3) ⇒ [o] BD ⊆ [o] CD N ⎯→ R BD ⎯ ⎯→ R - (3): Do B ⎯ C (mƯnh ®Ị 3.3) N N CD N ⎯→ R C vµ C ⎯ D ⇒ [o] B ⊆ [o] C vµ [o] C ⊆ [o] D N ⎯→ R [ o ] B ⊆ [ o] D ⇒ B ⎯ D N (®pcm) Mệnh đề 3.7 Cho tập tất thuộc tính Đối với độ đo phụ thuộc thuộc tính R N khẳng định sau cha đà ®óng: k (1) NÕu B ⎯ ⎯→ R k ⎯→ R (2) NÕu B ⎯ N N k C vµ ∀D ⊆ Ω th× BD ⎯ ⎯→ R ⎯→ R C vµ C ⎯ N CD N ⎯→ R D B C N - 81 - k ⎯→ R C ⎯ D th× N k ⎯→ R B ⎯ D N Chøng minh: Gi¶ sư tÊt c¶ khẳng định đúng, ta sử dụng phơng pháp phản chứng để chứng minh cách tìm phản ví dụ không thoả mÃn khẳng định Xét tập đối tợng có thuộc tÝnh sau: A C 1 1 1 2 (1) B 1/ µ N A (C) = (1 + (12 / 3)) / =1 / hay A ⎯⎯ → R ⎯ C N 5/8 µ N ( A ∪ B) (C ∪ B) = (1 + (12 / 2) + 1) / = / hay A B R (1) đợc chứng minh (2) [o ] B ⊆ [ o ] A ⇒ B ⎯ ⎯→ R CB N A N 1/ µ N A (C) = ((12 / 3) + 1) / = 1/3 hay A ⎯⎯ → R ⎯ C N 5/8 µ N B (C) = (1 + (12 / 2) + 1) / = 5/3 hay B ⎯⎯ → R ⎯ ⇒ C N ta chøng minh đợc vế thứ Đối với vế thứ hai, ta cã: ⎯→ R [o ] B ⊆ [ o ] A ⇒ B ⎯ A N 1/ µ N C (B) = ((12 / 2) + (12 / 2)) / = 1/4 hay C ⎯⎯ → R ⎯ B N - 82 - 5/8 ⎯ µ N C (A ) = ((2 / 2) + (12 / 2)) / = 5/8 hay B ⎯⎯ → R C N (đpcm) Kết luận chơng Chơng đà trình bầy tổng quan trình khai phá liệu tìm kiếm tri thức Phân biệt định nghĩa xác số khái niệm bản: liệu, thông tin, tri thức Các độ đo gần đợc sử dụng lập luận gần đợc coi kết khai phá liệu tìm kiếm tri thức Quá trình phát khai phá tri thức trình gồm nhiều bớc, lặp lặp lại bớc nào, trình đợc thể mô hình thác nớc (hình 3.1) Một số độ đo thông dụng đo mức độ phụ thuộc tập thuộc tính (độ đo Gain, độ đo Gini, độ đo Relevance) công thức chúng đà đợc giới thiệu Ngoài ra, đà xây dựng độ đo R N đo phụ thuộc tập thuộc tính Với tập thuôc tính xác định, độ đo RN có giá trị nằm giá trị độ đo thô Pawlak giá trị độ đo R Với việc chứng minh đợc độ đo thô Pawlak, độ đo R độ đo RN thoả mÃn tính chuẩn, tính đơn điệu độ đo R N , R độ đo thô Pawlak độ ®o tin t−ëng - 83 - kÕt luËn TÝnh kh«ng xác tính không chắn hai khía cạnh tính xác thực liên quan đến thông tin không đầy đủ Trong hệ thống không xác không chắn, độ đo không xác không chắn đợc sử dụng biểu diễn tri thức Luận án đà hệ thống hóa lớp độ đo không chắn, sử dụng ®é ®o tin t−ëng ®Ĩ biĨu diƠn tri thøc (®é đo khả năng, độ đo cần thiết) Khái niệm tập mờ đợc giới thiệu, với hàm thành viên đợc trình bầy dới dạng độ đo tin tởng Các phép toán tập mờ, mối quan hệ độ đo khả độ đo cần thiết, tập mờ cặp độ đo khả năng, độ đo cần thiết đà đợc trình bầy Lý thuyết độ đo đà đợc nghiên cứu áp dụng lập luận xấp xỉ từ tiền đề không chắn hệ chuyên gia Cách tiếp cận logic tiếp cận hàm với việc sử dụng hai luật bản: Modus ponens Modus tollens cho khả tốt thiết kế hệ chuyên gia, hệ hỗ trợ định Quá trình khai phá phát tri thức đà đợc nghiên cứu trình bầy tổng quan theo định hớng sử dụng độ đo lập luận xấp xỉ Một sè ®é ®o phỉ biÕn lËp ln xÊp xØ nh− ®é ®o Gain-ratio, ®é ®o Gini-index, ®é ®o Relevance, ®é ®o X2, ®é ®o th« cđa Pawlak, ®é ®o R đợc phân tích, so sánh Luận văn đà đề xt mét ®é ®o tin t−ëng R N øng dơng lập luận gần Chỉ đợc số đặc trng độ đo đó, so sánh R N với độ đo thô Pawlak độ đo R Các độ đo R N , độ đo thô Pawlak độ đo R thoả mÃn tính đơn điệu tính chuẩn Ta coi độ đo R N có ý nghĩa độ đo cần thiết, độ đo R có ý nghĩa độ đo khả Hớng nghiên cứu sau luận văn nghiên cứu độ đo gần đúng, đề xuất lớp ®é ®o cã ý nghÜa ¸p dơng lËp ln gần - 84 - Tài liệu tham khảo Tài liệu tiếng Việt Hà Quang Thụy (1996) Tập thô đánh giá hệ thông tin Tạp chí Khoa học Đại học Quốc gia Hà nội Tập 12 Số 3-1996, trang 13-18 Hà Quang Thụy (1996) Tập thô bảng định Tạp chí Khoa học Đại học Quèc gia Hµ Néi TËp 12 Sè 4-1996, trang 9-14 Tµi liƯu tiÕng Anh Ho Tu Bao (1998) Introduction to Knowledge Discovery and Data Mining Báo cáo Xemine “Mét sè néi dung chän läc cđa C«ng nghƯ Th«ng tin”, th¸ng 8-1998 Ho Tu Bao, Nguyen Trong Dung (1996) A Rough Sets Based Measure for Attribute Selection in Decision Tree Induction Báo cáo Hội nghị Khoa học Viện Công nghệ Thông tin Hà Nội 5&6-12-1996, trang 37-43 Theresa Beaubouef, Frederik E Petry, Gurdial Arora (1998) Informationtheoretic measures of uncertainty for rough sets and rough relational databases Journal of information Sciences No 409 (1998) Pp 185-195 Dubois Didier, Prade Henri (1986) Possibility Theory: An Approach to Computerized Processing of Uncertainly CNRS, Languages and Computer Systems (LSI), University of Toulouse III Bản dịch tiếng Anh University of Cambridge 1988 Robert Groth (1998) Data Mining: A Hands-on approach for Business Proesionals The Data Warehouseing Institude Series From Prentice Hall PTR Bruce Moxon (1996) Defining Data mining DBMS Data Warehouse Supplement, August 1996 - 85 - Le Tien Vuong, Ho Thuan (1989) A relation database extended by applications of fuzzy set theory and linguistic variables Computers and artificial Intelligence, Vol 9, No.2, 153-168, 1989 - 86 - ... liệu tìm kiếm tri thức Luận văn "Hệ thống độ đo gần lập luận xấp xỉ" định hớng tới nội dung độ đo hệ thống không hoàn hảo, lập luận gần tìm kiếm tri thức Nội dung luận văn đợc chia làm chơng:... "Tập mờ độ đo không xác" trình bầy nội dung lý thuyết tập mờ, phép toán tập mờ, độ đo hệ thống không hoàn hảo Các độ đo đợc trình bày chơng nh: độ đo khả năng, độ đo cần thiết mối liên hệ độ đo, ... Một số độ đo liên quan đến lĩnh vực lập luận xấp xỉ, đặc biệt độ đo liên quan đến khái niệm tập thô đợc hệ thống hóa Giá trị tìm đợc từ độ đo nói cho phép đa số đánh giá độ tin cậy suy luận gần

Ngày đăng: 21/01/2014, 15:08

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan