Bài giảng Trí tuệ nhân tạo - ThS. Nguyễn Thị Thúy Loan

65 945 2
Bài giảng Trí tuệ nhân tạo - ThS. Nguyễn Thị Thúy Loan

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng Trí tuệ nhân tạo - ThS. Nguyễn Thị Thúy Loan

Cách đánh giá TRÍ TUỆ NHÂN TẠO  Thực hành: 30%  Bài tập: 20%  Lý thuyết: 50% ThS Nguyễn Thị Thúy Loan 6/8/2010 Tài liệu tham khảo [1] Bài giảng Nguyễn Thị Thúy Loan [2] Trí tuệ nhân tạo, Đỗ Trung Tuấn, NXB Giáo dục, 1998 [3] Bạch Hưng Khang – Hồng Kiếm, Trí tuệ nhân tạo, NXB KHKT - 1989 [4] Lập trình C cho TTNT, 3C soft (dịch), NXB Đại học Trung học chuyên nghiệp Hà nội – 1990 [5] Trang web http://ocw.mit.edu/OcwWeb/ElectricalEngineering-and-Computer-Science/index.htm 6/8/2010 Nguyễn Thị Thúy Loan Nguyễn Thị Thúy Loan NỘI DUNG  Các thuật giải tô màu đồ thị  Các thuật giải tìm kiếm đồ thị  Biểu diễn xử lý tri thức  Phân lớp 6/8/2010 Nguyễn Thị Thúy Loan Bài toán Chương I  Cho đồ thị gồm n đỉnh Quan hệ đỉnh i đỉnh j, kí hiệu Qhij, đỉnh i có nối với đỉnh j ngược lại  Bài toán đặt làm để tô màu đồ thị cho khơng tồn hai đỉnh có quan hệ với tô chung màu với số màu cần tô nhất? CÁC THUẬT GIẢI TƠ MÀU ĐỒ THỊ ThS Nguyễn Thị Thúy Loan 6/8/2010 Bước 1: [Tô màu] Tô màu i (i bắt đầu xét từ 1) cho đỉnh có bậc lớn Bước 2: [Hạ bậc & cấm tô] 2.1 Bậc đỉnh tô màu i bậc:=0 2.2 Bậc đỉnh có quan hệ với đỉnh tơ màu i bậc:= bâc – 2.3 Cấm tơ màu i cho đỉnh có quan hệ với đỉnh tô màu i Bước 3: Lặp lại bước tất đỉnh tô màu a c e d h p Tơ màu Ít chưa? 6/8/2010 Thuật giải tơ màu “Tối ưu” Ví dụ b Nguyễn Thị Thúy Loan Nguyễn Thị Thúy Loan 6/8/2010 Nguyễn Thị Thúy Loan Ví dụ Minh họa Một cơng ty có đài phát A, B, C, D, E, F, G, H có khoảng cách (km) cho ma trận sau: A A B C D E F G H 100 50 30 200 150 40 120 30 80 120 50 200 150 120 100 30 80 50 50 120 150 30 200 120 120 180 150 50 B C a D c b E e d F G h H p Do yêu cầu kỹ thuật nên đài có khoảng cách  100km khơng dùng chung trạm phát sóng Hãy lắp đặt 10 trạm phát sóng cho số trạm cần lắp nhỏ Nguyễn Thị Thúy Loan 6/8/2010 Giải Giải A A B Xác định đồ thị a) Đỉnh: b) Cung: 0 B C 100 50 C D E F G H D E F G Áp dụng thuật giải H 30 200 150 40 120 30 80 120 50 200 150 120 100 30 80 để tô màu 50 50 120 150 30 200 120 120 180 150 Kết quả: 50 11 6/8/2010 Nguyễn Thị Thúy Loan 11 12 6/8/2010 Nguyễn Thị Thúy Loan 12 Ví dụ 1 0 0 AD 1 0 1 AF 1 0 0 0 1 BC 0 1 0 Cho ma trận bên BD 1 1 BE 0 1 1  CE 0 1 1 DE 0 1 1 DF 1 0 1 EF 0 0 1 1 Thuật giải tham lam (Greedy) Bước 1: i := Bước 2: i := i+1 Tô màu i cho tất đỉnh tơ Bước 3: Lặp lại bước tất đỉnh tô màu i=1 i=1 Nguyễn Thị Thúy Loan i=2 i=3                AF BE CE DE DF 13 i=4 4   i=4 i=5 14 DE CE DE DF AC 15 15 0 0 1 0 1 1 0 0 0 1 0 1 0 1 1 BE 0 1 1 CE 0 1 1 DE 0 1 1 DF  BD  BC  Bậc AF i=1 EF AD Cho ma trận bên  DF AC Ví dụ Bước 1: Sắp xếp đỉnh theo chiều giảm dần bậc i := Bước 2: i := i+1 Tơ màu i cho tất đỉnh tô (xét từ trái sang) Bước 3: Lặp lại bước tất đỉnh tô màu Nguyễn Thị Thúy Loan   AD AF BC BE CE DE DF Thuật giải thứ tự + tham lam 6/8/2010   AC AD AF BC BD BE CE DE DF EF 13 6/8/2010 AC AD AF BC BD BE CE DE DF EF AC 1 0 1 EF 0 0 1 1  AD AF BC   BD BE CE DE   DE AD BD BE CE DF EF AC AF BC i=2       AD BD BE CE DF EF AF BC i=3 3    BD CE DF EF AF BC i=4  DF EF BC i=5 EF 16 Ví dụ Ví dụ Một hội thảo có chủ đề a, b, c, d, e, f, g, h, i biết chủ đề sau không phép diễn buổi: ac, bde, adg, cdf, dfg, egh, ghi Học kì II năm 2009 -2010, Phịng ĐT muốn tổ chức thi môn A,B,C,D,E,F,G,H,I biết môn sau không thi chung buổi ABC, AE, BCD, BHI, EFG, EI, GHI Hãy xếp chủ đề vào buổi cho số buổi diễn Hãy xếp lịch thi cho số buổi thi cần 17 Nguyễn Thị Thúy Loan 6/8/2010 17 Ví dụ A D B Nguyễn Thị Thúy Loan 6/8/2010 Chương II Cho ngã năm giao thơng sau BE đường chiều: E 18 Yêu cầu: Xác định đồ thị Tô màu đồ thị Sao cho thời điểm, tuyến lưu thông không giao 18 Phần CÁC PHƯƠNG PHÁP TÌM KIẾM LỜI GIẢI ThS Nguyễn Thị Thúy Loan C 19 6/8/2010 Nguyễn Thị Thúy Loan 19 Ref: http://www.cs.cmu.edu/~awm/tutorials Bài tốn tìm kiếm Nội dung GOAL G a c b  Bài tốn tìm kiếm e  Tìm kiếm Theo chiều Rộng d  Tìm kiếm Theo chiều Sâu f START S h p q r Làm từ S đến G? Số bước bao nhiêu? Đi qua đỉnh nào? 6/8/2010 Nguyễn Thị Thúy Loan 21 6/8/2010 Bài tốn tìm kiếm Q , S , G , succs , cost  Q tập hữu hạn trạng thái  S  Q tập khác rỗng trạng thái đầu (START)  G  Q tập khác rỗng trạng thái đích (GOAL) Nguyễn Thị Thúy Loan 22 Bài tốn tìm kiếm Một tốn tìm kiếm gồm năm thành phần: 6/8/2010 Nguyễn Thị Thúy Loan 23  succs: Q  P(Q) hàm nhận trạng thái làm đầu vào trả kết tập trạng thái succs(s) nghĩa “tập trạng thái đến từ s bước”  cost: Q  Q  R hàm nhận hai trạng thái s s’ làm đầu vào Nó trả chi phí bước việc di chuyển từ s đến s’ Hàm chi phí xác định s’ trạng thái s, nghĩa s’  succs(s) 6/8/2010 Nguyễn Thị Thúy Loan 24 Bài tốn tìm kiếm a Bài tốn tìm kiếm a GOAL GOAL c b b e d p q e d f h START START GOAL c r Q = {START, a , b , c , d , e , f , h , p , q , r , GOAL} S = { START } G = { GOAL } succs(b) = { a } succs(e) = { h , r } succs(a) = {}, … cost(s,s’) = cho tất biến đổi f h START p q r i Q = {START, a , b , c , d , e , f , h , p , q , r , GOAL} ?B ? tâm ậy S = { START } an h v u G = { GOAL } n aq o t giống succs(b) = { a } a is Tạ n succs(e) = { h , r } to succs(a) = {} cost(s,s’) = cho tất biến đổi Các tốn tìm kiếm Các tốn tìm kiếm Lập lịch 8-Hậu Gì nữa? Giải tốn 6/8/2010 Nguyễn Thị Thúy Loan 28 Tìm kiếm theo chiều rộng (BFS – Breadth First Search) c b  Sau gán nhãn tất trạng thái đến từ S bước đến bước e d f START h p 6/8/2010  Gán nhãn tất trạng thái đến từ S bước GOAL a q Nguyễn Thị Thúy Loan Tìm kiếm theo chiều rộng (BFS – Breadth First Search) r 29 Tìm kiếm theo chiều rộng (BFS – Breadth First Search)  Sau gán nhãn tất trạng thái đến từ S bước đến bước Nguyễn Thị Thúy Loan 31 30 Tìm kiếm theo chiều rộng GOAL a c b bước từ start e d f START  v.v… đạt trạng thái G khơng cịn tiếp 6/8/2010 Nguyễn Thị Thúy Loan 6/8/2010 h p 6/8/2010 q Nguyễn Thị Thúy Loan r 32 Tìm kiếm theo chiều rộng bước từ start Tìm kiếm theo chiều rộng bước từ start GOAL a bước từ start bước từ start e d f START e d f START h p c b c b GOAL a h p r q r q bước từ start Nguyễn Thị Thúy Loan 6/8/2010 33 Tìm kiếm theo chiều rộng bước từ start bước từ start bước từ start e h p q Nguyễn Thị Thúy Loan f h p bước từ start 6/8/2010 e d START r GOAL c bước từ start f bước từ start a b d START bước từ start bước từ start c b 34 Tìm kiếm theo chiều rộng GOAL a Nguyễn Thị Thúy Loan 6/8/2010 q r bước từ start 35 6/8/2010 Nguyễn Thị Thúy Loan 36 Ghi nhớ đường đi! a Ghi nhớ đường đi! Khi gán nhãn trạng thái, ghi nhận trạng thái trước Ghi nhận gọi trỏ quay lui Lịch sử trước dùng để phát sinh đường lời giải, tìm đích: GOAL c b e d f h START p r q “Tơi đến đích Tơi thấy f trước Và tơi r trước tới f Và… … đường lời giải S  e  r  f  G” Nguyễn Thị Thúy Loan 6/8/2010 37 Nguyễn Thị Thúy Loan 6/8/2010 Con trỏ quay lui bước từ start a Con trỏ quay lui bước từ start bước từ start bước từ start GOAL c b bước từ start f q r Nguyễn Thị Thúy Loan e d f h p q r bước từ start bước từ start 6/8/2010 GOAL c START h p a bước từ start e bước từ start bước từ start b d START 38 39 6/8/2010 Nguyễn Thị Thúy Loan 40 Ví dụ mạng tam giác Mạng ngữ nghĩa Ví dụ: Đỉnh Chích Chịe Hót Là phương pháp biểu diễn tri thức đồ thị Nêu toán: Trong tam giác cho yếu tố (khơng đồng thời đỉnh) Tìm yếu tố cịn lại đó? biết Chim Đỉnh Các đối tượng Cung Các mối liên hệ làm Tổ Cung Cánh Nguyễn Thị Thúy Loan 6/8/2010 Ví dụ: Trong tam giác cho góc A, B cạnh c Tìm diện tích S? có 201 6/8/2010 Ví dụ mạng tam giác Đỉnh: Có loại đỉnh a Đỉnh hình trịn: chứa biến hay yếu tố liên quan đến cạnh góc tam giác b Đỉnh hình chữ nhật: chứa cơng thức Cung: Nối đỉnh hình trịn đỉnh hình chữ nhật cho biết biến nằm công thức Nguyễn Thị Thúy Loan 202 Ví dụ mạng tam giác Cách xây dựng: 6/8/2010 Nguyễn Thị Thúy Loan 203 Mơ hình: Trong tam giác cho công thức A + B + C = 1800 a*sinB = b*sinA b * sinC = c * sinB p = (a + b + c)/2 hc = a*sinB S = hc*c/2 S = p( p  a)( p  b)( p  c) Trong đó: A, B, C góc tam giác; a, b, c cạnh tam giác 6/8/2010 Nguyễn Thị Thúy Loan 204 Xây dựng mơ hình MNN A + B + C – 180=0 A Xác định đỉnh: có 16 đỉnh có đỉnh hình trịn (9 biến!?) đỉnh hình chữ nhật (7 cơng thức) B a*sinB – b*sinA=0 hc – a*sinB=0 a Nguyễn Thị Thúy Loan 205 Cơ chế suy diễn MNN A Các biến kích hoạt truyền động theo cung dẫn đến đỉnh khác Đỉnh hình chữ nhật kích hoạt có n – cung số n cung có liên hệ với kích hoạt Đỉnh hình trịn kích hoạt đỉnh hình chữ nhật có cung liên hệ với kích hoạt Nguyễn Thị Thúy Loan Nguyễn Thị Thúy Loan S 206 A + B + C – 180=0 Kích hoạt biến cho ban đầu 6/8/2010 c S– p( p  a)( p  b)( p  c) =0 S – hc*c/2=0 p 6/8/2010 b*sinC – c*sinB=0 hc b p – (a+b+c)/2=0 6/8/2010 C 207 a*sinB – b*sinA=0 hc – a*sinB=0 a b p – (a+b+c)/2=0 6/8/2010 C B b*sinC – c*sinB=0 hc S – hcc*c/2=0 S – h *c/2=0 p Nguyễn Thị Thúy Loan c S– p( p  a)( p  b)( p  c) =0 S 208 MNN – Một số câu hỏi Chương IV Khi thất bại? PHÂN LỚP VÀ DỰ ĐỐN Làm để tìm tất lời giải? Lời giải ngắn (số công thức áp dụng nhất)? ThS Nguyễn Thị Thúy Loan 6/8/2010 Nguyễn Thị Thúy Loan 209 Phân lớp gì?Dự đốn gì? NỘI DUNG  Có thể dùng phân lớp dự đốn để xác lập mơ hình nhằm mơ tả lớp quan trọng hay dự đoán khuynh hướng liệu tương lai  Phân lớp dự đoán?  Các vấn đề phân lớp dự đoán  Quy nạp định  Phân lớp (classification): Tạo phân lớp/ mơ hình  Các phương pháp phân lớp khác  Dự đoán (prediction): Dựa vào phân lớp để dự đoán nhãn mẫu chưa biết nhãn 6/8/2010 Nguyễn Thị Thúy Loan 211 6/8/2010 Nguyễn Thị Thúy Loan 212 Phân lớp gì?Dự đốn gì? Phân lớp gì?Dự đốn gì? Phân lớp liệu tiến trình có bước  Huấn luyện: Dữ liệu huấn luyện phân tích thuật tốn phân lớp (có thuộc tính nhãn lớp) để tạo phân lớp  Phân lớp: Dữ liệu kiểm tra dùng để ước lượng độ xác phân lớp Nếu độ xác chấp nhận dùng phân lớp để phân lớp mẫu liệu 6/8/2010 Nguyễn Thị Thúy Loan 213 Phân lớp gì?Dự đốn gì?  Độ xác (accuracy) phân lớp tập kiểm tra cho trước phần trăm mẫu tập kiểm tra phân lớp xếp lớp Accuracy  correctly classified test sample total number of test sample Nguyễn Thị Thúy Loan 6/8/2010 214 Chuẩn bị liệu  Làm liệu o Nhiễu o Thiếu giá trị  Phân tích liên quan (chọn đặc trưng) o Các thuộc tính khơng liên quan o Các thuộc tính dư thừa  Biến đổi liệu 6/8/2010 Nguyễn Thị Thúy Loan 215 6/8/2010 Nguyễn Thị Thúy Loan 216 So sánh phương pháp phân lớp  Độ xác dự đoán: khả phân lớp dự đoán liệu chưa biết trước nhãn  Tính bền vững: khả phân lớp thực dự đoán với liệu nhiễu hay thiếu giá trị  Tính kích cỡ (scalability): khả tạo phân lớp hiệu với số lượng liệu lớn  Khả diễn giải: phân lớp cung cấp tri thức hiểu CÂY QUYẾT ĐỊNH 6/8/2010 Cây định Nguyễn Thị Thúy Loan 218 Ví dụ Cây định cấu trúc cho:  Mỗi nút ứng với phép kiểm tra thuộc tính  Mỗi nhánh biểu diễn kết phép kiểm tra  Các nút biểu diễn lớp hay phân bố lớp  Nút cao nút gốc 6/8/2010 Nguyễn Thị Thúy Loan 219 Cây định: có mua computer? Dựa vào thuộc tính tuổi, sinh viên, uy tín 6/8/2010 Nguyễn Thị Thúy Loan 220 Chọn thuộc tính “tốt nhất” theo độ đo chọn lựa cho trước Mở rộng cách thêm nhánh cho giá trị thuộc tính Sắp xếp ví dụ học vào nút Nếu ví dụ phân lớp rõ Stop ngược lại lặp lại bước 1-4 cho nút Tỉa nút không ổn định Sườn chung quy nạp định Headache e1 e2 e3 e4 e5 e6 6/8/2010 Nguyễn Thị Thúy Loan 221 yes yes yes no no no 6/8/2010 Chiến lược  Nếu mẫu thuộc lớp, nút trở thành nút gán nhãn lớp  Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính phân tách tốt mẫu vào lớp  Một nhánh tạo cho giá trị thuộc tính chọn mẫu phân hoạch theo Nguyễn Thị Thúy Loan normal high very high normal high very high Flu Temperature no yes yes no no no normal {e1, e4} no yes {e2} yes high {e2, e5} very high {e3,e6} Headache no {e5} no Nguyễn Thị Thúy Loan Headache yes {e3} yes no {e6} no 222 Chiến lược  Bắt đầu từ nút đơn biểu diễn tất mẫu 6/8/2010 Temperature 223  Dùng đệ quy trình để tạo định  Tiến trình kết thúc điều kiện sau o Tất mẫu cho nút cho trước thuộc lớp o Khơng cịn thuộc tính mà mẫu dựa vào để phân hoạch xa o Khơng cịn mẫu cho nhánh test_attribute = Bảng liệu huấn luyện Cây định chơi Tennis Day Outlook Temp Humidity Wind PlayTennis D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain Hot Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild High High High High Normal Normal Normal High Normal Normal Normal High Normal High Weak Strong Weak Weak Weak Strong Strong Weak Weak Weak Strong Strong Weak Strong No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No sunny o’cast yes high {D1, D2, D8} true no {D9, D10} yes true {D6, D14} no false {D6} no yes sunny no outlook false {D8, D11} normal {D3} outlook yes {D8} yes {D4, D10,D14} no humidity high {D14} {D3} yes no normal {D4, D14} wind true o’cast null rain yes true false {D11} o’cast {D12} wind humidity high rain sunny {D1, D3, D13} {D1, D3} {D1} yes false {D4} yes 226 Thuộc tính tốt  Nút định S có 29 mẫu thuộc lớp cộng (+) 35 mẫu thuộc lớp trừ (-), ta ký hiệu [29+, 35-]  Nếu thuộc tính A1 A2 (mỗi thuộc tính có giá trị) tách S thành nút với tỷ lệ mẫu dương mẫu âm sau, thuộc tính tốt hơn? false {D4, D5, D10} yes [29+, 35 -] [29+, 35 -] A1 = ? A2 = ? Cây đơn giản “outlook” chọn làm gốc Cách chọn thuộc tính tốt để tách nút định? 6/8/2010 Nguyễn Thị Thúy Loan {D10} Nguyễn Thị Thúy Loan 6/8/2010 wind normal yes no {D5} {D4, D5, D6, D10, D14} humidity true {D2} {D7} wind {D4, D8, D10, D11,D12, D14} wind o’cast {D5, D6} yes rain {D3, D7, D12, D13} rain {D9} mild {D1, D2, D3, D13} outlook outlook sunny hot {D5, D6, D7, D9} Cây định đơn giản {D1, D2, D8 D9, D11} temperature cool 227 [21+, 5-] [8+, 30 -] [18+, 33-] [11+, 2-] Day Nguyễn Thị Thúy Loan 229 ? 6/8/2010 {D3, D7, D12, D13} [4+, 0-] Yes Nguyễn Thị Thúy Loan Wind PlayTennis Weak Strong Weak Weak Weak Strong Strong Weak Weak Weak Strong Strong Weak Strong Sunny {D1, D2, D8 D9, D11} Rain Overcast Humidity {D4, D5, D6, D10, D14} [3+, 2-] high {D1, D2, D8} no ? 231 {D9, D10} yes Từ ta có luật: 1.If Outlook = Overcast 2.If Outlook = Sunny and 3.If Outlook = Sunny and 4.If Outlook = Rain and 5.If Outlook = Rain and Humidity Mild Hot Cool Hot Mild Cool Cool Mild Mild Mild High Normal High High Normal Normal Normal Normal High Wind PlayTennis Weak Strong Weak Weak Strong Weak Weak Strong Strong Rain {D4, D5, D6, D10, D14} Wind yes normal Temp D4 D1 D5 D2 D8 D6 D9 D10 D11 D14 {D3, D7, D12, D13} Strong Weak {D6, D14} no No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No 230 Day Outlook Outlook {D1, D2, D8, D9, D11} [2+, 3-] Hot Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild Nguyễn Thị Thúy Loan 6/8/2010 {D1, D2, , D14} [9+, 5-] Overcast High High High High Normal Normal Normal High Normal Normal Normal High Normal High Cây định cuối Độ đo V Sunny Humidity Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain Outlook(O): V(O=Sunny) = (2/5,3/5) V(O=Overcast)=(4/4,0/4)=(1,0) V(O=Rain)=(3/5,2/5) Temp(T): V(T=Hot) = (2/4,2/4) V(T=Cool)=(3/4,1/4) V(T=Mild)=(4/6,2/6) Humidity(H): V(H=High) = (3/7,4/7)  Chọn Outlook có V(H=Normal)=(6/7,1/7) nhiều vectơ đơn vị Wind(W): V(W=Weak) = (6/8,2/8) V(W=Strong)=(3/6,3/6) Độ đo V(Quinlan) 6/8/2010 Outloook Temp D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 {D4, D5, D10} yes Humidity = High Humidity = Normal Wind = Strong Wind= Weak then then then then then Yes No Yes No Yes Yes No Yes No No Yes Yes Yes No Entropy Ví dụ  Entropy đặc trưng độ hỗn tạp (tinh khiết) tập ví dụ  S tập mẫu thuộc lớp âm lớp dương  P tỷ lệ mẫu thuộc lớp dương S  p tỷ lệ mẫu thuộc lớp âm S Từ 14 mẫu bảng Play-Tennis, thuộc lớp dương mẫu âm (ký hiệu [9+, 5-]) Entropy([9+, 5-] ) = - (9/14)log2(9/14) - (5/14)log2(5/14) = 0.940 Entropy(S) = -p log2p -p log2p 6/8/2010 Nguyễn Thị Thúy Loan 233 6/8/2010 Nguyễn Thị Thúy Loan 234 Ví dụ Lưu ý: Entropy tất thành viên S thuộc lớp Ví dụ, tất thành viên thuộc lớp dương : Entropy(S) = -N/N log2(N/N) - = -1.0 – = (N số mẫu) Entropy tập hợp chứa số lượng thành viên thuộc lớp dương lớp âm Nếu số khác nhau, entropy nằm 6/8/2010 Nguyễn Thị Thúy Loan 235 INFORMATION GAIN (CÂY ĐỊNH DANH) 6/8/2010 Nguyễn Thị Thúy Loan 236 Information Gain Information Gain Ta định nghĩa độ đo information gain, phản ánh mức độ hiệu thuộc tính phân lớp Đó rút giảm mong muốn entropy gây phân hoạch ví dụ theo thuộc tính Gain(S, A)  Entropy(S)   vValue(A) Sv S Values(Wind) = {Weak, Strong}, S = [9+, 5-] Sweak nút với trị “weak” [6+, 2-] Sstrong nút với trị “strong”, [3+, 3-] Gain(S, Wind) = Entropy(S) - Entropy(S v ) v{Weak, Strong} 238 Chọn Gain (S, Humidity) = 0.151 High Normal Weak Strong [3+, 4-] E = 0.985 [6+, 1-] E = 0.592 [6+, 2-] E = 0.811 [3+, 3-] E = 1.00 6/8/2010 Nguyễn Thị Thúy Loan Gain (S, Outlook) = 0.246 Wind Gain(S, Humidity) = 940 - (7/14).985 - (7/14).592 = 151 Entropy(S v ) Information Gain tất thuộc tính S:[9+, 5-] E = 0.940 Humidity S = 0.940 - (8/14)0.811 - (6/14)1.00 = 0.048 6/8/2010 Thuộc tính phân lớp tốt nhất? Sv = Entropy(S) - (8/14)Entropy(Sweak) - (6/14)Entropy(SStrong) Giá trị Value(A) tập giá trị cho thuộc tính A, Sv tập S mà A nhận giá trị v S:[9+, 5-] E = 0.940  Gain (S, Wind) = 0.048 Gain (S, Temperature) = 0.029 Gain(S, Wind) = 940 - (8/14).811 - (6/14)1.00 239 = 048 Nguyễn Thị Thúy Loan 239 6/8/2010 Nguyễn Thị Thúy Loan 240 Bước tiến trình tăng trưởng định Bước tiến trình tăng trưởng định {D1, D2, , D14} [9+, 5-] Thuộc tính cần kiểm tra? Outlook Sunny Overcast {D1, D2, D8, D9, D11} [2+, 3-] {D3, D7, D12, D13} [4+, 0-] ? Ssunny = {D1, D2, D3, D9, D11} Rain {D4, D5, D6, D10, D14} [3+, 2-] Yes Gain(Ssunny, Humidity) = 970 - (3/5)0.0 - (2/5)0.0 = 0.970 Gain(Ssunny, Temperature) = 970 - (2/5)0.0 - (2/5)1.0 (1/5)0.0 = 0.570 ? Gain(Ssunny, Wind) = 970 - (2/5)1.0 - (3/5)0.918 = 0.019 6/8/2010 Nguyễn Thị Thúy Loan 241 6/8/2010 Nguyễn Thị Thúy Loan 242 Điều kiện dừng Từng thuộc tính đưa vào dọc theo đường Các mẫu huấn luyện ứng với nút có giá trị thuộc tính đích (chẳng hạn, chúng có entropy 0) Thuật giải Học Quy nạp (ILA: Inductive Learning Algorithm) Lưu ý: Thuật toán ID3 dùng Information Gain C4.5, thuật tốn phát triển sau nó, dùng Gain Ratio (một biến thể Information Gain) 6/8/2010 Nguyễn Thị Thúy Loan 243 6/8/2010 Nguyễn Thị Thúy Loan 244 ILA ILA Chia bảng có chứa m mẫu thành n bảng Một bảng ứng với giá trị thuộc tính phân lớp (Lặp lại từ bước đến bước cho bảng con) Với bảng xét, phân chia thuộc tính thành danh sách thuộc tính kết hợp, thành phần danh sách có j thuộc tính phân biệt Khởi tạo số lượng thuộc tính kết hợp j với j =1 6/8/2010 Nguyễn Thị Thúy Loan 245 6/8/2010 ILA Với kết hợp thuộc tính danh sách trên, đếm số lần xuất giá trị cho thuộc tính kết hợp dịng chưa bị khóa bảng xét khơng xuất giá trị bảng khác Chọn kết hợp danh sách cho có giá trị tương ứng xuất nhiều gọi Max_combination 6/8/2010 Nguyễn Thị Thúy Loan 247 Nguyễn Thị Thúy Loan 246 ILA Nếu Max_combination =0 j = j+1 quay lại bước Khóa difng bảng xét mà giá trị với giá trị tạo max_combination 6/8/2010 Nguyễn Thị Thúy Loan 248 ILA ILA Thêm vào R luật với giả thuyết giá trị tạo Max_combination kết nối phép AND, kết luận giá trị thuộc tính định bảng xét Nguyễn Thị Thúy Loan 6/8/2010 249 Nếu tất dịng khóa: o Nếu cịn bảng qua bảng quay lại bước o Ngược lại chấm dứt thuật toán Ngược lại quay lại bước Nguyễn Thị Thúy Loan 6/8/2010 Ví dụ minh họa ILA Ví dụ minh họa ILA STT Kích cỡ STT Kích cỡ 250 Màu sắc Hình dáng Quyết định Màu sắc Hình dáng Quyết định Vừa Xanh dương Hộp Mua Nhỏ Đỏ Cầu Mua Vừa Xanh dương Hộp Mua Nhỏ Đỏ Nón Khơng mua Lớn Xanh Trụ Mua Lớn Xanh Cầu Mua Đỏ Cầu Mua Lớn Đỏ Nón Khơng mua Lớn Xanh Trụ Mua Lớn Đỏ Trụ Không mua 6/8/2010 Nhỏ Lớn Xanh Cầu Mua Nguyễn Thị Thúy Loan STT Kích cỡ Quyết định Đỏ Nón Khơng mua Lớn Đỏ Nón Khơng mua 6/8/2010 Hình dáng Nhỏ 251 Màu sắc Lớn Đỏ Trụ Không mua Nguyễn Thị Thúy Loan 252 Xét bảng STT Kích cỡ Vừa Nhỏ Lớn Lớn Màu sắc Xanh dương Đỏ Xanh Xanh Hình Quyết định dáng Hộp Mua Cầu Trụ Cầu Mua Mua Mua STT Kích Màu sắc cỡ Nhỏ Đỏ Lớn Đỏ Lớn Đỏ Xét bảng Hình dáng Nón Nón Trụ Quyết định Khơng mua Khơng mua Khơng mua Bước 2: j = Bước 3: kết hợp có thuộc tính [kích cỡ], [màu sắc], [hình dáng] Bước 4: Đếm giá trị [kích cỡ] = {{vừa}:1} [màu sắc] = {{xanh dương}:1, {xanh lá}:2} [hình dáng] = {{hộp}:1, {cầu}:2} Vậy: max_com = tương ứng với màu sắc = xanh Bước 6: Khóa dịng có STT 5,7 Bước 7: Tạo luật R1: IF màu sắc = xanh THEN Quyết định = Mua 253 Bước 8: Quay lại bước Nguyễn Thị Thúy Loan 6/8/2010 STT Kích cỡ Vừa Nhỏ Lớn Lớn Kích Màu sắc cỡ Vừa Xanh dương Nhỏ Đỏ Lớn Xanh Lớn Xanh Hình dáng Hộp Cầu Trụ Cầu Quyết định Mua Mua Mua Mua ST Kích T cỡ Nhỏ Lớn Lớn Đỏ Đỏ Đỏ Nguyễn Thị Thúy Loan Mua Cầu Trụ Cầu Mua Mua Mua Kích cỡ Nhỏ Lớn Lớn Màu sắc Đỏ Đỏ Đỏ Hình dáng Nón Nón Trụ Quyết định Không mua Không mua Không mua Nguyễn Thị Thúy Loan 6/8/2010 254 Xét bảng Hình dáng Nón Nón Trụ Quyết định STT Không mua Không mua Không mua Bước 4: Đếm giá trị [kích cỡ] = {} [màu sắc] = {} [hình dáng] = {{cầu}:1} Vậy: max_com = tương ứng với Hình dáng= cầu Bước 6: Khóa dịng có STT Bước 7: Tạo luật R3: IF hình dáng = cầu THEN Quyết định = Mua Bước 8: tất dịng bị khóa, xét bảng kế 6/8/2010 Hộp STT 254 253 Màu sắc Xanh dương Đỏ Xanh Xanh Hình Quyết định dáng Bước 4: Đếm giá trị [kích cỡ] = {{vừa}:1} [màu sắc] = {{xanh dương}:1} [hình dáng] = {{hộp}:1, {cầu}:1} Vậy: max_com = tương ứng với kích cỡ = vừa Bước 6: Khóa dịng có STT Bước 7: Tạo luật R2: IF kích cỡ = vừa THEN Quyết định = Mua Bước 8: Quay lại bước Xét bảng STT Màu sắc 255 255 Kích Hình Màu sắc cỡ dáng Vừa Xanh dương Hộp Nhỏ Đỏ Cầu Lớn Xanh Trụ Lớn Xanh Cầu Quyết định Mua Mua Mua Mua ST Kích T cỡ Nhỏ Lớn Lớn Màu sắc Đỏ Đỏ Đỏ Hình dáng Nón Nón Trụ Quyết định Khơng mua Khơng mua Không mua Bước 2: j = Bước 3: kết hợp có thuộc tính [kích cỡ], [màu sắc], [hình dáng] Bước 4: Đếm giá trị [kích cỡ] = {} [màu sắc] = {} [hình dáng] = {{nón}:2} Vậy: max_com = tương ứng với hình dáng = nón Bước 6: Khóa dịng có STT 2,4 Bước 7: Tạo luật R4: IF hình dáng = nón THEN QĐ = Khơng mua Bước 8: Quay lại bước 256 6/8/2010 Nguyễn Thị Thúy Loan 256 Xét bảng STT Kích Màu sắc cỡ Vừa Xanh dương Nhỏ Đỏ Lớn Xanh Lớn Xanh Hình Quyết định dáng Hộp Mua Cầu Mua Trụ Mua Cầu Mua ST Kích T cỡ Nhỏ Lớn Lớn Màu sắc Đỏ Đỏ Đỏ Xét bảng Hình dáng Nón Nón Trụ Quyết định STT Không mua Không mua Không mua Bước 4: Đếm giá trị [kích cỡ] = {}; [màu sắc] = {}; [hình dáng] ={} Vậy: max_com = Bước 5: Do max_com = nên j = quay lại bước Bước 3: Các kết hợp có thuộc tính [kích cỡ, màu sắc], [kích cỡ, hình dáng], [màu sắc, hình dáng] Bước 4: Đếm số lần xuất giá trị [kích cỡ, màu sắc] = {{lớn, đỏ}:1} [kích cỡ, hình dáng] = {} [màu sắc, hình dáng] = {{đỏ, trụ}:1} max_com = ứng với kích cỡ = lớn màu sắc = đỏ 6/8/2010 Nguyễn Thị Thúy Loan 257 Kích Màu sắc cỡ Vừa Xanh dương Nhỏ Đỏ Lớn Xanh Lớn Xanh Hình Quyết định dáng Hộp Mua Cầu Mua Trụ Mua Cầu Mua ST Kích T cỡ Nhỏ Lớn Lớn Màu sắc Đỏ Đỏ Đỏ Hình dáng Nón Nón Trụ Quyết định Không mua Không mua Không mua Bước 4: Đếm số lần xuất giá trị [kích cỡ, màu sắc] = {{lớn, đỏ}:1} [kích cỡ, hình dáng] = {} [màu sắc, hình dáng] = {{đỏ, trụ}:1} max_com = ứng với kích cỡ = lớn màu sắc = đỏ Bước 6: Khóa dịng có STT = Bước 7: Tạo luật R5: IF Kích cỡ = lớn AND Màu sắc = đỏ THEN Quyết định = Khơng mua Bước 8: Tất dịng khóa, ngừng thuật toán 6/8/2010 Nguyễn Thị Thúy Loan 258 258 ... tìm 6/8/2010 Nguyễn Thị Thúy Loan 193 6/8/2010 Ví dụ 6/8/2010 Nguyễn Thị Thúy Loan Nguyễn Thị Thúy Loan 194 Ví dụ 195 6/8/2010 Nguyễn Thị Thúy Loan 196 Ví dụ 6/8/2010 Nguyễn Thị Thúy Loan Ví dụ... 6/8/2010 ý gì? Nguyễn Thị Thúy Loan 128 Bài toán mã tuần Bài toán mã tuần z 3 5 6/8/2010 Nguyễn Thị Thúy Loan 129 6/8/2010 7 7 z Nguyễn Thị Thúy Loan 130 Bài toán tám quân hậu Bài toán tám quân... lại Nguyễn Thị Thúy Loan 6/8/2010 133 Nguyễn Thị Thúy Loan 6/8/2010 Bài toán tám quân hậu 134 Bài toán tám quân hậu z z i=4 i=4 6/8/2010 Có trống cịn lại, nghĩa Loan f(4,1) = Nguyễn Thị Thúy

Ngày đăng: 31/05/2014, 09:30

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan