Ôn thi máy học và cây định danh

20 452 0
Ôn thi máy học và cây định danh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỞ ĐẦU VỀ MÁY HỌC 1. Thế máy học? Dữ liệu cung cấp cho hệ thống ánh xạ f ứng trường hợp p tập hợp P với "lớp" r tập R. f : P |→ R p→ r Tuy nhiên, tập P thường nhỏ (và hữu hạn) so với tập tất trường hợp cần quan tâm P’ (P ⊂ P’). Mục tiêu xây dựng ánh xạ f ’ cho ứng trường hợp p’ tập P’ với "lớp" r tập R. Hơn nữa, f ’ phải bảo toàn f, nghĩa : Với p ∈ P f(p) ≡ f ’(p) Hình 3.1 : Học theo trường hợp tìm cách xây dựng ánh xạ f’ dựa theo ánh xạ f. f gọi tập mẫu. 2. Học cách xây dựng định danh Phát biểu hình thức khó hình dung. Để cụ thể hợn, ta quan sát ví dụ cụ. Nhiệm vụ ví dụ xây dựng quy luật để kết luận người tắm biển bị cháy nắng. Ta gọi tính chất cháy nắng hay không cháy nắng thuộc tính quan tâm (thuộc tính mục tiêu). Như vậy, trường hợp này, tập R gồm có hai phần tử {"cháy nắng", "bình thường"}. Còn tập P tất người liệt kê bảng (8 người) Chúng ta quan sát tượng cháy nắng dựa thuộc tính sau : chiều cao (cao, trung bình, thấp), màu tóc (vàng, nâu, đỏ) cân nặng (nhẹ, TB, nặng), dùng kem (có, không),. Ta gọi thuộc tính gọi thuộc tính dẫn xuất. Dĩ nhiên thực tế để đưa kết luận vậy, cần nhiều liệu đồng thời cần nhiều thuộc tính dẫn xuất trên. Ví dụ đơn giản nhằm để minh họa ý tưởng thuật toán máy học mà trình bày. Tên Tóc Ch.Cao Cân Nặng Dùng kem? Kết Sarah Vàng T.Bình Nhẹ Không Cháy Dana Vàng Cao T.Bình Có Không Alex Nâu Thấp T.Bình Có Không Annie Vàng Thấp T.Bình Không Cháy Emilie Đỏ T.Bình Nặng Không Cháy Peter Nâu Cao Nặng Không Không John Nâu T.Bình Nặng Không Không Kartie Vàng Thấp Nhẹ Có Không Ý tưởng phương pháp tìm cách phân hoạch tập P ban đầu thành tập Pi cho tất phần tử tất tập Pi có chung thuộc tính mục tiêu. P = P1 ∪ P2 ∪ . ∪ Pn ∀ (i,j) i≠ j : (Pi ∩ Pj = ∅ ) ∀ i, ∀ k,l : pk ∈ Pi pl ∈ Pj f(pk) = f(pl) Sau phân hoạch xong tập P thành tập phân hoạch Pi đặc trưng thuộc tính đích ri (ri ∈ R), bước ứng với phân hoạch Pi ta xây dựng luật Li : GTi → ri GTi mệnh đề hình thành cách kết hợp thuộc tính dẫn xuất. Một lần nữa, vấn đề hình thức làm bạn cảm thấy khó khăn. Chúng ta thử ý tưởng với bảng số liệu mà ta có. Có hai cách phân hoạch hiển nhiên mà nghĩ ra. Cách cho người vào phân hoạch riêng (P1 = {Sarah}, P2 = {Dana}, … tổng cộng có phân hoạch cho người). Cách thứ hai phân hoạch thành hai tập, tập gồm tất người cháy nắng tập lại bao gồm tất người không cháy nắng. Tuy đơn giản phân hoạch theo kiểu chẳng giải !! II.1. Đâm chồi Chúng ta thử phương pháp khác. Bây bạn quan sát thuộc tính – màu tóc. Nếu dựa theo màu tóc để phân chia ta có phân hoạch khác ứng với giá trị thuộc tính màu tóc. Cụ thể : Pvàng = { Sarah, Dana, Annie, Kartie } Pnâu = { Alex, Peter, John } Pđỏ = { Emmile } * Các người bị cháy nắng gạch in đậm. Thay liệt kê trên, ta dùng sơ đồ để tiện mô tả cho bước phân hoạch sau : Quan sát hình ta thấy phân hoạch Pnâu Pđỏ thỏa mãn điều kiện "có chung thuộc tính mục tiêu" (Pnâu chứa toàn người không cháy nắng, Pđỏ chứa toàn người cháy nắng). Còn lại tập Pvàng lẫn lộn người cháy không cháy nắng. Ta tiếp tục phân hoạch tập thành tập con. Bây ta quan sát thuộc tính chiều cao. Thuộc tính giúp phân hoạch tập Pvàng thành tập : PVàng, Thấp = {Annie, Kartie}, PVàng, T.Bình= {Sarah} PVàng,Cao= { Dana } Nếu nối tiếp vào hình trước ta có hình ảnh phân hoạch sau : Quá trình tiếp tục tất nút không lẫn lộn cháy nắng không cháy nắng nữa. Bạn thấy rằng, qua bước phân hoạch phân hoạch ngày "phình" ra. Chính mà trình gọi trình "đâm chồi". Cây mà xây dựng gọi định danh. Đến đây, lại gặp vấn đề mới. Nếu ban đầu ta không chọn thuộc tính màu tóc để phân hoạch mà chọn thuộc tính khác chiều cao chẳng hạn để phân hoạch sao? Cuối cách phân hoạch tốt hơn? II.2. Phương án chọn thuộc tính phân hoạch Vấn đề mà gặp phải tương tự toán tìm kiếm : "Đứng trước ngã rẽ, ta cần phải vào hướng nào?". Hai phương pháp đánh giá giúp ta chọn thuộc tính phân hoạch bước xây dựng định danh. II.2.1. Quinlan Quinlan định thuộc tính phân hoạch cách xây dựng vector đặc trưng cho giá trị thuộc tính dẫn xuất thuộc tính mục tiêu. Cách tính cụ thể sau : Với thuộc tính dẫn xuất A sử dụng để phân hoạch, tính : VA(j) = ( T(j , r1), T(j , r2) , …, T(j , rn) ) T(j, ri) = (tổng số phần tử phân hoạch có giá trị thuộc tính dẫn xuất A j có giá trị thuộc tính mục tiêu ri ) / ( tổng số phần tử phân hoạch có giá trị thuộc tính dẫn xuất A j ) * r1, r2, … , rn giá trị thuộc tính mục tiêu * Như thuộc tính A nhận giá trị khác có vector đặc trưng. Một vector V(Aj ) gọi vector đơn vị có thành phần có giá trị thành phần khác có giá trị 0. Thuộc tính chọn để phân hoạch thuộc tính có nhiều vector đơn vị nhất. Bài Tập Quinlan Bài 1: (ở ví dụ trên) Dựa vào thuật toán Quinlan. Xây dựng quy luật để kết luận người tắm biển bị cháy nắng Tên Sarah Dana Alex Annie Emilie Peter John Kartie Tóc Vàng Vàng Nâu Vàng Đỏ Nâu Nâu Vàng Ch.Cao T.Bình Cao Thấp Thấp T.Bình Cao T.Bình Thấp Cân Nặng Nhẹ T.Bình T.Bình T.Bình Nặng Nặng Nặng Nhẹ Dùng kem? Không Có Có Không Không Không Không Có Kết Cháy Không Không Cháy Cháy Không Không Không Thuộc tính màu tóc có giá trị khác (vàng, đỏ, nâu) nên có vector đặc trưng tương ứng là: Xét độ đo V: V(Tóc = Vàng) = ( T(vàng, cháy nắng), T(vàng, không cháy nắng)) T(vàng, cháy nắng),= Theo bảng liệu ta có: Số người tóc vàng : Số người tóc vàng cháy nắng : Số người tóc vàng không cháy nắng : Do VTóc(vàng) = (2/4 , 2/4) = (0.5, 0.5) Tương tự với tóc màu nâu đỏ VTóc(nâu) = (0/3, 3/3) = (0,1) (vector đơn vị) Số người tóc nâu : Số người tóc nâu cháy nắng : Số người tóc nâu không cháy nắng : VTóc(đỏ) = (1/1, 0/1) = (1,0) (vector đơn vị) Các thuộc tính khác tính tương tự, kết sau : VC.Cao(Cao) = (0/2,2/2) = (0,1) VC.Cao(T.B) = (2/3,1/3) VC.Cao(Thấp) = (1/3,2/3) VC.Nặng (Nhẹ) = (1/2,1/2) VC.Nặng (T.B) = (1/3,2/3) VC.Nặng (Nặng) = (1/3,2/3) VKem (Có) = (3/3,0/3) = (1,0) VKem (Không) = (3/5,2/5) - Như thuộc tính màu tóc có số vector đơn vị nhiều nên chọn để phân hoạch. Ta thấy có phân hoạch theo tóc vàng (Pvàng) chứa người cháy nắng không cháy nắng nên ta tiếp tục phân hoạch tập này. - Trong phân hoạch Pvàng, tập liệu lại : Tên Sarah Ch.Cao T.Bình Cân Nặng Nhẹ Dùng kem? Không Kết Cháy Dana Annie Cao Thấp T.Bình T.Bình Có Không Không Cháy Có Không Kartie Thấp Nhẹ C.Cao(Cao) = (0/1,1/1) = (0,1) VC.Cao(T.B) = (1/1,0/1) = (1,0) VC.Cao(Thấp) = (1/2,1/2) VC.Nặng (Nhẹ) = (1/2,1/2) VC.Nặng (T.B) = (1/2,1/2) VC.Nặng (Nặng) = (0,0) VKem (Có) = (0/2,2/2) = (0,1) VKem (Không) = (2/2,0/2) = (1,0) - Hai thuộc tính dùmg kem chiều cao có vector đơn vị. Tuy nhiên, số phân hoạch thuộc tính dùng kem nên ta chọn phân hoạch theo thuộc tính dùng kem. Kết luận: Vậy người Đỏ(màu tóc) Vàng(màu tóc) Không dùng Kem người Cháy nắng Vậy người Nâu(màu tóc) Vàng(màu tóc) Có dùng Kem người Không Cháy nắng Bài tập 2: II.2.2. Độ đo hỗn loạn Thay phải xây dựng vector đặc trưng phương pháp Quinlan, ứng với thuộc tính dẫn xuất ta cần tính độ đo hỗn loạn lựa chọn thuộc tính có độ đo hỗn loại thấp nhất. Công thức tính sau : TA = : bt tổng số phần tử có phân hoạch bj tổng số phần tử có thuộc tính dẫn xuất A có giá trị j. bri : tổng số phần tử có thuộc tính dẫn xuất A có giá trị j thuộc tính mục tiêu có giá trị i. II.3. Phát sinh tập luật Nguyên tắc phát sinh tập luật từ định danh đơn giản. Ứng với nút lá, ta việc từ đỉnh nút phát sinh luật tương ứng. Cụ thể từ định danh kết cuối phần II.2 ta có luật sau (xét nút từ trái sang phải) (Màu tóc vàng) (có dùng kem) → không cháy nắng (Màu tóc vàng) (không dùng kem) → cháy nắng (Màu tóc nâu) → không cháy nắng (Màu tóc đỏ) → cháy nắng Khá đơn giản phải không? Có lẽ phải nói thêm. Chúng ta thực bước cuối tối ưu tập luật. II.4. Tối ưu tập luật II.4.1. Loại bỏ mệnh đề thừa Khác so với phương pháp loại bỏ mệnh đề thừa trình bày phần biểu diễn tri thức (chỉ quan tâm đến logic hình thức), phương pháp loại bỏ mệnh đề thừa dựa vào liệu. Với ví dụ tập luật có phần trước, bạn quan sát luật sau : (Màu tóc vàng) (có dùng kem) → không cháy nắng Bây ta lập bảng (gọi bảng Contigency), bảng thống kê người có dùng kem tương ứng với tóc màu vàng bị cháy nắng hay không. Trong liệu cho, có người không dùng kem. Không cháy nắng Cháy nắng 0 Màu vàng Màu khác Theo bảng thống kê rõ ràng thuộc tính tóc vàng (trong luật trên) không đóng góp việc đưa kết luận cháy nắng hay không (cả người dùng kem không cháy nắng) nên ta loại bỏ thuộc tính tóc vàng khỏi tập luật. Sau loại bỏ mệnh đề thừa, tập mệnh đề ví dụ : (có dùng kem) → không cháy nắng (Màu tóc vàng) (không dùng kem) → cháy nắng (Màu tóc nâu) → không cháy nắng (Màu tóc đỏ) → cháy nắng Như quy tắc chung để loại bỏ mệnh đề nào? Rất đơn giản, giả sử luật có n mệnh đề : A1 A2 … An → R Để kiểm tra xem loại bỏ mệnh đề Ai hay không, bạn lập tập hợp P bao gồm phần tử thỏa tất mệnh đề A1 , A2 , … Ai-, Ai+1, …, An (lưu ý : không cần xét có thỏa Ai hay không, cần thỏa mệnh đề lại được) Sau đó, bạn lập bảng Contigency sau : Ai ¬ Ai R ¬R E G F H Trong E số phần tử P thỏa Ai R. F số phần tử P thỏa Ai không thỏa R G số phần tử P không thỏa Ai thỏa R H số phần tử P không thỏa Ai không thỏa R Nếu tổng F+H = loại bỏ mệnh đề Ai khỏi luật. II.4.2. Xây dựng mệnh đề mặc định 10 Có vấn đề đặt gặp phải trường hợp mà tất luật không thỏa phải làm nào? Một cách hành động đặt luật mặc định : Nếu luật thỏa → cháy nắng (1) Hoặc Nếu luật thỏa → không cháy nắng. (2) (chỉ có hai luật thuộc tính mục tiêu nhận hai giá trị cháy nắng hay không cháy nắng) Giả sử ta chọn luật mặc định (2) tập luật trở thành : (Màu tóc vàng) (không dùng kem) → cháy nắng (Màu tóc đỏ) → cháy nắng Nếu luật thỏa → không cháy nắng. (2) Lưu ý loại bỏ tất luật dẫn đến kết luận không cháy nắng thay luật mặc định. Tại vậy? Bởi luật có kết luận với luật mặc định. Rõ ràng có hai khả cháy nắng hay không. Vấn đề chọn luật nào? Sau số quy tắc. 1) Chọn luật mặc định cho thay cho nhiều luật nhất. (trong ví dụ ta nguyên tắc không áp dụng có luật dẫn đến cháy nắng luật dẫn đến không cháy nắng) 2) Chọn luật mặc định có kết luận phổ biến nhất. Trong ví dụ nên chọn luật (2) số trường hợp không cháy nắng không cháy nắng 3. 3) Chọn luật mặc định cho tổng số mệnh đề luật mà thay nhiều nhất. Trong ví dụ luật chọn luật (1) tổng số mệnh đề luật dẫn đến cháy nắng tổng số mệnh đề luật dẫn đến không cháy nắng 2. /////////////////////////////////////////////////////// HỆ HỌC 1: Giới Thiệu 2: hình thức học 11 3: Cây định danh 12 4: Thuật toán QuinLan 13 14 15 5:Học Theo độ bất định 16 17 6: Thuật giải ILA( inductive Learning A) 18 19 Bài Tập Chương : Tìm hiểu : Thuật giải di truyền Mạng noron nhân tạo 20 Hệ mờ [...]...11 3: Cây định danh 12 4: Thuật toán QuinLan 13 14 15 5 :Học Theo độ bất định 16 17 6: Thuật giải ILA( inductive Learning A) 18 19 Bài Tập Chương : Tìm hiểu về : Thuật giải di truyền Mạng noron nhân tạo 20 Hệ mờ . bạn hãy lập bảng Contigency như sau : R ¬ R Ai E F ¬ Ai G H Trong đó E là số phần tử trong P thỏa cả Ai và R. F là số phần tử trong P thỏa Ai và không thỏa R G là số phần tử trong P không thỏa. phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất A là j ) * trong đó r 1 , r 2 , … , rn là các giá trị của thuộc tính mục tiêu * 4 Như vậy nếu một thuộc tính A có thể nhận một trong 5. là máy học? Dữ liệu cung cấp cho hệ thống là một ánh xạ f trong đó ứng một trường hợp p trong tập hợp P với một "lớp" r trong tập R. f : P |→ R p → r Tuy nhiên, tập P thường nhỏ (và

Ngày đăng: 16/09/2015, 10:33

Tài liệu cùng người dùng

Tài liệu liên quan