Minh họa thuật toán CART

Lưu Quang Vinh , CNT52-ĐH3, Ngành Công nghệ thông tin BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM BÁO CÁO THỰC TẬP TỐT NGHIỆP Tên đề tài: Minh họa thuật toán CART HẢI PHÒNG - 2015 BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM BÁO CÁO THỰC TẬP TỐT NGHIỆP Tên đề tài: Minh họa thuật toán ID3 NGÀNH: CÔNG NGHỆ THÔNG TIN; MÃ SỐ: 114 CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: GV Nguyễn Hạnh Phúc Sinh viên thực hiện: Lưu Quang Vinh HẢI PHÒNG – 2016 Danh mục chữ viết tắt & bảng biểu, hình vẽ Hình : trình phân lớp liêu - (a) Bước xây dựng mô hình phân lớp (trang 3) Hình 2- Qúa trình phân lớp liệu - (b1)ước lượng độ xác mô hình (trang 4) Hình 3: trình phân lớp liệu b2 phân lớp liệu (trang 4) Hình ví dụ định (trang 7) Bảng (trang 17) Hình 5: ví dụ định giải thuật id3 giải (trang 18) HÌNH 6: Ví dụ cách xây dựng định ID3 (trang20) HÌNH 7:Minh họa giải thuật ID3 qua mã giả (trang 21) Hình : Cây định áp dụng giải thuật ID3 (trang 22) Đồ thị 1: (trang 25) i LỜI MỞ ĐẦU ii Trong trình hoạt động, người tạo nhiều liệu nghiệp vụ Các tập liệu tích lũy có kích thước ngày lớn, chứa nhiều thông tin ẩn dạng quy luật chưa khám phá Chính vậy, nhu cầu đặt cần tìm cách trích rút từ tập liệu luật phân lớp liệu hay dự đoán xu hướng liệu tương lai Những quy tắc nghiệp vụ thông minh tạo phục vụ đắc lực cho hoạt động thực tiễn, phục vụ đắc lực cho trình nghiên Ncứu khoa học Công nghệ phân lớp dự đoán liệu đời để đáp ứng mong muốn Công nghệ phân lớp liệu đã, phát triển mạnh mẽ trước khao khát tri thức người Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Nhiều kỹ thuật phân lớp đề xuất như: Phân lớp định (Decision tree classification), phân lớp Bayesian (Bayesian classifier), phân lớp Khàng xóm gần (K-nearest neighbor classifier), mạng nơron, phân tích thống kê,… Trong kỹ thuật đó, định coi công cụ mạnh, phổ biến đặc biệt thích hợp cho data mining Bài tìm hiểu em làm rõ thêm phân lớp liệu định sử dụng thuật toán ID3 ii iv v Chương I TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY QUYẾT ĐỊNH I.Tổng quan phân lớp liệu data mining Phân lớp liệu Ngày phân lớp liệu (classification) hướng nghiên cứu khai phá liệu Thực tế đặt nhu cầu từ sở liệu với nhiều thông tin ẩn người trích rút định nghiệp vụ thông minh Phân lớp dự đoán hai dạng phân tích liệu nhằm trích rút mô hình mô tả lớp liệu quan trọng hay dự đoán xu hướng liệu tương lai Phân lớp dự đoán giá trị nhãn xác định (categorical label) hay giá trị rời rạc (discrete value), có nghĩa phân lớp thao tác với đối tượng liệu mà có giá trị biết trước Trong đó, dự đoán lại xây dựng mô hình với hàm nhận giá trị liên tục Ví dụ mô hình phân lớp dự báo thời tiết cho biết thời tiết ngày mai mưa, hay nắng dựa vào thông số độ ẩm, sức gió, nhiệt độ,… ngày hôm ngày trước Hay nhờ luật xu hướng mua hàng khách hàng siêu thị, nhân viên kinh doanh sách đắn lượng mặt hàng chủng loại bày bán… Một mô hình dự đoán dự đoán lượng tiền tiêu dùng khách hàng tiềm dựa thông tin thu nhập nghề nghiệp khách hàng Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực khác như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phần lớn thuật toán đời trước sử dụng chế liệu cư trú nhớ (memory resident), thường thao tác với lượng liệu nhỏ Một số thuật toán đời sau sử dụng kỹ thuật cư trú đĩa cải thiện đáng kể khả mở rộng thuật toán với tập liệu lớn lên tới hàng tỉ ghi Quá trình phân lớp liệu gồm hai bước: • Bước thứ (learning) Quá trình học nhằm xây dựng mô hình mô tả tập lớp liệu hay khái niệm định trước Đầu vào trình tập liệu có cấu trúc mô tả thuộc tính tạo từ tập giá trị thuộc tính Mỗi giá trị gọi chung phần tử liệu (data tuple), mẫu (sample), ví dụ (example), đối tượng (object), ghi (record) hay trường hợp (case) Trong tập liệu này, phần tử liệu giả sử thuộc lớp định trước, lớp giá trị thuộc tính chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu bước thường quy tắc phân lớp dạng luật dạng if-then, định, công thức logic, hay mạng nơron Quá trình mô tả hình Tập liệu bao gồm 14 ví dụ Mỗi ví dụ biểu diễn cho tình trạng thời tiết gồm thuộc tính quang cảnh, nhiệt độ, độ ẩm gió; có thuộc tính phân loại ‘chơi Tennis’ (có, không) ‘Không’ nghĩa không chơi tennis ứng với thời tiết đó, ‘Có’ nghĩa ngược lại Giá trị phân loại có hai loại (có, không), hay ta nói phân loại tập ví dụ khái niệm thành hai lớp (classes) Thuộc tính ‘Chơi tennis’ gọi thuộc tính đích (target attribute) Mỗi thuộc tính có tập giá trị hữu hạn Thuộc tính quang cảnh có ba giá trị (âm u, mưa, nắng), nhiệt độ có ba giá trị (nóng, mát, ấm áp), độ ẩm có hai giá trị (cao, TB) gió có hai giá trị (mạnh, nhẹ) Các giá trị ký hiệu (symbol) dùng để biểu diễn toán Từ tập liệu rèn luyện này, giải thuật ID3 học định có khả phân loại đắn ví dụ tập này, đồng thời hy vọng tương lai, phân loại ví dụ không nằm tập Một định ví dụ mà giải thuật ID3 quy nạp là: 14 Các nút định biểu diễn cho kiểm tra thuộc tính đó, giá trị có thuộc tính tương ứng với nhánh Các nút thể phân loại ví dụ thuộc nhánh đó, giá trị thuộc tính phân loại Sau giải thuật quy nạp định, sử dụng để phân loại tất ví dụ hay thể (instance) tương lai Và định không thay đổi ta cho thực lại giải thuật ID3 tập liệu rèn luyện khác Ứng với tập liệu rèn luyện có nhiều định phân loại tất ví dụ tập liệu rèn luyện Kích cỡ định khác tùy thuộc vào thứ tự kiểm tra thuộc tính 15 Vậy để học định phân loại tất ví dụ tập rèn luyện? Một cách tiếp cận đơn giản học thuộc lòng tất ví dụ cách xây dựng mà có cho ví dụ Với cách tiếp cận định không phân loại cho ví dụ chưa gặp tương lai Vì phương pháp giống hình thức ‘học vẹt’, mà không học khái quát khái niệm cần học Vậy, ta nên học định tốt? Occam’s razor số lập luận khác cho ‘giả thuyết có khả giả thuyết đơn giản thống với tất quan sát’, ta nên luôn chấp nhận câu trả lời đơn giản đáp ứng cách đắn liệu Trong trường hợp giải thuật học cố gắng tạo định nhỏ phân loại cách đắn tất ví dụ cho Trong phần kế tiếp, vào giải thuật ID3, giải thuật quy nạp định đơn giản thỏa mãn vấn đề vừa nêu II Giải thuật ID3 xây dựng định từ xuống ID3 xây dựng định (cây QĐ) theo cách từ xuống Lưu ý thuộc tính nào, phân vùng tập hợp ví dụ rèn luyện thành tập tách rời, mà ví dụ phân vùng (partition) có giá trị chung cho thuộc tính ID3 chọn thuộc tính để kiểm tra nút dùng trắc nghiệm để phân vùng tập hợp ví dụ; thuật toán xây dựng theo cách đệ quy cho phân vùng Việc tiếp tục thành viên phân vùng nằm lớp; lớp trở thành nút Vì thứ tự trắc nghiệm quan trọng việc xây dựng QĐ đơn giản, ID3 phụ thuộc nhiều vào tiêu chuẩn chọn lựa trắc nghiệm để làm gốc Để đơn giản, phần mô tả giải thuật dùng để xây dựng QĐ, 16 với việc giả định hàm chọn trắc nghiệm thích hợp Phần trình bày heuristic chọn lựa ID3 Ví dụ, xem xét cách xây dựng QĐ ID3 từ ví dụ trước Bắt đầu với bảng đầy đủ gồm 14 ví dụ rèn luyện, ID3 chọn thuộc tính quang cảnh để làm thuộc tính gốc sử dụng hàm chọn lựa thuộc tính mô tả phần Trắc nghiệm phân chia tập ví dụ cho thấy hình 9.2 với phần tử phân vùng liệt kê số thứ tự chúng bảng 17 ID3 áp dụng hàm induce_tree cách đệ quy cho phân vùng Ví dụ, phân vùng nhánh “Âm u” có ví dụ toàn dương, hay thuộc lớp ‘Có’, nên ID3 tạo nút với nhãn lớp ‘Có’ Còn phân vùng hai nhánh lại vừa có ví dụ âm, vừa có ví dụ dương Nên tiếp tục chọn thuộc tính “Độ ẩm” để làm trắc nghiệm cho nhánh Nắng, thuộc tính Gió cho nhánh Mưa, ví dụ phân vùng nhánh thuộc lớp, nên giải thuật ID3 kết thúc ta có QĐ sau Lưu ý, để phân loại ví dụ, có QĐ không cần sử dụng tất thuộc tính cho, phân loại tất ví dụ * Các khả có phân vùng (partition): Trong trình xây dựng QĐ, phân vùng nhánh có dạng sau: 18 • Có ví dụ thuộc lớp khác nhau, chẳng hạn có ví dụ âm dương phân vùng “Quang cảnh = Nắng” ví dụ => giải thuật phải tiếp tục tách lần • Tất ví dụ thuộc lớp, chẳng hạn toàn âm toàn dương phân vùng “Quang cảnh = Âm u” ví dụ => giải thuật trả nút với nhãn lớp • Không ví dụ => giải thuật trả • Không thuộc tính => nghĩa liệu bị nhiễu, giải thuật phải sử dụng luật để xử lý, chẳng hạn luật đa số (lớp có nhiều ví dụ dùng để gán nhãn cho nút trả về) Từ nhận xét này, ta thấy để có QĐ đơn giản, hay có chiều cao thấp, ta nên chọn thuộc tính cho tạo nhiều phân vùng chứa ví dụ thuộc lớp tốt Một phân vùng có ví dụ thuộc lớp, ta nói phân vùng có tính Vậy, để chọn thuộc tính kiểm tra giảm thiểu chiều sâu QĐ, ta cần phép đo để đo tính phân vùng, chọn thuộc tính kiểm tra tạo nhiều phân vùng tốt ID3 sử dụng lý thuyết thông tin để thực điều III Thuộc tính thuộc tính dùng để phân loại tốt nhất? Quinlan (1983) người đề xuất việc sử dụng lý thuyết thông tin để tạo định công trình ông sở cho phần trình bày Lý thuyết thông tin Shannon (1948) cung cấp khái niệm entropy để đo tính (hay ngược lại độ pha trộn) tập hợp Một tập hợp tất phần tử tập hợp thuộc loại, ta nói tập hợp có độ pha trộn thấp Trong trường hợp tập ví dụ, tập ví dụ 19 tất ví dụ có giá trị phân loại Khi tập ví dụ nói: ta biết chắn giá trị phân loại ví dụ thuộc tập này, hay ta có lượng thông tin tập cao Khi tập ví dụ có độ pha trộn cao nhất, nghĩa số lượng ví dụ có giá trị phân loại cho loại tương đương nhau, ta đoán xác ví dụ có giá trị phân loại gì, hay nói khác hơn, lượng thông tin ta có tập Vậy, điều ta mong muốn chọn thuộc tính để hỏi cho chia tập ví dụ ban đầu thành tập ví dụ nhanh tốt Vậy trước hết, ta cần có phép đo để đo độ tập hợp, từ so sánh tập ví dụ tốt Phần trình bày công thức tính entropy tập hợp Entropy đo tính tập ví dụ Khái niệm entropy tập S định nghĩa Lý thuyết thông tin số lượng mong đợi bít cần thiết để mã hóa thông tin lớp thành viên rút cách ngẫu nhiên từ tập S Trong trường hợp tối ưu, mã có độ dài ngắn Theo lý thuyết thông tin, mã có độ dài tối ưu mã gán –log2p bits cho thông điệp có xác suất p Trong trường hợp S tập ví dụ, thành viên S ví dụ, ví dụ thuộc lớp hay có giá trị phân loại • Entropy có giá trị nằm khoảng [0 1], • Entropy(S) =  tập ví dụ S toàn ví dụ thuộc loại, hay S • Entropy(S) =  tập ví dụ S có ví dụ thuộc loại khác với độ pha trộn cao 20 • < Entropy(S) <  tập ví dụ S có số lượng ví dụ thuộc loại khác không Để đơn giản ta xét trường hợp ví dụ S thuộc loại âm (-) dương (+) Cho trước: • Tập S tập liệu rèn luyện, thuộc tính phân loại có hai giá trị, giả sử âm (-) dương (+) • p+ phần ví dụ dương tập S • p- phần ví dụ âm tập S Khi đó, entropy đo độ pha trộn tập S theo công thức sau: Entropy(S) = -p+log2p+ - p-log2pMột cách tổng quát hơn, ví dụ tập S thuộc nhiều hai loại, giả sử có c giá trị phân loại công thức entropy tổng quát là: Entropy(S) = 21 Lượng thông tin thu đo mức độ giảm entropy mong đợi Entropy số đo đo độ pha trộn tập ví dụ, định nghĩa phép đo hiệu suất phân loại ví dụ thuộc tính Phép đo gọi lượng thông tin thu được, đơn giản lượng giảm entropy mong đợi gây việc phân chia ví dụ theo thuộc tính Một cách xác hơn, Gain(S,A) thuộc tính A, tập S, định nghĩa sau: Trong Values(A) tập hợp có giá trị thuộc tính A, Sv tập S chứa ví dụ có thuộc tính A mang giá trị v Trở lại ví dụ ban đầu, không sử dụng Entropy để xác định độ ví dụ xảy trường hợp định có chiều cao lớn Ta áp dụng phương thức tính Entropy để xác định chắn thuộc tính chọn trình tạo định Đầu tiên ta tính độ tập liệu: Entropy(S) = - (9/14) Log2 (9/14) - (5/14) Log2 (5/14) = 0.940 Từ ta tính tiếp Gain cho thuộc tính để suy thuộc tính chọn làm nút gốc Gain(S, Quang cảnh) = Entropy(S) (4/14)Entropy(SÂm u) – (5/14) Entropy(SMưa) = 0.246 Tương tự cho Gain khác: Gain(S, Nhiệt độ) = 0.029 22 – (5/14)Entropy(SNắng) – Gain(S, Độ ẩm) = 0.151 Gain(S, Gió) = 0.048 Ta thấy Gain(S, Quang cảnh) lớn  lấy thuộc tính quang cảnh làm nút gốc Sau lập cấp định ta lại xét nhánh Nắng Tiếp tục lấy Entropy Gain cho nhánh Nắng ta hiệu suất sau: Gain(SNắng, Độ ẩm) = 0.970 Gain(SNắng, Nhiệt độ) = 0.570 Gain(SNắng, Gió) = 0.019 Như thuộc tính độ ẩm có hiệu suất phân loại cao nhánh Nắng  ta chọn thuộc tính Độ ẩm làm nút … Tương tự nhánh lại định ta định hoàn chỉnh sau 23 IV.Tìm kiếm không gian giả thuyết ID3 Cũng phương pháp học quy nạp khác, ID3 tìm kiếm không gian giả thuyết giả thuyết phù hợp với tập liệu rèn luyện Không gian giả thuyết mà ID3 tìm kiếm tập hợp định có ID3 thực phép tìm kiếm từ đơn giản đến phức tạp, theo giải thuật leo-núi (hill climbing), rỗng, sau xem xét giả thuyết phức tạp mà phân loại ví dụ rèn luyện Hàm đánh giá dùng để hướng dẫn tìm kiếm leo núi phép đo lượng thông tin thu Từ cách nhìn ID3 giải thuật tìm kiếm không gian giả thuyết, ta có số nhận xét sau: • Không gian giả thuyết định ID3 không gian đầy đủ định thuộc tính cho tập rèn luyện Điều có 24 nghĩa không gian mà ID3 tìm kiếm chắn có chứa định cần tìm • Trong tìm kiếm, ID3 trì giả thuyết Vì vậy, giải thuật khả biểu diễn tất định khác có khả phân loại liệu có • Giải thuật ID3 khả quay lui tìm kiếm Vì vậy, gặp phải hạn chế giống giải thuật leo núi, hội tụ cực tiểu địa phương • Vì ID3 sử dụng tất ví dụ bước để đưa định dựa thống kê, nên kết tìm kiếm ID3 bị ảnh hưởng vài liệu sai (hay liệu nhiễu) • Trong trình tìm kiếm, giải thuật ID3 có xu hướng chọn định ngắn định dài Đây tính chất thiên lệch quy nạp ID3 25 V.Đánh giá hiệu suất định: Một định sinh ID3 đánh giá tốt có khả phân loại trường hợp hay ví dụ gặp tương lai, hay cụ thể có khả phân loại ví dụ không nằm tập liệu rèn luyện Để đánh giá hiệu suất định người ta thường sử dụng tập ví dụ tách rời, tập khác với tập liệu rèn luyện, để đánh giá khả phân loại ví dụ tập Tập liệu gọi tập kiểm tra (validation set) Thông thường, tập liệu sẵn có chia thành hai tập: tập rèn luyện thường chiếm 2/3 số ví dụ tập kiểm tra chiếm 1/3 VI Chuyển luật Thông thường, định chuyển dạng luật để thuận tiện cho việc cài đặt sử dụng Ví dụ định cho tập liệu rèn luyện chuyển thành số luật sau : 26 If (Quang-cảnh =nắng) ^ (Độ ẩm = Cao) Then Chơi-Tennis = No If (Quang-cảnh =nắng) ^ (Độ ẩm = TB) Then Chơi-Tennis = Yes If (Quang-cảnh =Âm u) Then Chơi-Tennis = Yes 27 VII KẾT LUẬN Giải thuật ID3 giải thuật học đơn giản phù hợp với lớp toán hay vấn đề biểu diễn ký hiệu Chính vậy, giải thuật thuộc tiếp cận giải vấn đề dựa ký hiệu (symbol – based approach) Tập liệu rèn luyện bao gồm ví dụ mô tả cặp “Thuộc tính – giá trị”, ví dụ ‘Chơi tennis’ trình bày suốt chương này, ‘Gió – mạnh’, hay ‘Gió – nhẹ’,… ví dụ có thuộc tính phân loại, ví dụ ‘chơi_tennis’, thuộc tính phải có giá trị rời rạc, có, không Tuy nhiên, khác với số giải thuật khác thuộc tiếp cận này, ID3 sử dụng ví dụ rèn luyện dạng xác suất nên có ưu điểm bị ảnh hưởng vài liệu nhiễu Vì vậy, tập liệu rèn luyện chứa lỗi thiếu vài giá trị số thuộc tính Một giải pháp thường áp dụng liệu bị thiếu sử dụng luật đa số, chương trình tiền xử lý liệu điền vào vị trí trống giá trị có tần số xuất cao thuộc tính Bên cạnh vấn đề trình bày phần này, ID3 thảo luận nhiều vấn đề liên quan để tránh cho định không bị ảnh hưởng nhiều (overfitting) vào liệu rèn luyện, để tổng quát hơn, phân loại cho trường hợp chưa gặp Có nhiều giải pháp đưa cắt tỉa lại định sau học, cắt tỉa luật sau chuyển dạng luật Một vấn đề khác vài thuộc tính có giá trị liên tục Giải vấn đề dẫn đến việc sinh nhiều hệ sau ID3, giải thuật bật số C4.5 (Quinlan 1996) Ngoài ra, số kỹ thuật tạo để thao tác liệu nhằm tạo định khác tập liệu rèn luyện cho kỹ thuật bagging and boosting 28 [...]... thuộc tính phân lớp là 3 chưa biết Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới sự thành công của mô hình phân lớp Do vậy chìa khóa của vấn đề phân lớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính xác cao và có khả năng mở rộng được Trong đó khả năng mở rộng được của thuật toán được đặc 4 biệt trú trọng và phát triển 2 Các vấn đề liên... Một vài thuật toán sử dụng tổ hợp các thuộc tính kết hợp với nhau có trọng số để phát triển cây quyết định Quá trình cắt cụt cây cũng “đắt” vì nhiều cây con ứng cử phải được tạo ra và so sánh Chương II GIẢI THUẬT QUY NẠP CÂY QUYẾT ĐỊNH ID3 I.Giới thiệu Giải thuật quy nạp cây quyết định ID3 (gọi tắt là ID3) là một giải thuật học đơn giản nhưng tỏ ra thành công trong nhiều lĩnh vực ID3 là một giải thuật. .. đáp ứng một cách đúng đắn dữ liệu của chúng ta Trong trường hợp này là các giải thuật học cố gắng tạo ra cây quyết định nhỏ nhất phân loại một cách đúng đắn tất cả các ví dụ đã cho Trong phần kế tiếp, chúng ta sẽ đi vào giải thuật ID3, là một giải thuật quy nạp cây quyết định đơn giản thỏa mãn các vấn đề vừa nêu II Giải thuật ID3 xây dựng cây quyết định từ trên xuống ID3 xây dựng cây quyết định (cây... cảnh = Nắng” của ví dụ trên => giải thuật phải tiếp tục tách một lần nữa • Tất cả các ví dụ đều thuộc cùng một lớp, chẳng hạn như toàn âm hoặc toàn dương như phân vùng “Quang cảnh = Âm u” của ví dụ trên => giải thuật trả về nút lá với nhãn là lớp đó • Không còn ví dụ nào => giải thuật trả về mặc nhiên • Không còn thuộc tính nào => nghĩa là dữ liệu bị nhiễu, khi đó giải thuật phải sử dụng một luật nào đó... No If (Quang-cảnh =nắng) ^ (Độ ẩm = TB) Then Chơi-Tennis = Yes If (Quang-cảnh =Âm u) Then Chơi-Tennis = Yes 27 VII KẾT LUẬN Giải thuật ID3 là một giải thuật học đơn giản nhưng nó chỉ phù hợp với một lớp các bài toán hay vấn đề có thể biểu diễn bằng ký hiệu Chính vì vậy, giải thuật này thuộc tiếp cận giải quyết vấn đề dựa trên ký hiệu (symbol – based approach) Tập dữ liệu rèn luyện ở đây bao gồm các ví... nhất Các thuật toán xây dựng cây quyết định đưa ra thuộc tính mà phân chia tốt nhất tập dữ liệu đào tạo bắt đầu từ node gốc của cây Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho việc dự đoán hay phân lớp 3.2 Điểm yểu của cây quyết định Dù có những sức mạnh nổi bật trên, cây quyết định vẫn không tránh khỏi có những điểm yếu Đó là cây quyết định không thích hợp lắm với những bài toán với... kỹ thuật làm trơn Missing value là những ô không có giá trị của các thuộc tính Giá trị thiếu có thể do lỗi chủ quan trong quá trình nhập liệu, hoặc trong trường hợp cụ thể giá trị của thuộc tính đó không có, hay không quan trọng Kỹ thuật xử lý ở đây có thể bằng cách thay giá trị thiếu bằng giá trị phổ biến nhất của thuộc tính đó hoặc bằng giá trị có thể xảy ra nhất dựa trên thống kê Mặc dù phần lớn thuật. .. (mạnh, nhẹ) Các giá trị này chính là ký hiệu (symbol) dùng để biểu diễn bài toán Từ tập dữ liệu rèn luyện này, giải thuật ID3 sẽ học một cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập này, đồng thời hy vọng trong tương lai, nó cũng sẽ phân loại đúng các ví dụ không nằm trong tập này Một cây quyết định ví dụ mà giải thuật ID3 có thể quy nạp được là: 14 Các nút trong cây quyết định biểu... thích hợp, sử dụng tập dữ liệu đào tạo với những giá trị thuộc tính bị thiếu, sử dụng các thuộc tính với những chi phí khác nhau, và cải thiện hiệu năng tính toán Sau đây chúng tôi sẽ đề cập đến những vấn đề chính đã được giải quyết trong các thuật toán phân lớp dựa trên cây quyết định α Tránh “quá vừa” dữ liệu Thế nào là “quá vừa” dữ liệu? Có thể hiểu đây là hiện tượng cây quyết định chứa một số đặc... tiêu chuẩn tìm θ tốt nhất tùy vào chiến lược của từng thuật toán 3 Đánh giá cây quyết định trong khai phá dữ liệu 3.1 Điểm mạnh của việc sử dụng cây quyết định • Khả năng sinh ra các quy tắc hiểu được 9 Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi được sang dạng tiếng Anh, hoặc các câu lệnh SQL Đây là ưu điểm nổi bật của kỹ thuật này Thậm chí với những tập dữ liệu lớn khiến cho ... lớn thuật toán đời trước sử dụng chế liệu cư trú nhớ (memory resident), thường thao tác với lượng liệu nhỏ Một số thuật toán đời sau sử dụng kỹ thuật cư trú đĩa cải thiện đáng kể khả mở rộng thuật. .. 5: ví dụ định giải thuật id3 giải (trang 18) HÌNH 6: Ví dụ cách xây dựng định ID3 (trang20) HÌNH 7 :Minh họa giải thuật ID3 qua mã giả (trang 21) Hình : Cây định áp dụng giải thuật ID3 (trang 22)... DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM BÁO CÁO THỰC TẬP TỐT NGHIỆP Tên đề tài: Minh họa thuật toán ID3 NGÀNH: CÔNG NGHỆ THÔNG TIN; MÃ SỐ: 114 CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN Người

Minh họa thuật toán CART

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Chương I. TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY QUYẾT ĐỊNH

I.Tổng quan về phân lớp dữ liệu trong data mining

1. Phân lớp dữ liệu

2. Các vấn đề liên quan đến phân lớp dữ liệu

II. Cây quyết định ứng dụng trong phân lớp dữ liệu

3. Đánh giá cây quyết định trong khai phá dữ liệu

Chương II. GIẢI THUẬT QUY NẠP CÂY QUYẾT ĐỊNH ID3

I.Giới thiệu

II. Giải thuật ID3 xây dựng cây quyết định từ trên xuống

III. Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất?

1. Entropy đo tính thuần nhất của tập ví dụ

2. Lượng thông tin thu được đo mức độ giảm entropy mong đợi

IV.Tìm kiếm không gian giả thuyết trong ID3

V.Đánh giá hiệu suất của cây quyết định:

VI. Chuyển cây về các luật

VII. KẾT LUẬN

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan