Xây dựng cây quyết định dùng thuật toán sinh cây ID3

33 1.6K 11
Xây dựng cây quyết định dùng thuật toán sinh cây ID3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Học Công Nghệ Thông Tin Đại Học Quốc Gia Thành Phố Hồ Chí Minh TP HCM 5/2012 Đề tài Xây dựng định dùng thuật toán sinh ID3 GVHD : GS.TSKH.Hoàng Kiếm Học viên: Trương Lê Hưng MS: CH1101089 Lớp: Cao Học khóa Mơn học: Cơng nghệ tri thức ứng dụng Môn học : Công nghệ tri thức ứng dụng Trang Lời cảm ơn Lời em xin chân thành cảm ơn thầy Hoàng Kiếm truyền đạt cho em học thật bổ ích với câu truyện đầy tính sáng tạo lý thú Cảm ơn nhà trường tạo điều kiện cho em bạn lớp học tập tiếp thu kiến thức Em chân thành cảm ơn bạn lớp chia sẻ cho tài liệu hiểu biết mơn học để hồn thành tốt môn học Trong thời gian vừa qua em cố gắng nhiều để hoàn thành tốt đề tài mình, song chắn kết khơng tránh khỏi thiếu sót Em kính mong cảm thơng tận tình bảo thầy TP.Hồ Chí Minh Tháng 5/2012 Học viên thực Trương Lê Hưng Lớp Cao Học khóa Mơn học : Cơng nghệ tri thức ứng dụng Trang Nhận xét - Môn học : Công nghệ tri thức ứng dụng Trang Lời mở đầu Trong nhiều năm qua, với phát triển không ngừng công nghệ thông tin ứng dụng nhiều lĩnh vực đời sống xã hội, lượng liệu quan thu thập lưu trữ ngày nhiều lên Tuy nhiên phần lớn liệu thơng tin khơng sử dụng khơng biết cách khai thác sử dụng Ngày công nghệ phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Các tri thức mà khai thác dữ liệu mang lại có thể hỗ trợ nhiều hoạt động xã hội việc định trả lời câu hỏi trước tốn nhiều thời gian để xử lý Cây quyết định là một công cụ phổ biến và mạnh mẽ được sử dụng bài toán phân loại Ưu điểm lớn của quyết định là thể hiện được các luật Các luật này dễ dàng được diễn đạt để người có thể hiểu được chúng, hiểu được kết quả của quá trình khai thác dữ liệu Trong thu hoạch em xin áp dụng thuật toán ID3 để xây dưng định Nội dung thu hoạch bao gồm : Phần : Cây định Phần : Xây dựng định thuật toán ID3 Phần : Xây dựng chương trình Demo Phần : Tổng kết Mơn học : Công nghệ tri thức ứng dụng Trang Mục lục Môn học : Công nghệ tri thức ứng dụng Trang Phần I Cây định Giới thiệu Cây định (decision tree) phương pháp mạnh phổ biến cho hai nhiệm vụ khai phá liệu phân loại dự báo Mặt khác, định cịn chuyển sang dạng biểu diễn tương đương dạng tri thức luật If-Then Trong lĩnh vực học máy (machine learning), định kiểu mơ hình dự báo (predictive model), nghĩa ánh xạ từ quan sát vật, tượng tới kết luận giá trị mục tiêu vật, tượng Cây định có cấu trúc biễu diễn dạng Trong đó, nút (internal node) biễu diễn thuộc tính, nhánh (branch) biễu diễn giá trị có thuộc tính, nút (leaf node) biểu diễn lớp định đỉnh gọi gốc (root) Cây định dùng để phân lớp cách xuất phát từ gốc di chuyển theo nhánh gặp nút Trên sở phân lớp chuyển đổi luật định Ví dụ: định việc chơi tennis Môn học : Công nghệ tri thức ứng dụng Trang Hình 1.1: Cây định việc chơi tennis Các kiểu định Cây định cịn có hai tên khác: Cây hồi quy (Regression tree) ước lượng hàm giá có giá trị số thực thay sử dụng cho nhiệm vụ phân loại (ví dụ: ước tính giá ngơi nhà khoảng thời gian bệnh nhân nằm viện) Cây phân loại (Classification tree), kết việc dự đoán biến phân loại như: giới tính (nam hay nữ), kết trận đấu (thắng hay thua) Các thuật toán định Một vài thuật toán xây dựng định như: a Thuật toán CLS Thuật toán Hovland Hint giới thiệu Concept learning System (CLS) vào năm 50 kỷ 20 Sau gọi tắt thuật toán CLS Thuật toán CLS thiết kế theo chiến lược chia để trị từ xuống b Thuật toán ID3 Thuật toán ID3 phát biểu Quinlan (trường đại học Syney, Australia) công bố vào cuối thập niên 70 kỷ 20 Sau đó, thuật Mơn học : Cơng nghệ tri thức ứng dụng Trang toán ID3 giới thiệu trình bày mục Induction on decision trees, machine learning năm 1986 ID3 xem cải tiến CLS với khả lựa chọn thuộc tính tốt để tiếp tục triển khai bước ID3 xây dựng định từ trên- xuống (top -down) c Thuật toán C4.5 Thuật toán C4.5 phát triển công bố Quinlan vào năm 1996 Thuật toán C4.5 thuật toán cải tiến từ thuật toán ID3 với việc cho phép xử lý tập liệu có thuộc tính số (numeric atributes) và làm việc với tập liệu bị thiếu bị nhiễu Nó thực phân lớp tập mẫu liệu theo chiến lược ưu tiên theo chiều sâu (Depth - First) Thuật toán xét tất phép thử để phân chia tập liệu cho chọn phép thử có giá trị GainRatio tốt GainRatio đại lượng để đánh giá độ hiệu thuộc tính dùng để thực phép tách thuật toán để phát triển định d Thuật toán SLIQ Thuật toán SLIQ (Supervised Learning In Quest) gọi thuật tốn phân lớp leo thang nhanh Thuật tốn áp dụng cho hai kiểu thuộc liên tục thuộc tính rời rạc Thuật tốn có sử dụng kỹ thuật tiền xử lý phân loại (Pre sorting) trước xây dựng cây, giải vấn đề nhớ cho thuật toán ID3 Thuật toán SLIQ có sử dụng giải thuật cắt tỉa hữu hiệu Thuật tốn SLIQ phân lớp hiệu tập liệu lớn không phụ thuộc vào số lượng lớp, số lượng thuộc tính số lượng mẫu tập liệu e Đánh giá chung thuật toán xây dựng định Các thuật tốn xây dựng định có điểm mạnh điểm yếu riêng - Thuật toán CLS thuật toán đời sớm Nó áp dụng cho CSDL có thuộc tính nhỏ, giá trị thuộc tính dạng phân loại hay rời rạc Cịn CSDL lớn có chứa thuộc tính mà giá trị liên tục CLS làm việc khơng hiệu quả.Thuật tốn cho Mơn học : Công nghệ tri thức ứng dụng Trang kết khác với tập liệu đầu vào Bởi vì, thuật tốn chưa có tiêu chí để lựa chọn thuộc tính q trình xây dựng Nhưng thuật toán đơn giản, dễ cài đặt, phù hợp việc hình thành ý tưởng giải nhiệm vụ đơn giản - Thuật toán ID3: thuật toán ID3, Quinlan khắc phục hạn chế thuật toán CLS (ID3 xem phiên cải tiến CLS) Thuật toán làm việc có hiệu quả, cho kết tối ưu thuật toán CLS Khi áp dụng thuật toán ID3 cho tập liệu đầu vào thử nhiều lần cho kết Bởi vì, thuộc tính ứng viên lựa chọn bước trình xây dựng lựa chọn trước Tuy nhiên thuật toán chưa giải vấn đề thuộc tính số, liên tục, số lượng thuộc tính cịn bị hạn chế giải hạn chế với vấn đề liệu bị thiếu bị nhiễu - Thuật toán C4.5: Để tiếp tục khắc phục nhược điểm thuật toán ID3, Quinlan đưa thuật toán C4.5(C4.5 cải tiến cho thuật toán ID3 cọi phiên sau ID3) Trong thuật toán giải vấn đề làm việc với thuộc tính số(liên tục), thuộc tính có nhiều giá trị, vấn đề liệu bị thiếu bị nhiễu Trong C4.5 thực việc phân ngưỡng với thuộc tính số phép tách nhị phân đưa vào đại lượng GainRatio thay cho đại lượng Gain ID3 Để giải vấn đề thuộc tính có nhiều giá trị Ngồi C4.5 cịn có bước cắt tỉa nhánh khơng phù hợp Tuy nhiên yếu điểm thuật toán làm việc khơng hiệu với CSDL lơn chưa giải vấn đề nhớ - Thuật tốn SLIQ phân lớp có hiệu tập liệu lớn, làm việc khơng phù thuộc vào số lượng lớp, thuộc tính số lượng ghi tập liệu SLIQ cải thiện vấn đề nhớ có pha tiền xử lý phân loại, thời điểm có danh sách lớp thường trú nhớ SLIQ có kỹ thuật cắt tỉa mơ tả độ dài tối thiểu MDL, hữu hiệu Nó thuật tốn phân lớp nhanh, xác, chi phí thấp Tuy nhiên việc cài đặt phức tạp, áp dụng cho sở liệu lớn Môn học : Công nghệ tri thức ứng dụng Trang 10 phân vùng khơng tinh khiết (ví dụ, nơi phân vùng chứa sưu tập liệu từ lớp khác từ lớp nhất) Làm để nhiều thông tin mà ta cần (sau phân vùng) để đến phân loại xác? Con số đo bằng: Dj tổng số liệu phân chia tập thứ j Info A(D) thông tin mong đợi cần thiết để phân loại tuple từ D dựa phân vùng A thông tin nhỏ yêu cầu Độ lợi thông tin (Informatin gain) được định nghĩa khác biệt thông tin yêu cầu ban đầu (tức là, dựa tỷ lệ lớp) yêu cầu (thu sau phân vùng A) Đó Gain(A) = Info(D) − InfoA (D) Nói cách khác, Gain (A) cho biết phân nhánh A Điều mong muốn giảm thông tin yêu cầu biết giá trị A Một thuộc tính với độ lợi thông tin cao (Gain (A )), chọn thuộc tính chia tách nút N Điều tương đương với cách nói muốn phân vùng thuộc tính A mà làm cho việc phân loại “tốt nhất”, số lượng thơng tin cịn cần thiết để hồn thành phân loại liệu tối thiểu (có nghĩa mức tối thiểu Info(D)) Cơng thức tính Gain mơ tả cụ thể sau: - Cho tập liệu S gồm có n thuộc tính Ai(i=1,2…n) giá trị Information thuộc tính Ai ký hiệu Information(Ai) xác định công thức n Information(Ai ) = -∑ log ( pi ) = Entropy(S) i=1 - Giá trị Gain thuộc tính A tập S ký hiệu Gain(S,A) tính theo cơng thức sau: Gain( S , A) = Information(A) - Entropy(A)= Entropy(S)- ∑ v∉value(A) Môn học : Công nghệ tri thức ứng dụng Trang 19 Sv S Entropy(Sv ) Trong :  S tập hợp ban đầu với thuộc tính A Các giá trị v tương ứng giá trị thuộc tính A  Sv tập hợp tập S mà có thuộc tính A mang giá trị v  |Sv| số phần tử tập Sv  |S| số phần tử tập S Trong trình xây dựng định theo thuật toán ID3 bước triển khai cây, thuộc tính chọn để triển khai thuộc tính có giá trị Gain lớn Giải thuật ID3 Giải thuật ID3 xây dựng định trình bày sau: Function induce_tree(tập_ví_dụ, tập_thuộc_tính) begin if ví dụ tập_ví_dụ nằm lớp then return nút gán nhãn lớp else if tập_thuộc_tính rỗng then return nút gán nhãn tuyển tất lớp tập_ví_dụ else begin chọn thuộc tính P, lấy làm gốc cho tại; xóa P khỏi tập_thuộc_tính; với giá trị V P begin tạo nhánh gán nhãn V; Đặt vào phân_vùngV ví dụ tập_ví_dụ có giá trị V thuộc tính P; Gọi induce_tree(phân_vùngV, tập_thuộc_tính), gắn kết vào nhánh V end end end Ví dụ sử dụng giải thuật ID3 Môn học : Công nghệ tri thức ứng dụng Trang 20 Một người cho thuê sân tập tennis muốn biết thời tiết có người chơi tennis, lập bảng theo dõi nhiều ngày kết sau: Gọi S tập huấn luyện, theo bảng thống kê có ngày chơi tennis ngày khơng chơi Vậy ta có S[9+,5-] => Entropy(S) = = 0.94 Xét thuộc tính Outlook có giá trị Sunny, Overcast, Rain ta có: SSunny[2+,3-] SOvercast[4+,0-] SRain[3+,2-] Vậy Gain(S,Outlook) = Entropy(S) – 5/14Entropy(SSunny) – 4/14Entropy(SOvercast) – 5/14Entropy(SRain) = 0.246 Xét thuộc tính Temperature có giá trị Hot, Mild, Cool ta có: SHot[2+,2-] SMild[4+,2-] SCool[3+,1-] Mơn học : Công nghệ tri thức ứng dụng Trang 21 Vậy Gain(S, Temperature) = Entropy(S) – 4/14Entropy(SHot) – 6/14Entropy(SMild) – 4/14Entropy(SCool) = 0.246 Xét thuộc tính Wind có giá trị Weak, Strong ta có: SWeak[6+,2-] SStrong[3+,3-] Vậy Gain(S,Wind) = Entropy(S) – 8/14Entropy(SWeak) – 6/14Entropy(SStrong) = 0.048 Xét thuộc tính Huminity có giá trị High, Normal ta có: SHigh[3+,4-] SNormal[6+,1-] Vậy Gain(S, Huminity) = Entropy(S) – 7/14Entropy(SHigh) – 7/14Entropy(SNormal) = 0.151 Như bước ta có: Gain(S, Outlook) = 0.246 Gain (S, Humidity) = 0.151 Gain (S, Wind) = 0.048 Gain (S, Temperature) = 0.029 Như Outlook thuộc tính phân loại tốt bước nên ta chọn Outlook nút gốc Outlook có giá trị Sunny, Overcast, Rain Vì giá trị Overcast [4+,0-] nên suy kết phân loại nhánh Overcast Yes Ta có hình bên dưới: Môn học : Công nghệ tri thức ứng dụng Trang 22 T xét giá trị Sunny Rain Thực tương tự bước tính Gain giá trị Sunny ta có: Gain (Ssunny, Humidity) = 0.97- (3/5)0.0 – (2/5)0.0 = 0.97 Gain (Ssunny, Wind) = 0.97 – (2/5)1.0 –(3/5)0.918 = 0.019 Gain (Ssunny, Temperature) = 0.97-(2/5)0.0-(2/5)1.0-(1/5)0.0=0.57 Vậy thuộc tính Humidity có giá trị phân loại tốt bước Humidity thuộc Ssunny có giá trị High[0+,3-] Normal[2+,0-] nên kết phân loại giá trị High No Normal Yes Ta có sơ đồ sau: Mơn học : Công nghệ tri thức ứng dụng Trang 23 Tiếp tục xét SRain ta có: Gain (Srain, Humidity) = 0.97- (2/5)1.0 – (3/5)0.91 = 0.02 Gain (Srain, Wind) = 0.97– (3/5)0.0 –(2/5)0.0 = 0.97 Gain (Srain, Temperature) = 0.97-(3/5)0.91-(2/5)1.0=0.02 Như thuộc tính Wind có giá trị phân loại tốt bước Wind thuộc Srain có hai giá trị Weak[3+,0-] Strong[0+,2-] kết phân loại giá trị Weak Yes Strong No Kết cuối cho định sau: Môn học : Công nghệ tri thức ứng dụng Trang 24 Đánh giá hiệu suất định Một định sinh ID3 đánh giá tốt có khả phân loại trường hợp hay ví dụ gặp tương lai, hay cụ thể có khả phân loại ví dụ không nằm tập liệu rèn luyện Để đánh giá hiệu suất định người ta thường sử dụng tập ví dụ tách rời, tập khác với tập liệu rèn luyện, để đánh giá khả phân loại ví dụ tập Tập liệu gọi tập kiểm tra (validation set) Thông thường, tập liệu sẵn có chia thành hai tập: tập rèn luyện thường chiếm 2/3 số ví dụ tập kiểm tra chiếm 1/3 Các bước đánh giá hiệu suất định: • Thu thập tập hợp lớn ví dụ • Chia thành tập rèn luyện tập kiểm tra • Sử dụng giải thuật tập rèn luyện để xây dựng giả thuyết H(cây định) • Đo phần trăm tập kiểm tra phân loại H • Lặp lại bước đến cho kích cỡ tập kiểm tra khác chọn cách nhẫu nhiên Các vấn đề ID3 Một thiếu sót quan trọng ID3 khơng gian phân chia hợp lệ node cạn kiệt Một phân chia phân hoạch trường hợp Môn học : Công nghệ tri thức ứng dụng Trang 25 không gian mà kết đạt từ việc thử nghiệm node định ID3 node cháu cho phép kiểm tra tại thuộc tính đơn nhánh kết cho từ kiểm tra Một thiếu sót mà ID3 mắc phải dựa vào nhiều vào số lượng tập hợp liệu đưa vào Quản lý tạp nhiễu tập liệu vào vô quan trọng ứng dụng giải thuật học định vào giới thực Ví dụ: Khi có lẫn tạp tập liệu đưa vào số lượng ví dụ đưa vào nhỏ để tạo ví dụ điển hình hàm mục tiêu đúng, ID3 dẫn đến việc tạo định sai Có nhiều mở rộng từ giải thuật ID3 phát triển để áp dụng luật học định vào giới thực , postpruning tree , quản lý thuộc tính giá trị thực , liên quan đến việc thiếu thuộc tính , sử dụng tiêu chuẩn chọn lựa thuộc tính khác thu thập thơng tin Khi sử dụng ID3 Giải thuật ID3 giải thuật học đơn giản phù hợp với lớp toán hay vấn đề biểu diễn ký hiệu Chính vậy, giải thuật thuộc tiếp cận giải vấn đề dựa ký hiệu (symbol – based approach) Tập liệu rèn luyện bao gồm ví dụ mơ tả cặp “Thuộc tính – giá trị”, ví dụ ‘Playtennis’ trình bày suốt thu hoạch này, ‘Wind – Strong’, hay ‘Wind – Weak’,… ví dụ có thuộc tính phân loại, ví dụ ‘Playtennis’, thuộc tính phải có giá trị rời rạc, ‘Yes’, ‘No’ Tuy nhiên, khác với số giải thuật khác thuộc tiếp cận này, ID3 sử dụng ví dụ rèn luyện dạng xác suất nên có ưu điểm bị ảnh hưởng vài liệu nhiễu Vì vậy, tập liệu rèn luyện chứa lỗi thiếu vài giá trị số thuộc tính Một giải pháp thường áp dụng liệu bị thiếu sử dụng luật đa số, chương Môn học : Công nghệ tri thức ứng dụng Trang 26 trình tiền xử lý liệu điền vào vị trí cịn trống giá trị có tần số xuất cao thuộc tính Ví dụ: • Phân loại bệnh nhân theo bệnh họ • Phân loại hỏng hóc thiết bị theo nguyên nhân • Phân loại người vay tiền theo khả chi trả Môn học : Công nghệ tri thức ứng dụng Trang 27 Phần III Xây dựng chương trình Demo Yêu cầu chương trình Chương trình mục đích xây dựng định bước dựa vào thuật toán ID3 Dữ liệu đầu vào bảng liệu theo mẫu file test “id3.txt” kèm theo chương trình có nội dung sau: Outlook;Temp;Humidity;Wind;PlayTennis Sunny;Hot;High;Weak;No Sunny;Hot;High;Strong;No Overcast;Hot;High;Weak;Yes Rain;Mild;High;Weak;Yes Rain;Cool;Normal;Weak;Yes Rain;Cool;Normal;Strong;No Overcast;Cool;Normal;Strong;Yes Sunny;Mild;High;Weak;No Sunny;Cool;Normal;Weak;Yes Rain;Mild;Normal;Weak;Yes Sunny;Mild;Normal;Strong;Yes Overcast;Mild;High;Strong;Yes Overcast;Hot;Normal;Weak;Yes Rain;Mild;High;Strong;No Dòng thuộc tính phân loại cách dấu chấm phẩy “;”, cuối dòng tên kết phân loại Các dòng sau giá trị tương ứng thuộc tính tập giá trị mẫu, cuối dịng kết tập giá trị Lưu ý giá trị sau hay kết phân loại tập Yes No Dữ liệu đầu ra: Chương trình cần xuất đồ họa định dựa vào thuật tốn ID3, tính tốn Gain phải thực bước xác định thuộc tính thuộc tính phân loại tốt bước Chương trình Demo xây dựng tảng Microsoft Visual Studio 2008, sử dụng Net framework 3.5 nên yêu cầu máy phải cài đặt Net framework 3.5 để hoạt động Quá trình thực Mơn học : Cơng nghệ tri thức ứng dụng Trang 28 Dùng hàm load file để đọc thơng tin phân loại vào thuộc tính, giá trị bảng huấn luyện Hàm tính Entropy (làm trịn chữ số thập phân) cho thuộc tính với giá trị truyền vào số kết Yes, No: public double Entropy(int numY, int numN) { if (numN == || numY==0) return 0; double py = (double)numY / (double)(numY + numN); double pn = (double)numN / (double)(numY + numN); double e = -py * Math.Log(py, 2) - pn * Math.Log(pn, 2); e = Math.Round(e, 3); return e; } Hàm tính Gain cho thuộc tính: private double gain(DataTable samples, Attribute attribute) { mTotal = samples.Rows.Count; string[] values = attribute.values; double sum = 0.0; for (int i = 0; i < values.Length; i++) { int positives, negatives; positives = negatives = 0; getValuesToAttribute(samples, attribute, values[i], out positives, out negatives); double entropy = Entropy(positives, negatives); sum += -(double)(positives + negatives) / mTotal * entropy; } return Math.Round((entropySet + sum),3); Dựa vào hai hàm tính Entropy Gain thực bỏ thuộc tính vào nút Xuất kết chương trình Kết Mơn học : Công nghệ tri thức ứng dụng Trang 29 Môn học : Công nghệ tri thức ứng dụng Trang 30 Phần IV Tổng kết Đánh giá Qua tiểu luận em nắm kiến thức chung định để khai phá liệu Đã tìm hiểu thuật tốn ID3 dùng để tạo định cho vấn để đơn giản vấn đề cịn tồn khó khăn xây dựng định ID3 Về chương trình demo thực yêu cầu tốn, tính tốn giá trị dựa theo thuật tốn ID3 vẽ định từ tập liệu đưa vào Hướng phát triển Nghiên cứu sâu thuật toán khai phá liệu định Tìm hiểu kỹ vấn đề cịn tồn thuật tốn ID3 để đưa cách hạn chế giải bớt vấn đề Xây dựng chương trình xây dựng định từ liệu phức tạp Môn học : Công nghệ tri thức ứng dụng Trang 31 Tài liệu tham khảo Tài liệu tiếng Việt [1] GS TSKH Hồng Kiếm – Bài giảng cơng nghệ tri thức ứng dụng, Đại học Quốc gia TP Hồ Chí Minh [2] PGS.TS Đỗ Phúc, Bài giảng khai thác liệu, Đại học Quốc gia TP Hồ Chí Minh, 2007 [3] Đỗ Thành Nghị, Phạm Nguyên Khang – Hàm Entropy tổng quát cho giải thuật định, ĐH Cần Thơ, 2009 [4] Chu Anh Tiến, Xây dựng định ứng dụng thuật toán ID3 [5] Wikipedia - Bách khoa toàn thư mở - Cây định http://en.wikipedia.org/wiki/Decision tree Tài liệu tiếng Anh [6] Thomas, Data mining: Definittions and decision tree examples, State university of New York [7] Anand Bahety, Extension and Evaluation of ID3 – Decision Tree Algorithm, University of Maryland, College Park Môn học : Công nghệ tri thức ứng dụng Trang 32 ... liệu Trong thu hoạch em xin áp dụng thuật toán ID3 để xây dưng định Nội dung thu hoạch bao gồm : Phần : Cây định Phần : Xây dựng định thuật toán ID3 Phần : Xây dựng chương trình Demo Phần : Tổng... - Thuật toán ID3: thuật toán ID3, Quinlan khắc phục hạn chế thuật toán CLS (ID3 xem phiên cải tiến CLS) Thuật tốn làm việc có hiệu quả, cho kết tối ưu thuật tốn CLS Khi áp dụng thuật toán ID3. .. tập S Trong trình xây dựng định theo thuật toán ID3 bước triển khai cây, thuộc tính chọn để triển khai thuộc tính có giá trị Gain lớn Giải thuật ID3 Giải thuật ID3 xây dựng định trình bày sau:

Ngày đăng: 10/04/2015, 16:27

Từ khóa liên quan

Mục lục

  • Phần I . Cây quyết định

  • Phần II. Xây dựng cây quyết định bằng thuật toán ID3.

  • Phần III Xây dựng chương trình Demo

  • Phần IV Tổng kết

  • Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan