Tiểu luận môn hệ hỗ trợ quyết định MÔ HÌNH CÂY QUYẾT ĐỊNH DECISION TREE

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Tiểu luận môn: Hệ hỗ trợ ra quyết định MÔ HÌNH CÂY QUYẾT ĐỊNH DECISION TREE GVHD: TS Đỗ Phúc Nhóm thực hiện: Nguyễn Thị Kim Anh – CH1301078 Nguyễn Phương Thanh Diệu – CH1301085 TPHCM – 06/2014 Nội dung Hệ Hỗ Trợ Ra Quyết Định - 2014 2 LỜI GIỚI THIỆU Cây quyết định là một phương pháp phân lớp thuộc nhóm học có giám sát (supervised learning) như: dựa trên luật (rule-based), mạng Bayes (naïve Bayes), mạng nơron, SVM,… • Ứng dụng của cây quyết định dùng trong phân lớp dự đoán như: • Dự báo thời tiết (dự báo trời nắng, mưa hay âm u,…) dựa trên một số yếu tố nhiệt độ, sức gió, độ ẩm,… • Dự báo trong kinh doanh (doanh số tháng tới sẽ tăng hay giảm) dựa các yếu tố chỉ số tiêu dùng, yếu tố xã hội, sự kiện,… • Tín dụng ngân hàng (khả năng chi trả tín dụng của khách hàng khi vay mượn) • Thị trường chứng khoán (giá vàng, cổ phiếu sẽ tăng hay giảm) Cấu trúc của một cây quyết định bao gồm các nút và các nhánh. Nút dưới cùng được gọi là nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tắt là nhãn). Các nút khác nút lá được gọi là các nút con, đây còn là các thuộc tính của tập dữ liệu, hiển nhiên các thuộc tính này phải khác thuộc tính phân lớp. Mỗi một nhánh của cây xuất phát từ một nút p nào đó ứng với một phép so sánh dựa trên miền giá trị của nút đó. Đối với phương pháp ước lượng có tham số,việc định nghĩa mô hình dựa trên tất cả không gian đầu vào và học tất cả các tham số từ tập dữ liệu huấn luyện. Sau đó chúng ta dùng mô hình xây dựng được với những tham số ban đầu để áp dụng cho bất kỳ tập dữ liệu cần kiểm tra nào. Đối với phương pháp ước lượng không tham số, chúng ta chia tập không gian đầu vào thành hai tập được định nghĩa dựa trên đọ dô như Euclid. Một cây quyết định gồm có phần nút decision node và terminal leaves.Với mỗi decision node m khai báo một hàm kiểm tra fm(x) với tập kết quả rời rạc đánh nhãn các nhánh con.Với mỗi node thì đầu vào việc kiểm tra và phân nhánh phụ thuộc và kết quả trả về. Quá trình kiểm tra bắt đầu từ node gốc và được lặp lại đệ qui cho đến khi gặp node lá thì dừng. Mỗi hàm fm(x) định nghĩa một biệt số trong không gian đầu vào d- chiều thình những tập nhỏ hơn được phân nhánh từ gốc xuống. fm(.) đơn giản khi được viết ra dưới dạng Hệ Hỗ Trợ Ra Quyết Định - 2014 3 cây và là hàm phức tạp khi phân rã thành chuỗi các quyết định đơn giản từ cây hiện tại. Các phương pháp cây quyết định khác nhau sử dụng các mô hình khác nhau cho hàm fm(.).Cây quyết định sau khi được học có thể biểu diễn lại dưới dạng luật if-then để tăng khả năng dễ đọc. 1. Giới thiệu về cây quyết định: Trong lý thuyết về quyết định, Cây quyết định là một công cụ hỗ trợ quyết định sử dụng dạng cây như một đồ thị hoặc mô hình các quyết định, dự báo những kết quả (lợi ích, rủi ro, hao phí tài nguyên) cũng như những cơ hội… Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Trong data mining, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Có 2 loại hình cây quyết định: Cây hồi quy (Regression tree): ước lượng các hàm có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại. Ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện Cây phân loại (Classification tree): nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đâu (thắng hay thua). Một vài hình ảnh của cây quyết định: Hệ Hỗ Trợ Ra Quyết Định - 2014 4 Cây quyết định đơn giản. Cây quyết định cho chiến lược nghiên cứu dự án kinh doanh. Trong bài này giới thiệu chính về cây quyết định với vai trò phân lớp dữ liệu dựa trên các thuộc tính đầu vào, việc phân lớp này có thể được giải quyết với nhiều kỹ thuật khác nữa như: mạng nơ ron, SVM. Cây quyết định được ứng dụng rộng rãi trong nhiều lĩnh vực như: tài chính, marketing, kỹ thuật, y học. Chi tiết về cây quyết định: Cây quyết định là một cấu trúc phân cấp được thể hiện dưới dạng đồ thị cây với các nút và các nhánh: - Nút gốc: không có cạnh nào tới nó. - Nút nội bộ: mang tên thuộc tính của CSDL - Các nút lá đại diện cho các phân lớp - Các đường nối các nút đại diện cho các kết hợp của các thuộc tính dẫn tới phân lớp đó.(mô tả tình huống rẽ nhánh) Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp của nó (cho tập dữ liệu huấn luyện cùng với lớp tương ứng), cây quyết định sẽ sinh ra các luật Hệ Hỗ Trợ Ra Quyết Định - 2014 5 để dự đoán lớp của các đối tượng chưa biết. Kích thước cây: kích thước cây chính là độ phức tạp của 1 cây, theo [Breiman et al. (1984)] độ phức tạp của 1 cây thì ảnh hưởng nhiều tới độ chính xác của cây đó, cây càng phức tạp thì độ chính xác càng cao. Và độ phức tạp của cây thường được đánh giá qua các chi tiết: tổng số node, tổng số nút lá, độ sâu của cây, số lượng thuộc tính sử dụng. Trích rút luật từ cây quyết định: Tri thức biểu diễn trong cây quyết định có thể được rút ra và biểu diễn dưới hình thức của quy tắc phân lớp IF-THEN. Một quy tắc được tạo ra thay thế cho một đường dẫn tới một nút lá. Mỗi một cặp thuộc tính-giá trị theo một hướng đi cụ thể hình thành phần đầu của quy tắc (phần “IF”). Nút lá chứa lớp dự đoán, hình thành phần sau của quy tắc (phần “THEN”). Quy tắc IF-THEN có thể làm cho người đọc dễ hiểu, đặc biệt trong trường hợp cây lớn. 2. Phát triển một cây quyết định 2.1. Tập huấn luyện Dữ liệu huấn luyện được cho dưới dạng n mẫu hay n ví dụ huấn luyện, mỗi ví dụ có dạng(xi, yi), trong đó xi là véctơ các thuộc tính và yi là giá trị nhãn phân loại. Ví dụ biểu diễn một tập dữ liệu huấn luyện. Các thuộc tính tham gia vào quá trình phân lớp thông thường có các giá trị liên tục hay còn gọi là kiểu số (ordered or numeric values) hoặc kiểu rời rạc hay còn gọi là kiểu dữ liệu phân loại (unordered or category values). 2.2. Bài toán phân lớp: Mục đích: để dự đoán những nhãn phân lớp cho các bộ dữ liệu/mẫu mới. Đầu vào: một tập các mẫu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu. Đầu ra: mô hình (bộ phân lớp) dựa trên tập huấn luyện và những nhãn phân lớp Học bằng cây quyết định là phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Hệ Hỗ Trợ Ra Quyết Định - 2014 6 2.3. Xây dựng cây quyết định: Giải thuật học cây quyết định gồm 2 bước lớn: xây dựng cây (Top-down) (có nhiều thuật toán xây dựng cây như: ID3 [Quin-lan (1986)],C4.5 [Quinlan (1993)],CART [Breiman et al. (1984)]), cắt nhánh (Bottom-up) để tránh học vẹt. Quá trình xây dựng cây được làm như sau: - Việc xây dựng cây quyết định được tiến hành một cách đệ qui, lần lượt từ nút gốc xuống tới tận các nút lá. Tại mỗi nút hiện hành đang xét, nếu kiểm tra thấy thoả điều kiện dừng: thuật toán sẽ tạo nút lá. Nút này được gán một giá trị của nhãn lớp tùy điều kiện dừng được thoả. Ngược lại, thuật toán tiến hành chọn điểm chia tốt nhất theo một tiêu chí cho trước, phân chia dữ liệu hiện hành theo điều kiện chia này. - Lưu ý dữ liệu hiện hành không phải hoàn toàn là tập dữ liệu ngay khi bắt đầu thuật toán, có thể là tập dữ liệu đã được phân chia theo điều kiện chia của nút liền trước đó (nút cha). - Sau bước phân chia trên, thuật toán sẽ lặp qua tất cả các tập con (đã được chia) và tiến hành gọi đệ qui như bước đầu tiên với dữ liệu chính là các tập con này. Quá trình xây dựng cây chủ yếu phụ thuộc vào việc chọn thuộc tính tốt nhất để phân hoạch dữ liệu. 2.4. Điều kiện dừng: Quá trình đệ quy xây dựng cây quyết định được tiếp tục thực hiện cho đến khi gặp một trong các điều kiện dừng: - Mọi các mẫu trong tập huấn luyện đều được phân lớp. - Không còn thuộc tính nào có thể dùng để phân chia mẫu nữa. - Không còn lại mẫu nào tại nút. 3. Đánh giá cây phân lớp: 3.1. Giới thiệu: Một vấn đề quan trọng trong quá trình khai thác hệ thống thông tin là việc đánh giá chất lượng của các kết quả phân tích. Trong chương này, chúng tôi giới thiệu các khái niệm chính vả các chỉ tiêu đánh giá chất lượng trong việc đánh giá cây quyết định. Hệ Hỗ Trợ Ra Quyết Định - 2014 7 Đánh giá hiệu suất của một cây phân loại là vấn đề cơ bản trong máy học. Như đã nêu ở trên, cây quyết định có tham số đầu vào là tập huấn luyện, từ đó xây dựng cây phân lớp để phân loại dữ liệu vào các lớp. Cây quyết định và cây phân lớp đều được đánh giá bằng một số tiêu chuẩn đánh giá. Việc đánh giá này rất quan trọng để đánh giá được chất lượng cây phân lớp. Từ đó xác định lại các tham số phù hợp trong quá trình khai thác dữ liệu. Các tiêu chuẩn đánh giá được chia làm 3 loại: hiệu suất phân loại, độ phức tạp tính toán, tính dễ hiểu của cây phân lớp. 3.2. Các phương pháp đánh giá mô hình phân lớp: Ước lượng độ chính xác của cây phân lớp rất quan trọng, nó cho phép dự đoán được độ chính xác của các kết quả phân lớp những dữ liệu tương lai. Độ chính xác còn giúp so sánh các mô hình phân lớp khác nhau. Có 2 phương pháp đánh giá phổ biến là holdout và k-fold cross-validation. Cả 2 kỹ thuật này đều dựa trên các phân hoạch ngẫu nhiên tập dữ liệu ban đầu. Trong phương pháp holdout, dữ liệu đầu vào được phân chia ngẫu nhiên thành phần là: tập dữ liệu đào tạo và tập dữ l iệu kiểm tra. Thông thường 2/3 dữ liệu cấp cho tập dữ liệu đào tạo, phần còn lại cho tập dữ liệu kiểm tra. Trong phương pháp k-fold cross validation tập dữ liệu ban đầu được chia ngẫu nhiên thành k tập con (fold) có kích thước xấp xỉ nhau S1, S2, …, Sk. Quá trình học và test được thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ liệu kiểm tra, các tập còn lại hợp thành tập dữ liệu đào tạo. Có nghĩa là, đầu tiên việc huấn luyện được thực hiện trên các tập S2, S3…, Sk, sau đó test trên tập S1; tiếp tục quá trình dạy được thực hiện trên Hệ Hỗ Trợ Ra Quyết Định - 2014 8 tập S1, S3, S4,…, Sk, sau đó test trên tập S2, và cứ thế tiếp tục. Độ chính xác là toàn bộ số phân lớp đúng từ k lần lặp chia cho tổng số mẫu của tập dữ liệu ban đầu. 3.2.1. Một số khái niệm: Một số chỉ số thông dụng được dùng để đánh giá một giải thuật máy học, hay cụ thể là để đánh giá một bộ phân loại hai lớp tạm gọi là dương và âm: - Số đúng dương (TP- True positive): số phần tử dương được phân loại dương - Số sai âm (FN - False negative): số phần tử dương được phân loại âm - Số đúng âm (TN- True negative): số phần tử âm được phân loại âm - Số sai dương (FP - False positive): số phần tử âm được phân loại dương 3.2.2. Một số độ đo: Các độ đo đánh giá thường được áp dụng là: precision, recall và f-measure Precision là độ đo tính chính xác và đúng đắn của việc phân loại. - Độ chính xác (Precision) = TP/(TP + FP) Hệ Hỗ Trợ Ra Quyết Định - 2014 9 Recall là độ đo tính toàn vẹn của việc phân lớp - Độ đo tính toàn vẹn (Recall) = TP/(TP + FN) Mặc dù precision và recall là những độ đo được dùng rộng rãi và phổ biến nhất, nhưng chúng lại gây khó khăn khi phải đánh giá các bài toán phân loại vì hai độ đo trên lại không tăng/giảm tương ứng với nhau. Bài toán đánh giá có recall cao có thể có precision thấp và ngược lại. Hơn nữa, việc so sánh mà chỉ dựa trên một mình precision và recall không phải là một ý hay. Với mục tiêu này, độ đo F- measure được sử dụng để đánh giá tổng quát các bài toán phân loại. F-measure là trung bình điều hoà có trọng số của precision và recall và có công thức: Nếu B càng cao thì sẽ tác động mạnh tới hệ số Recall, B càng thấp thì sẽ tác động mạnh tới hệ số Precision, giá trị B thường dùng là 0.5 3.2.3. Ví dụ minh họa: Hệ Hỗ Trợ Ra Quyết Định - 2014 10 [...]... trong cây quyết định là một ứng viên (không tính node lá) Node bị cắt đi nếu làm tăng độ chính xác của cây quyết định trên tập đánh giá • Lặp cho tới khi độ chính xác của phần đánh giá giảm thì dừng Hệ Hỗ Trợ Ra Quyết Định - 2014 15 4.3.2 Cắt tỉa theo luật (Rule Post-Pruning) Phương pháp cắt tỉa như sau: • • Phát triển cây quyết định hoàn toàn phù hợp với tập huấn luyện Chuyển biểu diễn cây quyết định. .. liệu: Hệ Hỗ Trợ Ra Quyết Định - 2014 13 Có hai cách tránh “quá khớp” dữ liệu trong cây quyết định: - Ngừng phát triển cây sớm hơn bình thường, trước khi đạt tới điểm phân lớp hoàn hảo tập dữ liệu đào tạo Với phương pháp này, một thách thức đặt ra là phải ước lượng chính xác thời điểm dừng phát triển cây 4.3 Cho phép cây có thể “quá khớp” dữ liệu, sau đó sẽ cắt, tỉa cây Các thuật toán cắt tỉa cây: Mặc... Outlook=sunny) THEN (Play = No ) 3.IF( Humidity=high) THEN (Play = No ) Hệ Hỗ Trợ Ra Quyết Định - 2014 16 Ưu điểm của việc chuyển cây quyết định sang luật: • Phân biệt giữa những ngữ cảnh khác nhau ở những node của cây quyết định được dùng • Loại bỏ đi điểm khác biệt giữa những thuộc tính kiểm tra xảy ra gần o node gốc của cây và xảy ra gần node lá của cây • Cải thiện tính dễ đọc 4.3.3 Một vài phương pháp khác:... tập dữ liệu rèn luyện này, giải thuật ID3 sẽ học một cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập này, đồng thời hy vọng trong tương lai, nó cũng sẽ phân loại đúng các ví dụ không nằm trong tập này Một cây quyết định ví dụ mà giải thuật ID3 có thể quy nạp được là: Hình 6.2.2 Cây quyết định thuật toán ID3 • Các nút trong cây quyết định biểu diễn cho một sự kiểm tra trên một thuộc tính... của thuộc tính đó tương ứng với một nhánh của cây Các nút lá thể hiện sự phân loại của các ví dụ thuộc nhánh đó, hay chính là giá trị của thuộc tính phân loại • Sau khi giải thuật đã quy nạp được cây quyết định, thì cây này sẽ được sử dụng để phân loại tất cả các ví dụ hay thể hiện (instance) trong tương lai Và cây quyết Hệ Hỗ Trợ Ra Quyết Định - 2014 20 định sẽ không thay đổi cho đến khi ta cho thực... có cây quyết định thì chưa thể rút trích tập luật, vì vậy nút “Rút trích luật” sẽ bị mờ đi KẾT LUẬN: • • Cây quyết định giải quyết bài toán trong mô hình dự đoán dựa trên tập dữ liệu Các thuộc tính được lựa chọn để phân tách tập đối tượng được chọn dựa trên các độ đo để tìm ra thuộc tính phân tách tốt nhất • Xây dựng cây phân lớp và hồi quy dựa vào các thuộc tính đã được chọn • Cắt tỉa giúp cây quyết. .. cao nhất trong nhánh Nắng -> ta chọn thuộc tính Độ ẩm làm nút kế tiếp … o Tương tự như vậy đối với nhánh còn lại của cây quyết định ta được cây quyết định hoàn chỉnh như sau Hệ Hỗ Trợ Ra Quyết Định - 2014 23 Với việc tính toán giá trị Gain để lựa chọn thuộc tính tối ưu cho việc triển khai cây, thuật toán ID3 được xem là một cải tiến của thuật toán CLS Tuy nhiên thuật toán ID3 không có khả năng xử lý đối... dùng thử nghiệm quá trình phân lớp (sau khi đã có cây và rút trích luật, có tiếp đầu ngữ data_) gồm: 02_data_210_rows_en.xlsx 02_data_1050_rows_en.xlsx Hệ Hỗ Trợ Ra Quyết Định - 2014 25 03_data_320_rows_vi.xlsx 2 Giới thiệu chương trình: Vùng 1: Cây quyết định được xây dựng Vùng 2: Dữ liệu huấn luyện load vào từ file để tạo cây, và vùng này cũng là chỗ hiển thị kết quả sau khi tiến hành phân lớp Vùng... trình tải tập tin đào tạo xong sẽ hiển thị dữ liệu đào tạo ở Vùng 2 (hình tổng quan ở trên), sau đó thực hiện tạo cây quyết định bằng 1 trong 2 thuật toán ID3 hoặc C4.5 Hệ Hỗ Trợ Ra Quyết Định - 2014 26 Bước 3: Thực hiện rút trích luật từ cây đã tạo ở trên bằng cách nhấn extract Tập luật rút trích được sẽ được hiển thị dưới Vùng 3 (hình tổng quan ở trên) Bước 4: Tải vào tập tin cần phân lớp (có tiếp... được từ một thử nghiệm thống kê Hệ Hỗ Trợ Ra Quyết Định - 2014 18 • CHAID xử lý các giá trị bị thiếu bằng cách xem tất cả như là cùng một thể loại CHAID không thực hiện cắt tỉa 5.2 Ví dụ minh họa thuật toán cây quyết định dựa trên thuật toán ID3 Chúng ta hãy xét bài toán phân loại xem ta có đi chơi tennis ứng với thời tiết nào đó không Giải thuật ID3 sẽ học cây quyết định từ tập hợp các ví dụ sau: Quang . ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Tiểu luận môn: Hệ hỗ trợ ra quyết định MÔ HÌNH CÂY QUYẾT ĐỊNH DECISION TREE GVHD: TS Đỗ Phúc Nhóm thực hiện: Nguyễn Thị Kim Anh. đọc. 1. Giới thiệu về cây quyết định: Trong lý thuyết về quyết định, Cây quyết định là một công cụ hỗ trợ quyết định sử dụng dạng cây như một đồ thị hoặc mô hình các quyết định, dự báo những kết. phân loại đó. Hệ Hỗ Trợ Ra Quyết Định - 2014 6 2.3. Xây dựng cây quyết định: Giải thuật học cây quyết định gồm 2 bước lớn: xây dựng cây (Top-down) (có nhiều thuật toán xây dựng cây như: ID3 [Quin-lan

Tiểu luận môn hệ hỗ trợ quyết định MÔ HÌNH CÂY QUYẾT ĐỊNH DECISION TREE

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI GIỚI THIỆU

1. Giới thiệu về cây quyết định:

2. Phát triển một cây quyết định

2.1. Tập huấn luyện

2.2. Bài toán phân lớp:

2.3. Xây dựng cây quyết định:

2.4. Điều kiện dừng:

3. Đánh giá cây phân lớp:

3.1. Giới thiệu:

3.2. Các phương pháp đánh giá mô hình phân lớp:

3.2.1. Một số khái niệm:

3.2.2. Một số độ đo:

3.2.3. Ví dụ minh họa:

3.3. Độ phức tạp tính toán

3.4. Tính dễ hiểu:

3.5. Khả dụng với các nguồn dữ liệu đồ sộ:

3.6. Tính mạnh của hệ thống:

3.7. Tính ổn định:

4. Cắt tỉa cây:

4.1. Quá khớp dữ liệu

4.2. Phương pháp tránh quá khớp dữ liệu:

4.3. Các thuật toán cắt tỉa cây:

4.3.1. Cắt tỉa để giảm lỗi (Reduced error pruning)

4.3.2. Cắt tỉa theo luật (Rule Post-Pruning)

4.3.3. Một vài phương pháp khác:

Tài liệu cùng người dùng

Tài liệu liên quan