Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity

22 430 0
Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity

Nhóm: 2 Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity 1. Vấn đề “Overfitting” trong xây dựng cây tối đa. 2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp. 3. Tránh “overfitting” bằng phương pháp xác thực chéo 4. Lựa chọn cây tối ưu theo quy tắc 1SE (one standard error) Nội dung báo cáo  Quá khớp dữ liệu (overfitting) là hiện tượng cây quyết định chứa một số đặc trưng riêng của tập dữ liệu đào tạo, nếu lấy tập này để kiểm tra lại mô hình phân lớp thì độ chính xác sẽ rất cao nhưng đối với dữ liệu khác thì độ chính xác lại giảm.  Cho một không gian H, quá khớp với tập dữ liệu huấn luyện nếu tồn tại sao cho : ◦ h có tỉ lệ lỗi thấp hơn h’ với tập dữ liệu huấn luyện. ◦ h’ có tỉ lệ lỗi thấp hơn h với dữ liệu tổng quát. 1. Vấn đề “Overfitting”   Thống kê độ chính xác của cây quyết định  Do bộ dữ liệu test có nhiễu.  Số lượng dữ liệu đem đi huấn luyện quá ít  Dữ liệu huấn luyện chỉ nghiêng về một đặc trưng nào đó thôi chứ không bao quát toàn bộ các trường hợp Nguyên nhân quá khớp dữ liệu:  Cách giải quyết: ◦ Dừng phát triển cây trước khi đạt tới điểm phân lớp hoàn hảo tập dữ liệu, yêu cầu là phải ước lượng chính xác thời điểm dừng phát triển. ◦ Cho phép cây có thể “quá khớp” dữ liệu, sau đó sẽ cắt, tỉa cây  Trong thực tế ta sử dụng phương pháp 2, việc cắt tỉa cây giúp tổng quát hóa, cải thiện độ chính xác của mô hình phân lớp.  Kích thước bộ dữ liệu tăng sẽ dẫn đến tăng độ phức tạp của cây mặc dù nó không cải thiện được nhiều tỉ lệ phân loại sai. Phương pháp tránh “quá khớp” dữ liệu: Cắt tỉa cây tối đa  Cho cây con , độ phức tạp của cây là số node lá của cây T và tham số , ta có chi phí phức tạp R a (T) :  Ta cần tìm cây tối ưu sao cho:  T max không phải là điểm khởi đầu tốt để tính toán giá trị , ta sẽ lược bớt cây T max để thu được cây con T 1 có tỉ lệ lỗi R(T 1 ) = R(T max ) nhưng có độ phức tạp nhỏ hơn.   2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp       Lược bớt cây tối đa   Gọi T t là nhánh con bắt nguồn từ node cha t, ta định nghĩa R(T t ) là tỉ lệ lỗi resubstitution của nhánh:  là số node lá của nhánh T t  Nếu t không phải node cuối hay node nội bộ của cây T 1 , và tỉ lệ lỗi R(t) > R(T t ) chúng ta có thể thay thế nhánh T t bằng node t để tăng tỉ lệ lỗi resubstitution Tăng tỉ lệ lỗi resubstitution:  t  [...].. .Cắt tỉa liên kết yếu nhất  Ta định nghĩa hàm liên kết g(t) cho 1 node   :      Liên kết yếu nhất trong T1 là của node có:  là giá trị tham số phức tạp cho cây con tỉa   ký hiệu là α 2 Cây   ký hiệu là T2    Quá trình này được lặp lại cho đến khi được cây Tn chỉ còn node gốc ta có các chuỗi cây     và các giá trị tăng dần   Quá trình tỉa cây 3 Phương pháp xác thực chéo (Cross-validation)... trị α sẽ được tính toán dựa trên phương pháp xác thực chéo Phương pháp xác thực chéo  Dữ liệu sẽ được chia thành V phần bằng nhau  V- 1 tập con sẽ được dùng để xây dựng cây phân loại, tập còn lại dùng để test  Quá trình được lặp lại N lần Bước 1: (Cross-validation)  Xây dựng cây trên tập dữ liệu đầy đủ và tính các giá trị     Đặt : và T1> T2 > … > TK , Tk là cây con nhỏ nhất với     ◦ ◦ ◦ là... ứng là cây tốt nhất  Sử dụng lỗi tính được bằng phương pháp xác thực chéo như một ước tính tỉ lệ lỗi cho cây Ví dụ:  β2 có giá trị nhỏ nhất với 40 lỗi nên cây T2 được chọn  Tỉ lệ lỗi tính đươc trên T2 là 20% Sự bất ổn trong lựa chọn cây tối ưu  Với một số bộ dữ liệu cách tỉa cây con bằng tối thiểu là không ổn định    Những thay đổi nhỏ trong giá trị tham số hay dữ liệu cho mỗi lần xác thực chéo... (kích thước bằng nhau) và cho mỗi nhóm Gj:   ◦ Tính toán chuỗi cây với cost-complexity pruning cho tất cả tập dữ liệu trừ G j và xác định ◦ Tính sai số của trên Gj   cho chuỗi này Bước 3: (Cross-validation)  Đối với mỗi β , tính tổng các lỗi của trên G (j =1,…,v)   k j  Cho βh là giá trị có tổng lỗi nhỏ nhất, ta sẽ chọn Th tương ứng là cây tốt nhất  Sử dụng lỗi tính được bằng phương pháp xác thực... Tfinal rất khác nhau  Ta sử dụng quy tắc 1SE để giảm sự bất ổn trong việc lựa chọn cây cuối cùng Kết quả khi chưa sử dụng quy tắc 1SE Quy tắc 1SE (one standard error)  Gọi N tổng số trường hợp trong dữ liệu gốc Ước tính sai số chuẩn cho được định nghĩa:      Việc lựa chọn Tfinal theo quy tắc 1SE phải thỏa mãn:   Lựa chọn bằng quy tắc 1SE . 2 Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity 1. Vấn đề “Overfitting” trong xây dựng cây tối đa. 2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp. 3. Tránh “overfitting” bằng. sai. Phương pháp tránh “quá khớp” dữ liệu: Cắt tỉa cây tối đa  Cho cây con , độ phức tạp của cây là số node lá của cây T và tham số , ta có chi phí phức tạp R a (T) :  Ta cần tìm cây tối ưu. bớt cây T max để thu được cây con T 1 có tỉ lệ lỗi R(T 1 ) = R(T max ) nhưng có độ phức tạp nhỏ hơn.   2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp       Lược bớt cây tối đa   Gọi

Ngày đăng: 12/08/2015, 23:22

Từ khóa liên quan

Mục lục

  • Slide 1

  • Nội dung báo cáo

  • Vấn đề “Overfitting”

  • Thống kê độ chính xác của cây quyết định

  • Nguyên nhân quá khớp dữ liệu:

  • Phương pháp tránh “quá khớp” dữ liệu:

  • Cắt tỉa cây tối đa

  • 2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp

  • Lược bớt cây tối đa

  • Tăng tỉ lệ lỗi resubstitution:

  • Cắt tỉa liên kết yếu nhất

  • Quá trình tỉa cây

  • 3 Phương pháp xác thực chéo (Cross-validation)

  • Phương pháp xác thực chéo

  • Bước 1: (Cross-validation)

  • Bước 2: (Cross-validation)

  • Bước 3: (Cross-validation)

  • Ví dụ:

  • Sự bất ổn trong lựa chọn cây tối ưu

  • Kết quả khi chưa sử dụng quy tắc 1SE

Tài liệu cùng người dùng

Tài liệu liên quan