Giới thiệu về mô hình rừng ngẫu nhiên

27 1.4K 10
Giới thiệu về mô hình rừng ngẫu nhiên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô hình cây quyết định?Là mô hình phỏng đoán sử dụng một loạt quy tắc nhị phân để tính toán một giá trị nào đóCó hai kiểu cây quyết định: cây phân loại và cây quy hốiPhép quy hồi tính toán mối quan hệ giữa biến số dự đoán và biến số đáp lại tương ứng.Cấu trúc tương tự như cây phân loại.

Giới thiệu về mô hình rừng ngẫu nhiên GVHD: TS. Đặng Việt Hùng 1.Nguyễn Văn Long 2.Hoàng Xuân Khánh 3.Trần Trung Lý 4.Nguyễn Đình Ngọc Khoa 5.Lê Trung Dũng Thực hiện: Nhóm 5 – K8MCS Từ quan sát về 1 sự vật, hiện tượng Các kết luận Mô hình cây quyết định? • Là mô hình phỏng đoán sử dụng một loạt quy tắc nhị phân để tính toán một giá trị nào đó • Có hai kiểu cây quyết định: cây phân loại và cây quy hối Ví dụ cây phân loại Cây quyết định • Nút trong : tương ứng với 1 biến • Nhánh : trình bày cho dữ liệu thỏa mãn test • Nút lá : lớp (nhãn) Dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định (play/no) Cây quyết định cho tập dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy Chọn thuộc tính phân hoạch • Ở mỗi nút, các thuộc tính được đánh giá dựa trên phân tách dữ liệu học tốt nhất có thể • việc đánh giá dựa trên o độ lợi thông tin, information gain (ID3/C4.5) o chỉ số gini, gini index (CART) => Chọn thuộc tính có độ lợi thông tin lớn nhất Độ lợi thông tin • Độ lợi thông tin : thông tin được đo lường bằng bits o cho 1 phân phối xác suất, thông tin cần thiết để dự đoán 1 sự kiện là entropy • Công thức tính entropy: Chọn thuộc tính phân hoạch Ví dụ : thuộc tính outlook • “Outlook” = “Sunny”: Info([2,3] = entropy(2/5,3/5) = -2/5log(2/5) – 3/5log(3/5) = 0.971 bits • “Outlook” = “Overcast”: Info([4,0] = entropy(1,0) = -1log(1) – 0log(0) = 0 bits • “Outlook” = “Rainy” : Info([3,2] = entropy(3/5,2/5) = -3/5log(3/5) – 2/5log(2/5) = 0.971 bits Thông tin của thuộc tính outlook : Info([3,2],[4,0],[3,2]) = (5/14)*0.971 + 4/14*0 + 5/14*0.971 = 0.693 bits [...]... hiệu quả • Không thể dự đoán quá giới hạn nhỏ nhất và lớn nhất của biến số tương ứng trong dữ liệu đã được chọn (training data) Thế nào là rừng ngẫu nhiên ? • Là một lớp phân loại toàn thể sử dụng rất nhiều mô hình cây quyết định • • Có thể sử dụng phân loại hay quy hồi Tính chính xác, sự quan trọng của biến số và các thông tin khác được cung cấp kèm theo kết quả Rừng ngẫu nhiên hoạt động như thế nào?... dùng cho việc dự đoán lỗi Tại mỗi nút của cây, lựa chọn ngẫu nhiên m biến, tính toán để tìm biến phân hoạch dữ liệu tốt nhất Thông tin rừng ngẫu nhiên • • • • • Độ chính xác của việc phân loại Sự quan trọng của biến số Các đối tượng phía ngoài Dự đoán các dữ liệu bị mất Tỷ lệ lỗi đối với những đối tượng rừng phân loại Những ưu điểm của rừng ngẫu nhiên • • • • • Không cần đối tượng với những cây đã được... thiết lập các tham số Những hạn chế của rừng ngẫu nhiên • • Phép quy hồi không thể dự đoán quá ngưỡng những dữ liệu được chọn Trong phép quy hồi, những giá trị vượt quá thường không được dự đoán chính xác – hoặc là đánh giá quá thấp hoặc là đánh giá quá cao Những ứng dụng Viễn thám chung của rừng ngẫu nhiên • • • Phân loại lớp phủ đất Phân loại mây/bóng trên màn hình Lập bàn đồ sinh khối ... Những ưu điểm của mô hình cây quyết định • • Dễ dàng giải nghĩa các quy tắc quyết định Dễ dàng hợp nhất với một dãy các số hoặc các lớp dữ liệu tuyệt đối Không cần chọn dữ liệu trước (unimodal training data) • • Thô sơ nếu tính đến những những phần nằm ngoài dữ liệu chọn trước (training data) Phân loại là quy tắc nhanh duy nhất được sử dụng Những nhược điểm của mô hình cây quyết định • Mô hình cây dường... dụng Tập hợp con của các biến số • • • Một tập hợp con của các biến số được lựa chọn ngẫu nhiên để chia từng điểm nút Số lượng các biến số được dùng có thể do người sử dụng đặt ra hoặc tính toán bằng các thuật toán (thường là căn bậc 2 ) Tập biến nhỏ hơn thì xây dựng cây nhanh hơn Những biến số chung của rừng ngẫu nhiên • • • Dữ liệu đầu vào Số lượng cây Số lượng mỗi biến số sử dụng tại mỗi chổ chia . sát về 1 sự vật, hiện tượng Các kết luận Mô hình cây quyết định? • Là mô hình phỏng đoán sử dụng một loạt quy tắc nhị phân để tính toán một giá trị nào đó • Có hai kiểu cây quyết định: cây. Giới thiệu về mô hình rừng ngẫu nhiên GVHD: TS. Đặng Việt Hùng 1.Nguyễn Văn Long 2.Hoàng Xuân Khánh 3.Trần. (training data) • Phân loại là quy tắc nhanh duy nhất được sử dụng Những nhược điểm của mô hình cây quyết định • Mô hình cây dường như quá phù hợp (overfit) đối với những dữ liệu đã được chọn (training

Ngày đăng: 22/12/2014, 09:16

Từ khóa liên quan

Mục lục

  • Slide 1

  • Mô hình cây quyết định?

  • Ví dụ cây phân loại

  • Cây quyết định

  • Slide 6

  • Slide 7

  • Chọn thuộc tính phân hoạch

  • Độ lợi thông tin

  • Chọn thuộc tính phân hoạch

  • Ví dụ : thuộc tính outlook

  • Độ lợi thông tin

  • Độ lợi thông tin

  • Tiếp tục phân hoạch dữ liệu

  • Kết quả

  • Những ưu điểm của mô hình cây quyết định

  • Những nhược điểm của mô hình cây quyết định

  • Thế nào là rừng ngẫu nhiên ?

  • Rừng ngẫu nhiên hoạt động như thế nào?

  • Tập hợp con của các biến số

  • Những biến số chung của rừng ngẫu nhiên

Tài liệu cùng người dùng

Tài liệu liên quan