Ly thuyet ve kNN (1)

5 12 0
  • Loading ...
1/5 trang

Thông tin tài liệu

Ngày đăng: 27/11/2018, 19:56

THUẬT TỐN k-NEAREST NEIGHBOR(k-NN) k-NN ? a Thuật toán k-NN( k-Nearest Neighbor): Thuật toán láng giềng gần Thuật toán k-NN thuật toán dành cho máy học Nó làm việc dựa khoảng cách nhỏ từ Object dự đoán đến mẫu training để xác định khàng xóm gần Sau thuật tốn dựa k-hàng xóm gần đưa dự đoán cho Object cần dự đoán Thuật toán k-NN làm việc ? i Bước 1: Xác định tham số k = số láng giềng gần ii Bước 2: Tính tốn khoảng cách mẫu thử mẫu training iii Bước 3: Sắp xếp khoảng cách xác định k khoảng cách nhỏ nhât iv Bước 4: Thu thập giá trị thuộc tính k láng giềng gần Bước 5: Sử dụng giá trị trung bình k láng giềng gần để phán đoán giá trị Object phán đoán Hàng xóm gần (cơ bản) Các hàng xóm gần (NN) thuật toán đơn giản áp dụng tương tự (hoặc khoảng cách) cho mục đích phân loại NN dự đoán lớp tài liệu cách sử dụng lớp tài liệu gần từ việc xác lập Bởi lớp sử dụng lớp ví dụ từ tập phiên thuật toán gọi One-gần Hàng xóm (1-NN) Trang 13 Hàng xóm gần (tiếp) Độ đo tương tự (Gần gũi) đo khoảng cách tối thiểu tối đa giống Phương pháp phổ biến sử dụng khuôn khổ TFIDF đại diện cho tài liệu test tài liệu training tính tốn giống (cosin) vectơ tài liệu Trang 14 Trang 15 Trong bảng trên: 19 tài liệu làm Training, “Theatre” Testing, cân phân lớp Hàng xóm gần (thảo luận) K=1; "Tư pháp" hay Justice xếp hạng 1, đó, lớp 'Nhà hát " hay “Theatre” dự đoán lớp B dự đoán () Tuy nhiên "Tư pháp" -Theatre có thuộc tính khác khơng, mà Trên thực tế sản xuất dự báo Điều thuật ngữ này? Sử dụng k> Nếu k = sau dự đốn B lại (đa số (B, A, B)) Nếu k = sau dự báo phần lớn (của (B, A, B, A, A)) Làm k = 7, 9, ? Sai phương pháp tiếp cận chúng tơi lấy phiếu từ tài liệu tương tự "Nhà hát" Trang 16 Hàng xóm gần (thảo luận) (tiếp) Giải pháp Sử dụng 1-NN (phiên phổ biến NN) Sử dụng khoảng cách trọng k-NN Trang 17 24 tháng 11 năm 2009 17 Khoảng cách gần Weighted Neighbor Trọng lượng phiếu với giống (hoặc khoảng cách) tài liệu từ thiết lập để đào tạo tài liệu phân loại Thay thêm cho nhãn thêm nhiệm kỳ tỉ lệ thuận với giống nhau, ví dụ tương tự sim ( X , Y ) / (1 - sim ( X , Y )) / (1 - sim ( X , Y ))2 Trang 18 Khoảng cách gần Weighted Neighbor (tiếp) Khoảng cách trọng 3-NN (với tương tự) dự đốn B cho "Nhà hát" vì: Trọng lượng cho A ( "Nhân học") A = 0,695979 Trọng lượng cho B ( "Tư pháp" "Truyền thông") B = 0.967075 + 0.605667 = 1.572742 Trang 19 K – nearest neighbors Input: - Tập liệu dùng training (word.train) có cấu trúc sau: Mỗi dòng biểu diễn tài liệu, số đầu dòng biểu diễn lớp văn đó, kí tự danh sách phần tử khác vector biểu diễn văn bản, có dạng :, chẳng hạn: 613:1, từ theo thứ tự tăng dần từ điển Ví dụ: từ điển có 10 từ Văn thứ có biểu diễn: 5:1 6:1 8:1 10: Khi đó, vector d1=(0,0,0,0,1,1,0,1,0,1) - Tập liệu dùng để test (word.test) có cấu trúc giống tệp training Chỉ khác đọc liệu để test khơng đọc số Output: - Đưa kết luận văn tệp word.test thuộc lớp nào? Thuật toán: Ý tưởng: Giải thuật phân loại đối tượng dựa vào tập ví dụ mẫu Tìm k đối tượng gần nhất, phân lớp vào lớp đối tượng có nhiều phần tử k phần tử Bước Chọn K = số láng giềng gần (K=1,3, 5, 9,…) Bước Tính khoảng cách ngắn vector văn xét với tất vector tập training theo công thức đo độ tương tự: - Độ đo Cosine: Trong đó: x,y vector biểu diễn, xi, yi thành phần vector - Độ đo Euclid: Trong đó, n số thành phần vector - Độ đo Jaccard: Trong đó, j vị trí mà d1[j] và/hoặc d2[j] =1 T(d) tập term xuất tài liệu d Bước - Sắp xếp khoảng cách chọn K láng giềng gần nhất, dựa khoảng cách: + Cosine, Jaccard: lớn tốt + Euclid: nhỏ tốt - Đưa nhãn lớp phần tử mới, cách chọn nhãn đa số k nhãn k láng giềng gần Đánh giá - Độ xác (precision): - Độ recall Recall=1-precision ... ngắn vector văn xét với tất vector tập training theo công thức đo độ tương tự: - Độ đo Cosine: Trong đó: x,y vector biểu diễn, xi, yi thành phần vector - Độ đo Euclid: Trong đó, n số thành phần vector... khác vector biểu diễn văn bản, có dạng :, chẳng hạn: 613:1, từ theo thứ tự tăng dần từ điển Ví dụ: từ điển có 10 từ Văn thứ có biểu diễn: 5:1 6:1 8:1 10: Khi đó, vector... biến sử dụng khuôn khổ TFIDF đại diện cho tài liệu test tài liệu training tính tốn giống (cosin) vectơ tài liệu Trang 14 Trang 15 Trong bảng trên: 19 tài liệu làm Training, “Theatre” Testing, cân
- Xem thêm -

Xem thêm: Ly thuyet ve kNN (1), Ly thuyet ve kNN (1)

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay