GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC

17 410 0
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA  TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ  PHÂN CỤM HAC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Khoa Công nghệ Thông tin BÁO CÁO NIÊN LUẬN Tên đề tài: GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC Sinh viên thực hiện: Phạm Huyền Trang – K52CHTTT Giáo viên hướng dẫn: PGS.TS Hà Quang Thụy Ths Trần Mai Vũ Hà Nội, 05/2011 1MỤC LỤC I. Đặt vấn đề 3 II. Phát biểu bài toán

TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Khoa Cơng nghệ Thơng tin BÁO CÁO NIÊN LUẬN Tên đề tài: GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC Sinh viên thực hiện: Phạm Huyền Trang – K52CHTTT Giáo viên hướng dẫn: PGS.TS Hà Quang Thụy Ths Trần Mai Vũ Hà Nội, 05/2011 MỤC LỤC I Đặt vấn đề II Phát biểu tốn III Tóm tắt sở lý thuyết III.1 Một số nội dung phân lớp bán giám sát III.1.1 Học bán giám sát III.1.2 Phân lớp bán giám sát III.1.3 Các phương pháp phân lớp bán giám sát điển hình III.2 Phương pháp luận SVM-KNN dựa học bán giám sát III.2.1 Thuật toán máy vector hỗ trợ (SVM) III.2.2 Thuật toán K người láng giềng gần (kNN) III.2.3 Phương pháp phân lớp bán giám sát SVM-kNN IV Phương pháp đề xuất 11 IV.1 Phương pháp đề xuất 11 IV.2 Mơ hình 12 IV.3 Dự kiến kết đạt 13 V Kết luận 13 Tài liệu tham khảo 15 I Đặt vấn đề Khai phá quan điểm dựa đặc trưng (Feature based Opinion Mining: FOM) toán quan trọng lĩnh vực khai phá quan điểm [5,14,18] Bài toán tìm đến mức câu để phát đặc trưng sản phẩm, tạo tổng kết quan điểm đặc trưng Tuy nhiên, đánh giá người dùng mạng thường chứa yếu tố khơng chuẩn [15] Nói riêng, văn đánh giá sản phẩm, khách hàng thường sử dụng từ cụm từ khác để nhắc đến đặc trưng sản phẩm Ví dụ, miền sản phẩm điện thoại “kiểu dáng” “kiểu cách” đến đặc trưng “kiểu dáng” Do đó, để tạo tổng kết có ý nghĩa, từ cụm từ đồng nghĩa cần nhóm vào nhóm đặc trưng Bài tốn gom nhóm đặc trưng đồng nghĩa nhận nhiều quan tâm giới Có nhiều cơng trình nghiên cứu nhằm tìm phương án tối ưu để giải toán, chẳng hạn [7,10,17] Zhongwu Zhai, cộng sự, 2010 [17] đề xuất phương pháp học bán giám sát có ràng buộc mềm để giải tốn gom nhóm đặc trưng sản phẩm Các ràng buộc mềm có sử dụng đến từ điển đồng nghĩa Việc tạo ràng buộc mềm có hai ưu điểm: Một là, hai ràng buộc tạo mẫu nhãn mềm (soft-labeled examples) chúng đưa vào tập huấn luyện nhằm làm giàu tập huấn luyện Hai là, trường hợp ràng buộc mềm gán sai nhãn hạn chế từ điển đồng nghĩa mang lại phân lớp bán giám sát phép thay đổi nhãn Xx (gioi thieu them khoang 4-5 dong ve 17) Các tác giả tiến hành thực nghiệm đánh giá từ miền khác nhau, kết đạt cho thấy phương pháp gom nhóm đặc trưng sử dụng học bán giám sát hiệu Thực nghiệm liệu, độ đo purity thuộc khoảng 0.66-0.70 độ đo accuracy thuộc khoảng 0.67-0.71 Tại Việt Nam, nay, chưa có cơng trình nghiên cứu sâu giải toán gom nhóm đặc trưng sản phẩm đánh giá tiếng Việt Trong [16], chúng tơi đề xuất mơ hình khai phá quan điểm dựa đặc trưng đánh giá sản phẩm điện thoại tiếng Việt Cơng trình nói đề cập tới giải pháp đơn giản để nhóm đặc trưng “đồng nghĩa” – sử dụng từ điển đặc trưng đồng nghĩa xây dựng tay để giải toán Từ điển chứa đặc trưng đồng nghĩa miền sản phẩm “điện thoại” Tuy nhiên, giải pháp gặp nhiều điểm hạn chế chuyển sang miền sản phẩm xuất từ khơng có từ điển, giải pháp chưa giải Trong cơng trình chúng tơi đề xuất giải pháp gom nhóm đặc trưng đồng nghĩa dựa phân lớp bán giám sát Tuy nhiên, so với [17], mơ hình chúng tơi có điểm khác biệt: Thứ nhất, không tạo tập huấn luyện tay để tạo phân lớp [17], mà thay vào đó, tập huấn luyện tạo cách tự động nhờ áp dụng thuật toán phân cụm HAC Thứ hai, không sử dụng từ điển đồng nghĩa, mà thay vào từ điển Việt-Việt đánh giá khách hàng để tạo tập huấn luyện Thứ ba, phương pháp phân lớp bán giám sát mà sử dụng SVM-kNN, phương pháp sử dụng [17] EM II Phát biểu tốn Nếu gọi nhóm đặc trưng tên đặc trưng đưa người dùng, thể đặc trưng đặc trưng từ cụm từ xuất thực đánh giá để thể đặc trưng đó, tốn phát biểu sau: Đầu vào: - Tập thể đặc trưng Tập đánh giá khách hàng S - Ngưỡng α > Đầu ra: - Tập thể đặc trưng với nhóm đặc trưng tương ứng Phát biểu toán: Coi thể đặc trưng mẫu liệu, nhóm đặc trưng lớp Cần xây dựng phân lớp SVM-kNN để phân lớp mẫu liệu vào lớp khác nhau, thỏa mãn mẫu thuộc lớp lớp có nhiều mẫu III Tóm tắt sở lý thuyết III.1 Một số nội dung phân lớp bán giám sát III.1.1 Học bán giám sát Học bán giám sát mơ hình học máy liên quan đến việc tận dụng liệu chưa gán nhãn để xây dựng phân lớp hồi qui tốt (A B Goldberg, 2010, [4]) Học bán giám sát việc học liệu chưa gán nhãn Trong trình học thế, phuong pháp tận dụng duợc thông tin phong phú liệu chưa gán nhãn (unlabeled data), mà yêu cầu số luợng nhỏ liệu gán nhãn (labeled data) [19, 20, 1] Nhiệm vụ học bán giám sát mở rộng tập liệu gán nhãn ban đầu [19, 20, 1] Phương pháp học cung cấp số thông tin giám sát, số ví dụ mà khơng thiết phải tất liệu Việc học bán giám sát hữu ích có nhiều liệu không gán nhãn liệu gãn nhãn Trong thực tế, tồn nhiều liệu không gán nhãn liệu gán nhãn; liệu khơng gãn nhãn dễ dàng thu thập với chi phí thấp, cơng việc gãn nhãn cho liệu lại tốn nhiều thời gian, cơng sức tiền bạc [4,6,19,20] Chính khả tận dụng liệu gán nhãn để đạt kết cao học giám sát nên học bán giám sát mang giá trị thực tiễn cao [4] III.1.2 Phân lớp bán giám sát Phân lớp bán giám sát lĩnh vực nhận nhiều quan tâm lý thuyết thực tiễn [20] Phân lớp bán giám sát dạng đặc biệt tốn phân lớp [19] Nó sử dụng liệu chưa gán nhãn, liệu gán nhãn – điều mở rộng so với toán phân lớp giám sát Giả sử tập liệu huấn luyện bao gồm l ví dụ gán nhãn , yi nhãn tương ứng với vị dụ xi; u ví dụ chưa gán nhãn Trong phân lớp bán giám sát, số lượng liệu chưa gán nhãn lớn nhiều so với liệu gán nhãn, tức u >> l Mục tiêu phân lớp bán giám sát huấn luyện phân lớp f từ l u; đó, phân lớp giám sát lại tạo phân lớp từ liệu gãn nhãn Trong trình học, việc phân lớp bán giám sát tận dụng thông tin phong phú liệu chưa gãn nhãn, mà yêu cầu số lượng nhỏ liệu gãn nhãn III.1.3 Các phương pháp phân lớp bán giám sát điển hình Các thuật tốn bán giám sát phát triển cách nhanh chóng năm gần Hiện nay, có nhiều phương pháp học bán giám sát như: self-learning self-labeling – hai số phương pháp phân lớp bán giám sát sớm nhất, chúng sử dụng rộng rãi lĩnh vực xử lý ngôn ngữ tự nhiên; phương pháp SSSVM (SVM bán giám sát) với ý tưởng tìm biên định vùng mật độ thấp; hay phương pháp dựa đồ thị - phương pháp xây dựng đồ thị có trọng số ví dụ gán nhãn ví dụ chưa gán nhãn giả thiết hai ví dụ có kết nối mạnh có khuynh hướng có nhãn giải tốn tối ưu hóa; phương pháp phân lớp bán giám sát khác sử dụng mơ hình sinh, hỗn hợp phân bố Gaussian thuật toán EM [13] Hiệu thuật toán phân lớp bán giám sát phụ thuộc vào chất lượng ví dụ gán nhãn thêm vào vòng lặp đánh giá dựa hai tiêu chí [3]: - Các ví dụ thêm vào phải gán nhãn cách xác - Các ví dụ thêm vào phải mang lại thơng tin hữu ích cho phân lớp ( liệu huấn luyện) III.2 Phương pháp luận SVM-KNN dựa học bán giám sát Niên luận tập trung nghiên cứu việc nhóm đặc trưng đồng nghĩa dựa phân lớp bán giám sát SVM-kNN Phương pháp phân lớp bán giám sát SVM-kNN tỏ hiệu toán phân lớp chọn tham số phù hợp Phương pháp có độ xác cao so với thuật tốn phân lớp SVM thực việc cải tiến độ xác phân lớp SVM qua nhiều lần lặp [13] Trước hết, xin giới thiệu thuật tốn SVM, kNN sau trình bày bước SVM-kNN III.2.1 Thuật tốn máy vector hỗ trợ (SVM) Giải thuật Máy vector hỗ trợ (SVM) dựa nguyên lý tối thiểu hóa rủi ro cấu trúc (Structural Risk Minimization) lý thuyết thống kê (T Joachims, 1997, [12]) Xét toán phân lớp văn thành lớp mẫu dương mẫu âm: Cho tập huấn luyện cặp (xi, yi), i = 1, …, l; xi ∈ Rn khơng gian vector đặc trưng n chiều; yi ∈ {-1, 1}, mẫu dương mẫu xi thuộc lĩnh vực quan tâm gán nhãn yi = mẫu âm mẫu xi không thuộc lĩnh vực quan tâm gán nhãn yi = −1 Bài toán đặt đưa vector đặc trưng x mới, cần dự đoán y cho khả lỗi xảy tối thiểu a.Trường hợp khả tách tuyến tính Trong trường hợp này, phân lớp SVM mặt siêu phẳng phân tách mẫu dương khỏi mẫu âm với lề cực đại, xác định khoảng cách mẫu dương mẫu âm gần mặt siêu phẳng lề tối ưu (hình 1) Các mặt siêu phẳng khơng gian đối tượng có phương trình wTx + b = 0, w vector pháp tuyến, b tham số mơ hình phân lớp Hình 1: Mặt siêu phẳng tách mẫu dương khỏi mẫu âm Bộ phân lớp SVM định nghĩa sau: f(x) = sign(wTx + b) (1.1), đó: sign(z) = +1 z ≥ sign(z) = −1 z < Nếu f(x) = +1 x thuộc lớp dương, ngược lại, f(x) = −1 x thuộc lớp âm Mục tiêu phương pháp SVM ước lượng w b để cực đại hóa lề lớp liệu dương âm Các giá trị khác lề cho ta họ mặt siêu phẳng khác nhau, lề lớn lỗi tổng qt hóa phân lớp giảm Hai mặt siêu phẳng có phương trình wT x + b = ±1 gọi mặt siêu phẳng hỗ trợ (các đường nét đứt hình 1) Để xây dựng mặt siêu phẳng lề tối ưu thì: - sau: Vector w tính: w= (1.2) Tham số b xác định sử dụng điều kiện Karush–Kuhn–Tucker(KKT) αi [ yi (wT xi + b) – 1] = (1.3) Các mẫu xi tương ứng với αi > mẫu nằm gần mặt siêu phẳng định gọi vector hỗ trợ Những vector hỗ trợ thành phần quan trọng tập liệu huấn luyện Bởi có vector hỗ trợ, ta xây dựng mặt siêu phẳng lề tối ưu có tập liệu huấn luyện đầy đủ b Trường hợp không khả tách tuyến tính Với liệu huấn luyện khơng khả tách tuyến tính ta giải theo hai cách Cách thứ sử dụng mặt siêu phẳng lề mềm, nghĩa cho phép số mẫu huấn luyện nằm phía sai mặt siêu phẳng phân tách vị trí rơi vào vùng mặt siêu phẳng phân tách mặt siêu phẳng hỗ trợ tương ứng Cách thứ hai sử dụng ánh xạ phi tuyến Φ để ánh xạ điểm liệu đầu vào sang không gian có số chiều cao Trong khơng gian này, điểm liệu trở thành khả tách tuyến tính, phân tách với lỗi so với trường hợp sử dụng không gian ban đầu Một mặt định tuyến tính khơng gian tương ứng với mặt định phi tuyến không gian ban đầu Với k hàm nhân thoản mãn: k(xi, xj) = Φ(xi)T Φ(xj) (1.6) Nếu chọn hàm nhân phù hợp, ta xây dựng nhiều phân loại khác Có số hàm nhân sau đây: - Hàm nhân đa thức: - k(xi, xj) = Hàm vòng RBF (Radial Basic Function) : - Hàm chữ S Sigmoid: k(xi, xj) = Hiện có nhiều mã nguồn để hỗ trợ cho việc thực thi thuật tốn SVM mơ tả trên, LibSVM [8] thư viện viết ngôn ngữ C++ Java cho phép phân lớp vector hỗ trợ, hồi qui ước lượng phân phối Ngồi ra, LibSVM cịn có nhiều tính hữu ích như: phân lớp đa lớp, kiểm chức chéo cho việc chọn mơ hình, ước lượng xác suất, cho phép người dùng chọn hàm nhân,… Chính vậy, chọn LibSVM làm công cụ cho việc thực thi thuật tốn SVM tốn chúng tơi III.2.2 Thuật toán K người láng giềng gần (kNN) Bộ phân lớp dựa thuật toán K người láng giềng gần phân lớp dựa nhớ, đơn giản khơng phải thực q trình học mơ hình, thay điều đó, phương pháp cần sử dụng tất đối tượng tập huấn luyện phân lớp cho đối tượng liệu Để phân lớp cho điểm liệu x, trước hết phân lớp tính khoảng cách từ điểm x đến tất điểm liệu tập huấn luyện Qua tìm tập N(x, D, k) gồm k điểm liệu mẫu có khoảng cách đến x gần Ví dụ liệu mẫu biểu diễn khơng gian vector sử dụng khoảng cách Euclian để tính khoảng cách điểm liệu với Sau xác định tập N(x, D, k), phân lớp gán nhãn cho điểm liệu x lớp chiếm đại đa số tập N(x, D, k) Mặc dù đơn giản, thuật toán K người láng giềng gần cho kết tốt nhiều ứng dụng thực tế Để áp dụng thuật toán k-NN vào tài liệu văn bản, sử dụng hàm tính trọng số cho lớp theo biểu thức (2.1) Trong NC(x, D, k) tập chứa đối tượng thuộc lớp c tập N(x, D, k) (2.1) Khi tài liệu x phân vào lớp c0 nếu: (2.2) III.2.3 Phương pháp phân lớp bán giám sát SVM-kNN Thuật toán SVM cho thấy nhiều ưu điểm vượt trội SVM có khả học độc lập với số chiều không gian đặc trưng, kết phân lớp sử dụng thuật toán SVM tốt kể không gian đặc trưng nhiều chiều Tuy nhiên, SVM có nhược điểm khơng cung cấp ước lượng xác biên định có liệu gán nhãn Trong suốt trình định phương pháp KNN liên quan đến số lượng nhỏ hàng xóm gần nhất, việc áp dụng phương pháp tránh vấn đề cân ví dụ Mặt khác, KNN chủ yếu phụ thuộc vào số lượng giới hạn hàng xóm gần khơng phải xung quanh biên định, vậy, phù hợp với việc phân lớp trường hợp tập ví dụ có biên giao trường hợp có chồng chéo ví dụ Từ ưu nhược điểm hai thuật toán SVM kNN, H Zhang cộng sự, 2006 [11] đề xuất phương pháp kết hợp hai thuật tốn Cơng trình cơng trình điển hình sớm phương pháp SVM-kNN Ý tưởng phương pháp tìm hàng xóm gần với mẫy truy vấn huấn luyện máy vector hỗ trợ cục Máy vector hỗ trợ cục trì hàm khoảng cách tập hàng xóm H Zhuang cộng chứng minh phương pháp áp dụng với tập liệu lớn đa lớp với kết tốt so với thuật toán SVM hay kNN Sau đó, Kunlun Li cộng sự, 2010 [13] đề xuất phương pháp phân lớp SVM-KNN dựa học bán giám sát nhằm cải tiến thuật toán SVM cách tận dụng ưu điểm thuật toán kNN nêu Phương pháp hiệu so với phương pháp H.Zhuang cộng [11] Do đó, khóa luận này, tập trung nghiên cứu phương pháp phân lớp bán giám sát SVM-kNN K.Li cộng đề xuất năm 2010 Tư tưởng bán giám sát SVM-kNN: Tư tưởng phương pháp dựa lý thuyết học bán giám sát, sử dụng liệu gán nhãn liệu chưa gán nhãn cho trình phân lớp Cụ thể phương pháp sử dụng số liệu gán nhãn để huấn luyện phân lớp SVM sử dụng phân lớp SVM để dự đoán liệu chưa gán nhãn Từ liệu gãn nhãn tập huấn luyện liệu vừa dự đoán SVM, chọn vector biên, sử dụng vector biên để cải tiến phân lớp SVM cách sử dụng kNN Việc sử dụng kNN để phân lớp không làm giàu số lượng tập huấn luyện, mà làm cải tiến chất lượng ví dụ huấn luyện – ví dụ chuyển từ vector biên Cuối cùng, tập liệu gán nhãn mở rộng Đây mục đích học bán giám sát Ba bước phương pháp SVM-kNN: Đầu tiên, xây dựng phân lớp SVM yếu dựa số ví dụ gán nhãn có sẵn (tập huấn luyện) Sử dụng phân lớp SVM yếu để dự đoán nhãn lớp cho số lượng lớn liệu chưa gán nhãn lại tập liệu ban đầu Từ ví dụ gán nhãn đó, lấy t ví dụ thuộc lớp, ví dụ đứng 10 xung quanh biên định (các vector biên) cách tính khoảng cách Euclidean không gian đặc trưng Như có vector biên gán nhãn phân lớp SVM yếu Ở bước thứ hai, tiếp tục sử dụng tập ví dụ huấn luyện ban đầu làm tập huấn luyện để tạo phân lớp dựa thuật toán kNN Những vector biên lấy từ bước coi tập kiểm tra cho phân lớp tạo kNN Các nhãn kNN gán gán lại cho vector biên Cuối cùng, vector biên nhãn đặt vaò tập huấn luyện ban đầu để làm giàu số lượng ví dụ huấn luyện, sau tiếp tục huấn luyện lại SVM Vòng lặp kết thúc số lượng ví dụ huấn luyện k lần toàn tập liệu Kết phương pháp bán giám sát SVM-kNN K.Li cộng [13] đề xuất hỗ trợ kết lý thuyết học thống kê kết hợp với liệu chưa gán nhãn nhằm cải tiến độ xác phân lớp thông tin huấn luyện không đầy đủ IV Phương pháp đề xuất IV.1 Phương pháp đề xuất Chúng đề xuất giải pháp tự động gom nhóm đặc trưng sản phẩm tiếng Việt dựa phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC Trong giải pháp này, không tạo tập huấn luyện tay để tạo phân lớp, mà thay vào đó, tập huấn luyện tạo cách tự động nhờ áp dụng thuật tốn phân cụm HAC Chúng tơi chọn thuật tốn phân cụm phân HAC thuật toán phân cấp cho phép người dùng đưa ngưỡng ∝ để dừng thuật toán độ tương tự cụm nhỏ ngưỡng [3] Do đó, mẫu đưa vào cụm có chất lượng tốt Nhờ mà phân lớp SVM-kNN có kết cao Tư tưởng giải pháp đề xuất sau: Các thể đặc trưng đưa vào nhóm đặc trưng - cụm khác nhau, cho cụm có nhiều thể đặc trưng thể đặc trưng thuộc vào nhóm đặc trưng Ví dụ, cụm “kiểu dáng” có nhiều thể đặc trưng như: “mẫu mã”, “thiết kế”, “kiểu cách”, “kiểu dáng”,… ; thể đặc trưng “mẫu mã” thuộc vào cụm “kiểu dáng” Vì nay, Việt Nam chưa có từ điển đồng nghĩa, độ tương tự thể đặc trưng dùng phân cụm 11 HAC tính dựa độ tương tự ngữ nghĩa ngữ cảnh thể đặc trưng Ngữ nghĩa thể đặc trưng thể thông qua từ điển Việt-Việt Ngữ cảnh thể đặc trưng xác định cách xem xét từ xuất xung quanh thể đặc trưng đánh giá khách hàng Vì kết phân cụm có sai sót, nên chúng tơi đưa ngưỡng cho trước Ngưỡng so sánh với độ đo tương đồng thể đặc trưng nhằm tạo tập huấn luyện có độ xác cao Sau áp dụng thuật toán HAC, thu cụm chứa thể đặc trưng Với cụm có nhiều thể đặc trưng, coi cụm nhãn lớp thể đặc trưng mẫu, mẫu xem mẫu gán nhãn Với cụm đặc trưng coi mẫu mẫu chưa gán nhãn Sử dụng mẫu gán nhãn chưa gán nhãn với ngữ cảnh mẫu để áp dụng phân lớp bán giám sát SVM-kNN IV.2 Mơ hình Các công việc thực sau: Pha 1: Biểu diễn vector thể đặc trưng ü Xác định ngữ nghĩa thể đặc trưng ü Xác định ngữ cảnh thể đặc trưng ü Biểu diễn thể đặc trưng dạng vector Pha 2: Tạo tập huấn luyện SVM-kNN ü Quá trình phân cụm HAC thể đặc trưng, ngữ nghĩa ngữ cảnh tương ứng ü Gán nhãn cho cụm Pha 3: Phân lớp SVM-kNN ü Phân lớp bán giám sát SVM-kNN Chi tiết bước biểu diễn mơ hình hình 12 Hình 2: Mơ hình đề xuất gom nhóm đặc trưng đồng nghĩa IV.3 Dự kiến kết đạt Chúng thực nghiệm đạt độ xác khoảng 60% V Kết luận 13 Niên luận trình bày học bán giám sát phân lớp bán giám sát, số phương pháp phân lớp bán giám sát điển hình Đồng thời trình bày phương pháp luận SVM-KNN dựa phân lớp bán giám sát để thực cho q trình nhóm đặc trưng sản phẩm đồng nghĩa vào lớp dựa thể đặc trưng (feature expression) gán vào nhóm đặc trưng (feature group) thể đặc trưng chưa gán vào nhóm đặc trưng Định hướng nghiên cứu tiếp tục chúng tơi cải tiến kết thực nghiệm đạt gom nhóm đặc trưng đồng nghĩa đánh giá tiếng Việt, ứng dụng vào mơ hình khai phá tổng hợp quan điểm đánh giá tiếng Việt khách hàng 14 Tài liệu tham khảo Trần Thị Oanh (2006) Thuật toán self-training co-training ứng dụng phân lớp văn Khóa luận tốt nghiệp, Trường ĐHCN-ĐHQGHN Nguyễn Thị Hương Thảo (2006) Phân lớp phân cấp Taxonomy văn web ứng dụng, Khóa luận tốt nghiệp, Trường ĐHCN-ĐHQGHN Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam, 2009, tr 124-125 Andrew Brian Goldberg New directions in semi-supervised learning.Doctor of Philosophy, University of Wisconsin-Madison 2010 Bing Liu Sentiment Analysis and Subjectivity Invited Chapter for the Handbook of Natural Language Processing, Second Edition March, 2010 Blum, A., and Mitchell, T Combining labeled and unlabeled data with cotraining In COLT, 92–100, 1998 Carenini G., R Ng and E Zwart 2005 Extracting knowledge from evaluative text Proceedings of International Conference on Knowledge Capture C Chang and C.-J Lin (2010) LIBSVM: a library for support vector machines, Technical Report, Initial version: 2001 Last updated: November 16, 2010, http:// www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf, LIBSVM software library version 3.0 released on September 13, 2010, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Corinna Cortes, Vladimir Vapnik (1995) Support-Vector Networks, Machine Learning, 20(3): 273-297 10 Guo H., H Zhu, Z Guo, X Zhang and Z Su 2009 Product feature categorization with multilevel latent semantic association Proc of CIKM 11.Hao Zhang, Alexander C Berg, Michael Maire, Jitendra Malik (2006) SVMKNN: Discriminative Nearest Neighbor Classification for Visual Category Recognitionm, CVPR (2) 2006: 2126-2136 12.T Joachims (1997) Text categorization with Support Vector Machines: Learning with many relevant features, Technical Report 23, LS VIII, University of Dortmund, 1997, http://www.joachims.org/publications/joachims_98a.ps.gz 13.Kunlun Li, Xuerong Luo and Ming Jin Semi-supervised Learning for SVM-KNN Journal of computers, vol.5, No May 2010 14 D Marcu and A Popescu Extracting product features and opinions from reviews CICLing 2005: 88-99 15.Thelwall, M (2009) MySpace comments Online Information Review, 33(1), 5876 16.Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011) A Feature-based Opinion Mining Model on Product Reviews in Vietnamese, ICCCI’11 (submitted) 17.Zhongwu Zhai, Bing Liu, Hua Xu, Peifa Jia Grouping Product Features Using Semi-Supervised Learning with Soft-Constraints COLING 2010: 1272-1280 18.L Zhang and B Liu Extracting and Ranking Product Features in Opinion Documents COLING (Posters) 2010: 1462-1470 15 19.X.J Zhu Semi-supervised learning literature survey Technical Report 1530, Department of Computer Sciences, University of Wisconsin at Madison, Madison, WI July 19, 2008 20.Xiaojin Zhu and Andrew B Goldberg Introduction to Semi-Supervised Learning Synthesis Lectures on Artificial Intelligence and Machine Learning, pages – 16 2009 16 Ý kiến đánh giá : …………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… …………………… ………………………………………………………………… ……………………… ………………………………………………………………… ……………………… Điểm số: ……… Điểm chữ: ……… Hà Nội, ngày tháng năm 20… Giáo viên đánh giá (Ký ghi rõ họ tên) Xác nhận Khoa CNTT Chủ nhiệm Khoa 17 ... học bán giám sát phân lớp bán giám sát, số phương pháp phân lớp bán giám sát điển hình Đồng thời trình bày phương pháp luận SVM-KNN dựa phân lớp bán giám sát để thực cho q trình nhóm đặc trưng sản. .. dung phân lớp bán giám sát III.1.1 Học bán giám sát III.1.2 Phân lớp bán giám sát III.1.3 Các phương pháp phân lớp bán giám sát điển hình III.2 Phương pháp luận SVM-KNN dựa học bán giám sát III.2.1... học giám sát nên học bán giám sát mang giá trị thực tiễn cao [4] III.1.2 Phân lớp bán giám sát Phân lớp bán giám sát lĩnh vực nhận nhiều quan tâm lý thuyết thực tiễn [20] Phân lớp bán giám sát

Ngày đăng: 21/03/2014, 15:52

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan