MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN MÔ HÌNH HỌC BÁN GIÁM SÁT SVMlight VÀ ÁP DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

45 455 1
MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN MÔ HÌNH HỌC BÁN GIÁM SÁT SVMlight VÀ ÁP DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lưu Công Tố MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN HÌNH HỌC BÁN GIÁM SÁT SVMlight ÁP DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Hà Nội – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lưu Công Tố MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN HÌNH HỌC BÁN GIÁM SÁT SVMlight ÁP DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Trần Mai Vũ Hà Nội – 2011 Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sƣ, Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ tận tình bảo hƣớng dẫn suốt trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn thầy, cô tạo điều kiện thuật lợi cho thời gian học tập nghiên cứu trƣờng Đại học Công nghệ Tôi xin gửi lời cảm ơn tới anh chị, bạn em sinh viên nhóm “Khai phá liệu” giúp nhiều việc hỗ trợ kiến thức chuyên môn nhƣ thu thập xử lý liệu để hoàn thành tốt khóa luận Xin cảm ơn hỗ trợ từ đề tài QG 10.38 suốt trình làm khóa luận Tôi xin gửi lời cảm ơn tới bạn lớp K52CA K52CHTTT ủng hộ, khuyến khích suốt trình học tập trƣờng Con xin gửi lời cảm ơn tới ông bà, cha mẹ, ngƣời thân yêu động viên, khuyến khích tạo điều kiện tốt cho suốt đời Cuối cùng, muốn gửi lời cảm ơn bạn bè bên cạnh động viên suốt trình học tập thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn! Sinh viên Lưu Công Tố Tóm tắt Ngày nay, thƣơng mại điện tử trở nên phổ biến ngƣời Cùng với đời trang web bán hàng trực tuyến, cho phép khách hàng đánh giá sản phẩm Số lƣợng đánh giá sản phẩm mà nhận đƣợc ngày tăng Điều gây khó khăn cho khách hàng tiềm việc định có nên mua sản phẩm hay không, cản trở nhà sản xuất việc theo dõi ý kiến khách hàng Mặc dù số chƣơng trình đáp ứng phần nhu cầu khai phá quan điểm khách hàng thông qua đánh giá, song nâng cao chất lƣợng tổng kết đánh giá vấn đề cần đƣợc quan tâm Kho ngữ liệu có trọng số SentiWordNet nguồn tài nguyên quan trọng góp phần vào việc giải toán khai phá quan điểm Khóa luận khảo sát phƣơng pháp xây dựng SentiWordNet, đặc biệt phƣơng pháp xây dựng SentiWordNet 3.0 [6] Từ đó, khóa luận đề xuất hình mở rộng VietSentiWordNet cho miền liệu tiếng Việt [1], áp dụng kho ngữ liệu VietSentiWordNet vào toán khai phá quan điểm khách hàng dựa đánh giá sản phẩm Thực nghiệm khóa luận tiến hành bƣớc đầu thu đƣợc kết tƣơng đối khả quan, mở rộng kho ngữ liệu VietSentiWordNet từ gần 1,000 synset lên 9,000 synset, độ xác áp dụng kho ngữ liệu vào toán khai phá quan điểm đạt 66.60%, cao mức trung bình 44.45% áp dụng VietSentiWordNet ban đầu Lời cam đoan Tôi xin cam đoan khóa luận “Mở rộng VietSentiWordNet dựa hình học bán giám sát SVMlight áp dụng vào toán khai phá quan điểm” công trình nghiên cứu thực dƣới hƣớng dẫn PGS TS Hà Quang Thụy ThS Trần Mai Vũ Các số liệu, kết đƣợc trình bày khóa luận hoàn toàn trung thực chƣa đƣợc công bố công trình khác Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, việc chép tài liệu, công trình nghiên cứu ngƣời khác mà không rõ tài liệu tham khảo Mục lục Mục lục i Danh sách bảng iii Danh sách hình vẽ iv Mở đầu .1 Chương 1: Khái quát khai phá quan điểm 1.1 Giới thiệu 1.2 Các khái niệm dùng khai phá quan điểm: 1.3 Các toán khai phá quan điểm 1.4 Bài toán khai phá quan điểm khách hàng từ đánh giá tiếng Việt miền sản phẩm “điện thoại di động” .5 1.5 Tóm tắt chƣơng Chương 2: Các phương pháp xây dựng SentiWordNet 2.1 Giới thiệu kho ngữ liệu WordNet 2.2 Giới thiệu kho ngữ liệu Sentiwordnet 2.2.1 Các khái niệm sử dụng SentiWordNet 2.2.2 Các phiên SentiWordNet 2.3 Phƣơng pháp xây dựng SentiWordNet 3.0 2.3.1 Bƣớc 1: Học bán giám sát 2.3.2 Bƣớc 2: Bƣớc biến đổi ngẫu nhiên 11 2.4 Xây dựng SentiWordNet cho tiếng Ấn Độ 12 2.4.1 Xây dựng tập từ điển nguồn 13 2.4.2 Tiếp cận theo hƣớng từ điển song ngữ 14 2.4.3 Tiếp cận sở WordNet 14 2.4.4 Tiếp cận dựa tập văn 14 2.4.5 Đánh giá từ điển 15 2.5 Các nghiên cứu liên quan 15 2.6 Tóm tắt chƣơng 15 i Chương 3: điểm 3.1 Mở rộng VietSentiWordNet áp dụng vào toán khai phá quan 16 Mở rộng VietSentiWordNet sử dụng học máy bán giám sát SVMlight .16 3.1.1 Phƣơng pháp 16 3.1.2 Bƣớc 1: Khởi tạo mở rộng tập nguồn 18 3.1.3 Bƣớc 2: Đào tạo phân lớp 20 3.1.4 Bƣớc 3: phân lớp tập từ quan điểm tính trọng số 21 3.2 Sử dụng VietSentiWordNet cho toán khai phá quan điểm khách hàng dựa đánh giá sản phẩm 23 3.2.1 Bƣớc 1: Thu thập, tiền xử lý liệu 25 3.2.2 Bƣớc 2: Trích xuất từ quan điểm 25 3.2.3 Bƣớc 3: Xác định hƣớng quan điểm khác hàng sản phẩm dựa vào từ điển VietSentiWordNet .26 3.2.4 3.3 Tóm tắt chƣơng .27 Chương 4: 4.1 Thực nghiệm 28 Môi trƣờng công cụ sử dụng cho thực nghiệm 28 4.1.1 4.2 Bƣớc 4: Tổng hợp kết 27 Cấu hình máy thực nghiệm .28 Thực nghiệm xây dựng VietSentiWordNet .28 4.2.1 Công cụ phần mềm sử dụng: 28 4.2.2 Xây dựng tập đào tạo phân lớp .28 4.2.3 Kết 29 4.3 Thực nghiệm áp dụng VietSentiWordNet toán khai phá quan điểm29 4.3.1 Thu thập liệu tiền xử lý 29 4.3.2 Tách từ gán nhãn từ loại .30 4.3.3 Tính trọng số câu đoạn 30 Kết luận 33 Tài liệu tham khảo 35 ii Danh sách bảng Bảng Bảng Bảng Bảng Bảng Bảng Bảng Bảng Bảng 10 Bảng 11 Bảng 12 Ví dụ thành phần SentiWordNet 3.0 Top 10 synset tích cực 10 synset tiêu cực SentiWordNet 3.0 12 SentiWordNet tiếng Anh danh sách từ chủ quan 14 Phân loại chủ đề sử dụng Bengali SentiWordNet 15 Kết phân lớp từ HM 17 Một số phần mềm sử dụng 28 Tổng số liệu thực nghiệm 30 Kết bƣớc tính trọng số từ quan điểm 31 Kết trọng số tích cực/tiêu cực sản phẩm 31 Độ xác bƣớc đánh giá tổng hợp 32 Độ xác bƣớc tổng hợp với VietSentiWordNet ban đầu 33 iii Danh sách hình vẽ Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình 10 Cấu trúc file SentiWordNet 3.0.txt hình phƣơng pháp xây dựng SentiWordNet 3.0 hình bƣớc 1: học bán giám sát hình xây dựng tập từ điển nguồn 13 hình phƣơng pháp mở rộng VietSentiWordNet 18 hình bƣớc 1: khởi tạo mở rộng tập mồi 19 hình bƣớc 2: đào tạo phân lớp 20 hình bƣớc 3: phân lớp tập từ quan điểm 22 hình đề xuất khai phá quan điểm khách hàng 24 Biểu diễn trực quan kết tổng hợp với sản phẩm 32 iv Mở đầu Khai phá quan điểm lĩnh vực mới, nhận đƣợc quan tâm nhiều vài năm gần [10,11,12,15] Đây lĩnh vực đánh dấu bƣớc phát triển khai phá văn (text mining): công việc khai phá văn không dừng lại mặt phân tích câu chữ văn bản, giúp máy tính thực “hiểu” nội dung văn nói gì, mà cho biết ngƣời viết có quan điểm nhƣ (ví dụ: khen/chê) văn Phân lớp quan điểm toán quan trọng khai phá quan điểm, với ứng dụng số lĩnh vực nhƣ: hệ thống tƣ vấn ngƣời dùng, hệ thống quảng cáo, hệ thống chăm sóc khách hàng thông minh, hệ thống tìm kiếm thông tin SentiWordNet kho ngữ liệu từ vựng đƣợc phát triển cho nhiệm vụ khai phá quan điểm, từ có trọng số Pos(s)/Neg(s) thể xu hƣớng quan điểm từ SentiWordNet kho ngữ liệu thiếu cho công việc toán khai phá quan điểm.[6,7,8,9] Khóa luận tốt nghiệp Mở rộng VietSentiWordNet dựa hình học bán giám sát SVMlight áp dụng vào toán khai phá quan điểm nhằm khảo sát, phân tích phƣơng pháp xây dựng SentiWordNet, đồng thời trình bày hình mở rộng VietSentiWordNet áp dụng kho ngữ liệu vào toán khai phá quan điểm khách hàng đánh giá sản phẩm Khóa luận gồm nội dung sau: Chương 1: Khái quát khai phá quan điểm trình bày khái niệm lĩnh vực khai phá quan điểm Đồng thời, chƣơng nêu lên số nét toán khai phá quan điểm khách hàng dựa đánh giá sản phẩm Chương 2: Các phương pháp xây dựng SentiWordNet tập trung trình bày phƣơng pháp xây dựng kho ngữ liệu SentiWordNet 3.0 Bên cạnh đó, chƣơng trình bày phƣơng pháp xây dựng SentiWordNet cho tiếng Ấn Độ Mỗi phƣơng pháp yêu cầu nguồn tài nguyên khác Đây sở để đƣa hình phù hợp với việc mở rộng VietSentiWordNet chƣơng Chương 3: Mở rộng VietSentiWordNet áp dụng vào toán khai phá quan điểm trình bày hình mở rộng VietSentiWordNet dựa phƣơng pháp học bán giám sát SVM Đồng thời, chƣơng đƣa giải pháp áp dụng VietSentiWordNet vào toán khai phá quan điểm khách hàng dựa đánh giá sản phẩm Tập từ quan điểm Bộ phân lớp tích cực 𝜑𝑝 Tập nhãn tích cực Bộ phân lớp tiêu cực 𝜑𝑛 Tập nhãn không tích cực Tập tiêu cực Tập tích cực Hình Tập nhãn tiêu cực Tập nhãn không tiêu cực Tập khách quan hình bước 3: phân lớp tập từ quan điểm Để đạt kết xác cao hơn, trình đào tạo phân lớp cần đƣợc làm nhiều lần Sau trình phân lớp, kết đƣợc bổ sung vào tập mồi phục vụ cho việc đào tạo lại phân lớp Tính lại trọng số cho synset: kết phân lớp trả cho synset số thực Với phân lớp tích cực , nhãn có giá trị dƣơng thuộc lớp tích cực, nhãn mang giá trị âm thuộc lớp không tích cực Với phân lớp tiêu cực , nhãn mang giá trị dƣơng thuộc lớp tiêu cực, nhãn có giá trị âm thuộc lớp không tiêu cực Mỗi synset qua phân lớp nhận đƣợc giá trị thực { } Các giá trị đƣợc chuyển đổi giá trị thực nằm khoảng [0,1] theo quy tắc:  Các giá trị dƣơng đƣợc chuyển đổi thuộc khoảng [0.4 , 1]  Các giá trị âm đƣợc chuyển đổi thuộc khoảng [0 , 0.4] 22  Nếu tổng giá trị sau đổi phân lớp lớn 1, giá trị đƣợc tính lại cho tỉ lệ thuận với giá trị cũ có tổng =  Các synset nhận giá trị PosScore ( NegScore) kết bƣớc trên, đầu vào giá trị phân lớp tích cực (tiêu cực) 3.2 Sử dụng VietSentiWordNet cho toán khai phá quan điểm khách hàng dựa đánh giá sản phẩm M.Hu cộng sự, 2004 [10] đề xuất công nghệ dựa khai phá luật kết hợp để trích xuất đặc trƣng sản phẩm Công nghệ giới thiệu ý tƣởng sử dụng từ quan điểm để tìm đặc trƣng không thƣờng xuyên Các tác giả sử dụng tập tính từ đồng nghĩa WordNet để dự đoán ngữ nghĩa tính từ, sau dựa vào số từ quan điểm tích cực(tiêu cực) nhiều câu quan quan điểm mang hƣớng tích cực (tiêu cực) Theo quan sát, đặc điểm liệu tiếng Việt đánh giá khách hàng sản phẩm mang đặc trƣng sau: - Các đánh giá mục sản phẩm chủ yếu tập trung đánh giá sản phẩm Số lƣợng đánh giá chia theo đặc trƣng riêng biệt Các đánh giá không chuẩn cấu trúc câu Theo đặc điểm trên, đề xuất hình khai phá quan điểm khách hàng dựa đánh giá sản phẩm nhƣ sau: hình gồm bƣớc: Bƣớc 1: Thu thập, tiền xử lý liệu Bƣớc 2: Trích xuất từ quan điểm Bƣớc 3: Xác định hƣớng quan điểm dựa vào từ điển VietSentiWordNet Bƣớc 4: Tổng hợp kết 23 Dữ liệu website bán hàng trực tuyến Nhận xét khách hàng Chuẩn hóa liệu Tách từ, Gán nhãn Postag Trích xuất từ quan điểm Tập từ quan điểm Xác định quan điểm hƣớng khách hàng với sản phẩm Bộ từ điển VietSentiWordNet Tổng hợp kết Hình hình đề xuất khai phá quan điểm khách hàng 24 3.2.1 Bước 1: Thu thập, tiền xử lý liệu Trong bƣớc này, miền liệu ứng dụng quan tâm đƣợc xác định trang web bán hàng trực tuyến Sử dụng công cụ crawl liệu miền xác định, với tùy chọn độ sâu trình Bước 1.1: Tách từ Đối với tiếng Anh, từ đƣợc phân cách dấu cách dấu câu khác Tuy nhiên, từ tiếng Việt gồm nhiều âm tiết Do việc tách từ dựa vào dấu cách dấu câu khác gây nhiều sai sót Ví dụ: Câu = “Cảm ứng tệ lắm” Sau công đoạn tách từ, ta đƣợc kết nhƣ sau: Cảm_ứng tệ Bước 1.2: Gán nhãn từ loại Dữ liệu sau đƣợc tách từ, đƣợc tiến hành gán nhãn từ loại nhằm phục vụ cho bƣớc trích xuất cụm từ quan điểm Ví dụ kết thu đƣợc sau liệu đƣợc gán liệu câu trên: Cảm_ứng/N tệ/A lắm/T / 3.2.2 Bước 2: Trích xuất từ quan điểm Từ quan điểm câu tính từ Theo cấu trúc câu tiếng Việt, từ mức độ từ phủ định nằm cụm tính từ chứa từ quan điểm [2] a) Trích xuất từ quan điểm câu khẳng định: Câu khẳng định dạng câu xuất nhiều đánh giá khách hàng Ví dụ: “Máy dùng tốt” Trong ví dụ này, khách hàng thể quan điểm tích cực điện thoại Kết cấu cụm tính từ câu khẳng định thƣờng có dạng: Từ mức độ + tính từ Dựa vào đặc điểm này, trích đƣợc từ quan điểm từ mức độ Các từ mức độ thƣờng xuất hiện: rất, khá, cực b) Trích xuất từ quan điểm phủ định: Câu phủ định dạng câu hay xuất đánh giá Trong câu có từ phủ định nhƣ không, không thể, không có, chẳng, đâu có, khỏi… 25 Ví dụ: pin dùng không lâu Trong ví dụ này, khách hàng đƣa phàn nàn tiêu cực dung lƣợng pin Kết cấu cụm tính từ câu phủ định thƣờng là: Từ phủ định + (từ mức độ) + tính từ Dựa vào đặc điểm này, trích đƣợc từ quan điểm, từ phủ định từ mức độ kèm c) Trích xuất từ quan điểm câu nghi vấn: Câu nghi vấn dạng câu gặp đánh giá, đƣợc ngƣời dùng đƣa để xin lời khuyên Đồng thời, câu nghi vấn thƣờng không đƣa ý kiến/ quan điểm Do bỏ qua câu nghi vấn trình thực 3.2.3 Bước 3: Xác định hướng quan điểm khác hàng sản phẩm dựa vào từ điển VietSentiWordNet Sau bƣớc thứ 2, với câu chứa quan điểm ta thu đƣợc quan điểm ( từ phủ định (nếu có) fp , từ quan điểm s, từ mức độ (nếu có) fs) Ví dụ: pin yếu Thu đƣợc (hơi , yếu) Các bƣớc xác định hƣớng quan điểm mà thực nhƣ sau: Bước 3.1: tính trọng số quan điểm ts quan điểm: Trọng số từ quan điểm đƣợc tính công thức Trong đó: ts: trọng số từ quan điểm fp: trọng số từ phủ định fs: trọng số từ mức độ Bước 3.2: xác định quan điểm định hướng Chúng tập trung xác định ba hƣớng quan điểm: tích cực, tiêu cực, trung lập Với mức câu, trọng số câu đƣợc tính công thức: ∑ 26 Trong : trọng số mức câu : trọng số quan điểm thứ i câu Với mức đoạn đánh giá, trọng số đoạn đánh giá đƣợc tính công thức ∑ Trong trọng số mức đoạn Các trọng số đƣợc đáng giá tiêu cực, tích cực, trung lập nhƣ sau: - Trọng số lớn đƣợc đánh giá tích cực Trọng số nhỏ đƣợc đánh giá tiêu cực Trọng số đƣợc đánh giá trung lập 3.2.4 Bước 4: Tổng hợp kết Dựa số đoạn đánh giá tích cực – tiêu cực sản phẩm, thu đƣợc số đánh giá tích cực tổng số đánh giá số đánh giá tiêu cực tổng số đánh giá Các kết đƣợc biểu diễn lại dƣới dạng biểu đồ trực quan cho sản phẩm 3.3 Tóm tắt chương Khóa luận trình bày hình xây dựng VietSentiWordNet áp dụng kết vào toán khai phá quan điểm dựa đánh giá khách hàng Chƣơng tiếp theo, trình bày kết đề liên quan thử nghiệm hình 27 Chương 4: Thực nghiệm 4.1 Môi trường công cụ sử dụng cho thực nghiệm 4.1.1 Cấu hình máy thực nghiệm  Chip: Intel(R) Core I5(R) @ 2.53GHz  Ram: 3.00 GB  Hệ điều hành: Microsoft Windows 4.2 Thực nghiệm xây dựng VietSentiWordNet 4.2.1 Công cụ phần mềm sử dụng: Bảng Một số phần mềm sử dụng STT Tên phần mềm Tác giả Nguồn eclipse-SDK-3.4.1-win32 SVMlight Cygwin http://www.cygwin.com VietTagger_VLSP_SP83 http://vlsp.vietlp.org:8080/ Lê Hồng VnTokenizer_VLSP_SP82 Phƣơng http://vlsp.vietlp.org:8080/ http://www.eclipse.org/downloads Thorsten http://svmlight.joachims.org/ Joachims 4.2.2 Xây dựng tập đào tạo phân lớp Các bƣớc xây dựng tập đào tạo:  Trích tập từ quan điểm từ từ điển tiếng Việt  Tạo tập đặc trƣng: tách từ tập từ quan điểm VietSentiWordNet cho miền liệu tiếng Việt  Tạo tập đào tạo o Tập đào tạo cho phân lớp tích cực: synset VietSentiWordNet đƣợc gán nhãn thông qua quy tắc:  Các synset có trọng số PosScore lớn 0.4: trọng số đƣợc chuyển giá trị nằm khoảng [0,1] Bổ sung từ đồng nghĩa với từ synset ban đầu  Các synset có trọng số PosScore lớn 0.4: trọng số đƣợc chuyển giá trị nằm khoảng [-1, 0] Bổ sung từ đồng nghĩa với từ synset ban đầu  Các synset thuộc tập từ điển đồng nghĩa đƣợc gán nhãn ( không nhãn) 28 o Tập đào tạo cho phân lớp tiêu cực: làm tƣơng tự nhƣ tập đào tạo cho phân lớp tích cực, thay trọng số PosScore trọng số NegScore  Đào tạo phân lớp: o Khởi động cygwin, chuyển đến thƣ mục chứa file liệu train svm_learn.exe o Lệnh thực thi: svm_learn  Phân lớp: o File dầu vào cho trình phân lớp file train Nhãn file test đƣợc bỏ qua trình phân lớp o Khởi động cygwin, chuyển đến thƣ mục chứa file phân lớp svm_classify.exe o Lệnh thực thi: svm_classify.exe  Đào tạo phân lớp lại nhiều lần: giá trị vector sau lần phân lớp k đƣợc kiểm tra sử dụng làm nhãn cho trình đào tạo k +1 Sau lần đào tạo, giá trị phân lớp tƣơng ƣng với vector hội tụ  Tính lại trọng số: trọng số đƣợc tính lại theo quy tắc đƣợc nêu hình phần 3.1.4 4.2.3 Kết VietSentiWordNet phiên chứa 9333 synset, 9533 từ đƣợc trình bày theo quy tắc SentiWordNet 4.3 Thực nghiệm áp dụng VietSentiWordNet toán khai phá quan điểm 4.3.1 Thu thập liệu tiền xử lý Dựa vào liệu thu thập từ trang http://thegioididong.com sử dụng công cụ [Interntet Download Manager], chọn số sản phẩm điện thoại di dộng bật Tổng số comment thu đƣợc 669 comment/10 sản phẩm nhiều thời điểm khác 29 Bảng STT Tổng số liệu thực nghiệm Số đánh giá 77 45 41 Tên sản phẩm LG GS290 Cookie Fresh LG Optimus One P500 LG Wink Touch T300 Nokia c5-03 Nokia e63 Nokia X2-01 Samsung galaxy tab 89 61 68 88 79 42 10 Samsung star s5233w 79 Nokia E72 Nokia N8 4.3.2 Tách từ gán nhãn từ loại Chúng sử dụng công cụ VnTokenizer_VLSP_SP82 để tách từ, đầu bƣớc tách từ dùng làm đầu vào cho bƣớc gán nhãn từ sử dụng công cụ VietTagger_VLSP_SP83 công cụ đƣợc download địa http://vlsp.vietlp.org:8080/ [3], sản phẩm CHƢƠNG TRÌNH KH&CN CẤP NHÀ NƢỚC KC01/06-10 Sau tách từ gán nhãn từ lại, đầu bƣớc có dạng nhƣ sau: Đầu vào: cảm ứng không nhạy Đầu ra: cảm_ứng/N không/R nhạy/A / 4.3.3 Tính trọng số câu đoạn Trong bƣớc này, sử dụng biểu thức quy có dạng: (?:([^/ R]*)/R )*([^/ ]*)/A để tìm cụm tính từ Với cụm tính từ, sử dụng biểu thức quy : (?:([^/ R]*)/R ) để tách đƣợc thành phần phụ sắc thái từ phủ định Kết việc tính trọng số từ quan điểm đƣợc trình bày bảng dƣới đây: 30 Bảng STT Kết bước tính trọng số từ quan điểm Tên sản phẩm LG GS290 Cookie Fresh LG Optimus One P500 LG Wink Touch T300 Số cụm tính từ 224 245 103 Đúng 148 112 65 Độ xác 66.07% 45.71% 63.11% 314 358 419 390 278 199 199 251 280 249 184 134 63.38% 70.11% 66.83% 63.85% 66.19% 67.34% Nokia c5-03 Nokia e63 Nokia E72 Nokia N8 Nokia X2-01 Samsung galaxy tab 322 211 65.53% Samsung star s5233w Qua bảng trên, độ xác khoảng 63.81% Kết bị ảnh hƣởng độ xác tách từ, gán nhãn đặc biệt ngữ cảnh câu Do chƣa thể đánh giá quan điểm theo ngữ cảnh nên số trƣờng hợp xảy sai sót 10 Sau tính trọng số quan điểm, giá trị đƣợc dùng để tính trọng số cho đánh giá, để lấy đƣợc kết cuối số đánh giá tích cực/ tiêu cực tổng số đánh giá ban đầu Dƣới bảng kết cho sản phẩm Bảng 10 Kết trọng số tích cực/tiêu cực sản phẩm STT Tên sản phẩm Số đánh giá tích cực 38 18 26 Số đánh giá tiêu cực 11 Tổng số đánh giá 77 45 41 LG GS290 Cookie Fresh LG Optimus One P500 LG Wink Touch T300 Nokia c5-03 Nokia e63 Nokia E72 Nokia N8 Nokia X2-01 Samsung galaxy tab 52 41 49 47 48 27 10 18 11 89 61 68 88 79 42 10 Samsung star s5233w 52 12 79 31 60 50 40 30 20 Tích cực 10 Tiêu cực Hình 10 Biểu diễn trực quan kết tổng hợp với sản phẩm Đối với đánh giá, đánh giá có trọng số > 0.1 đƣợc coi tích cực, trọng số < 0.1 đƣợc coi tiêu cực, đánh giá lại trung lập Khi áp dụng VietSentiWordNet ban đầu, hình đạt kết trung bình 44.45% Bên cạnh đó, Vũ Xuân Sơn cộng sƣ, 2011 [1] đạt kết 69.70% nghiên cứu áp dụng VietSentiWordNet ban đầu vào miền liệu tin tức Với VietSentiWordNet mở rộng, hình đạt đƣợc độ xác trung bình 66.60% cho miền liệu đánh giá khách hàng Bảng 11 Độ xác bước đánh giá tổng hợp STT Tên sản phẩm Tổng số đánh giá 77 45 41 Đúng Độ xác 50 30 28 64.94% 66.67% 68.29% LG GS290 Cookie Fresh LG Optimus One P500 LG Wink Touch T300 Nokia c5-03 Nokia e63 Nokia E72 Nokia N8 Nokia X2-01 Samsung galaxy tab 89 61 68 88 79 42 61 38 45 61 54 27 68.54% 62.30% 66.18% 69.32% 68.35% 64.29% 10 Samsung star s5233w 79 53 67.09% 32 Bảng 13 Độ xác bước tổng hợp với VietSentiWordNet ban đầu STT Tên sản phẩm Tổng số đánh giá 77 45 41 Đúng Độ xác 35 18 18 45.45% 40.00% 43.90% LG GS290 Cookie Fresh LG Optimus One P500 LG Wink Touch T300 Nokia c5-03 Nokia e63 Nokia E72 Nokia N8 Nokia X2-01 Samsung galaxy tab 89 61 68 88 79 42 41 28 29 40 34 19 46.07% 45.90% 42.65% 45.45% 43.04% 45.24% 10 Samsung star s5233w 79 37 46.84% 33 Kết luận Với số lƣợng đánh giá sản phẩm đa dạng phong phú Internet, nhu cầu kho ngữ liệu có trọng số VietSentiWordNet cần thiết cho toán khai phá quan điểm Nắm bắt nhu cầu đó, khóa luận tiến hành mở rộng VietSentiWordNet sẵn có áp dụng thử nghiệm vào bải toán khai phá quan điểm đánh giá khách hàng Các kết đạt Khóa luận tìm hiểu phƣơng pháp xây dựng SentiWordNet cho tiếng Anh tiếng Ấn Độ Từ đề xuất hình áp dụng phƣơng pháp xây dựng SentiWordNet 3.0 cho vấn đề mở rộng VietSentiWordNet sẵn có Đồng thời, khóa luận đề xuất giải pháp áp dụng VietSentiWordNet vào toán khai phá quan điểm đánh giá khách hàng, đồng thời tiến hành thử nghiệm hình đề xuất Sản phẩm VietSentiWordNetOpen phiên có 9333 synset, 9533 từ, gấp gần lần so với phiên VietSentiWordNet nguồn Khóa luận tiến hành thử nghiệm áp dụng VietSentiWordNetOpen với toán khai phá quan điểm Kết hình khả quan với độ xác bƣớc tổng hợp đạt 66.6%, Một số vấn đề cần giải hướng nghiên cứu Tuy hình đạt đƣợc số kết khả quan tập liệu thử nghiệm, nhƣng số trƣờng hợp phụ thuộc ngữ cảnh hình chƣa quải đƣợc tốt Hơn nữa, hình mở rộng VietSentiWordNet áp dụng với tập từ quan điểm tính từ Việc mở rộng thêm VietSentiWordNet với tập từ quan điểm đầy đủ cần thiết Trong thời gian tới, việc tiếp tục giải vấn đề tồn tại, định hƣớng số nghiên cứu tiếp theo: - Nghiên cứu thêm bƣớc tính trọng số phƣơng pháp xây dựng SentiWordNet Cải tiến số lƣợng nhƣ chất lƣợng VietSentiWordNetOpen Sử dụng tập từ quan điểm bổ sung danh từ động từ để làm giàu thêm tập phân lớp 34 Tài liệu tham khảo Tiếng Việt: [1] Vũ Xuân Sơn, Trần Trung Hiếu, Lê Thu Hà, Đào Thủy Ngân Xây dựng từ điển VietSentiWordNet ứng dụng khai phá quan điểm tin tức CÔNG TRÌNH THAM GIA GIẢI THƯỞNG “SINH VI N N HI N C U HOA H C” N M , ĐẠI H C CÔNG NGHỆ [2] Hoàng Trọng Phiến Ngữ pháp tiếng Việt: Câu Nhà xuất Đại học trung học chuyên nghiệp, H., 1980, trang 60–66 [3] Đề tài KC01.01/06-10 “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt” http://vlsp.vietlp.org:8080/ [4] Trang web bán hàng trực tuyến http://www.thegioididong.com [5] WordNet tiếng Việt: http://vi.asianwordnet.org Tiếng Anh: [6] Stefano Baccianella, Andrea Esuli, Fabrizio Sebastiani (2010) SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining, LREC 7th Conference on Language Resources and Evaluation, Valletta, MT, 2010 [7] Amitava Das, Sivaji Bandyopadhyay (2010) SentiWordNet for Indian Languages, The 8th Workshop on Asian Language Resources: 56–63 [8] Andrea Esuli ,Fabrizio Sebastiani (2006) SENTIWORDNET: A Publicly Available Lexical Resource for Opinion Mining, In Proceedings of the 5th Conference on Language Resources and Evaluation (LREC’ 6) , enova, IT [9] Andrea Esuli 2008 Automatic Generation of Lexical Resources for Opinion Mining: Model, Algorithms, and Application Ph.D thesis Scuola di Dottorato in Ingegneria ”Leonardo da Vinci”, University of Pisa, Pisa, IT [10] M Hu and B Liu 2004 Mining and Summarizing in Customer Reviews In KDD, pages 168–177, Seattle, WA 2004 35 [11] Bing Liu, Opinion Mining & Summarization - Sentiment Analysis, Tutorial given at WWW-2008, April 21, 2008 in Beijing [12] Bing Liu (2010) Sentiment Analysis and Subjectivity Invited Chapter for the Handbook of Natural Language Processing, Second Edition March, 2010 [13] Bruno Ohana (2009).Opinion mining with the SentWordNet lexical resource, the Dublin Institute of Technology in March, 2009 [14] Bruno Ohana, Brendan Tierney(2009).Sentiment classification of reviews using SentiWordNet 9th IT&T Conference, Dublin Institute of Technology, Dublin [15] Bo Pang and Lillian Lee(2008).Opinion Mining and Sentiment Analysis, Foundations and Trends in Information Retrieval 2(1-2) [16] Virach Sornlertlamvanich (2010) AsianWordNet: What’s next? ADD6&AWN2010, December 7-9, 2010 , Phuket, Thailand [17] WordNet tiếng Anh: http://wordnet.princeton.edu/ [18] Công cụ biểu thức qui Just Great Software Co Ltd http://www.regexbuddy.com/download.html 36

Ngày đăng: 21/11/2016, 02:35

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan