Mở rộng VietSentiWordNet dựa trên mô hình học bán giám sát SVMlight và áp dụng vào bài toán khai phá quan điểm

45 1.1K 1
Mở rộng VietSentiWordNet dựa trên mô hình học bán giám sát SVMlight và áp dụng vào bài toán khai phá quan điểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lưu Công Tố MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN MÔ HÌNH HỌC BÁN GIÁM SÁT SVM light VÀ ÁP DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Hà Nội – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lưu Công Tố MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN MÔ HÌNH HỌC BÁN GIÁM SÁT SVM light VÀ ÁP DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ Hà Nội – 2011 Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sƣ, Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ đã tận tình chỉ bảo và hƣớng dẫn tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi cũng xin chân thành cảm ơn các thầy, cô đã tạo điều kiện thuật lợi nhất cho tôi trong thời gian tôi học tập và nghiên cứu tại trƣờng Đại học Công nghệ. Tôi xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn cũng nhƣ thu thập và xử lý dữ liệu để hoàn thành tốt khóa luận. Xin cảm ơn sự hỗ trợ từ đề tài QG 10.38 trong suốt quá trình tôi làm khóa luận. Tôi cũng xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trƣờng. Con xin gửi lời cảm ơn tới ông bà, cha mẹ, những ngƣời thân yêu luôn động viên, khuyến khích và tạo điều kiện tốt nhất cho con trong suốt cuộc đời. Cuối cùng, tôi muốn gửi lời cảm ơn bạn bè luôn bên cạnh và động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Lưu Công Tố Tóm tắt Ngày nay, thƣơng mại điện tử đã trở nên phổ biến đối với mọi ngƣời. Cùng với nó là sự ra đời của các trang web bán hàng trực tuyến, cho phép khách hàng đánh giá sản phẩm. Số lƣợng đánh giá về một sản phẩm mà chúng ta nhận đƣợc ngày càng tăng. Điều này gây khó khăn cho khách hàng tiềm năng trong việc quyết định có nên mua sản phẩm hay không, và cản trở nhà sản xuất trong việc theo dõi các ý kiến của khách hàng. Mặc dù một số chƣơng trình đã đáp ứng một phần nhu cầu khai phá quan điểm của khách hàng thông qua các đánh giá, song nâng cao chất lƣợng tổng kết đánh giá luôn là vấn đề cần đƣợc quan tâm. Kho ngữ liệu có trọng số SentiWordNet là nguồn tài nguyên quan trọng góp phần vào việc giải quyết bài toán khai phá quan điểm này. Khóa luận khảo sát các phƣơng pháp xây dựng SentiWordNet, đặc biệt là phƣơng pháp xây dựng SentiWordNet 3.0 [6]. Từ đó, khóa luận đề xuất một mô hình mở rộng VietSentiWordNet cho miền dữ liệu tiếng Việt [1], và áp dụng kho ngữ liệu VietSentiWordNet mới vào bài toán khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm. Thực nghiệm do khóa luận tiến hành bƣớc đầu đã thu đƣợc kết quả tƣơng đối khả quan, mở rộng kho ngữ liệu VietSentiWordNet từ gần 1,000 synset lên 9,000 synset, độ chính xác khi áp dụng kho ngữ liệu vào bài toán khai phá quan điểm đạt 66.60%, cao hơn mức trung bình 44.45% khi áp dụng VietSentiWordNet ban đầu. Lời cam đoan Tôi xin cam đoan khóa luận “Mở rộng VietSentiWordNet dựa trên mô hình học bán giám sát SVM light và áp dụng vào bài toán khai phá quan điểm” là công trình nghiên cứu do tôi thực hiện dƣới sự hƣớng dẫn của PGS. TS. Hà Quang Thụy và ThS Trần Mai Vũ. Các số liệu, kết quả đƣợc trình bày trong khóa luận là hoàn toàn trung thực và chƣa từng đƣợc công bố trong bất kỳ một công trình nào khác. Tất cả những tham khảo từ các nghiên cứu liên quan đều đƣợc nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của ngƣời khác mà không chỉ rõ về tài liệu tham khảo. i Mục lục Mục lục i Danh sách các bảng iii Danh sách các hình vẽ iv Mở đầu 1 Khái quát về khai phá quan điểm 3 Chương 1: 1.1 Giới thiệu 3 1.2 Các khái niệm dùng trong khai phá quan điểm: 3 1.3 Các bài toán trong khai phá quan điểm 4 1.4 Bài toán khai phá quan điểm khách hàng từ các đánh giá tiếng Việt trên miền sản phẩm “điện thoại di động”. 5 1.5 Tóm tắt chƣơng 1. 5 Các phương pháp xây dựng SentiWordNet. 6 Chương 2: 2.1 Giới thiệu về kho ngữ liệu WordNet. 6 2.2 Giới thiệu về kho ngữ liệu Sentiwordnet. 6 2.2.1 Các khái niệm sử dụng trong SentiWordNet 6 2.2.2 Các phiên bản SentiWordNet 7 2.3 Phƣơng pháp xây dựng SentiWordNet 3.0 8 2.3.1 Bƣớc 1: Học bán giám sát 8 2.3.2 Bƣớc 2: Bƣớc biến đổi ngẫu nhiên 11 2.4 Xây dựng SentiWordNet cho tiếng Ấn Độ. 12 2.4.1 Xây dựng tập từ điển nguồn. 13 2.4.2 Tiếp cận theo hƣớng từ điển song ngữ 14 2.4.3 Tiếp cận trên cơ sở WordNet 14 2.4.4 Tiếp cận dựa trên tập văn bản 14 2.4.5 Đánh giá từ điển 15 2.5 Các nghiên cứu liên quan 15 2.6 Tóm tắt chƣơng 2. 15 ii Mở rộng VietSentiWordNet và áp dụng vào bài toán khai phá quan Chương 3: điểm. 16 3.1 Mở rộng VietSentiWordNet sử dụng học máy bán giám sát SVM light . 16 3.1.1 Phƣơng pháp. 16 3.1.2 Bƣớc 1: Khởi tạo và mở rộng tập nguồn 18 3.1.3 Bƣớc 2: Đào tạo bộ phân lớp 20 3.1.4 Bƣớc 3: phân lớp tập từ quan điểm và tính trọng số 21 3.2 Sử dụng VietSentiWordNet cho bài toán khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm. 23 3.2.1 Bƣớc 1: Thu thập, tiền xử lý dữ liệu. 25 3.2.2 Bƣớc 2: Trích xuất từ quan điểm. 25 3.2.3 Bƣớc 3: Xác định hƣớng quan điểm của khác hàng trên từng sản phẩm dựa vào từ điển VietSentiWordNet 26 3.2.4 Bƣớc 4: Tổng hợp kết quả. 27 3.3 Tóm tắt chƣơng 3 27 Thực nghiệm 28 Chương 4: 4.1 Môi trƣờng và công cụ sử dụng cho thực nghiệm 28 4.1.1 Cấu hình máy thực nghiệm 28 4.2 Thực nghiệm xây dựng VietSentiWordNet 28 4.2.1 Công cụ và phần mềm sử dụng: 28 4.2.2 Xây dựng tập đào tạo và phân lớp 28 4.2.3 Kết quả 29 4.3 Thực nghiệm áp dụng VietSentiWordNet trong bài toán khai phá quan điểm 29 4.3.1 Thu thập dữ liệu và tiền xử lý 29 4.3.2 Tách từ và gán nhãn từ loại 30 4.3.3 Tính trọng số câu và đoạn. 30 Kết luận 33 Tài liệu tham khảo 35 iii Danh sách các bảng Ví dụ về thành phần trong SentiWordNet 3.0 7 Bảng 1. Top 10 synset tích cực và 10 synset tiêu cực trong SentiWordNet 3.0 12 Bảng 2. SentiWordNet tiếng Anh và danh sách các từ chủ quan 14 Bảng 3. Phân loại chủ đề sử dụng Bengali SentiWordNet 15 Bảng 4. Kết quả phân lớp của bộ từ HM 17 Bảng 5. Một số phần mềm sử dụng 28 Bảng 6. Tổng số dữ liệu thực nghiệm 30 Bảng 8. Kết quả bƣớc tính trọng số bộ từ quan điểm 31 Bảng 9. Kết quả trọng số tích cực/tiêu cực của từng sản phẩm 31 Bảng 10. Độ chính xác bƣớc đánh giá tổng hợp 32 Bảng 11. Độ chính xác bƣớc tổng hợp với VietSentiWordNet ban đầu 33 Bảng 12. iv Danh sách các hình vẽ Hình 1. Cấu trúc trong file SentiWordNet 3.0.txt 7 Hình 2. Mô hình phƣơng pháp xây dựng SentiWordNet 3.0 8 Hình 3. Mô hình bƣớc 1: học bán giám sát 8 Hình 4. Mô hình xây dựng tập từ điển nguồn 13 Hình 5. Mô hình phƣơng pháp mở rộng VietSentiWordNet 18 Hình 6. Mô hình bƣớc 1: khởi tạo và mở rộng tập mồi 19 Hình 7. Mô hình bƣớc 2: đào tạo các bộ phân lớp 20 Hình 8. Mô hình bƣớc 3: phân lớp tập từ quan điểm 22 Hình 9. Mô hình đề xuất khai phá quan điểm khách hàng 24 Hình 10. Biểu diễn trực quan kết quả tổng hợp với từng sản phẩm 32 1 Mở đầu Khai phá quan điểm là một lĩnh vực mới, nhận đƣợc quan tâm nhiều trong vài năm gần đây [10,11,12,15]. Đây là một lĩnh vực đánh dấu một bƣớc phát triển trong khai phá văn bản (text mining): công việc khai phá văn bản sẽ không chỉ dừng lại ở mặt phân tích câu chữ của văn bản, giúp máy tính thực sự “hiểu” nội dung văn bản nói gì, mà còn cho biết ngƣời viết có quan điểm nhƣ thế nào (ví dụ: khen/chê) trong văn bản đó. Phân lớp quan điểm là bài toán quan trọng trong khai phá quan điểm, với các ứng dụng trên một số lĩnh vực nhƣ: trên các hệ thống tƣ vấn ngƣời dùng, hệ thống quảng cáo, hệ thống chăm sóc khách hàng thông minh, và trong các hệ thống tìm kiếm thông tin. SentiWordNet là kho ngữ liệu từ vựng đƣợc phát triển cho nhiệm vụ khai phá quan điểm, trong đó mỗi từ đều có trọng số Pos(s)/Neg(s) thể hiện xu hƣớng quan điểm của từ. SentiWordNet là một kho ngữ liệu không thể thiếu cho bất kỳ công việc nào trong bài toán khai phá quan điểm.[6,7,8,9] Khóa luận tốt nghiệp Mở rộng VietSentiWordNet dựa trên mô hình học bán giám sát SVM light và áp dụng vào bài toán khai phá quan điểm nhằm khảo sát, phân tích các phƣơng pháp xây dựng SentiWordNet, đồng thời trình bày một mô hình mở rộng VietSentiWordNet và áp dụng kho ngữ liệu mới vào bài toán khai phá quan điểm khách hàng trên các đánh giá sản phẩm. Khóa luận gồm những nội dung chính cơ bản sau: Chương 1: Khái quát về khai phá quan điểm trình bày các khái niệm cơ bản trong lĩnh vực khai phá quan điểm. Đồng thời, chƣơng này cũng nêu lên một số nét cơ bản của bài toán khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm. Chương 2: Các phương pháp xây dựng SentiWordNet tập trung trình bày phƣơng pháp xây dựng kho ngữ liệu SentiWordNet 3.0. Bên cạnh đó, chƣơng này cũng trình bày phƣơng pháp xây dựng SentiWordNet cho tiếng Ấn Độ. Mỗi phƣơng pháp đều yêu cầu nguồn tài nguyên khác nhau. Đây là cơ sở để đƣa ra mô hình phù hợp với việc mở rộng VietSentiWordNet trong chƣơng 3. Chương 3: Mở rộng VietSentiWordNet và áp dụng vào bài toán khai phá quan điểm trình bày mô hình mở rộng VietSentiWordNet dựa trên phƣơng pháp học bán giám sát SVM. Đồng thời, chƣơng 3 đƣa ra giải pháp áp dụng VietSentiWordNet vào bài toán khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm. [...]... kho ngữ liệu và các phƣơng pháp xây dựng SentiWordNet tiếng Anh và tiếng Ấn Độ Phƣơng pháp xây dựng SentiWordNet 3.0 từ SentiWordNet 1.0 là phƣơng pháp đƣợc áp dụng trong chƣơng tiếp theo 15 Chương 3: Mở rộng VietSentiWordNet và áp dụng vào bài toán khai phá quan điểm 3.1 Mở rộng VietSentiWordNet sử dụng học máy bán giám sát SVM 3.1.1 Phương pháp Trên cơ sở tìm hiểu phƣơng pháp xây dựng SentiWordNet... định có ba bài toán điển hình nhất đó là:  Phân lớp quan điểm  Khai phá và tổng hợp quan điểm dựa trên đặc trƣng  Khai phá quan hệ (so sánh) Bing Liu [11] đã trình bày chi tiết về ba bài toán nói trên Ở đây, chúng tôi xin đề cập tới bài toán thứ nhất là bài toán phân lớp quan điểm: coi khai phá quan điểm nhƣ là phân lớp văn bản, coi mỗi quan điểm là một văn bản và quá trình phân lớp quan điểm chính... 1.5 Tóm tắt chương 1 Bài toán khai phá quan điểm đang có đƣợc nhiều sự quan tâm của các nhà khoa học Các khai niệm tổng quan về bài toán khai phá quan điểm, các vấn đề trong bài toán khai phá quan điểm đã đƣợc giới thiệu ở chƣơng này Kho ngữ liệu SentiWordNet trợ giúp rất lớn cho quá trình khai phá quan điểm Chƣơng tiếp theo sẽ trình bày về kho ngữ liệu SentiWordNet và các phƣơng pháp xây dựng SentiWordNet... kết quả Dựa trên số đoạn đánh giá tích cực – tiêu cực trên từng sản phẩm, chúng tôi thu đƣợc số đánh giá tích cực trên tổng số đánh giá và số đánh giá tiêu cực trên tổng số đánh giá Các kết quả này đƣợc biểu diễn lại dƣới dạng biểu đồ trực quan cho từng sản phẩm 3.3 Tóm tắt chương 3 Khóa luận đã trình bày về mô hình xây dựng VietSentiWordNet và áp dụng kết quả vào bài toán khai phá quan điểm dựa trên. .. (2) bƣớc biến đổi ngẫu nhiên Mở rộng tập mồi Đào tạo bộ phân lớp Phân lớp synset Phân lớp tổng hợp Học bán giám sát Bƣớc biến đổi ngẫu nhiên Hình 2 Mô hình phương pháp xây dựng SentiWordNet 3.0 2.3.1 Bước 1: Học bán giám sát Bƣớc học bán giám sát này đồng nhất với quá trình đã đƣợc sử dụng xây dựng SentiWordNet 1.0 [8] trong đó bƣớc này đƣợc chia thành 4 bƣớc nhỏ: (1) mở rộng tập mồi (seed set), (2)... giá không chuẩn về cấu trúc câu Theo các đặc điểm trên, chúng tôi đề xuất mô hình khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm nhƣ sau: Mô hình gồm 4 bƣớc: Bƣớc 1: Thu thập, tiền xử lý dữ liệu Bƣớc 2: Trích xuất từ quan điểm Bƣớc 3: Xác định hƣớng quan điểm dựa vào từ điển VietSentiWordNet Bƣớc 4: Tổng hợp kết quả 23 Dữ liệu trên các website bán hàng trực tuyến Nhận xét của khách hàng Chuẩn... tiếng Anh 2.5 Các nghiên cứu liên quan Vũ Xuân Sơn và cộng sự, 2011 [1] xây dựng đƣợc một bộ từ điển VietSentiWordNet ứng dụng trong khai phá quan điểm tin tức Từ điển này có 977 synsets, với 1179 từ Các tác giả áp dụng từ điển VietSentiWordNet vào bài toán phát hiện và tổng hợp quan điểm tin tức trên miền dữ liệu http://vnexpress.net, thu đƣợc độ chính xác tổng hợp quan điểm ở mức câu cho kết quả cao... http://mobile-phone.vn.diplotop.com Bài toán khai phá quan điểm khách hàng từ các đánh giá sản phẩm đòi hỏi phải phân tích đƣợc trọng số tích cực – tiêu cực của từng quan điểm, do đó, cần phải sử dụng kho ngữ liệu quan điểm có trọng số Nhƣng do hiện nay kho ngữ liệu VietSentiWordNet là chƣa hoàn chỉnh, việc xây dựng kho ngữ liệu VietSentiWordNet là cấp thiết không chỉ cho bài toán khai phá quan điểm mà còn cho các bài toán khác... đƣợc sử dụng Bộ phân lớp tích cực 𝜑 𝑝 𝑇𝑟 𝑝 𝐾 Mô hình học bán giám sát SVM 𝑇𝑟 𝑜 𝐾 Bộ phân lớp tiêu cực 𝜑 𝑛 𝑇𝑟 𝑛𝐾 Hình 7 Mô hình bước 2: đào tạo các bộ phân lớp  Bộ phân lớp sử dụng các phƣơng pháp học máy bán giám sát SVM khởi tạo bằng bộ phân lớp nhị phân 2 bộ phân lớp đƣợc tạo là và ; bộ phân lớp tích cực phải phân tách đƣợc các từ thuộc về mục tích cực và các từ thuộc về phần không tích cực, và, bộ... hỏi bạn bè và ngƣời thân: “Máy Asus có tốt không? Bảo hành trong bao lâu? Pin dùng có lâu không? v.v” Nhƣ vậy, các quan điểm về sản phẩm giúp ngƣời dùng lựa chọn một cách đúng đắn, đồng thời, khai phá quan điểm cũng giúp các công ty, tổ chức biết đƣợc ý kiến, quan điểm về vấn đề mà họ đang quan tâm Khai phá quan điểm áp dụng nhiều kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên, học máy và khai phá văn bản . hệ (so sánh) Bing Liu [11] đã trình bày chi tiết về ba bài to n nói trên. Ở đây, chúng tôi xin đề cập tới bài to n thứ nhất là bài to n phân lớp quan điểm: coi khai phá quan điểm nhƣ là phân. VietSentiWordNet là cấp thiết không chỉ cho bài to n khai phá quan điểm mà còn cho các bài to n khác đòi hỏi kho ngữ liệu tiếng Việt. 1.5 Tóm tắt chương 1. Bài to n khai phá quan điểm đang có đƣợc. công việc nào trong bài to n khai phá quan điểm.[6,7,8,9] Khóa luận tốt nghiệp Mở rộng VietSentiWordNet dựa trên mô hình học bán giám sát SVM light và áp dụng vào bài to n khai phá quan điểm

Ngày đăng: 20/08/2014, 09:48

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan