Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng

66 913 0
Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG LÊ THỊ BÍCH HẢO NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG LÊ THỊ BÍCH HẢO NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS NGUYỄN VIỆT ANH THÁI NGUYÊN – 2016 i LỜI CẢM ƠN Trước hết xin bày tỏ lòng biết ơn sâu sắc gửi lời cảm ơn đặc biệt tới Thầy TS Nguyễn Việt Anh, người định hướng đề tài, cung cấp cho kiến thức, tài liệu tận tình hướng dẫn bảo suốt trình thực đề tài luận văn cao học này, từ ý tưởng đề cương nghiên cứu, phương pháp nghiên cứu, phương pháp giải vấn đề lần kiểm tra cuối để hoàn thành luận văn Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường, Phòng Đào tạo sau đại học, Đại học Công nghệ thông tin truyền thông Thái Nguyên tạo điều kiện tốt giúp suốt trình học tập Cuối xin gửi lời cảm ơn đến gia đình, bạn bè người động viên khuyến khích suốt trình học tập thực đề tài luận văn Thái Nguyên, ngày tháng năm 2016 Học viên Lê Thị Bích Hảo ii LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận văn tự nghiên cứu tìm hiểu dựa tài liệu trình bày theo ý hiểu thân hướng dẫn trực tiếp Thầy TS Nguyễn Việt Anh Các nội dung nghiên cứu, tìm hiểu kết thực nghiệm hoàn toàn trung thực Luận văn chưa công bố công trình Trong trình thực luận văn tham khảo đến tài liệu số tác giả, ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả liệt kê mục “DANH MỤC TÀI LIỆU THAM KHẢO” cuối luận văn Học viên Lê Thị Bích Hảo iii MỤC LỤC Trang Trang bìa phụ Lời cảm ơn .i Lời cam đoan ii Mục lục iii Danh mục bảng, hình vẽ, đồ thị iv MỞ ĐẦU Chương 1: TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM 1.1 Khai phá quan điểm 1.1.1 Giới thiệu chung 1.1.2 Những thách thức khai phá quan điểm với liệu đánh giá 1.1.3 Các định nghĩa khai phá quan điểm 1.1.4 Các toán khai phá quan điểm 1.2 Khai phá quan điểm dựa đặc trưng 11 1.2.1 Mô hình khai thác ý kiến dựa thuộc tính 12 1.2.2 Trích xuất khía cạnh 15 1.2.3 Dự đoán cực 16 1.2.4 Nhóm khía cạnh 17 1.2.5 Phân giải đồng tham chiếu (Coreference resolution) 18 1.2.6 Đánh giá 18 Chương 2: MỘT SỐ PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM 21 2.1 Phương pháp trích chọn đặc trưng dựa tập phổ biến 21 2.2 Phương pháp trích chọn đặc trưng dựa lan truyền kép 26 2.3 Mô hình giải toán khai phá quan điểm dựa vào đặc trưng cho tiếng Việt 34 Chương 3: ỨNG DỤNG VÀO HỆ THỐNG TRÍCH CHỌN ĐẶC TRƯNG CHO ĐIỆN THOẠI DI ĐỘNG 37 3.1 Mô tả toán ý tưởng giải 37 iv 3.2 Xây dựng mô hình hệ thống 37 3.2.1 Xây dựng sở liệu đặc tả sản phẩm 40 3.2.2 Sinh tập ứng viên đặc trưng 41 3.3.3 Nhóm gộp đặc trưng 43 3.3 Thực nghiệm đánh giá 45 3.3.1 Môi trường công cụ sử dụng 46 3.3.2 Bước tiền xử lý liệu: 47 3.3.4 Trích chọn tính dựa theo thuật toán lan truyền kép 51 3.3.5 Gộp nhóm tính 53 3.3.6 Đánh giá chung cho toàn hệ thống 54 KẾT LUẬN 56 TÀI LIỆU THAM KHẢO 57 iv DANH MỤC CÁC BẢNG Trang Bảng 3.1 Các nhãn từ loại giải thích 40 Bảng 3.2 Tổng hợp tính quan tâm 54 DANH MỤC CÁC HÌNH VẼ ĐỒ THỊ Hình 1.1 Ví dụ biểu diễn đối tượng Hình 1.2 Quan hệ nhiệm vụ 10 Hình 2.1 Mô hình trích chọn đặc trưng Hu Liu 22 Hình 2.2 Các loại mối quan hệ phụ thuộc ngữ pháp A B 27 Hình 2.3 Mô hình khai phá quan điểm dựa tính Ha [6] 35 Hình 3.1 Mô hình giải toán 39 MỞ ĐẦU Trên giới nói chung Việt Nam nói riêng, thương mại điện tử trở nên phổ biến ngày phát triển Một phần quan trọng thương mại điện tử bán hàng trực tuyến Số lượng người mua hàng trực tuyến gia tăng, số lượng đánh giá, nhận xét người dùng sản phẩm ngày nhiều Một sản phẩm thông dụng có hàng trăm, hàng nghìn đánh giá Cùng với trang web bán hàng trực tuyến trang web đánh giá sản phẩm epinions.com, dpreview.com, vnreview.vn, trustedreviews.com, tinhte.vn, Các trang web nơi người tiêu dùng viết đánh giá sản phẩm Các đánh giá đăng trang web loại cần tuân theo số quy định trang web đưa chấm điểm đông đảo người dùng trang web vào độ tin cậy, hợp lý hữu dụng mà đánh giá mang lại Chính vậy, đánh giá từ trang web loại coi nguồn tổng hợp lớn đánh giá sản phẩm tin cậy từ khách hàng Đây nguồn thông tin quan trọng, cung cấp cho người mua hàng nhìn toàn diện sản phẩm mà họ định mua Còn nhà sản xuất, đánh giá khách hàng sở để tiến hành cải tiến, hoàn thiện sản phẩm Tuy nhiên, vấn đề đặt số lượng ý kiến đánh giá lớn Điều gây khó khăn cho người mua hàng nhà sản xuất Người mua hàng gặp khó khăn việc tổng hợp ý kiến người tiêu dùng trước để đưa định mua hay không mua sản phẩm Còn nhà sản xuất khó theo dõi, nắm bắt tất phản hồi người tiêu dùng sản phẩm Thực tế làm nảy sinh yêu cầu tổng hợp tất nhận xét khách hàng đặc trưng sản phẩm trang web đánh giá sản phẩm Theo khảo sát 2000 người Mỹ trưởng thành cho thấy 81% người dùng internet (chiếm tỷ lệ 60% người Mỹ) thực việc tìm hiểu sản phẩm thông qua internet Có từ 73% đến 87% số người nói nhận xét sản phẩm có ảnh hưởng quan trọng đến việc lựa chọn mua sản phẩm họ Như vậy, quan điểm người khác giúp có thêm thông tin định vấn đề, ảnh hưởng lớn đến hành vi Tại Việt Nam theo báo cáo thương mại điện tử Bộ công thương công bố năm 2014 [1] loại mặt hàng mua trực tuyến đồ công nghệ điện tử chiếm tới 61%, yếu tố quan tâm mua sắm 81% người uy tín người bán hàng 64% theo thương hiệu sản phẩm; thống kê năm 2015 Google [2] người dùng internet có xu hướng theo lời khuyên trực tuyến 50% để mua đồ Việc giúp người có ý định mua tham khảo tốt ý kiến người dùng, hay giúp nhà cung cấp sản phẩm biết cộng đồng quan tâm đến sản phẩm khía cạnh nào, động lực để học viên nghiên cứu đề tài Đối với toán có nhiều công trình nghiên cứu ứng dụng giới thập kỷ qua đưa nhiều kết đáng ý mô tả tổng hợp số nhà nghiên cứu uy tín ngành Bing Liu [3] hay Moghaddam [4]… giới, nước đề tài nhận nhiều ý quan tâm nhà nghiên cứu năm gần đây, bật có nhóm tác giả Bảo Sơn [5] nhóm Hà Thụy [6], [7] đưa số kết mô hình áp dụng số liệu tiếng Việt từ điển miền Tiếng Việt… Luận văn định hướng tìm hiểu phương pháp trích chọn đặc trưng khai phá quan điểm để biểu diễn đối tượng quan tâm, sở đề xuất phương pháp thử nghiệm ứng dụng hệ thống toán trích chọn đặc trưng sản phẩm cụ thể điện thoại di động, từ liệu thu thập website diễn dàn đánh giá sản phẩm Với ý nghĩa thực tế ứng dụng thị trường nước, học viên xin đề xuất nghiên cứu đưa mô hình ứng dụng Mô hình bao gồm bước từ thu thập liệu, tiền xử lý liệu, đến ứng dụng thuật toán mô hình lan truyền kép để trích chọn đặc trưng, sử dụng phân cụm để gộp nhóm đặc trưng Cuối đưa đánh giá riêng hiệu thuật toán, liệu, kết đạt đánh giá tính khả thi ứng dụng mô hình Cấu trúc luận văn chia thành phần chính: Phần I Mô tả tổng quan toán khai phá quan điểm, nêu rõ vấn đề bật toán tiếp tới sâu vào toán khai phá quan điểm dựa đặc trưng, toán cần giải phương pháp đánh giá Những vấn đề nêu có giới thiệu nghiên cứu nước liên quan Phần II Mô tả cụ thể chi tiết phương pháp giải toán trích trọn đặc trưng bật giới, phân tích đưa định ứng dụng vào mô hình giải toán Phần III Phát biểu toán đưa mô hình ứng dụng toán trích chọn đặc trưng cho miền liệu tiếng Việt sản phẩm điện thoại di động Tiếp theo đưa kết thực nghiệm phân tích chủ quan học viên kết đạt mô hình Phần IV Kết luận tổng kết trình thực luận văn, khó khăn, thách thức, kết đạt định hướng hướng nghiên cứu áp dụng 45 Thuật toán: Học phân lớp SVM1 tập huấn luyện L Lặp lại đến ||L|| >= t* ||L U|| Sử dụng SVM1 gán nhãn tất từ tính U Chọn vector hỗ trợ s từ U làm tập liệu kiểm thử cho thuật toán kNN Sử dụng thuật toán kNN với tập mẫu huấn luyện gán nhãn lại tập liệu kiểm thử s để tập s gán nhãn MỚI L L MỚI; U U\ MỚI Học phân lớp SVM2 sử dụng L cập nhật SVM1SVM2 Sử dụng SVM2 gán nhãn tất từ tính lại U Xác định đặc trưng phổ biến: Mục đích để xác định từ tính phổ biến đánh giá bỏ tính dư thừa Bằng cách sử dụng thuật toán FP-growth [25] tìm tập phổ biến với ngưỡng tự chọn tùy thuộc vào liệu thu thập Đặc điểm áp dụng thuật toán FP-growth đánh giá trích chọn ứng viên tính (hay gọi đặc trưng) đưa vào tập liệu đầu vào đặc trưng ứng viên đó, không quan tâm đến số lần xuất từ tính đánh giá hay bình luận; điều có ý nghĩa liệu tính có nhiều người quan tâm có nghĩa tần suất tính số lần xuất từ tính tất văn mà tần suất đánh giá có nhắc đến tính 3.3 Thực nghiệm đánh giá Phần luận văn mô tả kết thực nghiệm dạng kết đầu bước mô tả phần 3.2 sau nêu phần nhận xét đánh giá kết đạt với bước theo tiêu chí khác 46 Cụ thể khía cạnh cần quan tâm đánh giá bao gồm thứ xem xét liệu huấn luyện thu thập được, khả mở rộng liệu này, phương pháp chạy liệu; thứ hai đánh giá thuật toán sử dụng lan truyền kép thời gian độ phức tạp khả phù hợp với liệu cộng thêm khía cạnh cấu trúc ngữ pháp cho tiếng Anh tiếng Việt; tiếp tới đánh giá khâu gộp nhóm mô hình hệ thống qua kết thực nghiệm; cuối đánh giá chung hệ thống cấp độ thực nghiệm đưa tính khả thi áp dụng hệ thống môi trường thực 3.3.1 Môi trường công cụ sử dụng Luận văn có sử dụng số framework từ điển công bố nhóm nghiên cứu như:  jsoup5 dùng để crawler liệu từ trang website có đánh giá sản phẩm  Jvntextpro để thực bước tiền xử lý tách câu, tách từ, gán nhãn từ loại cho tiếng Việt  Từ điển VNDic7, tratu.vn8  StanfordNLP9 công cụ phân tích xử lý ngôn ngữ tự nhiên cho tiếng Anh, dùng để tiền xử lý liệu cho tiếng Anh, giống với công cụ Jvntextpro  Vav-agrument thực nhận dạng thực thể tên cho tiếng Việt [27]  Double-propagation-target-generation mã nguồn thuật toán lan truyền kép dành cho liệu tiếng Anh10 Thực nghiệm chạy máy có cấu hình: 4GB RAM, Intel® Core ™ i3 CPU M380 @2.53GHz Sử dụng môi trường Eclipse để lập trình http://jsoup.org/ http://jvntextpro.sourceforge.net/ Vndic.net http://www.tratu.vn http://nlp.stanford.edu/ 10 https://github.com/opener-project/double-propagation-targetgeneration/tree/master/src/main/java/org/openerproject/double_propagation2/data 47 3.3.2 Bước tiền xử lý liệu: Bước thu thập liệu đánh giá nhận xét người dùng dòng sản phẩm điện thoại di động Những liệu thu thập tự động từ nguồn website có uy tín tinhte.vn, vforum.vn, vnexpress cho tiếng Việt trustedreviews.com cho tiếng Anh… Cũng mục đích ứng dụng cho tiếng Việt, luận văn mô tả liệu đầu vào đầu qua bước tiếng Việt Tác giả thu thập tiếng Anh với mục đích chạy thử nghiệm với phương pháp thuật toán có nguồn từ trước, phần để hiểu bước thuật toán, phần để xem xét khả áp dụng phần ngôn ngữ tiếng Việt Sau mô tả trình thu thập cách lập trình sử dụng framework Jsoup Trước hết với trang web có cấu trúc riêng, cần nắm cấu trúc trang web cần thu thập liệu sau lọc thông tin dựa theo thành phần trang web Điều quan trọng cần lựa trang web có nhiều thông tin Ví dụ với web tinhte, tác giả tìm đến mục tin đánh giá điện thoại di động (https://tinhte.vn/forums/dtpt-tin-tuc-danh-gia.367/) Tiếp đến dựa vào trang tin lọc đường link khác dẫn đến viết đánh giá dòng sản phẩm điện thoại di động riêng Dựa vào đường link tiếp tục cho lọc tự động nội dung lấy nguyên đánh giá bình luận có trang web Cuối lưu vào CSDL chung, liệu thu format dạng mô tả bảng bên tiêu đề đánh giá nhận xét đánh giá nhận xét đánh giá Ví dụ: Đánh giá iPhone 6s: Hiệu cao, tính hữu ích Vẫn mang dáng dấp thấy từ nhiều hệ iPhone trước, 48 đừng để vẻ ngoại hình… Thiết kế bỏ viền ngon Live photo, 3d touch cá nhân thấy hay ai dùng cho ý kiến để xúc mua hối hận Đang dùng z1, Dùng tuần bán luôn, Sau trình lọc viết không liên quan, luận văn thu thập 3300 viết đánh giá loại sản phẩm di động, bao gồm 2200 viết từ diễn đàn nước, viết trung bình có khoảng gần 10 nhận xét, 1000 tiếng Anh Trong độ dài trung bình viết đánh giá 800 từ, độ dài nhận xét khoảng gần 30 từ Đây liệu có kích cỡ trung bình Dự liệu đánh giá lưu trữ cách: thứ để gộp chung vào thư mục; thứ nhì phân bổ vào nhiều thư mục con, mục đích để tiện dụng cho việc chạy thuật toán Những liệu thu viết (post) có nội dung nhận xét (review) hay đánh giá (comment) thường có phong cách viết tự (free style) khuân mẫu nào, bước tiền xử lý có áp dụng hai bước Thứ lọc tay gán nhãn số post nhập nhằng không rõ nghĩa nhận xét hay có quan điểm; bước thứ hai sử dụng thuật toán phân loại viết ‘bài đánh giá’ ‘loại khác’ Thực chất với số lượng post thu thập tương đối ít, luận văn áp dụng kết từ bước thứ nhất, nhiên để mở rộng quy mô liệu tương lai, luận văn đề xuất tiếp thực thêm bước tiền xử lý phân loại tự động bước hai Tiếp tới phải loại bỏ nhiễu gặp thẻ tên HTML, XML, tên hay thẻ ‘tags’, chữ in hoa toàn bộ, số điện thoại, ngày tháng, biểu tượng cảm xúc, Một bước tiền xử lý nhỏ xác định thực thể tên đối tượng: cách xử dụng framework vav- agrument [27] tự động trích tên sản phẩm 49 Đánh giá iPhone 6s: Hiệu cao, tính hữu ích  iPhone 6s Bước sử dụng công cụ JvnTextPro để thực tách câu, tách từ gán nhãn từ loại đánh giá , với bước liệu định dạng biểu diễn sau, thứ bước tách câu, câu đánh dấu đưa dạng sau: Vẫn mang dáng dấp thấy từ nhiều hệ iPhone trước, đừng để vẻ ngoại hình đánh lừa đây, iPhone 6s với nâng cấp cải tiến thực biến thiết bị thành quái vật thực Apple tạo Mang vi xử lí Cortex-A9 nhất, camera iSight 12MP, Live Photos, 3D Touch nhiều kể đây, iPhone 6s gần thay đổi hoàn toàn cách mà sử dụng iPhone thường làm khứ  Vẫn mang dáng dấp thấy từ nhiều hệ iPhone trước, đừng để vẻ ngoại hình đánh lừa đây, iPhone 6s với nâng cấp cải tiến thực biến thiết bị thành quái vật thực Apple tạo Mang vi xử lí Cortex-A9 nhất, camera iSight 12MP, Live Photos, 3D Touch nhiều kể đây, iPhone 6s gần thay đổi hoàn toàn cách mà sử dụng iPhone thường làm khứ Ở bước tách từ (Tokenization) dựa theo thuật toán Maxent [16] Vẫn mang dáng dấp thấy từ nhiều hệ iPhone trước, đừng để vẻ ngoại hình đánh lừa đây, iPhone 6s với nâng cấp cải tiến thực biến thiết bị thành quái vật thực Apple tạo 50  Vẫn mang dáng_dấp chúng_ta có_thể thấy từ nhiều thế_hệ iPhone_trước, đừng để vẻ ngoại_hình đánh_lừa đây,_iPhone 6s với sự_nâng_cấp cải_tiến thực_sự biến thiết_bị thành quái_vật thực_sự Apple tạo_ra Tiếp tới gán nhãn tự loại theo mục bảng 3.1 Vẫn mang dáng_dấp chúng_ta có_thể thấy từ nhiều thế_hệ iPhone_trước, đừng để vẻ ngoại_hình đánh_lừa đây,_iPhone 6s với sự_nâng_cấp cải_tiến thực_sự biến thiết_bị thành quái_vật thực_sự Apple tạo_ra  Vẫn/R mang/V dáng_dấp/N chúng_ta/P có_thể/R thấy/V từ/E nhiều/A thế_hệ/N iPhone_trước,/A nhưng/C đừng/Np để/E vẻ/N ngoại_hình/N đó/P đánh_lừa/V khi/N giờ/N đây,_iPhone/N 6s/M với/C những/L sự_nâng_cấp/N và/C cải_tiến/V mới/A đã/R thực_sự/A biến/V thiết_bị/N này/Np thành/V một/M con/Nc quái_vật/N thực_sự/A do/E Apple/Np tạo_ra./Np Tại bước gán nhãn từ loại, số khó khăn việc người dùng viết theo phong cách không quy, sử dụng từ viết tắt phong cách trẻ (phong cách teen) Một vấn đề lề quan tâm liệu có cần thiết thu thập với liệu lớn không thực thuật toán lan truyền kép? Những đánh giá không đánh giá dòng sản phẩm mà kiểu so sánh sản phẩm Tuy nhiên với mục đich trích xuất đặc trưng mức câu tổng hợp mức văn luận văn chọn tập liệu có kích cỡ trung bình không tổng hợp mức sản phẩm Nhưng hoàn toàn sử dụng phương 51 pháp để áp dụng cho tập liệu cho dòng sản phẩm, yêu cầu cần lấy đủ liệu từ nhiều nguồn dòng sản phẩm 3.3.4 Trích chọn tính dựa theo thuật toán lan truyền kép Đầu bước cho tiếp vào đầu vào bước sử dụng thuật toán lan truyền kép để trích tính (đặc trưng), tác giả sử dụng mã nguồn mở Double-propagation-target-generation để tiến hành Theo yêu cầu thuật toán đầu vào cần tập từ hạt giống để bắt đầu trình khai phá, luận văn chạy qua vài nhân khác nhau, sử dụng nhân có nhiều nhân kết không đổi, kết lựa chọn gồm nhân là: Tốt_ADJECTIVE_OPINION, lemma=tốt, pos=ADJECTIVE, type=OPINION, count=0, score=0.0 Xấu_ADJECTIVE_OPINION, lemma=xấu, pos=ADJECTIVE, type=OPINION, count=0, score=0.0] Màn_hình_ADJECTIVE_OPINION, lemma=màn_hình, pos=NOUN, type=OPINION, count=0, score=0.0] Giá_ADJECTIVE_OPINION, lemma=giá, pos= NOUN, type=OPINION, count=0, score=0.0] Sau quan sát liệu đặc trưng ẩn, luận văn xây dựng từ điển nhỏ thể từ quan điểm thường kèm với đặc trưng nào, ví dụ Đặc trưng Từ quan điểm kèm Hình ảnh sắc nét|nhòe nhoẹt| rõ nét Kiểu dáng bắt mắt| sang trọng|thô kệch| Ứng dụng mượt mà| phong phú| đa dạng Nhạc êm tai Mạng khỏe| pin bền| trâu bò| cùi| khỏe 52 Thời gian để thực trích chọn tính dựa vào lan truyền lâu với môi trường chạy thực nghiệm, với thư mục liệu đầu vào khoảng gồm 1000 đánh giá chạy thời gian 10 đồng hồ, rủi ro xẩy tương đối lớn, trình thực nghiệm luận văn chia thành file nhỏ cho chạy Từ trình thực nghiệm luận văn xem xét đến khía cạnh mở rộng liệu sau, coi hình thức chạy trực tuyến-online (thực nghiệm với liệu đầu vào đưa vào liên tục, khác với liệu đưa vào từ đầu phương pháp chạy ngoại tuyến - offline), để thực trình tập nhân đầu vào cập nhật sau lần chạy trước Tuy nhiên liệu có kích cỡ trung bình tầm 3000 viết, luận văn đưa đánh giá hiệu cải tiến này, nêu ý tưởng giải pháp Quá trình thực nghiệm có tìm số từ thể quan điểm thú vị, với quan điểm tích cực có từ ‘bá đạo’, ‘ác liệt’, phê lòi’,…; hay quan điểm tiêu cực ‘cùi bắp’, ‘quá bựa’… Có thể thấy ngôn ngữ tự nhiên đa phong cách, việc tiến hành thu thập cần nhiều liệu để học Kết thực nghiệm thu 3545 tính ứng viên có 70% tính có ý nghĩa lại nhiễu Sau thống kê thu kết quả: Tính Đúng Được trích xuất Không trích xuất Không 2512 1028 202 1131 Với độ xác precision 70,9%, recall 68,9% 69,9% Một số kết khía cạnh trích xuất nodeID=màn_hình_NOUN_TARGET,lemma=màn_hình, pos=NOUN,type=TARGET,count=1493,score=4.794274154847263E153] nodeID=sắc_nét_NOUN_TARGET,lemma=sắc_nét,pos=NOUN,type=TARGET, count=116,score=2.6056834741017108E154] 53 nodeID=camera_NOUN_TARGET,lemma=camera, pos=NOUN,type=TARGET,count=674,score=1.850962431163566E23] … Bằng bước lọc thủ công khía cạnh trích xuất được, độ nhiễu xác định chứa nhiều từ không rõ nghĩa hay ý nghĩa từ ‘mặt này’, ‘giao dịch’, ‘mô tả’,…và phần đáng kể lỗi tả từ viết tắt người dùng ‘droid’, ‘net’,… 3.3.5 Gộp nhóm tính Dựa vào thiết kế giải pháp phần 3.2.3 luận văn tiến hành gộp nhóm đặc trưng kết thu gồm 51 nhóm (không kể nhóm có từ đặc trưng) với định dạng đầu ra: hình dáng|trang trí|thiết kế|thân máy|biểu tượng|k`ích thước|mầu sắc|phong cách giá|đáng giá|giá cả|giá bán chuông báo|volume|âm thanh|nhạc|radio|loa camera|ảnh|hình ảnh|hình chụp|ảnh chụp|ảnh|hình|độ phân giải ứng dụng|giải trí|tính #các tính xếp theo thứ tự giảm dần #tính với tần suất lớn dùng làm nhãn nhóm Một cách cảm tính tính có độ giống gần, luận văn chưa có điều kiện để thống kê kiểm chứng độ xác Tiếp tới thống kê có ý nghĩa tổng hợp toàn tập liệu thu thập cấp độ văn 54 Bảng 3.2 Tổng hợp tính quan tâm Trên bảng 3.2 là thống kê tính quan tâm dựa vào tần suất xuất hiểu số đánh giá có xuất tính Kết thống kê cho thấy người dùng quan tâm nhiều đến kiểu dáng điện thoại, sau chức chụp ảnh, phần dự đoán xu hướng đặc điểm người dùngđặc tính trẻ ưa hình thức 3.3.6 Đánh giá chung cho toàn hệ thống Đánh giá toàn hệ thống, nhiệm vụ nhỏ thu thập liệu tự động hay lọc nhiễu; sử dụng cấu trúc ngữ pháp kết hợp với cách trích xuất từ quan điểm từ tính năng; gộp nhóm từ tính năng, có đưa kết riêng, đầu vào pha sau kết pha trước nên cần quan trọng đến độ xác nhấn mạnh điều mức đánh giá cụ thể thống kê dừng lại mức thực nghiệm, khía cạnh đánh giá tính thi ứng dụng chạy môi trường thực cần nhiều thông số dựa theo khảo sát có 55 người dùng thực doanh nghiệp hay dựa vào đặc điểm miền liệu, xu hướng liệu,… Toàn hệ thống liệu đầu vào phục vụ cho riêng miền liệu điện thoại di động, để mở rộng sang miền khác cần xây dựng số từ điển riêng cần quan sát đặc điểm liệu miền Một cách tổng quan mô hình hệ thống tổng hợp từ mô hình phương pháp đề xuất nhà nghiên cứu có uy tín lĩnh vực, giữ khung chức cần hiện, luận văn bổ sung số cải tiến nhỏ ghép phương pháp đưa đặc trưng riêng cho liệu 56 KẾT LUẬN Trích chọn thông tin lĩnh vực nghiên cứu có nhiều ứng dụng giới, luận văn nhánh nhỏ lĩnh vực trích chọn thuộc tính cho sản phẩm với cụ thể sản phẩm điện thoại di động khai thác tập liệu đánh giá người dùng trang web cộng đồng tiếng Việt Nam tinhte.vn, vforum.vn, vnexpress.vn, nước trustedreviews.com,… Luận văn nghiên cứu tổng quan lĩnh vực khai phá quan điểm, chi tiết sâu hướng nghiên cứu trích chọn đặc trưng khía cạnh, tìm hiểu số hướng thuật toán tiêu biểu công bố giới với ứng dụng hiệu quả, từ việc dựa theo mô hình luận văn tìm cách giải toán ứng dụng vào trích chọn đặc trưng cho điện thoại di động Đây bước nhỏ toán lớn tổng hợp quan điểm, tiền đề khởi đầu, nhiều hạn chế cần khắc phục việc thu thập liệu cho hiệu quả, phân loại câu nhiều ý nghĩa hay mức độ trung lập; xây dựng từ điển cho miền liệu; … Hướng tiếp tới luận văn thứ hướng tới bước xác định quan điểm tổng hợp quan điểm ý nghĩa, thứ hai mở rộng liệu cho nhiều miền chủ đề nóng như: điện tử, thời trang,… (theo thống kê mặt hàng người tiêu dùng quan tâm [1], [2]) 57 TÀI LIỆU THAM KHẢO Tiếng Việt (2014) "Báo cáo thương mại điện tử Việt Nam 2014", Cục Thương mại điện tử Công nghệ thông tin - Bộ Công Thương, pp 53 Tiếng Anh (2015) "The consumer barometer survey 2015", Liu B (2010) "Sentiment Analysis and Subjectivity", Handb Nat Lang Process, pp 1–38 Kennedy R.E., Yang Z., and Cohen W.B (2010) "Detecting trends in forest disturbance and recovery using yearly Landsat time series: LandTrendr Temporal segmentation algorithms", Remote Sens Environ, 114(12), pp 2897–2910 Kieu B.T and Pham S.B (2010) "Sentiment analysis for Vietnamese", Proc - 2nd Int Conf Knowl Syst Eng KSE 2010, (April), pp 152–157 Ha Q.T., Vu T.T., Pham H.T., et al (2011) "An Upgrading Feature-Based Opinion Mining Model on Vietnamese Product Reviews Quang-Thuy", Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), 6890(April), pp 173–185 Vu T.-T., Pham H.-T., Luu C.-T., et al (2011) "A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese", Moghaddam S and Ester M (2013) "Opinion Mining in Online Reviews: Recent Trends", Simon Fraser Univ Tutor WWW2013 Hu M and Liu B (2004) "Mining Opinion Features in Customer Reviews", 19th Natl Conf Artifical Intell, pp 755–760 10 Blair-Goldensohn S., Hannan K., McDonald R., et al (2008) "Building a sentiment summarizer for local service reviews", WWW Work NLP Inf Explos Era 58 11 Rao Y., Lei J., Wenyin L., et al (2014) "Building emotional dictionary for sentiment analysis of online news", World Wide Web, 17(4), pp 723–742 12 Wei W and Gulla J.A (2010) "Sentiment learning on product reviews via Sentiment Ontology Tree", ACL 2010 - 48th Annu Meet Assoc Comput Linguist Proc Conf, (July), pp 404–413 13 Wang, Hongning, Lu Y., et al (2010) "Latent aspect rating analysis on review text data: a rating regression approach", 14 Fan M and Wu G (2011) "Aspect Opinion Mining on Customer Reviews", (1), pp 27–33 15 Nguyen H.N., Van Le T., Le H.S., et al (2014) "Domain specific sentiment dictionary for opinion mining of Vietnamese text", Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), 8875(DECEMBER 2014), pp 136–148 16 Somprasertsri, Gamgarn, and Lalitrojwong and P (2008) "A maximum entropy model for product feature extraction in online customer reviews", 17 Lafferty J., McCallum A., and Pereira F.C.N (2001) "Conditional random fields: Probabilistic models for segmenting and labeling sequence data", ICML ’01 Proc Eighteenth Int Conf Mach Learn, 8(June), pp 282–289 18 Mei Q., Ling X., Wondra M., et al (2007) "Topic sentiment mixture: modeling facets and opinions in weblogs", Proc 16th Int Conf World Wide Web - WWW ’07, pp 171 19 Qiu G., Liu B., Bu J., et al (2007) "Expanding Domain Sentiment Lexicon through Double Propagation Zhejiang Key Laboratory of Service Robot Department of Computer Science College of Computer Science University of Illinois at Chicago", Constraints, pp 1199–1204 59 20 Qiu G., Liu B., Bu J., et al (2011) "Opinion Word Expansion and Target Extraction through Double Propagation", Comput Linguist, 37(1), pp 9–27 21 Zhai Z., Liu B., Xu H., et al (2011) "Clustering product features for opinion mining", Proc fourth ACM Int Conf Web search data Min - WSDM ’11, (March), pp 347 22 Zhai Z., Liu B., Xu H., et al (2011) "Constrained LDA for grouping product features in opinion mining", Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), 6634 LNAI(PART 1), pp 448–459 23 Zhai Z., Liu B., Xu H., et al (2010) "Grouping product features using semisupervised learning with soft-constraints", Proc 23rd Int Conf Comput Linguist (Coling 2010), (August), pp 1272–1280 24 Street S.M and Liu B (2009) "Extracting and Ranking Product Features in Opinion Documents", Program, 17(August), pp 1462–1470 25 Han J., Pei J., and Yin Y (2000) "Mining frequent patterns without candidate generation", ACM SIGMOD Record, 29, 1–12 26 Thelwall M., Buckley K., Paltoglou G., et al (2010) "Sentiment Strength Detection in Short Informal Text", Am Soc Informational Sci Technol, 61(12), pp 2544–2558 27 Tran P.N., Ta V.D., Truong Q.T., et al (2015) "Named Entity Recognition for Vietnamese Spoken Texts and Its Application in Smart Mobile Voice Interaction.", 170–180, [...]... đặc trưng {conj}, mối quan hệ giữa các từ quan điểm {conj} 28 Luật lan truyền Trong thuật toán lan truyền các tác giả đề xuất bốn bước lan truyền con: (1) trích chọn đặc trưng sử dụng từ quan điểm mối quan hệ OF-Rel, (2) trích chọn đặc trưng sử dụng đặc trưng mối quan hệ FF-Rel, (3) trích chọn từ quan điểm sử dụng đặc trưng mối quan hệ OF-Rel, (4) trích chọn từ quan điểm sử dụng từ quan điểm. .. tinhte.vn … Phần này sẽ tổng quan một số hướng nghiên cứu gần đây giải quyết nhiệm vụ trích chọn đặc trưng trong bài toán khai phá quan điểm dựa trên đặc trưng Sau đây là mô tả chi tiết một số thuật toán nổi bật 2.1 Phương pháp trích chọn đặc trưng dựa trên tập phổ biến Đây là phương pháp do Hu Liu đề xuất trong [9] Ý tưởng cơ bản của phương pháp này là sử dụng một phương pháp học không giám sát (unsupervisor... hệ giữa đặc trưng từ quan điểm chính là điểm mấu chốt trong thuật toán trích chọn dựa trên lan truyền kép Ký hiệu OF-Rel chỉ mối quan hệ giữa từ quan điểm đặc trưng, OO-Rel chỉ mối quan hệ giữa các từ quan điểm FF-Rel chỉ mối quan hệ giữa các đặc trưng Để xác định mối quan hệ giữa đặc trưng từ quan điểm, các tác giả sử dụng một bộ phân tích cú pháp phụ thuộc (dependency parser) Cú pháp phụ... qua một ngưỡng tối thiểu Luận văn có sử dụng ý tưởng của phương pháp tập phổ biến này để tiến hành xác định nhóm đặc trưng phổ biến được quan tâm hơn cả 26 2.2 Phương pháp trích chọn đặc trưng dựa trên lan truyền kép Đây là phương pháp do Guang Qiu các cộng sự đề xuất trong loạt bài [19] [20] Ý tưởng phương pháp này dựa trên phát hiện một số mẫu quan hệ cú pháp phụ thuộc giữa từ quan điểm đặc trưng. .. là một trong ba bài toán cơ bản trong khai phá quan điểm, bao gồm: bài toán phân lớp quan điểm, bài toán khai phá tổng hợp quan điểm dựa trên đặc trưng bài toán khai phá quan hệ so sánh Bài toán khai phá tổng hợp quan điểm dựa trên đặc trưng nhằm mục tiêu tạo ra một bản tổng hợp quan điểm dựa trên các đặc trưng của sản phẩm được người dùng đề cập trong văn bản từ đó xác định các ý kiến đánh... toán nhỏ hơn được quan tâm, trong đó có bài toán trích chọn khía cạnh là bài toán sẽ được nghiên cứu kỹ trong phần Chương 2, cũng là trọng tâm của luận văn 21 Chương 2 MỘT SỐ PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM Những nghiên cứu gần đây về trích chọn đăc trưng (tính năng) trong khai phá quan điểm chủ yếu được thực hiện từ các đánh giá sản phẩm trong các trang... từ quan điểm tập đặc trưng tìm được Vì có thể chỉ cần một tập nhỏ từ quan điểm ban đầu (tập hạt giống từ quan điểm) để bắt đầu tiến trình lan truyền nên phương pháp này còn được xem như một phương pháp học bán giám sát một dạng ‘bootstrapping’ Sau đây sẽ là mô tả chi tiết phương pháp những vấn đề được quan tâm khi thực hiện Mối quan hệ giữa đặc trưng từ quan điểm Việc xác định mối quan. .. phá quan điểm còn có một số nghiên cứu khác dựa trên các phương pháp thống kê như phương pháp dựa trên mô hình mạng Markov ẩn, phương pháp dựa trên mô hình 15 cực đại hóa Entropy [16], phương pháp dựa trên các trường ngẫu nhiên có điều kiện [17], phương pháp dựa trên phân tích chủ đề [18] Tiếp theo luận văn mô tả một số bài toán con trong khai phá quan điểm dựa vào đặc trưng 1.2.2 Trích xuất khía cạnh... thì f là đặc trưng dư thừa bị loại bỏ Trích chọn các từ quan điểm Việc trích chọn các từ quan điểm trong các đánh giá được các tác giả tiến hành như sau: mỗi câu trong sở dữ liệu đánh giá mà chứa đặc trưng phổ biến thì trích chọn ra tính từ ở gần đặc trưng đó nhất làm từ quan điểm Trích chọn các đặc trưng không phổ biến Các từ quan điểm đi cùng các đặc trưng phổ biến có thể được sử dụng để tìm... quan về một thực thể hay một khía cạnh của thực thể nào đó” Một ý kiến có thể được phân loại thành kiểu tiêu cực, tích cực hay trung lập Có thể gọi là hướng quan điểm hay cực của quan điểm Từ quan điểm: “Từ thể hiện được quan điểm của người đánh giá được gọi là từ quan điểm Quan điểm hiện quan điểm ẩn: Một quan điểm hiện về một đặc trưng f là một câu chủ quan mà trực tiếp biểu đạt một quan điểm ... Chương 2: MỘT SỐ PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM 21 2.1 Phương pháp trích chọn đặc trưng dựa tập phổ biến 21 2.2 Phương pháp trích chọn đặc trưng. .. luận văn 21 Chương MỘT SỐ PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM Những nghiên cứu gần trích chọn đăc trưng (tính năng) khai phá quan điểm chủ yếu thực từ... trích chọn đặc trưng khai phá quan điểm có số nghiên cứu khác dựa phương pháp thống kê phương pháp dựa mô hình mạng Markov ẩn, phương pháp dựa mô hình 15 cực đại hóa Entropy [16], phương pháp

Ngày đăng: 09/12/2016, 17:56

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan