Phân tích ý kiến về sản phẩm của doanh nghiệp qua thông tin trên internet

96 11 0
  • Loading ...
1/96 trang

Thông tin tài liệu

Ngày đăng: 02/01/2019, 11:00

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ HỒ NGẠN PHÂN TÍCH Ý KIẾN VỀ SẢN PHẨM CỦA DOANH NGHIỆP QUA THƠNG TIN TRÊN INTERNET (**Từ khóa: Opinion Analysics, Sentiment Analysis, sentiment analysis social network, Phân tích cảm xúc mạng xã hội, Sentiment Classification) LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ PHÚC TP HỒ CHÍ MINH, tháng 03 năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : PGS.TS ĐỖ PHÚC (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 31 tháng 03 năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng PGS.TS Quản Thành Thơ Chủ tịch TS Cao Tùng Anh Phản biện TS Nguyễn Thị Thúy Loan Phản biện PGS.TS Võ Đình Bảy Ủy viên TS Lê Thị Ngọc Thơ Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV PGS.TS QUẢN THÀNH THƠ TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT PHÒNG QLKH – ĐTSĐH NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 31 tháng 03 năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên Ng ày, Ch uy L Ê C ô GN ia NB ìn M1 S5 I- Tên đề tài: PHÂN TÍCH Ý KIẾN VỀ SẢN PHẨM CỦA DOANH NGHIỆP QUA THÔNG TIN TRÊN INTERNET II- Nhiệm vụ nội dung: Đề tài luận văn bao gồm nhiệm vụ với nội dung sau:  Xây dựng công cụ lấy liệu từ Internet theo từ khóa tìm kiếm tiếng Việt  Làm liệu, xây dựng mơ hình phân lớp liệu dựa cảm xúc tập bình luận độc giả  Thực phân tích trọng số cảm xúc dựa từ điển cảm xúc tiếng Việt III- Ngày giao nhiệm vụ: 10/11/2016 IV- Ngày hoàn thành nhiệm vụ: 31/03/2017 V- Cán hướng dẫn: PGS.TS ĐỖ PHÚC CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) PGS.TS ĐỖ PHÚC LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tơi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thơng tin trích dẫn luận văn rõ nguồn gốc Học viên thực luận văn (Ký ghi rõ họ tên) LÊ HỒ NGẠN LỜI CÁM ƠN Đầu tiên cho xin phép gửi lời cám ơn vô sâu sắc đến với PGS.TS Đỗ Phúc, người thầy trước tiếp hướng dẫn, bảo tạo điều kiện tốt cho tơi suốt q trình thực luận văn Ngồi tơi xin gửi lời cám ơn chân thành đến PGS.TS Võ Đình Bảy tồn thể đội ngũ cán bộ, thầy công tác ĐH Công Nghệ TP HCM, người trực tiếp giảng dạy, bạn đồng học lớp 15SCT11 hỗ trợ tơi q trình học tập thực nghiên cứu trường Cuối xin gửi lời cám ơn đến gia đình người thân có ủng hộ mặt tinh thần giúp đỡ đáng kể cho tơi q trình nghiên cứu hồn thành luận văn LÊ HỒ NGẠN TÓM TẮT Trong thực tế với phát triển mạnh mẽ Internet, việc quảng bá sản phẩm, thương hiệu doanh nghiệp lan truyền thông tin báo điện tử, mạng xã hội, website…vơ nhanh chóng Đó kênh tiếp thị doanh nghiệp đến với khách hàng mang tính hiệu cao tiết kiệm chi phí Ngồi mạng xã hội tiếng Facebook, Instagram, Twitter,…tại Việt Nam số báo điện tử uy tín VnExpress, Thanh niên, Tuổi trẻ, Dân trí, trang website bán hàng trực tuyến thu hút lượng người xem lớn Vì vậy, sản phẩm thương hiệu doanh nghiệp người dùng biết đến qua kênh ngày nhiều so với cách quảng bá tiếp thị theo truyền thống Do đó, câu hỏi đặt làm xử lý lượng thơng tin phản hồi lớn từ bình luận độc giả diễn hàng phút, hàng giây Đây toán liên quan cảm xúc Yêu cầu cụ thể cần giải vấn đề sau:  Xây dựng công cụ lấy liệu từ Internet theo từ khóa tìm kiếm tiếng Việt  Làm liệu, xây dựng mơ hình phân lớp liệu dựa cảm xúc tập bình luận độc giả  Thực phân tích trọng số cảm xúc dựa từ điển cảm xúc tiếng Việt Để giải yêu cầu đặt ra, thừa kế phát triển công cụ lấy liệu tự động Internet (crawler), thông dịch từ điển cảm xúc tiếng Anh (SO-CAL) sang tiếng Việt, sử dụng mơ hình SVM để phân lớp cảm xúc số giải thuật để phân tích cảm xúc đạt hiệu suất xác cách tối ưu Luận văn bao gồm chương, chúng tơi trình bày ý tưởng, sở lý thuyết, phương pháp thực hiện, mô hình thực nghiệm để đánh giá kết luận kết đạt hướng phát triển tương lai ABSTRACT In current time, the fast development of the Internet as well as the increases in the product’s promotions, marketing… from famous brands had been expanded on electronic newspapers, social-network, websites much more faster There is no doubt that these are the information channels of the business which can help them to connect to the potential customers with high efficiency and cost savings Beside the popular social networks such as Facebook, Instagram, Twitter, in Vietnam some prestigious newspapers such as VnExpress, TuoiTre, Dan Tre… go along with online e-commercial websites which attracted a lot of clients to access Therefore, the marketing products had been more and more be known by users through these channels than previous traditional advertising ways In fact, the question is how we can handle the huge amount of feedback from the reader's comments There are three main issues:  Building tools to gather data from the Internet (web’s crawler) based on the Vietnamese search keywords  Cleaning, structuring the crawled data and classifying the data to identify the subjective and objective comments  Performing the sentimental analysis based on custom build-up emotional Vietnamese dictionaries To come up with the solutions, by inheriting from previous works as well as selfdeveloping the custom crawler’s tools In order to build the dictionary, we translate the English-based social emotional dictionary (SO-CAL) into Vietnamese For classifying problem, we use the SVM algorithm and some related algorithms There are five chapters in this thesis, in which we will present ideas, theoretical basis, methodology, experimental models for evaluating the achieved results as well as next developmental directions for the future DANH MỤC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH CHƯƠNG GIỚI THIỆU VÀ TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU 1.1 Lý động lực thực đề tài 1.2 Mục đích phạm vi nghiên cứu đề tài 1.3 Các cơng trình nghiên cứu liên quan .2 1.4 Các điểm đóng góp luận văn 1.5 Tính khả thi đề tài 1.6 Thống kê nhu cầu sử dụng Internet Việt Nam .6 1.7 Mơ hình hệ thống .7 1.8 Các phương pháp luận phương pháp nghiên cứu áp dụng 1.9 Kết luận chương .9 CHƯƠNG CƠ SỞ LÝ THUYẾT 10 2.1 Đặc trưng liệu từ trang tin tức mạng xã hội tiếng Việt .10 2.2 Phân loại cảm xúc gì? 12 2.3 Bộ từ điển cảm xúc SO-CAL tiếng Việt 14 2.3.1 Bộ từ điển cảm xúc SO-CAL tiếng Anh 14 2.3.2 Bộ từ điển SO-CAL tiếng Việt .17 2.4 Phương pháp phân loại chủ quan 21 2.4.1 Câu có từ hàm chứa cảm xúc 21 2.4.2 Các trường hợp khác .22 2.5 Phương pháp phân loại cảm xúc 23 2.5.1 Giá trị cảm xúc câu phụ thuộc vào từ hàm chứa cảm xúc 23 2.5.2 Giá trị cảm xúc câu phụ thuộc vào từ tăng cường 24 2.5.3 Giá trị cảm xúc câu phụ thuộc vào từ phủ định 25 2.5.4 Giá trị cảm xúc câu phụ thuộc vào từ khiếm khuyết 26 2.5.5 Giá trị cảm xúc câu có xu hướng tích cực 26 2.6 Phương pháp phân lớp Support Vector Machine 27 2.6.1 Giới thiệu 27 2.6.2 Các bước phương pháp SVM 28 2.6.3 Bài toán phân hai lớp với SVM 29 2.6.4 Bài toán phân nhiều lớp SVM 30 2.7 Phân tích cảm xúc dựa vào bình luận 31 2.8 Phương pháp tách từ, gán nhãn từ loại 31 2.9 Kết luận chương .32 CHƯƠNG CÁC BƯỚC XÂY DỰNG NỀN TẢNG HỆ THỐNG VÀ CÀI ĐẶT 33 3.1 Xây dựng mơ hình 33 3.2 Thu thập liệu .34 3.2.1 Cách thức thực 36 3.2.2 Chi tiết thực lấy liệu 39 3.3 Tiền xử lý, định dạng liệu có cấu trúc 40 3.4 Dữ liệu huấn luyện 43 3.4.1 Mơ hình phân lớp SVM 44 3.4.2 Kỹ thuật phân lớp SVM 45 3.4.3 Phân loại chủ quan 46 3.4.4 Phân loại cảm xúc 47 3.5 Kết luận chương .52 CHƯƠNG THỰC NGHIỆM VÀ CÁC KẾT QUẢ ĐÁNH GIÁ 53 4.1 Bộ liệu thực nghiệm 53 4.2 Bộ liệu huấn luyện 53 4.3 Bộ từ điển cảm xúc 54 4.4 Phương pháp thử nghiệm .55 4.4.1 Mơ hình phân lớp SVM tập liệu huấn luyện 55 4.4.2 Phương pháp phân tích cảm xúc số lĩnh vực 62 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .64 TÀI LIỆU THAM KHẢO 66 PHỤ LỤC .68 DANH MỤC TỪ VIẾT TẮT C N P O P os N eg W T P R F H T In fo P ar P os N eg W or Pr ec R ec H ar H y C ôn T Đi ể Đi ể T ổ Đ ộ Đ ộ Tr un Gi ao 4.4.2 Phương pháp phân tích cảm xúc số lĩnh vực Để đánh giá độ xác phân tích cảm xúc, tiến hành thực nghiệm số báo bảng 4.6 4.7 Số liệu thực nghiệm thể bảng 4.8: Bảng 4.8: Một số báo lĩnh vực C S h L ố Lu ĩ ớy n c pê h â n 6Tí K 3ch i cự n ( Ti h d cự Kc i Tí n ch h cự d Ti o ( a cự Tí G4 ch cự i Ti o ( d cự MĐ ộ y c h í n 7 , 7 , 3 , , T Đ r ộ u n b g a b , , , , , , 8 , , , 2 , , Theo số liệu thực nghiệm hai lĩnh vực kinh doanh giáo dục, thu kết tương đối khả quan Tuy nhiên, có số chưa đạt mong đợi hai yếu tố là: mẫu liệu huấn luyện chưa đủ lớn, chưa đủ độ bao phủ lĩnh vực thử nghiệm số lượng từ từ điển so với phân tích cảm xúc tiếng Việt thực tế Biểu đồ thống kê kết thực nghiệm phân tích cảm xúc biểu diển hình 4.3: Hình 4.3: Kết thực nghiệm phân tích cảm xúc CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các kết đạt được: Luận văn triển khai số lý thuyết sở liên quan vấn đề phân tích cảm xúc có kết hợp số giải thuật văn nhằm xây dựng mô hình phân loại cảm xúc dựa bình luận bạn đọc qua báo tiếng Việt Internet Trong luận văn này, chúng tơi có số đóng góp sau:  Xây dựng từ điển cảm xúc tiếng Việt thông dịch từ từ điển cảm xúc tiếng Anh Trong đó, có điều chỉnh, đánh giá qua thử nghiệm thực tế  Xây dựng cơng cụ hỗ trợ cho việc tìm kiếm liệu báo tiếng Việt Internet  Xây dựng mơ hình đánh giá cảm xúc tiếng Việt ứng dụng thực tế Các hạn chế khó khăn: Đề tài phân tích cảm xúc tiếng Việt hướng Việt Nam mức độ phức tạp cảm xúc tiếng Việt, xử lý ngôn ngữ tự nhiên tiếng Việt, thời gian thực đề tài khơng nhiều Vì vậy, khó khăn ảnh hưởng đến kết đầu sản phẩm Một số hạn chế khó khăn, bao gồm:  Trong thời gian ngắn, việc xây dựng điều chỉnh từ điển cảm xúc tiếng Việt cố gắng lớn Tuy nhiên, với số lượng từ chưa nhiều việc điều chỉnh chưa hoàn thiện ảnh hưởng đến kết đầu sản phẩm  Giải thuật xử lý ngôn ngữ tiếng Việt phức tạp cần hỗ trợ chuyên gia ngôn ngữ học  Xây dựng mơ hình phân loại cảm xúc chưa tối ưu tính phức tạp ngơn ngữ tiếng Việt liệu chưa nhiều Hướng phát triển: Trong tương lai, để tăng hiệu việc phân loại cảm xúc tiếng Việt, có số cải tiến hướng phát triển sau:  Cập nhật, bổ sung từ điển cảm xúc tiếng Việt  Xây dựng mơ hình phân loại cảm xúc với số giải thuật xử lý ngôn ngữ tự nhiên tiếng Việt  Làm giàu liệu huấn luyện SVM để giúp cho việc phân lớp nâng cao độ xác phân loại cảm xúc TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Nguyễn Ngọc Duy (2014), Tóm tắt ý kiên sở phân loại cảm xúc, Đại học Bách khoa Thành phố Hồ Chí Minh [2] Thái Sơn (2006), Ky thuật Support Vector Machines ứng dụng, ngành toán tin ứng dụng, Đại học Bách khoa Hà Nội TIẾNG ANH [3] Bing Liu, Sentiment Analysis and Opinion Mining In Morgan & Claypool Publishers, May 2012 [4] Vo Ngoc Phu and Phan Thi Tuoi, Sentiment classification using Enhanced Contextual Valence Shifters In Proceedings of International Conference on Asian Language Processing (IALP 2014), Malaysia, 2014 [5] Maite Taboada, Julian Brooke, Milan Tofiloski, Kimberly Voll and Manfred Stede, Lexicon-Based Methods for Sentiment Analysis, Association for Computational Linguistics, 2011 [6] Bo Pang and Lillian Lee, Sentiment Analysis Using Subjective Summarization Based on Minimum Cuts In Proceedings of ACL, pp 271 278, 2004 [7] Farah Benamara, Carmine Cesarano and Diego Reforgiato, Adjectives and Adverbs are better than Adjectives Alone, ICWSM ’2006 Boulder, CO USA, 2006 [8] Thanh Ho, Duy Doan and Phuc Do, Discovering Hot Topics On Social Network Based On Improving The Aging Theory In Proceedings of International Journal, Vol 3, Issue 3, No.9, May 2014 [9] Kennedy, Alistair and Diana Inkpen, Sentiment classification of movie and product reviews using contextual valence shifters, Computational Intelligence, 2006 [10] V N Vapnik, The Nature of Statistical Learning Theory, Springer Verlag, 1995 [11] V N Vapnik, Statistical Learning Theory, N Y.: John Wiley & Sons, 1998 [12] C J C Burges, Simplified support vector decision rules, Proc 13th International Conference on Machine Learning, San Mateo, CA, 1996, pp 71–77 [13] Osuma E., Freund R., Girosi F., An Improved Training Algorithm for Support Vector Machines, Proc IEEE NNSP ’97, 1997, pp 276-285 [14] J Platt, Fast Training of Support Vector Machines Using Sequential Minimal Optimization, In Advences in Kernel Methods - Support Vector Learning, pp 185208, Cambridge, M.A, 1999, MIT Press [15] Sergios Theodoridis and Konstantinos Koutroumbas, Pattern Recognition, Academic Press, 2006 [16] H D Block, B W Knight, F Rosenblatt, Analysis of A Four Layer Serious Coupled Perceptron, Rev Modern Physics, vol.34, pp.135-152, 1962 [17] A Kennedy and, D Inkpen, Sentiment classification of movie reviews using contextual valence shifters, Computational Intelligence, vol 22, no 2, pp 110-125, 2006 TÀI LIỆU TRÊN INTERNET [18] Dictionaries for the Semantic Orientation CALculator, https://github.com/DrOttensooser/BiblicalNLPworks/tree/master/SkyDrive/NLP/Commo nWorks/Data/Opion-Lexicon-English/SO-CAL [19] VIETTIEN Dictionary for Mac, http://nguyenvietkhoa.edu.vn/? page_id=346 [20] vnTokenizer, http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer [21] vnTagger, http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTagger [22] Epinions 1, https://www.sfu.ca/~mtaboada/research/SFU_Review_Corpus.html [23] Polarity Dataset, www.cs.cornell.edu/People/pabo/movie-review-data/ [24]JVnTextPro, http://www.jvntextpro.sourceforge.net [25]Current challenges in web crawling, https://www.slideshare.net/denshe/icwe13tutorial-webcrawling [26]Top 50 Web Crawler, http://bigdata-madesimple.com/top-50-open-source-webcrawlers-for-data-mining [27]Selenium WebDriver , http://scraping.pro/how-to-use-selenium-webdriver-with-java/ PHỤ LỤC Trong suốt trình thực luận văn – lựa chọn ngôn ngữ lập trình java để chạy thực nghiệm cho vấn đề phân tích cảm xúc tiếng Việt Ngồi tính xây dựng riêng, để tiết kiệm thời gian, sử dụng số thư viện mã nguồn LibSVM, JVnTextPro… Sau đây, giới thiệu giao diện chi tiết mơ hình mà chúng tơi thực  Giao diện hình chương trình 69  Các thành phần phục vụ cho chương trình Lớp hỗ trợ huấn luyện SVM Lớp chương trình Cơ sở liệu lấy từ Internet Bộ từ điểm cảm xúc SO-CAL Kết huấn luyện SVM Chứa kết model SVM sau huấn luyện Dữ liệu huấn luyện SVM 70  Lớp hỗ trợ huấn luyện SVM Lớp huấn luyện SVM từ liệu huấn luyện khai thác tay giúp cho trình phân lớp SVM sau liệu thực nghiệm xác 71 Dữ liệu huấn luyện Hình bên mô tả tập liệu huấn luyện thực tay để giúp cho trình thực huấn luyện SVM 72 Dữ liệu thực nghiệm 73 Dữ liệu từ điển cảm xúc tiếng Việt SO-CAL Kết huấn luyện SVM 74 Chương trình thực 75 Kết thực chương trình 76 ... đề tài: PHÂN TÍCH Ý KIẾN VỀ SẢN PHẨM CỦA DOANH NGHIỆP QUA THÔNG TIN TRÊN INTERNET II- Nhiệm vụ nội dung: Đề tài luận văn bao gồm nhiệm vụ với nội dung sau:  Xây dựng công cụ lấy liệu từ Internet. .. cảm xúc tiếng Việt, xử lý ngôn ngữ tự nhiên… 1.2 Mục đích phạm vi nghiên cứu đề tài Thực việc xây dựng mơ hình phân tích ý kiến sản phẩm doanh nghiệp qua thông tin trang tin tức mạng xã hội tiếng... thành phần CHƯƠNG CƠ SỞ LÝ THUYẾT Chương này, chúng tơi trình bày sở lý thuyết làm tảng để xây dựng hệ thống nhằm phân tích ý kiến sản phẩm doanh nghiệp từ thông tin trang tin tức mạng xã hội tiếng
- Xem thêm -

Xem thêm: Phân tích ý kiến về sản phẩm của doanh nghiệp qua thông tin trên internet , Phân tích ý kiến về sản phẩm của doanh nghiệp qua thông tin trên internet

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay