Nghiên cứu kỹ thuật tóm tắt quan điểm từ dữ liệu twitter

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ──────── * ─────── ĐINH KHÁNH LINH NGHIÊN CỨU KỸ THUẬT TÓM TẮT QUAN ĐIỂM TỪ DỮ LIỆU TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ──────── * ─────── Đinh Khánh Linh NGHIÊN CỨU KỸ THUẬT TÓM TẮT QUAN ĐIỂM TỪ DỮ LIỆU TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS.TS Lê Thanh Hƣơng Hà Nội - năm 2016 MỤC LỤC Trang LỜI CẢM ƠN! iv LỜI CAM ĐOAN v DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC HÌNH VẼ viii LỜI MỞ ĐẦU CHƢƠNG I: KHÁI QT VỀ BÀI TỐN PHÂN TÍCH QUAN ĐIỂM TRÊN MẠNG XÃ HỘI TWITTER 1.1 Mạng xã hội Twitter 1.1.1 Mạng xã hội 1.1.2 Giới thiệu mạng xã hội Twitter 1.1.3 Dữ liệu Twitter 1.2 Phát biểu toán 1.2.1 Bài tốn tóm tắt quan điểm 1.2.2 Bài tốn tóm tắt quan điểm thực thể mạng xã hội Twitter 1.2.3 Ý nghĩa tốn tóm tắt quan điểm thực thể mạng xã hội 1.2.4 Khó khăn thách thức 1.3 Tóm tắt chƣơng CHƢƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 10 2.1 Một số nghiên cứu liên quan 10 2.2 Hệ thống phân lớp quan điểm 11 2.2.1 Các đặc trƣng chủ yếu để phân lớp quan điểm 11 i 2.3 Bài toán phân loại thuật toán phân loại 13 2.3.1 Thuật toán phân loại SVM 14 2.4 Độ tƣơng đồng 17 2.4.1 Độ đo Euclid 18 2.4.2 Độ đo cosin 19 2.4.3 Độ đo Lenvenshtein 19 2.4 Áp dụng độ tƣơng đồng cho tốn tóm tắt quan điểm thực thể mạng xã hội Twitter 21 2.5 Tóm tắt chƣơng 22 CHƢƠNG III: MƠ HÌNH ĐỀ XUẤT 23 3.1 Mơ hình giải tốn 23 3.2 Giải chi tiết pha 24 3.2.1 Crawl liệu liên quan đến thực thể 24 3.2.2 Xây dựng liệu training cho việc phân loại 27 3.2.3 Tiền xử lý chuẩn hóa liệu 28 3.2.4 Xây dựng phân lớp tích cực - tiêu cực áp dụng cho tập liệu vừa đƣợc crawl chuẩn hóa 33 3.2.5 Áp dụng phân loại liệu học đƣợc cho liệu chƣa đƣợc gán nhãn trực quan hóa kết 33 3.3 Tóm tắt chƣơng 33 CHƢƠNG IV: THỰC NGHIỆM VÀ ĐÁNH GIÁ 35 4.1 Hƣớng tiếp cận thực nghiệm 35 4.2 Môi trƣờng thực nghiệm 35 4.2.1 Cấu hình phần cứng 35 4.2.2 Công cụ phần mềm 36 ii 4.3 Dữ liệu 38 4.4 Thực nghiệm 39 4.4.1 Xây dựng phân lớp chủ quan khách quan 39 4.4.2 Kết phân loại 42 4.4.3 Đánh giá kết 43 4.5 Tóm tắt chƣơng 44 KẾT LUẬN VÀ ĐỊNH HƢỚNG TIẾP THEO 45 TÀI LIỆU THAM KHẢO 47 iii LỜI CẢM ƠN! Lời đầu tiên, em xin gửi lời cảm ơn lòng biết ơn sâu sắc đến PGS.TS Lê Thanh Hƣơng tận tình hƣớng dẫn bảo em suốt trình thực luận văn tốt nghiệp Em xin chân thành cảm ơn thầy, cô trƣờng Đại học Bách Khoa tạo điều kiện thuận lợi cho em học tập nghiên cứu Em xin gửi lời cảm ơn bạn lớp CNTT-2014B ủng hộ khuyến khích em suốt trình học tập trƣờng Cuối cùng, em xin đƣợc gửi lời cảm ơn vơ hạn tới gia đình bạn bè, ngƣời bên cạnh, giúp đỡ động viên em suốt trình học tập nhƣ suốt q trình thực khóa luận Em xin chân thành cảm ơn! iv LỜI CAM ĐOAN Tôi xin cam đoan phƣơng pháp nghiên cứu kỹ thuật tóm tắt quan điểm từ liệu Twitter thực nghiệm đƣợc trình bày luận văn cơng trình nghiên cứu thân đƣợc thực dƣới hƣớng dẫn PGS.TS Lê Thanh Hƣơng Các số liệu có nguồn gốc rõ ràng tuân thủ nguyên tắc kết trình bày luận văn đƣợc thu thập trình nghiên cứu trung thực chƣa đƣợc công bố trƣớc Tất tài liệu tham khảo từ nghiên cứu liên quan có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo khóa luận Nếu phát có gian lận tơi xin hoàn toàn chịu trách nhiệm nội dung luận văn Hà Nội, tháng 10 năm 2016 Tác giả luận văn Đinh Khánh Linh v DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Chi tiết SVM Support Vector Machine NLP Natural Language Processing POSTAG Part-of-speech Tagger API Application programming interface URl Uniform Resource Locator TF-IDF Term frequency-inverse document frequency vi DANH MỤC CÁC BẢNG Bảng 1: Ví dụ biểu tƣợng cảm xúc 30 Bảng 2: Cấu hình phần cứng 36 Bảng 3: Công cụ phần mềm 36 Bảng 4: Thống kê cho liệu SemEval 38 Bảng 5: Thống kê cho liệu Twitter140 39 Bảng 6: Bảng thuộc tính 41 Bảng 7: Chi tiết thuộc tính sử dụng mơ hình: 41 Bảng 8: Kết phân loại tập liệu SemEval 42 Bảng 9: Kết phân loại tập liệu Twitter 140 52 vii DANH MỤC HÌNH VẼ Hình 1: Mặt siêu phẳng phân chia tập liệu thành hai lớp dƣơng âm 24 Hình 2: Phƣơng pháp SVM với Linear kernel 16 Hình 3: Mơ hình đề xuất giải tốn phân tích quan điểm 23 Hình 4: Kết phân loại cho tập liệu SemEval 42 Hình 5: Kết phân loại cho tập liệu Twitter140 43 viii CHƢƠNG IV: THỰC NGHIỆM VÀ ĐÁNH GIÁ Trong chƣơng tác giả trình bày thƣc nghiệm dựa mơ hình để xuất chƣơng ba tác giả tiến hành thực nghiệm số từ truy vấn, lấy liệu tiếng Anh Dựa vào kết thực nghiệm, tác giả tiến hành đánh giá, nhận xét 4.1 Hƣớng tiếp cận thực nghiệm Sau trình tìm hiểu phƣơng pháp tác giả, tác giả đƣa đề xuất mô hình Để kiểm tra đánh giá đƣợc hiệu mơ hình đề xuất, tác giả tiến hành làm thực nghiệm Để đánh giá thực nghiệm ta cần đƣa đƣợc chất lƣợng phân loại Phƣơng pháp phân loại yếu tố quan trọng hệ thống, ảnh hƣởng lớn đến kết quan điểm thu Để thu đƣợc phân loại tốt, không cần liệu đầu vào lớn, mà ta cần liệu đầu vào tốt xác, kèm với phƣơng pháp tiền xử lý hiệu Sau đánh giá chất lƣợng phân loại dựa liệu đầu vào, ta áp dụng cho liệu đƣợc thu thập từ truy vấn mạng xã hội Twitter Đây mục tiêu hệ thống Đây bƣớc quan trọng, để đo đạc mà thể khả triển khai thực tế hệ thống tóm tắt quan điểm mà ta xây dựng Dựa vào kết thu đƣợc, ta đề xuất hƣớng cải tiến cho pha toàn hệ thống sau Phần luận án trình bày chi tiết cách làm thực nghiệm tác giả 4.2 Mơi trƣờng thực nghiệm 4.2.1 Cấu hình phần cứng 35 Thành phần Chỉ số CPU Intel Core i5 3210M (4*2.8GHZ) RAM 8GB Bộ nhớ SSD 120GB Hệ điều hành Ubuntu 14.04.4 64 bit Bảng 2: Cấu hình phần cứng 4.2.2 Cơng cụ phần mềm Tên cơng cụ Nguồn PyCharm Community 2016 https://www.jetbrains.com/pycharm/download Scikit-Learn http://scikit-learn.org/stable/ Numpy http://www.numpy.org/ TwitterSearch https://github.com/ckoepp/TwitterSearch Bảng 3: Công cụ phần mềm Việc phân tích liệu đƣợc thực ngơn ngữ Python Python ngôn ngữ phổ biến đƣợc sử dụng khoa học đặc biệt ngành phân tích liệu Với cú pháp sáng, gọn gàng dễ đọc với lƣợng lớn framework thƣ viện khổng lồ hỗ trợ, tác vụ phức tạp Python hồn thành cách nhanh chóng Python đƣợc cài đặt sẵn hầu hết phân phối Linux, với tính chất thơng dịch khiến chƣơng trình chạy mà không cần biên dịch, giúp cho công việc cài đặt, maintain 36 debug code dễ dàng nhiều Đi kèm với cơng cụ bổ trợ giúp cho tác giả hồn thành việc xử lý liêu Sau công cụ đƣợc sử dụng q trình hồn thành luận án Các công cụ thư viện bổ trợ Scikit learn Đây thƣ viện mã nguồn mở lớn đƣợc xây dựng ngôn ngữ Python cung cấp cho ngƣời dùng lƣơng lớn thuật toán học máy Scikit learn có cộng đồng ngƣời đóng góp nhiều đƣợc sử dụng rộng rãi nhờ đặc điểm nhƣ dễ sử dụng, tài liệu đầy đủ chi tiết Thƣ viện scikit learn đƣợc cung cấp địa chỉ: http://scikit-learn.org/stable/ PyCharm PyCharm IDE lập trình tiếng đƣợc cung cấp cơng ty JetBrains, công ty chuyên phát triển công cụ lập trình tiếng tồn giới Bởi đặc tính dễ dùng, giao diện tiện lợi, PyCharm ngày đƣợc sử dụng lập trình viên tồn giới Luận án sử dụng cơng cụ PyCharm phiên 2016 dành cho Linux đƣợc cung cấp địa chỉ: https://www.jetbrains.com/pycharm/download/ Numpy, Scipy Numpy Scipy hai thƣ viện xử lý phép toán số học, ma trận phổ biến dành cho Python Đƣợc viết ngơn ngữ C, numpy scipy có hiệu tốt đƣợc sử dụng nhiều thƣ viện tảng khác đặc biệt học máy Luận án sử dụng công cụ numpy scipy đƣợc cài đặt dễ dàng Ubuntu Linux nhờ vào câu lệnh sau: sudo apt-get install python-numpy python-scipy TwitterSearch TwitterSearch công cụ giúp cho việc crawl tweet liên quan đến thực 37 thể dựa vào câu truy vấn dễ dàng thay sử dụng API Twitter Cơng cụ TwitterSearch đƣợc tác giả có nickname ckoepp cung cấp miễn phí Github địa chỉ: https://github.com/ckoepp/TwitterSearch TwitterSearch đƣợc viết ngơn ngữ python, việc build cài đặt chƣơng trình dễ Ta build mã nguồn cài đặt câu lệnh: git clone https://github.com/ckoepp/TwitterSearch cd TwitterSearch sudo python setup.py build && sudo python setup.py install Thay phải viết request đến REST server Twitter, TwitterSearch làm thay hết thứ Cách sử dụng TwitterSearch đƣợc cung cấp phía 4.3 Dữ liệu - Dữ liệu từ thi SemEval (Task4) đƣợc cung cấp địa http://alt.qcri.org/semeval2014/task9/index.php?id=data-and-tools Tại địa này, tweets đƣợc cung cấp dƣới dạng id nhãn Sử dụng đoạn script đƣợc cung cấp ban tổ chức thi, ta lấy đƣợc toàn nội dung tập liệu SemEval Positive Negative Neutral Total Training 5481 2964 430 8875 Testing 1878 1030 109 3017 Bảng 4: Thống kê cho liệu SemEval - Ngồi ra, cịn liệu khác tác giả sử dụng luận án liệu TwitterSearch140 đƣợc cung cấp địa http://help.sentiment140.com Bộ liệu TwitterSentiment140 đƣợc cung cấp cựu sinh viên Standford 38 Alec Go, Richa Bhayani Lei Huang Do số lƣợng tweet tập liệu lớn (lên đến triệu ghi), ta trích xuất 13077 tweet làm tập liệu training 3299 tweet làm tập liệu testing cách ngẫu nhiên đảm bảo tỉ lệ nhãn positive negative xấp xỉ Chú ý liệu khơng có tweet có nhãn neutral Twitter140 Positive Negative Neutral Total Training 7074 6003 13077 Testing 1122 2177 3299 Bảng 5: Thống kê cho liệu Twitter140 4.4 Thực nghiệm 4.4.1 Xây dựng phân lớp chủ quan khách quan Tác giả tiến hành xây dựng phân loại dựa liệu từ tập liệu: - Tập liệu thi SemEval (Task 4) Ta gọi tập SemEval - Tập liệu Sandler Analytics Các nghiên cứu liên quan đến việc tóm tắt quan điểm mạng xã hội Twitter đƣa phƣơng pháp trích chọn đặc trƣng khác Phƣơng pháp tóm tắt quan điểm luận án vừa trình bày đƣa đặc trƣng Sau ta tiến hành thực nghiệm mơ hình sau: - M1 Mơ hình bản: Mơ hình dựa thuộc tính ngrams Đây vốn mơ hình kinh điển tóm tắt quan điểm - M2 Mơ hình sử dụng thuộc tính trích chọn: Dựa thuộc tính đƣợc trình bày chƣơng 2, với tweet ta đƣa vector thuộc tính dựa thuộc tính đƣợc trích chọn nhƣ trình bày, khơng tính n-grams 39 - M3 Mơ hình kết hợp n-grams thuộc tính trích chọn: Nhƣ trình bày, mơ hình đầy đủ đƣa tất thông tin thông tin đặc trƣng ngôn ngữ hay thông tin n-grams Việc so sánh kết mơ hình đầy đủ với mơ hình trƣớc thể đƣợc quan trọng hiệu thuộc tính - M4 Mơ hình kết hợp đầy đủ ngoại trừ thuộc tính liên quan đến độ phân cực từ tweet: Cụ thể, phƣơng pháp sử dụng thông tin ngrams, thông tin đặc trƣng ngơn ngữ nhƣ mơ hình kết hợp trƣớc đó, ngoại trừ đặc trƣng sử dụng từ điển phân cực Việc so sánh mơ hình với mơ hình kết hợp trƣớc thể đƣợc từ điển phân cực mở rộng ảnh hƣởng nhƣ đến kết Ta thử nghiệm mơ hình với phƣơng pháp phân loại khác SVM Nạve Bayes Bernouli để đƣa đánh giá khách quan Tóm tắt mơ hình qua bảng sau: Thuộc tính Tên thuộc tính Tổng điểm phân cực tweet F1 Tỉ lệ phần trăm chữ in hoa F2 Số lƣợng từ in hoa tích cực F3 Số lƣợng từ in hoa tiêu cực F4 Sự có mặt từ in hoa (Có – / Khơng - 0) F5 Số lƣợng hashtag tích cực F6 Số lƣợng hashtag tiêu cực F7 Số lƣợng biểu cảm tích cực F8 Số lƣợng biểu cảm tích cực F9 40 Số lƣợng biểu cảm tiêu cực F10 Số lƣợng biểu cảm tiêu cực F11 Số lƣợng từ phủ định F12 Số lƣợng kí tự đặc biệt ? # * F13, F14, F15 Số lƣợng từ loại (N, V, R, P, O, A) F16, F17, F18, F19, F20, F21 Bảng 6: Bảng thuộc tính Và: Mơ hình Các thuộc tính M1 N-grams M2 F1 + F2 + F3 + F4 + F5 + F6 + F7 +F8 + F9 + F10 +F11 + F12 + F13 + F14 + F15 + F16 +F 17 + F18 + F19 + F20 + F21 M3 N-grams + F1 + F2 + F3 + F4 + F5 + F6 + F7 +F8 + F9 + F10 +F11 + F12 + F13 + F14 + F15 + F16 +F 17 + F18 + F19 + F20 + F21 M4 N-grams +F5 + F8 + F9 + F10 + F11 + F12 + F13 + F14 + F15 + F16 + F17 + F18 + F19 + F20 + F21 Bảng 7: Chi tiết thuộc tính sử dụng mơ hình: Việc kiểm thử so sánh mơ hình khác giúp ta nhận xét đƣợc ƣu nhƣợc điểm phƣơng pháp, đồng thời nhìn thấy đƣợc thuộc tính ảnh hƣởng xấu / tốt tập liệu Twitter Dƣới dây kết tập liệu khác phƣơng pháp phân loại SVM Naïve Bayes 41 4.4.2 Kết phân loại Dƣới kết phân loại tập liệu SemEval: M1 M2 M3 M4 SVM 62.24% 77.44% 78.04% 67.45% Naïve Bayes Bernouli 64.23% 66.82% 68.21% 66.85% Bảng 8: Kết phân loại tập liệu SemEval Hình 4: Kết phân loại cho tập liệu SemEval Kết phân loại tập liệu Twitter 140: M1 M2 M3 M4 SVM 44.91% 64.92% 65.16% 52.64% Naïve Bayes Bernouli 54.51% 66.31% 68.50% 62.73% Bảng 9: Kết phân loại tập liệu Twitter 140 42 80 70 60 M1 50 M2 40 M3 30 M4 20 10 Hình 5: Kết phân loại cho tập liệu Twitter140 4.4.3 Đánh giá kết Từ kết trên, tập liệu, ta thấy mơ hình M3 tức mơ hình sử dụng đồng thời thông tin n-grams sử dụng đầy đủ thuộc tính có kết cao Cùng với đó, mơ hình sử dụng n-grams đƣợc cho hiệu so với mơ hình cịn lại với kết độ xác thấp Điều chứng tỏ thuộc tính đƣa hiệu có ảnh hƣởng đến độ xác nhiều so với thuộc tính n-grams nhiều Từ ta kết luận rằng, thuộc tính sử dụng đƣợc trình bày phía làm cho kết phân loại đƣợc tốt Tuy vậy, phủ nhận so sánh mơ hình M3 với mơ hình M2, phƣơng pháp tập data khác nhau, mơ hình M3 cho kết tốt M2, tức sử dụng đồng thời thông tin n-grams thuộc tính đầy đủ so với dùng thơng tin thuộc tính Điều thể n-grams có vai trị quan trọng có ảnh hƣởng đến quan điểm tweet Thơng qua thực nghiệm này, ta thấy đƣợc việc đƣa vào sử dụng thông tin n-grams cần thiết để tăng độ xác cho phân loại Một điểm cần nhấn mạnh luận án sử dụng từ điển phân cực mạng kèm với việc mở rộng chúng Để đánh giá mức độ ảnh hƣởng thuộc tính này, ta thực loại bỏ thuộc tính liên quan đến độ 43 phân cực mơ hình M3 thu đƣợc mơ hình M4 Mơ hình M4 mơ hình sử dụng thơng tin n-grams thuộc tính khơng sử dụng từ điển phân cực Trong tập liệu SemEval, mơ hình M3 cải thiện so với M4 nhiều phƣơng pháp Naïve Bayes Bernouli cải thiện vừa phải mơ hình SVM Ta thấy việc cải thiện rõ thông qua kết Twitter140, với kết tăng lên khoảng 10% với việc sử dụng Naïve Bayes 20% với việc sử dụng phƣơng pháp SVM Từ khẳng định thuộc tính liên quan đến độ phân cực với cách mở rộng thể cải tiến rõ rệt kết phân loại Việc lựa chọn phƣơng pháp phân loại yếu tố ảnh hƣởng nhiều đến chất lƣợng phân loại Tuy nhiên thí nghiệm SVM Nạve Bayes có chất lƣợng tƣơng đƣơng phƣơng pháp SVM tốt Naïve Bayes tập liệu SemEval tập liệu Twitter140 Naïve Bayes lại thể chất lƣợng vƣợt qua SVM Qua đánh giá này, ta nhận thấy chất lƣợng phân loại phƣơng pháp xấp xỉ 4.5 Tóm tắt chƣơng Chƣơng trình bày chi tiết bƣớc cài đặt theo mơ hình cho kết pha Tác giả trình bày đƣợc mơ hình phân tích quan điểm thực thể mạng xã hội đƣa mơ hình kiến trúc hệ thống cho việc theo dõi quan điểm theo thời gian thực Ngoài tác giả trình bày so sánh kết phƣơng pháp phân loại SVM Naïve Bayes Bernouli với tập liệu khác Cùng với đó, thực nghiệm, tác giả cho thấy mức ảnh hƣởng n-grams features đặc biệt cải tiến cách sử dụng từ điển phân cực mà cách mở rộng khiến cho kết tốt Do điều kiện không cho phép, tác giả không làm việc tập liệu Tiếng Việt, ngồi hệ thống chƣa có khả mở rộng liệu nhiều lên Các vấn đề đƣợc đề cập giải nghiên cứu sau 44 KẾT LUẬN VÀ ĐỊNH HƢỚNG TIẾP THEO Tóm tắt quan điểm nội dung nghiên cứu thời sự, đặc biệt tóm tắt quan điểm từ mạng xã hội Twitter Qua tìm hiểu phƣơng pháp tóm tắt quan điểm mạng xã hội đƣợc trình bày từ cơng trình nghiên cứu liên quan Luận văn đạt đƣợc kết sau đây: - Trình bày mạng xã hội, mạng xã hội Twitter, liệu Twitter - Trình bày tốn tóm tắt quan điểm mạng xã hội twitter, nêuvai trị, ý nghĩa khó khăn thách thức - Trình bày phân tích hƣớng tiếp tiếp cận, phƣơng pháp giải cơng trình nghiên cứu liên quan[1,2,6,21] - Đề nghị mơ hình tiến hành cài đặt thực nghiệm: Tác giả đƣa đƣợc mô hình tóm tắt quan điểm mạng xã hội Twitter theo thời gian thực, đồng thời đƣa phƣơng pháp xây dựng phân loại tweet đánh giá cho chúng Tác giả đánh giá mơ hình lựa chọn vector đặc trƣng cho tweet khác kiểm thử phƣơng pháp phân loại SVM Naïve Bayes Bernouli tập liệu khác Twitter140 SemEval Dựa kết thu đƣợc, tác giả đánh giá việc lựa chọn thuộc tính đặc trƣng ngơn ngữ tweet n-grams giúp cho kết cải thiện đáng kể Với tập liệu SemEval, phƣơng pháp SVM cho kết tốt xấp xỉ 78% với tập liệu Naïve Bayes đƣa kết tốt 68.21% Thực nghiệm chứng minh việc sử dụng từ điển phân cực cách mở rộng chúng giúp cho độ xác phân loại tăng đến 10% Tuy nhiên, hạn chế mặt thời gian kiến thức nên khóa luận tồn mặt hạn chế nhƣ đặc trƣng sử dụng chƣa đƣợc phong phú, nhiều phƣơng pháp chƣa sử dụng kết hợp tốt Trong thời gian tới, tác giả tiếp tục tìm hiểu nâng cao nhiều hƣớng tiếp cận khác nhƣ sử dụng thêm nhiều đặc trƣng hơn, cải tiến phân loại, đặc biệt 45 triển khai thực tế sử dụng công nghệ streaming để xây dựng sản phẩm hồn chỉnh 46 TÀI LIỆU THAM KHẢO [1] Agarwal, Apoorv and Xie, Boyi and Vovsha, Ilia and Rambow, Owen and Passonneau, Rebecca, Sentiment Analysis of Twitter Data, In Proceedings of the Workshop on Language in Social Media (LSM 2011), 2011 [2] Alec Go, Lei Huang, Richa Bhayani, Twitter Sentiment Analysis, CS224N, 2009 [3] Barbosa, Luciano and Junlan Feng, Robust, Sentiment detection on twitter from biased and noisy data, Proceedings of the International Conference on Computational Linguistics (COLING-2010), 2010 [4] Bo Han, Paul Cook, Timothy Baldwin, Automatically constructing a normalisation dictionary for microblogs, Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2012), Jeju Island, Korea, 2012, pp 421–432 [5] Bo Pang and Lillian Lee, Opinion Mining and Sentiment Analysis, Foundations and Trends in Information Retrieval, 2008, pp 1–135 [6] Bing Liu, Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, May 2012 [7] Davidov, Dmitry and Tsur, Oren and Rappoport, Ari, Enhanced sentiment learning using Twitter hashtags and smileys, in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, 2010, 241-249 [8]Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro, Semantic Similarity Between Sentences Through Approximate Tree Matching, IbPRIA (2), 2005, 638-646 [9]Gerani, S Carman, M J.; and Crestani, F 2009, Investigating Learning Approaches for Blog Post Opinion Retrieval, In ECIR, 2009 47 [10]T Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, Proceedings of the European Conference on Machine Learning, Springer, 1998 [11]I Kloumann, C Danforth, K Harris, C Bliss, and P Dodds, Positivity of the English language, PLoS ONE 7(1), 2012, pp 1-7 [12] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey, Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 94- 98 [13]Pak, A., and Paroubek, P 2010, Twitter as a corpus for sentiment analysis and opinion mining, In Proc of LREC, 2010 [14]Samuel Brody, Nicholas Diakopoulos, Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs, EMNLP 2011: 562-570 [15]P Senellart and V D Blondel, Automatic discovery of similar words, Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M.Castellanos, editors),Springer-Verlag, January 2008, pp 25–44 [16]Shengli Wu, Fusing Blog Opinion Retrieval Results for Better Effectiveness, Database and Expert Systems Applications (DEXA), 2011 22nd International Workshop on, 2011, pp 195-199 [17]Turney, Peter D, Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews, Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2002), 2002 [18]Vladimir N Vapnik, The Nature of Statistical Learning Theory, Springer, 1995 [19]Wiebe, Janyce and Ellen Riloff, Creating subjective and objective sentence classifiers from unannotated texts, Computational Linguistics and 48 Intelligent Text Processing, 2005 [20]Yu, Hong and Vasileios Hatzivassiloglou, Towards answering opinion questions, Separating facts from opinions and identifying the polarity of opinion sentences, Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP-2003), 2003 [21]Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett, Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans Knowl Data Eng 18(8), 2006, pp 1138-1150 49 ... Twitter Bài tốn tóm tắt quan điểm thực thể mạng xã hội Twitter tốn tóm tắt quan điểm với truy vấn thu hẹp phạm vi thực thể liệu Twitter Bài tốn tóm tắt quan điểm thực thể mạng xã hội Twitter: Đầu... 1.3 Tóm tắt chƣơng Chƣơng tác giả giới thiệu mạng xã hội Twitter tốn tóm tắt quan điểm, giới thiệu toán toán tắt quan điểm thực thể mạng xã hội Twitter, lý sử dụng Twitter để tóm tắt quan điểm, ... quan điểm ngƣời dùng từ mạng xã hội Twitter Trong khóa luận này, tác giả dựa nghiên cứu trƣớc đề xuất số cải tiến cho việc tóm tắt quan điểm 2.1 Một số nghiên cứu liên quan Tóm tắt quan điểm

Nghiên cứu kỹ thuật tóm tắt quan điểm từ dữ liệu twitter

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

LỜI MỞ ĐẦU

CHƯONG I: KHÁI QUÁT VỀ BÀI TOÁN PHÂN TÍCH QUAN ĐIỂMTRÊN MẠNG XÃ HỘI TWITTER

CHƯƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

CHƯƠNG III: MÔ HÌNH ĐỀ XUẤT

CHƯƠNG IV: THỰC NGHIỆM VÀ ĐÁNH GIÁ

KẾT LUẬN VÀ ĐỊNH HƯỚNG TIẾP THEO

Tài liệu cùng người dùng

Tài liệu liên quan