Dự báo chủ đề nóng trên mạng xã hội

44 73 0
Dự báo chủ đề nóng trên mạng xã hội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA PHẠM TRUNG SƠN DỰ BÁO CHỦ ĐỀ NÓNG TRÊN MẠNG XÃ HỘI Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2019 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BACH KHOA -ĐHQG -HCM Cán hướng dẫn khoa học : GS TS Cao Hoàng Trụ TS Võ Thị Ngọc Châu Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) ' Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: PHẠM TRUNG SƠN MSHV: 1670016 Ngày, tháng, năm sinh: 24/11/1993 Nơi sinh: Bình Dương Chuyên ngành: Khoa Học Máy Tính Mã số : 60.48.01.01 I TÊN ĐỀ TÀI: Dự báo chủ đề nóng mạng xã hội II NHIỆM VỤ VÀ NỘI DUNG: • • • • Tìm hiểu tốn phát dự báo chủ đề nóng mạng xã hội Tìm hiểu cơng trình liên quan sở lý thuyết đề tài Đe xuất phương pháp dự báo chủ đề nóng mạng xã hội Đánh giá phương pháp đề xuất: chuẩn bị liệu, thực thí nghiệm, phân tích đánh giá kết theo độ đo: Accuracy, Recall, Precision, F-measure III NGÀY GIAO NHIỆM vụ : 13/08/2018 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 02/06/2019 V CÁN Bộ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): GS TS Cao Hoàng Trụ TS Võ Thị Ngọc Châu Tp HCM, ngày CÁN Bộ HƯỚNG DẢN (Họ tên chữ ký) tháng năm 20 CHỦ NHIẸM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) GS TS Cao Hoàng Trụ TS Võ Thị Ngọc Châu TRƯỞNG KHOA (Họ tên chữ ký) LỜI CẢM ƠN Đầu tiên, chúng tơi xin chân thành cảm ơn đến thầy Cao Hồng Trụ cô Võ Thị Ngọc Châu, khoa Khoa Học Kỹ Thuật Máy Tính tận tình huớng dẫn từ khâu lựa chọn đề tài, theo dõi, sửa chữa, hồn thiện cho chúng tơi suốt q trình thực hiện, nhu theo sát trao đổi nhiều vấn đề, mở mang cho nhiều huớng mới, giúp chúng tơi hồn thiện từ ý tuởng đến thực, lí luận nhu cách trình bày Chúng tơi chân thành biết ơn tận tình dạy dỗ, giúp đỡ thầy cô khoa Khoa học Kỹ thuật Máy tính truyền đạt kinh nghiệm, kiến thức, giảng vô sâu sắc hữu ích mà ngày hơm đuợc vận dụng đề tài Cuối cùng, gửi lời cảm ơn đến gia đĩnh, bạn bè, nguời quan tâm, động viên, giúp đỡ thể chất lẫn tinh thần để chúng tơi có đủ nghị lực, sức khỏe hoàn thành tốt đuợc đề tài, luận văn Với lòng biết ơn chân thành, chúng tơi xin gửi lời chúc sức khỏe, lời biết ơn điều tốt đẹp tới thầy cô khoa Khoa học Kỹ thuật Máy tính truờng Đại Học Bách Khoa thành phố Hồ Chí Minh Trân trọng! TĨM TẮT LUẬN VĂN • Với phát triển mạng xã hội, ngày có nhiều thơng tin, chủ đề chia sẻ, bàn luận, thu hút nhiều người dùng Các tốn phát hiện, phân tích, dự báo cho chủ đề nóng quan tâm nghiên cứu có ý nghĩa thực tiễn cao lĩnh vực ứng dụng khác tiếp thị, quảng bá nội dung Qua nghiên cứu toán cơng trình liên quan, chúng tơi nắm bắt, khảo sát tốn dự báo chủ đề nóng thực trạng, thách thức đặc trưng mơ hĩnh dự báo sử dụng cho tốn Trên sở đó, chúng tơi đề xuất kết hợp nhóm đặc trưng xây dựng phương pháp hĩnh thành mẫu liệu âm-dương cho toán dự báo chủ đề nóng Sau đó, chúng tơi giải tốn tốn phân lóp nhị phân với hướng tiếp cận học máy, dùng giải thuật học có giám sát Với đề xuất cho luận văn, chúng tơi xây dựng tốn, phát triển giải pháp, thực thí nghiệm đánh giá cách chặt chẽ, đầy đủ nhằm tạo sở so sánh cho cơng trình sau Các kết thí nghiệm khả quan, cải thiện với đề xuất đóng góp luận văn, cho tốn dự báo chủ đề nóng ASBTRACT With the development of social networks, more and more information, topics are shared, discussed, and attracted a lot of users The problems of detecting, analyzing and predicting for hot topics are interested in research due to their high practical meaning in different application areas such as marketing and content promotion Through studying the problem and related works, we have grasped and surveyed the hot topic prediction problem about the situation and challenges as well as the characteristics and predictive models used for the problem On that basis, we have proposed combining feature groups and developing methods to form positive and negative data samples for the problem of hot topic prediction Then we solve the problem as a binary classification problem with a machine learning approach, using supervised learning algorithms With the above suggestions for the dissertation, we have stated a problem, developed a solution, and conducted rigorous and complete evaluation experiments to create a comparative basis for the following works Experimental results were positive, improved with suggestions of the thesis, for the hot topic prediction problem LỜI CAM ĐOAN Chúng cam đoan ngoại trừ kết tham khảo từ nguồn khác có ghi rõ tài liệu tham khảo, phụ lục thi cơng việc trình bày luận văn tốt nghiệp cho tơi thực chua có phần nội dung luận văn đuợc xuất bản, sử dụng truờng nơi khác Neu có sai phạm nào, tơi xin chịu hoàn toàn trách nhiệm truớc Ban Chủ Nhiệm Khoa Ban Giám Hiệu Nhà Trường Tp Hồ Chí Minh, tháng năm 2019 Học viên thực Phạm Trung Sơn MỤC LỤC DANH MỤC HÌNH DANH MỤC BẢNG BIÊU DANH MỤC TỪ VIẾT TẮT Chương 1: GIỚI THIỆU 1.1 TÔNG QUAN 1.2 MỤC TIÊU CỦA ĐỀ TÀI 1.3 PHẠM VI CỦA ĐỀ TÀI 1.4 Ý NGHĨA ĐỀ TÀI 1.4.1 Ý nghĩa thực tiễn 1.4.2 Ý nghĩa khoa học 1.5 CẤU TRÚC LUẬN VĂN Chương 2: CƠNG TRÌNH LIÊN QUAN 11 Chương 3: PHÂN TÍCH VẤN ĐỀ 13 3.1 PHÁT BIÊU BÀI TỐN Dự BÁO CHỦ ĐỀ NĨNG 3.2 CÁC CÂU HỎI NGHIÊN cứu 14 3.3 THÁCH THỨC 15 Chương 4: PHUONG PHÁP ĐỀ XUẤT 16 4.1 TỒNG QUAN VỀ HUỚNG TIẾP CẬN GIẢI QUYẾT BÀI TOÁN 16 4.2 XÁC ĐỊNH MẢU DUONG, MẢU ÂM 17 4.2.1 Phương pháp chuẩn bị liệu theo cực đại toàn cục 17 4.2.2 Phương pháp chuẩn bị liệu theo ngưỡng số lượng đăng 18 4.3 RÚT TRÍCH ĐẶC TRUNG 4.4 HIỆN THỰC MƠ HÌNH Dự BÁO 22 Chương 5: ĐÁNH GIÁ 23 5.1 CÁC MỤC TIÊU ĐÁNH GIÁ 23 5.2 MƠI TRƯỜNG THÍ NGHIỆM 23 5.2.1 Dữ liệu 23 5.2.2 Các phương pháp phân lớp sử dụng 24 5.2.3 Các độ đo phương pháp đánh giá 24 5.3 KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ 24 5.3.1 Nhóm thí nghiệm tổng quan đặc trưng 24 5.3.2 Nhóm thí nghiệm kết hợp đặc trưng 26 5.3.3 Nhóm thí nghiệm khảo sát phương pháp phân lớp 27 5.3.4 Nhóm thí nghiệm khảo sát tham số K * , u 28 Chương 6: KẾT LUẬN 32 6.1 TÔNG KẾT KẾT QUẢ 32 6.2 HƯỚNG PHÁT TRIỂN 33 TÀI LIỆU THAM KHẢO 34 DANH MỤC HÌNH • Hình Sơ đồ tổng quát hệ thống phát dự báo chủ đề nóng mạng xã hội Hình Bài tốn dự báo chủ đề nóng 13 Hình Hướng tiếp cận học có giảm sát với đặc trưng rút trích cho tốn dự báo chủ đề nóng 16 Hình Mau âm dương với phương pháp chuẩn bị liệu theo cực đại tồn cục 18 Hình Mau âm mẫu dương với phương pháp chuẩn bị liệu theo ngưỡng số lượng đăng 19 Hình Sơ đồ xây dựng mơ hình dự báo chủ đề nóng 22 Hình Biểu đồ độ đo F1 thí nghiệm với phương pháp chuẩn bị liệu theo cực đại toàn cục 29 Hình biểu đồ độ đo F1 thí nghiệm với phương pháp chuẩn bị liệu theo ngưỡng số lượng đăng 30 Chương 5: 5.1 ĐÀNH GIÀ CÁC MỤC TIÊU ĐÁNH GIÁ Các mục tiêu đánh giá đề tài đưa sau để đánh giá đề xuất đặc trưng, phương pháp phân lóp, tham số phương pháp chuẩn bị liệu Đặc trưng tốt cho tốn dự báo, liệu có cách kết họp đặc trưng cải thiện kết dự báo không? Các cách kết họp với hai đặc trưng số lượng đăng số bạn bè có cho kết tốt không? Với mô hĩnh dự báo xây dựng từ đặc trưng nhóm đặc trưng vậy, phương pháp phân lóp hiệu quả? Sự tác động tham số toán dự báo đến kết dự báo nào? Các kết có đồng hai liệu xây dựng từ hai cách xác định mẫu âm/dương khác khơng? 5.2 MƠI TRƯỜNG THÍ NGHIỆM 5.2.1 Dữ liệu Đề tài sử dụng liệu Event 2012 [3] - liệu xem liệu công khai, đầy đủ sử dụng nhiều công trình phát chủ đề nóng Với cách xây dựng khoa học, liệu bao gồm 120 triệu tweets (bài đăng) thu thập từ ngày 10/10/2012 đến ngày 07/11/2012 150,000 tweet gắn nhãn khoảng 500 chủ đề, 30% re-tweet Trong thực nghiệm, khoảng 30% số lượng tweet khơng truy cập Độ dài chủ đề khảo sát khoảng ngày Các thí nghiệm tiến hành tập liệu xây dựng từ tập liệu Event 2012 Tập liệu thứ xây dựng theo phương pháp chuẩn bị liệu theo cực đại toàn cục bao gồm 207 mẫu dương 207 mẫu âm Bên cạnh đó, tập liệu thứ hai xây dựng theo phương pháp chuẩn bị liệu theo ngưỡng số lượng đăng có khoảng 4000 mẫu dương 15600 mẫu âm với giá trị làm tròn cho ngưỡng số lượng đăng chủ đề nóng nh chúng tơi tính tốn 14 23 5.2.2 Các phương pháp phân lóp sử dụng Chúng tơi sử dụng phương pháp phân lóp thư viện scikit learn, Python, với thông số mặc định Đây phương pháp phân lóp sử dụng cơng trình liên quan [16] [17] Bảng Các phương pháp phân lớp sử dụng # Phương pháp phân lóp Ada Boost Decision Tree Logistic Regression (LR) Neural Network Random Forest Gradient Boosting Decision Tree (GBDT) SVM 5.2.3 Các độ đo phương pháp đánh giá Chúng sử dụng độ đo đánh giá: Precision (Prec), Recall, and F-measure ( F l ) Accuracy (Acc) để đánh giá kết thí nghiệm Trong đó, độ đo Precision thể độ xác kết dự báo chủ đề nóng khung thời gian, Recall thể khả phát hiện, khơng bỏ sót chủ đề nóng dự báo, F1 đánh giá tổng họp dựa Precision Recall Độ đo Accuracy thể xác tổng họp dự báo chủ đề nóng khơng nóng Ở đây, chúng tơi quan tâm đến độ đo tống họp F1 nên kết thí nghiệm trừ phần 5.3.2 trĩnh bày theo thứ tự xếp theo độ đo Các giá trị độ đo lớn phản ánh phương pháp tương ứng hiệu Trong bảng kết quả, giá trị độ đo ghi nhận miền trị [0, 1] Chúng dùng phương pháp đánh giá chéo &-phần (k-fold cross-validation) với k = 10 cho tất thí nghiệm 5.3 KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ 5.3.1 Nhóm thí nghiệm tổng quan đặc trưng Trong nhóm thí nghiệm này, chúng tơi thực thí nghiệm tống quan với phương pháp chuẩn bị liệu theo cực đại toàn cục theo ngưỡng số lượng đăng 24 Các tham số chọn mặc định K = 10, u = Các kết trình bày theo phương pháp phân lớp cho kết tốt cho đặc trưng Bảng Ket thí nghiệm đặc trưng ỉỉệu với phương pháp chuẩn bị liệu theo cực đại toàn cục Phương pháp # Đặc trưng Precision Recall FI Accuracy phân lóp Ada Boost 0.836 0.842 0.836 0.836 user friends # of posts velocity Random Forest GBDT 0.786 0.712 0.812 0.894 0.795 0.791 0.793 0.763 acceleration Neural Network 0.653 0.856 0.740 0.701 sentiment score Random Forest 0.577 0.805 0.670 last spike avg_line LR 0.547 0.749 0.629 0.606 0.560 Random Forest 0.557 0.724 0.625 0.571 PAA SVM 0.621 0.589 0.600 0.613 avg words 10 # of sipkes 11 d of spikes Ada Boost Random Forest 0.622 0.538 0.574 0.589 0.594 0.537 0.611 0.527 SVM 0.609 0.425 0.488 0.567 Bảng Ket thí nghiệm đặc trưng ỉỉệu với phương pháp chuẩn bị liệu theo ngưỡng số lượng đãng Phương pháp # Đặc trưng Precision Recall FI Accuracy phân lóp # of posts GBDT 0.895 0.728 0.802 0.926 Neural Network 0.892 0.716 0.793 0.923 user friends velocity GBDT 0.831 0.611 0.703 0.893 acceleration PAA Neural Network GBDT 0.816 0.673 0.593 0.556 0.686 avg_line avg words Decision Tree 0.796 0.421 0.606 0.549 0.887 0.850 Decision Tree 0.720 0.408 0.520 0.843 sentiment score # of sipkes Decision Tree 0.358 0.375 0.365 0.727 LR 0.511 0.021 0.039 0.792 10 d of spikes 11 last spike - 0.000 0.000 0.000 0.792 - 0.000 0.000 0.000 0.792 0.856 25 Các kết thí nghiệm tổng quan cho thấy mơ hình dự báo có khả dự báo tốt 0.836 tập liệu thứ 0.802 với độ đo Fl Các đặc trung nhu số đăng (# of posts), số bạn bè (user friends) cho kết khả quan Đặc trung số bạn bè đạt kết lần luợt với độ đo F1 0.836 0.793 hai liệu Đặc trung số đăng lần luợt đạt đuợc 0.795 0.802 hai liệu Bên cạnh đó, đặc trung nhu tốc độ tăng, gia tốc tăng số luợng đăng cho kết khả quan Các đặc trung sụ dao động nhu nội dung không cho kết tốt, chí khơng nhận diện đuợc mẫu duơng liệu thứ hai đuợc sử dụng riêng lẻ Điều giải thích thời gian chủ đề đuợc khảo sát không đủ lớn để phản ánh đặc trung dao động nhu để đặc trung dao động thể độ nóng chủ đề 5.3.2 Nhóm thí nghiệm kết họp đặc trưng Từ phuơng pháp đề xuất nhu các kết thí nghiệm với đặc trung, khảo sát sụ kết họp đặc trung bật nhu số viết, số bạn bè, tốc độ tăng số luợng đăng nhu sụ kết họp đặc trung bật với đặc trung khác Chúng trĩnh bày sụ kết họp cho kết khả quan làm tăng kết dụ báo so với đặc trung đơn lẻ nhóm Cột “Tăng Fl” thể độ tăng kết dụ báo nhóm so với đặc trung có kết dụ báo đơn lẻ nhóm cao Các tham số đuợc chọn mặc định K = 10, u = Các kết đuợc trình bày theo phuơng pháp phân lóp cho kết tốt cho nhóm đặc trung xếp cột “Tăng Fl” Bảng Ket thỉ nghiệm kết hợp đặc trưng liệu với phương pháp chuẩn bị liệu theo cực đại toàn cục # Các đặc trưng Phương pháp phân lóp Recall 0.796 0.831 0.812 0.807 0.017 # of posts user friends Ada Boost velocity # of posts user friends GBDT 0.832 0.870 0.849 0.846 0.013 0.845 0.846 0.844 user friends acceleration GBDT 0.834 0.856 0.842 0.843 0.008 0.838 0.006 # of posts velocity Random Forest FI Acc Tăng FI Prec 26 # of posts acceleration user friends d of spikes Random Forest Ada Boost 0.801 0.838 0.807 0.801 0.800 0.851 0.841 0.841 0.006 0.005 Bảng Ket thí nghiệm kết hợp đặc trưng liệu với phương pháp chuẩn bị ỉỉệu theo ngưỡng số lượng đãng Tăng Phương pháp # Các đặc trưng Prec Recall FI Acc phân lớp FI user friends acceleration Ada Boost 0.885 0.727 0.797 0.923 0.004 user friends avg words GBDT 0.885 0.725 0.796 0.923 0.003 Random Forest 0.898 0.729 0.804 0.926 0.002 # of posts avg words GBDT 0.726 0.795 0.922 0.881 0.002 user friends velocity user friends sentiment score Random Forest 0.887 0.72 0.794 0.922 0.001 Chúng nhận thấy kết hợp đặc trưng vận tốc, gia tốc tăng số đăng, số bạn bè dù chưa rõ rệt cải thiện kết dự báo 5.3.3 Nhóm thí nghiệm khảo sát phương pháp phân lóp Các tham số chọn mặc định K = 10, u = Các kết tốt đặc trụng trình bày cho phương pháp Bảng Ket thí nghiệm phương pháp phân lớp liệu với phương pháp chuẩn bị liệu theo cực đại toàn cục Preci sion Recall FI Accur acy 0.832 0.870 0.849 0.846 0.843 0.831 0.835 0.836 user friends # of spikes 0.840 0.827 0.828 0.831 SVM user friends velocity 0.745 0.904 0.816 0.795 Decision Tree Neural Network # of posts user friends user friends avg words 0.813 0.676 0.803 0.923 0.806 0.779 0.81 0.739 0.799 0.658 0.715 0.739 # Phương pháp phân lóp Ada Boost GBDT Random Forest LR Đặc trưng # of posts user friends velocity user friends # of posts user friends sentiment score 27 Bảng Ket thí nghiệm phương pháp phân lớp liệu với phương pháp chuẩn bị liệu theo ngưỡng số lượng đãng Đặc trưng Phương pháp # Prec Recall FI Acc phân lóp 0.898 0.729 0.804 0.926 Neural Network # of posts avg words # of posts acceleration 0.894 0.727 0.801 0.925 GBDT LR # of posts last spike 0.898 0.721 0.799 0.925 Ada Boost # of posts avg words 0.883 0.731 0.799 0.924 SVM # of posts avg words 0.927 0.697 0.795 0.925 Decision Tree Random Forest # of posts last spike 0.755 0.705 0.729 0.891 # of posts user friends 0.952 0.571 0.712 0.905 Qua kết thí nghiệm kết phần 5.3.1, 5.3.2, nhận thấy giải thuật tổng hợp nhu GBDT, Adaboost, Random Forest cho kết khả quan Trong kết thí nghiệm liệu đuợc chuẩn bị theo phuơng pháp chuẩn bị liệu theo nguỡng số luợng đăng, GBDT Adaboost đứng thứ 2, nhung cho kết gần nhu tuơng đồng với kết cao Riêng Random Forest kết Recall chênh lệch với Precision kết với liệu thứ nên ảnh huớng nhiều đến độ đo Fl Trên liệu này, phuơng pháp Neural Network nhu Logistic Regression cho kết cao 5.3.4 Nhóm thí nghiệm khảo sát tham số K*, u Ớ đây, để làm rõ mục đích thí nghiệm, chúng tơi phân biệt tham số K toán tham số K* đuợc khảo sát Tham số K toán độ dài khung thời gian, luợng thông tin cho truớc để dự báo cho khung thời gian Dễ dàng nhận thấy, có nhiều thơng tin (và thu giảm truờng hợp cách xác định) toán dự báo từ tuơng đuơng đến dễ Còn tham số đuợc khảo sát K* luợng thông tin đuợc sử dụng trĩnh dự báo thơng qua cách rút trích đặc trung liệt kê phần truớc Chúng thực thí nghiệm nhằm khảo qua hai liệu đuợc xây dựng theo phuơng pháp chuẩn bị liệu theo cực đại toàn cục theo nguỡng số luợng đăng Thí nghiệm trình bày thay đối kết độ đo F1 tốt qua tham số K*, u tuơng ứng 28 10 ■15 20 -*-25 u Hình Biểu đồ độ đo F1 thỉ nghiệm với phương pháp chuẩn bị ỉiệu theo cực đại toàn cục Bảng Kết độ đo F1 thí nghiệm với phương pháp chuẩn bị tíệu theo cực đại toàn cục 0.874 0.864 0.846 0.846 0.849 0.813 0.827 0.79 0.815 15 0.828 0.793 0.769 0.75 0.732 20 0.812 0.734 0.718 0.719 0.7 25 0.769 0.747 0.727 0.702 0.725 0.878 10 29 K*-+-5 —*—10 -A-15 E 20 -*-25 0.85 0.75 0.7 0.65 0.6 M Hình biểu đồ độ đo Fĩ thí nghiêm vói phương pháp chuẩn bị liệu theo ngưỡng số lượng Bảng 10 Kết độ đo Fỉ thí nghiệm với phương pháp chuẩn bị liệu theo ngưỡng số lượng đãng 10 15 20 25 0.805 0.770 0.73 0.685 0.638 0.804 0.767 0.726 0.681 0.628 0.798 0.762 0.722 0.679 0.623 0.795 0.758 0.717 0.671 0.614 0.792 0.756 0.714 0.667 0.613 Trong hai tập liệu, chứng thấy kết tốt tương ứng với lượng thông tin sử dụng để dự háo Điều cố thể giải thích ảnh hưởng nhiễu khỉ sử dụng nhiều thông tin Vối tham số số thứ tự khung thời gian thứ u dự báo toán, ta thấy rõ thời điểm xa tại, kết dự báo có xu hướng giảm hai tập Điều có nghĩa dự báo chủ đề tương lai Xâ trở nên khỏ khăn so với dự báo tương lai gần Với tham số K* = K = 5, kết dự 30 báo tốn dự báo định tính cho khung thời gian (u = 1) đạt cao 0.878 với độ đo F1 tập liệu thứ 0.805 tập liệu thứ hai 31 Chương 6: KẾT LUẬN 6.1 TỔNG KẾT KẾT QUẢ Những nội dụng cụ thể luận văn thực sau: Đe xuất cách xác định chủ đề nóng đưa tốn dự báo chủ đề nóng tốn phân lớp nhị phân Các đề xuất kết hợp đặc trưng dự báo Hệ thống xây dựng liệu huấn luyện xây dựng mô hĩnh dự báo chủ đề nóng mạng xã hội hồn chinh Các kết thí nghiệm khảo sát, đánh giá đặc trưng, nhóm đặc trưng, phương pháp phân lớp, tham số liệu Event 2012 Sau năm nghiên cứu, phát triển, đánh giá, đề tài hoàn thành mục tiêu bản, trả lời cách trọn vẹn câu hỏi nghiên cứu đặt Bài tốn chúng tơi phân tích kỹ lưỡng, đề xuất cách rõ ràng hai phương pháp chuẩn bị liệu để xác định chủ đề nóng (mẫu dương) mơ hĩnh phân lớp nhị phân dùng để dự báo Kết thí nghiệm đặc trưng, phương pháp phân lớp, ảnh hưởng tham số cho thấy tương đồng hai liệu từ hai phương pháp chuẩn bị liệu Các kết phản ánh ngược lại đắn có sở hai phương pháp Đe tài kế thừa cơng trình trước, tổng hợp, phát triển đề xuất thêm điểm đặc trưng sử dụng hiệu cho tốn dự báo chủ đề nóng số lượng đăng tốc độ tăng, số bạn bè kết hợp đặc trưng với nhau, với số đặc trưng khác Đe tài xây dựng thành công hệ thống huấn luyện mơ hĩnh dự báo hồn chỉnh Mơ hình dự báo với đặc trưng, nhóm đặc trưng đề xuất đạt kết F1 khả quan 0.878 tập liệu từ phương pháp chuẩn bị liệu theo cực đại toàn cục 0.805 tập liệu từ phương pháp chuẩn bị liệu theo ngưỡng số lượng đăng Đe tài thiết kế, tiến hành thí nghiệm khảo sát phân tích kết dự báo cho đặc trưng, nhóm đặc trưng, phương pháp phân lớp sử dụng ảnh hưởng tham số đến toán dự báo Với cách xây dựng hệ thống, 32 xây dựng thí nghiệm kết thí nghiệm đầy đủ, sử dụng liệu công khai, kết luận văn kết có sở, dùng để so sánh cho cơng trình khác tương lai dành cho tốn dự báo chủ đề nóng 6.2 HƯỚNG PHÁT TRIỂN Đề tài dành nhiều thời gian, tâm huyết nghiên cứu hướng dẫn tận tình thầy cô hướng dẫn, nhiên nhiều trở ngại mặt thời gian, công việc khó khăn, thách thức tốn, đề tài nhiều điểm cần nghiên cứu, phát triển thêm - mặt tốn dự báo, đề tài tiếp tục mở rộng với dạng dự báo khác dự báo mang tính định lượng, liên tục với định nghĩa, tiêu chí cho chủ đề nóng phức tạp - mặt mơ hĩnh dự báo, phương pháp phân lớp đề tài nghiên cứu, cải tiến, tinh chỉnh tham số cài đặt tốt áp dụng phương pháp học máy đại khác deep learning - Các đặc trưng sử dụng nghiên cứu kết hợp cách tổng quát giải thuật học đặc trưng - Khi vấn đề tập liệu, sách truy cập giải quyết, đề tài mở rộng cho mạng xã hội khác ngôn ngữ khác - Với nhu cầu thực tiễn cao lĩnh vực ứng dụng tiếp thị sản phẩm, quảng bá thương hiệu, nội dung, thu hút người dùng, việc phát triển ứng dụng thực tiễn cho mô hĩnh dự báo cách xác, tối ưu phù hợp với nghiệp vụ nhà phân tích, quản lí hướng đầy thách thức 33 TÀI LIỆU THAM KHẢO [1] Hasan, Mahmud, Mehmet A Orgun, and Rolf Schwitter , "TwitterNews: real time event detection from the Twitter data stream," in PeerJ Preprints 4, 2016 [2] Hasan, Mahmud, Mehmet A Orgun, and Rolf Schwitter , "TwitterNews+: a framework for real time event detection from the Twitter data stream," in International Conference on Social Informatics Springer, 2016 [3] McMinn, Andrew J., Yashar Moshfeghi, and Joemon M Jose., "Building a largescale corpus for evaluating event detection on twitter," in Proceedings of the 22nd ACM international conference on Information & Knowledge Management ACM, 2013 [4] Li, Chenliang, Aixin Sun, and Anwitaman Datta, "Twevent: segment-based event detection from tweets.," in Proceedings of the 21st ACM international conference on Information and knowledge management, 2012 [5] Marcus, Adam, Michael s Bernstein, Osama Badar, David R Karger, Samuel Madden, and Robert c Miller, "Twitinfo: aggregating and visualizing microblogs for event exploration," in Proceedings of the SIGCHI conference on Human factors in computing systems, ACM, 2011 [6] D L c a Y H Zhou, "A simple bayesian modelling approach to event extraction from twitter," in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2014 [7] Yuan, Sha, Zhe Tao, Tingshao Zhu, and Shuotian Bai, "Realtime Online Hot Topics Prediction in Sina Weibo for News Earlier Report," in Advanced Information Networking and Applications (AINA), 2017 IEEE 31st International Conference on IEEE, 2017 [8] Miao, Zhongchen, Kai Chen, Yi Fang, Jianhua He, Yi Zhou, Wenjun Zhang, and Hongyuan Zha, "Cost-effective online trending topic detection and popularity prediction in microblogging.," in ACM Transactions on Information Systems (TOIS), 2017 34 [9] Liu, Ruifang, Wenbin Guo, "HMM-based state prediction for Internet hot topic," in Computer Science and Automation Engineering (CSAE), 2011 IEEE International Conference on Vol IEEE, 2011 [10] Yan, Chunlei, Shumin Shi, Heyan Huang, Ruijing Li, "A method for network topic attention forecast based on feature words," in International Conference on Asian Language Processing (IALP), IEEE, 2013 [11] Mathioudakis, Michael, and Nick Koudas, "Twittermonitor: trend detection over the twitter stream," in Proceedings of the 2010 ACM SIGMOD International Conference on Management of data ACM, 2010 [12] Wang, Chaokun, Xin Xin, and Jingwen Shang, "When to Make a Topic Popular Again? A Temporal Model for Topic Rehotting Prediction in Online Social Networks.," in IEEE Transactions on Signal and Information Processing over Networks 4.1, 2018 [13] Tong, H., Liu, Y., Peng, H , "Internet users’ psychosocial attention prediction: web hot topic prediction based on adaptive AR model," in 2008 International Conference on Computer Science and Information Technology, ICCSIT, IEEE, 2008 [14] Wang, Peng, BaoWen Xu, YuRong Wu, and XiaoYu Zhou, "Link prediction in social networks: the state-of-the-art.," in Science China Information Sciences, 2015 [15] Xu, Feng, Jue Liu, Ying He, and Yating Hou., "Hot Topic Trend Prediction of Topic Based on Markov Chain and Dynamic Backtracking," in Pacific Rim Conference on Multimedia Springer, 2017 [16] Wang, Senzhang, Zhao Yan, Xia Hu, s Yu Philip, and Zhoujun Li, "Burst Time Prediction in Cascades," in AAAI, 2015 [17] Peng, Sinya, Vincent s Tseng, Che-Wei Liang, and Man-Kwan Shan, "Emerging Product Topics Prediction in Social Media without Social Structure Information.," in International World Wide Web Conferences Steering Committee, 2018., 2018 [18] Han, Yi, Binxing Fang, and Yan Jia, "Predicting the topic influence trends in social media with multiple models," in Neurocomputing ,2014 35 [19] Zhao, Juanjuan, Weili Wu, Xiaolong Zhang, Yan Qiang, Tao Liu, and Lidong Wu, "A short-term prediction model of topic popularity on microblogs.," in International Computing and Combinatorics Conference Springer, Berlin, Heidelberg, 2013 [20] Fu, Chen, Zhan Shaobin, and Shi Guangjun , "A study on trend prediction in Sina Weibo community," in Big Data (BigData Congress), 2014 IEEE International Congress on IEEE, 2014 [21] McMinn, Andrew J., and Joemon M Jose, "Real-time entity-based event detection for twitter.," in International conference of the cross-language evaluation forum for european languages, 2015 36 PHẦN LÍ LỊCH TRÍCH NGANG Họ tên: PHẠM TRUNG SƠN Ngày, tháng, năm sinh: 24/11/1993 Nơi sinh: Bình Dương Q TRÌNH ĐÀO TẠO 2011 - 4/2016: Học Đại học Trường Đại học Bách Khoa TP Hồ Chí Minh 8/2016 - 2019: Học Cao học Trường Đại học Bách Khoa TP Hồ Chí Minh 37 ... đăng chủ đề, chủ đề nóng 1 1 Danh sách chủ đề — với đăng liệu kèm Hệ thống dự báo Kết dự báo chủ đề nóng Mục tiêu, phạm vi đề tài luận văn Hình Sơ đồ tổng quát hệ thống phát dự báo chủ đề nóng mạng. .. chủ đề nóng, dể giải tốn hiệu Trong Hình 1, hệ thống phát dự báo chủ đề nóng mạng xã hội đuợc giới thiệu Trong đó, nghiên cứu hệ thống phát chủ đề, chủ đề nóng thuờng buớc cho toán dự báo chủ đề. .. phát dự báo chủ đề nóng, mục tiêu đề tài mà chúng tơi đặt là: Nghiên cứu tốn dự báo chủ đề nóng mạng xã hội, nghiên cứu phương pháp xây dựng liệu đánh giá cho toán, đề xuất phương pháp dự báo chủ

Ngày đăng: 21/11/2019, 14:34

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan