Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

53 512 1
Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - NGÔ THỊ HOA PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - NGÔ THỊ HOA PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI TS NGUYỄN CẨM TÚ Hà Nội - 2015 LỜI CẢM ƠN Lời cảm ơn xin gửi đến TS Đặng Thanh Hải TS Nguyễn Cẩm Tú Thầy cô người đưa ý tưởng chọn đề tài cung cấp cho tài liệu, phương pháp nghiên cứu theo sát tơi suốt q trình làm luận văn Tôi xin chân thành cảm ơn bạn, em phòng KT-Lab dẫn động viên gặp vướng mắc lý thuyết thực nghiệm Tôi xin chân thành cảm ơn thầy Khoa Cơng nghệ thơng tin Phịng Đào tạo sau đại học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tác giả luận văn Ngô Thị Hoa LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu độc lập riêng thực hướng dẫn TS Đặng Thanh Hải TS Nguyễn Cẩm Tú, không chép luận văn, luận án tác giả khác Nếu có vấn đề tơi xin hồn tồn chịu trách nhiệm Tác giả luận văn Ngô Thị Hoa MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN ĐIỂM 10 1.1 Khai phá liệu 10 1.2 Các phương pháp khai phá liệu 12 1.3 Các kỹ thuật khai phá liệu 13 1.4 Các thách thức khai phá liệu 15 1.5 Ứng dụng khai phá liệu 17 1.6 Phân tích khai phá quan điểm 18 1.6.1 Phân tích quan điểm qua cấp độ liệu 18 1.6.2 Các thách thức khai phá quan điểm 19 CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP QUAN ĐIỂM 21 2.1 Kỹ thuật học có giám sát 21 2.2 Lựa chọn đặc trưng 22 2.3 Các phương pháp phân lớp quan điểm 24 2.3.1 Mơ hình học máy SVM 24 2.3.2 Mơ hình định 26 2.3.3 Mơ hình xác suất Bayes 29 2.3.4 Thuật toán KNN 31 2.4 Đánh giá mơ hình phân lớp 33 CHƯƠNG 3: PHÂN LỚP QUAN ĐIỂM TRÊN MƠ HÌNH QUI HỒI LOGISTIC 35 3.1 Cơ sở lý thuyết 35 3.1.1 Các khái niệm 35 3.1.2 Mơ hình qui hồi Logistic 36 3.1.3 Phương pháp tìm tham số tối ưu mơ hình qui hồi Logistic 36 3.2 Mơ hình qui hồi Logistic áp dụng toán phân lớp quan điểm 37 CHƯƠNG 4: THỰC NGHIỆM 39 4.1 Môi trường mơ hình thực nghiệm 39 4.2 Thu thập xử lý liệu 40 4.2.1 Dữ liệu dự thảo đề án quốc gia 40 4.2.2 Xử lý liệu 42 4.3 Thực nghiệm phân lớp đánh giá 43 4.4 Đánh giá kết thực nghiệm 48 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT Từ viết tắt Từ tiếng Anh TF Term Frequency IDF Inverse Document Frequency TFIDF Term Frequency - Inverse Document Frequency SVM Support Vector Machine KNN K Nearest Neighbors Stopword Những từ phổ biến gặp, khơng có giá trị phân lớp DANH SÁCH CÁC BẢNG Bảng 1: Môi trường thực nghiệm Bảng 2: Các phần mềm sử dụng Bảng 3: Tổng hợp liệu thực nghiệm Bảng 4: Tổng hợp kết với kích thước tập huấn luyện Bảng 5: Độ đo phân lớp mơ hình qui hồi Logistic thuật tốn KNN DANH SÁCH CÁC HÌNH Hình 1: Q trình khai phá tri thức Hình 2: Các kỹ thuật Khai phá liệu Hình 3: Thuật tốn KNN phân lớp quan điểm Hình 4: Mơ hình thực nghiệm Hình 5: Quy trình xử lý liệu Hình 6: Mơ tả liệu thực nghiệm Hình 7: Kết thực nghiệm với L1, L2 Hình 8: Kết phân lớp Hình 9: Biểu diễn đánh giá mơ hình qui hồi Logistic KNN MỞ ĐẦU Khai phá tri thức lĩnh vực phát triển năm gần ứng dụng nhiều lĩnh vực Khi quyền tự ngôn luận ngày Nhà nước ta trọng, cơng dân có quyền tham gia bàn bạc, thảo luận đóng góp ý kiến vào vấn đề chung đất nước đặt Bài toán cho khai phá tri thức, cụ thể khai phá quan điểm: “Làm để phân tích quan điểm trao đổi phương tiện thơng tin đại chúng, để từ đưa dự đoán cho vấn đề thảo luận?” Nhận thấy dự thảo đề án quốc gia ln có tác động lớn đến kinh tế, đời sống xã hội, nhận nhiều ý kiến đóng góp chuyên gia nhân dân Các ý kiến đóng góp có tác động ngược lại đến đề án suốt trình khởi tạo diễn dự án Luận văn “Phân loại quan điểm phương tiện xã hội dự thảo đề án quốc gia” đưa giải pháp giải vấn đề Bài toán phân tích quan điểm phương tiện thơng tin đại chúng, cụ thể môi trường mạng Để làm việc này, luận văn tiến hành nghiên cứu sở lý thuyết, đề xuất giải pháp thực áp dụng thực nghiệm miền liệu dự thảo đề án quốc gia Cấu trúc luận văn gồm bốn chương từ tổng quan đến chi tiết vấn đề, giải pháp thực nghiệm: Chương 1: Trình bày tổng quan khai phá liệu, khai phá quan điểm Xuất phát điểm từ kiến thức tảng cần nắm lĩnh vực khai phá tri thức, khai phá quan điểm, luận văn trình bày sở lý thuyết theo logic giải Bài toán Từ đó, ta chọn phương pháp phù hợp với Bài tốn trình bày chương Chương 2: Nghiên cứu phương pháp phân lớp quan điểm Có nhiều phương pháp để phân lớp quan điểm, phương pháp có lịch sử, tư tưởng đặc trưng riêng phù hợp giải vấn đề Chương 3: Phân lớp quan điểm với qui hồi Logistic Mơ hình qui hồi Logistic phương pháp mà luận văn lựa chọn để phân lớp quan điểm dự báo, qua phân tích kết thực nghiệm Mơ hình phân 37 Áp dụng phân phối Bernoulli với phép thử y1, …, yn, ta xác định xác suất phân phối: Như vậy, hợp lý cực đại đạt giá trị lớn khi: Nếu phép thử có xác suất thành cơng pi xác suất hợp lý hóa cực đại là: =1 yi = 1, = yi = 0, xác suất yi đạt hợp lý hóa cực đại tương ứng xác suất xi pi = p (xi, ) Như xi tương ứng với pi Do ta hồn tồn xác định , từ tính tham số mơ hình qui hồi Logistic hàm hợp lý cực đại 3.2 Mơ hình qui hồi Logistic áp dụng toán phân lớp quan điểm Xét toán phân lớp nhị phân với y = {-1, 1}, với đối tượng x cần phân vào lớp y, tương ứng với quan điểm tiêu cực (y= -1) tích cực (y = 1) toán Biểu diễn ý kiến (các dự đoán) dạng vector tham số , x Giả sử ý kiến độc lập nhau, sử dụng hàm logistic sigmoid để dự báo phân lớp, x thuộc lớp y = nếu: 38 lớp y = -1 nếu: Xét toán phân đa lớp, lớp biểu diễn vector tham số diễn dự đoán x, , biểu x Xác định xác suất hàm softmax sau: Huấn luyện mơ hình phân lớp: Tìm vector tham số luyện hợp lý hóa cực đại (likelihood) tập huấn , cần giải toán tối ưu: 39 CHƯƠNG 4: THỰC NGHIỆM 4.1 Mơi trường mơ hình thực nghiệm * Cấu hình phần cứng Tên thiết bị Cấu hình CPU Intel(R) Core Duo T5870 @ 2.00GHz RAM 2.00 GB OS Windows Ultimate SP1 32-bit HDD 300 GB Bảng 1: Môi trường thực nghiệm * Các phần mềm sử dụng Tên phần mềm Nguồn Xampp 1.8.3 https://www.apachefriends.org/index.html Anacoda - Python 2.7 http://continuum.io/ Eclipse – 32 bit http://www.eclipse.org/download Bảng 2: Các phần mềm sử dụng * Các thư viện sử dụng - simple_html_dom.php - JvnTextpro.jar 40 * Mô hình thực nghiệm: Dữ liệu thực nghiệm Xử lý liệu Tập đặc trưng Huấn luyện mơ hình Dữ liệu phân lớp Hình 4: Mơ hình thực nghiệm 4.2 Thu thập xử lý liệu 4.2.1 Dữ liệu dự thảo đề án quốc gia “Đề án” hiểu ý kiến đề đạt kế hoạch, công việc, muốn triển khai công việc hay dự án cần phải xây dựng đề án cho cơng việc, dự án Xã hội ngày phát triển ngành, cấp phải có đề án Các đề án quốc gia đầu tư quản lý quan hành Nhà nước, thể định hướng phát triển đất nước thời kỳ, giai đoạn 41 Khi tiến hành phân tích quan điểm xã luận đề án quốc gia, luận văn tiến hành thu thập ý kiến trao đổi dự thảo đề án bắt đầu truyền thông phương tiện thông tin đại chúng Để kết thực nghiệm hiệu quả, luận văn chọn đề án nhiều ý kiến quan tâm trao đổi trang báo mạng thời gian năm trở lại Dữ liệu tập hợp báo, bình luận dự thảo đề án tìm kiếm với từ khóa Mỗi dự thảo đề án coi chủ đề tách thành văn ý kiến dịng Dữ liệu nhiều mơ hình phân lớp huấn luyện bao quát Trong giới hạn luận văn tiến hành phân lớp liệu với dự thảo đề án quốc gia, báo, bình luận lấy từ nhiều trang báo mạng Việt Nam: vnexpress.net, tuoitre.vn, nld.com.vn, baodatviet.vn, thanhnien.com.vn, baodatviet.vn, cand.com.vn giaoduc.net.vn Quá trình thu thập tiến hành đồng thời thủ công lập trình Các website chứa báo bình luận cần lấy liệu lưu lại, dùng công cụ lập trình PHP để tách phần nội dung bình luận thẻ html -

Ngày đăng: 03/11/2015, 17:13

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan