Ứng dụng khai phá dữ liệu để trích rút thông tin theo chủ đề từ các mạng xã hội

26 269 0
Ứng dụng khai phá dữ liệu để trích rút thông tin theo chủ đề từ các mạng xã hội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN THỊ ÁI QUỲNH ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ TRÍCH RÚT THÔNG TIN THEO CHỦ ĐỀ TỪ CÁC MẠNG XÃ HỘI Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Footer Page of 126 Header Page of 126 Công trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS Huỳnh Công Pháp Phản biện 1: TS Hoàng Thị Thanh Hà Phản biện 2: PGS TS Lê Mạnh Thạnh Luận văn bảo vệ trước hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 19 tháng 11 năm 2013 Có thể tìm hiểu luận văn tại: - Trung tâm-Thông tin học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 126 Header Page of 126 MỞ ĐẦU Tính cấp thiết đề tài Trong năm gần đây, công nghệ thông tin phát triển mạnh mẽ việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội làm cho lượng liệu tăng lên nhanh chóng từ mức độ terabytes đến mức độ petabytes Do đó, việc khai thác chọn lọc liệu có ích từ lượng liệu khổng lồ việc cần thiết, đóng vai trò định hoạt động Hiện nay, mạng xã hội có đa dạng người sử dụng, họ chia sẻ ý kiến nhiều chủ đề khác nhau, nguồn liệu có giá trị Chúng ta biết việc trích lọc ý kiến người dùng có sức ảnh hưởng mang lại nhiều lợi ích thiết thực mang đến hội kinh doanh, ý kiến mặt hàng mà họ mua, tốt xấu…, có ảnh hưởng đến bỏ phiếu trị, ảnh hưởng đến thảo luận mang tính xã hội,… Hơn thập niên trở lại đây, khai phá liệu (KPDL) trở thành hướng nghiên cứu quan trọng lĩnh vực khoa học máy tính công nghệ tri thức Hàng loạt nghiên cứu, đề xuất đời thử nghiệm ứng dụng thành công vào đời sống với lịch sử cho thấy KPDL lĩnh vực nghiên cứu ổn định, có tảng lý thuyết vững Ngày nay, với phát triển internet nhu cầu đưa thông tin lên mạng, trang web với liệu fulltex trở nên phổ biến Cùng với kỹ thuật khai phá liệu nói chung, kỹ thuật khai phá web quan tâm nhằm chắt lọc, trích rút thông tin phục vụ cho mục đích ứng dụng cần thiết Mặt khác, với mục tiêu tạo môi trường giao lưu, chia sẻ thông tin đa dạng, phong phú Vì Footer Page of 126 Header Page of 126 vậy, đề tài “ Ứng dụng khai phá liệu để trích rút thông tin theo chủ đề từ trang mạng xã hội” cần thiết có ý nghĩa mặt lý thuyết thực tiễn Mục đích nghiên cứu - Nghiên cứu phương pháp, kỹ thuật khai phá văn - Nghiên cứu phương pháp tách từ, phân loại văn Tiếng Việt - Nghiên cứu phương pháp lấy liệu người dùng chủ đề mạng xã hội Twitter - Xây dựng hệ thống phân loại văn SVM theo chủ đề từ liệu lấy từ mạng xã hội Twitter - Đưa định hướng hướng phát triển đề tài Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu o Kỹ thuật, phương pháp khai phá liệu o Phương pháp thu thập liệu từ mạng xã hội o Các chủ đề quan tâm mạng xã hội Twitter Phạm vi nghiên cứu Ứng dụng thuật toán kỹ thuật rút trích thông tin để xây dựng đưa danh sách ý kiến người dùng chủ đề quan tâm mạng xã hội Twitter Phương pháp nghiên cứu Phương pháp nghiên cứu lý luận Thu thập, đọc hiểu, phân tích thông tin, liệu từ tài liệu, giáo trình, sách liên quan đến khai phá liệu, rút trích thông tin Phương pháp nghiên cứu thực tiễn Footer Page of 126 Header Page of 126 o Tiến hành nghiên cứu kỹ thuật rút trích thông tin, ứng dụng kỹ thuật để xây dựng mô hình đưa danh sách ý kiến người dùng theo chủ đề mạng xã hội o So sánh đánh giá kết đạt để từ đề xuất hướng phát triển tốt Ý nghĩa khoa học thực tiễn Ý nghĩa khoa học Với phát triển lớn mạng Internet lượng người dùng tham giá vào trang mạng xã hội không ngừng tăng lên việc khai thác nguồn liệu từ trang mạng xã hội để phục vụ cho công việc kinh doanh mục đích trị xã hội khác trào lưu ưu chuộng Dữ liệu trang mạng xã hội đa dạng có số lượng lớn Với lượng liệu khổng lồ thế, làm để khai thác, chọn lọc liệu có ích từ nguồn liệu khổng lồ Nhu cầu phát triển kỹ thuật chọn lọc, thu thập, phân tích liệu,trích rút thông tin cách thông minh hiệu quả, thế, đặt hết Từ đó, kỹ thuật khai phá liệu giúp tự động phân tích tập liệu lớn để khám phá tri thức trích rút mẫu quan trọng cần thiết có ý nghĩa thực tiễn cao Ý nghĩa thực tiễn Xây dựng công cụ để trích rút thông tin chủ đề, đưa danh sách ý kiến theo chủ đề người dùng mạng xã hội, từ thống kê ý kiến người dùng chủ đề Bố cục luận văn Footer Page of 126 Header Page of 126 Nội dung luận văn chia thành chương với nội dung sau: + Chương 1: Nghiên cứu tổng quan khai phá liệu + Chương 2: Nghiên cứu phương pháp lấy liệu từ mạng xã hội Twitter thuật toán CONGA + Chương 3: Thử nghiệm đánh giá Footer Page of 126 Header Page of 126 CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 KHÁI NIỆM VÀ QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 1.1.1 Khái niệm khai phá liệu Khai phá liệu lĩnh vực nghiên cứu ổn định, đời vào khoảng năm cuối của thập kỷ 1980 KPDL trình khảo sát phân tích lượng lớn liệu lưu trữ CSDL, kho liệu,…để từ trích xuất thông tin quan trọng, có giá trị tiềm ẩn bên Khám phá tri thức sở liệu (KDD) mục tiêu KPDL, hai khái niệm khai phá liệu KDD nhà khoa học xem tương đương Thế nhưng, phân chia cách chi tiết khai phá liệu bước trình KDD 1.1.2 Quá trình khai phá liệu Quá trình phá tri thức chia thành bước sau [10]: - Trích lọc liệu - Tiền xử lý liệu - Biến đổi liệu - Khai phá liệu - Đánh giá biểu diễn tri thức 1.1.3 Những chức khai phá liệu Hai mục tiêu KPDL mô tả dự báo a Mô tả khái niệm b Phân tích kết hợp c Phân lớp dự báo Footer Page of 126 Header Page of 126 d Phân cụm e Phân tích đối tượng f Phân tích tiến hóa 1.1.4 Các công trình khai phá xử lý liệu phát triển - Khai phá liệu website kĩ thuật phân cụm - Lựa chọn thuộc tính khai phá liệu - Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn Tiếng Việt có xem xét ngữ nghĩa - Phân loại văn Tiếng Việt với vector hỗ trợ SVM - Phân loại văn Tiếng Việt với máy học vector hỗ trợ định - Phương pháp luật kết hợp ứng dụng - Ứng dụng khai phá liệu để tư vấn học tập - Nghiên cứu ứng dụng phân lớp liệu quản lý khách hàng mạng - Dự báo bùng nổ kiện mạng xã hội - Phát cộng đồng sử dụng thuật toán CONGA khai phá quan điểm cộng đồng - Khai phá quan điểm liệu twitter 1.1.5 Một số thách thức đặt cho việc khai phá liệu v Các sở liệu lớn v Số chiều lớn v Thay đổi liệu tri thức làm cho mẫu phát không phù hợp v Dữ liệu bị thiếu nhiễu v Quan hệ trường phức tạp Footer Page of 126 Header Page of 126 v Giao tiếp với người sử dụng kết hợp với tri thức v Tích hợp với hệ thống khác… có 1.2 PHƯƠNG PHÁP VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU 1.2.1 Các kỹ thuật áp dụng khai phá liệu KDD lĩnh vực liên ngành, bao gồm: Tổ chức liệu, học máy, trí tuệ nhân tạo khoa học khác a Theo quan điểm học máy - Học có giám sát - Học giám sát - Học nửa giám sát b Căn vào lớp toán cần giải Chia làm nhóm chính: - Kỹ thuật mô tả - Kỹ thuật dự đoán 1.2.2 So sánh kỹ thuật khai phá liệu 1.2.3 So sánh phương pháp khai phá liệu với phương pháp học máy, phương pháp hệ chuyên gia phương pháp thống kê 1.3 KHAI PHÁ DỮ LIỆU WEB 1.3.1 Các dạng liệu 1.3.2 Các loại khai phá Web 1.3.3 Một số vấn đề xử lý liệu văn 1.4 CÁC PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT HIỆN NAY 1.4.1 Phương pháp Maximum Matching Footer Page of 126 Header Page 10 of 126 1.4.2 Phương pháp giải thuật học cải biến (Transformation-based Learning, TBL) 1.4.3 Mô hình tách từ WFST mạng Neural 1.4.4 Phương pháp quy hoạch động (dynamic programming) 1.4.5 Phương pháp tách từ tiếng Việt dựa thống kê từ Internet thuật toán di truyền (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC) 1.4.6 So sánh phương pháp tách từ Tiếng Việt 1.5 KẾT LUẬN CHƯƠNG Chương luận văn giới thiệu khái quát khái niệm, trình, kỹ thuật phương pháp khai phá liệu Đồng thời, chương trình bày phương pháp phân tách từ Tiếng Việt nay, so sánh phương pháp với để chọn phương pháp tốt phù hợp cho toán phân loại văn SVM theo chủ đề đề cập chương luận văn Chương giới thiệu mạng xã hội Twitter, cấu trúc tính cộng đồng Đồng thời, trình bày phương pháp thu thập liệu từ mạng xã hội Twitter thuật toán CONGA để phát cộng đồng, phương pháp phân loại văn Footer Page 10 of 126 Header Page 12 of 126 10 Bài toán phân lớp quan điểm theo chủ đề mạng xã hội quan tâm người trình làm việc với tập đối tượng Chính điều mà giúp cho việc xếp, tìm kiếm đối tượng cách nhanh chóng c Thuật toán Girvan-Newman Ý tưởng thuật toán: Thuật toán dựa ý tưởng cộng đồng gắn kết với đường cộng đồng đến cộng đồng khác qua cạnh nối cộng đồng với tần suất cao Mục đích thuật toán tìm cạnh nối [5] Thuật toán thực theo bước sau: Tính độ đo trung gian cho tất cạnh mạng Hủy bỏ cạnh có độ trung gian cao Tính lại độ trung gian cho tất cạnh bị ảnh hưởng theo cạnh loại bỏ Lặp lại từ bước không cạnh trung gian Ưu điểm thuật toán: Thuật toán đơn giản dễ hiểu Toàn thuật toán biểu diễn dendrogram, ta hiểu thuật toán từ gốc đến Các nhánh biểu diễn cho phép loại bỏ cạnh để chia đồ thị thành cộng đồng riêng rẽ Nhược điểm thuật toán: Số lượng cộng đồng hoàn toàn không kiểm soát trước thuật toán Girvan-Newman sử dụng phương pháp loại trừ đến cạnh vượt qua ngưỡng độ trung gian cao Footer Page 12 of 126 Header Page 13 of 126 11 Khó xác định phân vùng mang lại hiệu cao Độ phức tạp thuật toán lớn O(m2n) Với cách phân chia Girvan-Newman không giải tượng chồng chéo cộng đồng thực tế, đơn vị nút mạng thuộc nhiều cộng đồng khác Dựa ưu điểm nhược điểm thuật toán Girvan-Newman, nhà khoa học tìm cách để cải tiến thuật toán nhằm khắc phục nhược điểm thuật toán GirvenNewman tìm phép phân vùng tốt nhất, giảm độ phức tạp thuật toán, giải tượng chồng chéo cộng đồng Với cách tiếp cận khác nhau, năm 2007 Gregory đề xuất thuật toán CONGA (Cluster Overlap Newman-Girvan Algorithm) d Thuật toán CONGA Thuật toán CONGA Gregory cải tiến từ thuật toán Girvan-Newman nhằm mục đích giải vấn đề chồng chéo cộng đồng [16] Ý tưởng thuật toán: Dựa ý tưởng thuật toán GirvanNewman, tác giả đề xuất thêm ý tưởng phép chia đỉnh thành nhiều phần khác nhau, để phần đỉnh chia xuất cộng đồng Tác giả đề độ đo mới, độ trung gian phép phân chia, độ đo cho phép ta xác định cần phân chia đỉnh, thay loại bỏ cạnh, đỉnh cần phân chia phân chia Thuật toán CONGA chia làm bước sau: − Tính độ trung gian tất cạnh đồ thị Footer Page 13 of 126 Header Page 14 of 126 12 − Tính độ trung gian đỉnh đồ thị, dựa vào độ trung gian cạnh công thức − Tìm danh sách đỉnh mà độ trung gian đỉnh lớn giá trị lớn độ trung gian cạnh − Nếu danh sách bước không rỗng, tính độ trung gian theo cặp đỉnh danh sách, sau xác định phép phân chia tối ưu cho đỉnh − Thực việc loại bỏ cạnh, phân chia đỉnh để chia đồ thị thành thành phần − Tính lại độ trung gian cạnh tất thành phần vừa chia − Lặp lại bước đến không cạnh Ưu diểm thuật toán: Giải vấn đề chồng chéo cộng đồng cách đặt phép phân chia đỉnh, nội dung thuật toán tương đối dễ hiểu xác định phép phân chia tối ưu trường hợp Nhược điểm thuật toán: Thời gian tính toán, với độ phức tạp tính toán lên tới O(m3) với m số cạnh 2.2 PHƯƠNG PHÁP THU THẬP DỮ LIỆU VÀ PHÁT HIỆN CỘNG ĐỒNG TỪ MẠNG XÃ HỘI TWITTER Quá trình thực sau: Thu thập liệu: Mạng xã hội Twitter cung cấp API giúp người sử dụng lấy thông tin người dùng mạng xã hội đó, từ nguồn liệu Twitter cung cấp qua Twitter API, ta tiến hành thu thập liệu người sử dụng ID, tên truy cập, thông tin cá nhân người dùng, bình luận, Bộ thư viện mã nguồn mở Twitter4j thiết Footer Page 14 of 126 Header Page 15 of 126 13 kếvới mục đích giúp người sử dụng có khả tương tác với Twitter API qua Java lấy liệu từ Twitter Bộ thư viện Yusuke Yamamoto, lập trình viên người Nhật cộng phát triển năm 2009 [17] Tiền xử lý liệu: Từ liệu thu thập được, tiến hành tiền xử lý loại bỏ thông tin người dùng thiếu thông tin sử dụng, thiếu kết nối với đỉnh khác mạng Như bước này, liệu thu thập chuẩn hóa phù hợp với mô hình cần xây dựng Xây dựng mô hình mạng xã hội: Từ tập liệu chuẩn hóa tiến hành xây dựng đồ thị mô tả mạng xã hội Trong với đỉnh người sử dụng thu dựa vào danh sách friends danh sách followers người dùng để đưa danh sách mối liên kết đỉnh với Do thuật toán yêu cầu đầu vào thuật toán CONGA đồ thị vô hướng, trọng số nên kết đầu lưu vào file.txt, hàng đưa cạnh liên kết đồ thị, bao gồm hai đỉnh đầu vào cuối cạnh Áp dụng thuật toán CONGA: Từ mạng xã hội vừa xây dựng bước 3, cho qua CONGA để phát cộng đồng mạng xã hội Dựa đồ thị vừa xây dựng được, tiến hành cài đặt thuật toán CONGA cho đồ thị đó, dựa thư viện mà tác giả thuật toán cung cấp Đầu vào chương trình tập tin văn biểu diễn đồ thị xây dựng bước Đầu chương trình tập cộng đồng phân cách phân chia mang lại hiệu cao Footer Page 15 of 126 Header Page 16 of 126 14 2.3 CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN HIỆN NAY 2.3.1 Máy vector hỗ trợ (SVM) 2.3.2 K lân cận (kNN) 2.3.3 Xác suất Naïve Bayes (NB) 2.3.4 Mạng Nơron (NNet) 2.3.5 Tuyến tính bình phương tối thiểu (LLSF) 2.3.6 Vector trọng tâm (Centroid- based vector) 2.3.7 So sánh phương pháp phân loại văn Các thuật toán phân loại từ thuật toán phân loại lớp (SVM) đến thuật toán phân loại đa lớp (kNN) có điểm chung yêu cầu văn phải biểu diễn dạng vector đặc trưng Ngoài thuật toán kNN,NB,LLSF phải sử dụng ước lượng tham số ngưỡng tối ưu thuật toán SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng không gian vector đặc trưng lớn (hơn 10000 chiều) 2000 NB, 2415 cho kNN LLSF, 1000 cho Nnet [6] Thời gian huấn luyện khác phương pháp, Nnet (sử dụng mạng tương ứng chủ đề) SVM hai phương pháp có thời gian huấn luyện lâu kNN,NB,LLSF Centroid phương pháp có tốc độ (thời gian huấn luyện, phân loại) nhanh cài đặt dễ dàng Về hiệu suất, dựa vào thử nghiệm Yang tập liệu Reuter-21578 với 90 chủ đề 7769 văn bản, ta xếp phương pháp phân loại văn theo thứ tự sau SVM > kNN >> {LLSF,NB,Nnet}[6] Tuy nhiên kết không áp dụng thử nghiệm phân loại Tiếng Việt Footer Page 16 of 126 Header Page 17 of 126 15 2.4 KẾT LUẬN CHƯƠNG Trong chương 2, khóa luận giới thiệu mạng xã hội Twitter, cấu trúc tính cộng đồng Chính nhờ vào cấu trúc, tính cộng đồng mạng xã hội, áp dụng thuật toán CONGA để phát cộng đồng thu thập liệu từ mạng xã hội Twitter Đồng thời, chương trình bày cụ thể phương pháp thu thập liệu từ mạng xã hội Twitter, phương pháp phân loại văn so sánh phương pháp với nhằm để tìm phương pháp phân loại văn tốt phù hợp cho trình thực nghiệm phân loại văn theo chủ đề mà liệu thu thập từ mạng xã hội Twitter Chương trình bày cụ thể phương pháp, thuật toán SVM đề áp dụng cho toán phân lớp ý kiến người dùng theo chủ đề mô giải pháp cho toán, kết thực nghiệm đánh giá Footer Page 17 of 126 16 Header Page 18 of 126 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 ÁP DỤNG PHƯƠNG PHÁP SVM CHO BÀI TOÁN PHÂN LỚP Ý KIẾN NGƯỜI DÙNG THEO TỪNG CHỦ ĐỀ 3.1.1 Lý chọn phương pháp SVM Chúng ta thấy từ thuật toán phân lớp hai lớp SVM đến thuật toán phân lớp đa lớp có đặc điểm chung yêu cầu văn phải biểu diễn dạng vector đặc trưng, nhiên thuật toán khác phải sử dụng uớc lượng tham số ngưỡng tối ưu thuật toán SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng không gian vector đặc trưng lớn (hơn 10.000 chiều) phương pháp khác có số chiều bé nhiều (như Naïve Bayes 2000, k-Nearest Neighbors 2415…) So sánh với phương pháp phân loại khác, khả phân loại SVM tương đương tốt đáng kể [3] 3.1.2 Thuật toán SVM Đặc trưng định khả phân loại phân loại hiệu suất tổng quát hóa Thuật toán huấn luyện đánh giá tốt sau trình huấn luyện, hiệu suất tổng quát hóa phân loại nhận cao Hiệu suất tổng quát hóa phụ thuộc vào hai tham số sai số huấn luyện lực máy học Trong sai số huấn luyện tỷ lệ lỗi phân loại tập liệu huấn luyện Còn lực máy học xác định kích thước VapnikChervonenkis (kích thước VC) Kích thước VC khái niệm quan trọng họ hàm phân tách (hay phân loại) Đại lượng xác định số điểm cực đại mà họ hàm Footer Page 18 of 126 Header Page 19 of 126 17 phân tách hoàn toàn không gian đối tượng Một phân loại tốt phân loại có lực thấp (có nghĩa đơn giản nhất) đảm bảo sai số huấn luyện nhỏ Tập phân lớp SVM mặt siêu phẳng phân tách mẫu dương khỏi mẫu âm với độ chênh lệch cực đại, độ chênh lệch – gọi Lề (margin) xác định khoảng cách mẫu dương mẫu âm gần mặt siêu phẳng (Hình 2.5) Mặt siêu phẳng gọi mặt siêu phẳng lề tối ưu Máy học SVM họ mặt siêu phẳng phụ thuộc vào tham số w b Mục tiêu phương pháp SVM ước lượng w b để cực đại hóa lề lớp liệu dương âm Các giá trị khác lề cho ta họ mặt siêu phẳng khác nhau, lề lớn lực máy học giảm Như vậy, cực đại hóa lề thực chất việc tìm máy học có lực nhỏ Quá trình phân loại tối ưu sai số phân loại cực tiểu Ta phải giải phương trình sau: min(w,b ) s.t yi [w xi - b] + ≥1 (3.2) ≥ 0, i = 1, …., N Tìm vector trọng số w sai số điểm tập huấn luyện , với C tham số cho trước, từ ta có phương trình tổng quát siêu phẳng tìm thuật toán SVM là: (x1, x2,…, xn) = C + ∑wi xi Với i = 1,…, n Trong n số liệu huấn luyện Footer Page 19 of 126 Header Page 20 of 126 18 Sau tìm phương trình siêu phẳng thuật toán SVM, sử dụng công thức để tìm nhãn lớp cho liệu 3.1.3 Huấn luyện SVM SVM phân loại tốt huấn luyện với nhiều đặc trưng Điều làm cho SVM trở thành phương pháp thích hợp cho phân loại văn bản, giải thuật SVM có khả điều chỉnh lực phân loại tự động đảm bảo hiệu suất tổng quát hóa tốt, chí không gian liệu có số chiều cao (số đặc trưng lớn) lượng tài liệu mẫu có hạn 3.1.4 Áp dụng SVM cho toán phân lớp ý kiến người dùng theo chủ đề Quy trình thực sau: Bước 1: Thu thập câu câu đánh giá, nhận xét kiện nhắc đến dựa vào công cụ Twitter4j Bước 2: Tiền xử lý liệu Sau làm sạch, liệu đưa qua module tách câu Mỗi câu biểu diễn dòng Module tách câu lọc liệu, loại bỏ câu cảm thán, câu nghĩa Như trình bày 1.4, phương pháp tách từ tiếng Việt áp dụng cho trình thực nghiệm phương pháp khớp tối đa (Maximum Matching) Bước 3: Trích xuất tập từ đặc trưng xây xựng vector đặc trưng văn tiến hành lựa chọn đặc trưng trích xuất tập từ đặc trưng xây xựng vector đặc trưng văn Khi tập liệu huấn luyện biểu diễn tập vector đặc trưng Mỗi từ văn tính trọng số TFxIDF đưa vào vector đặc trưng.Vector đặc trưng đầu vào cho trình Footer Page 20 of 126 Header Page 21 of 126 19 huấn luyện SVM bước Để xây dựng vector đặc trưng, chọn phương pháp lựa chọn tần suất nghịch đảo từ TFxIDF đo lượng tin tương hỗ v Phương pháp tần suất từ TF v Phương pháp tần suất nghịch đảo từ TFxIDF IDF = log(N/DF) + (3.4) v Đo lượng tin tương hỗ Lượng tin tương hỗ từ t lớp c tính sau: (3.5) v Độ đo MI toàn cục (tính toàn tập tài liệu huấn luyện) cho từ t tính sau: (3.6) Bước 4: Chọn tập liệu học, qua phân lớp nhị phân, từ cho mô hình huấn luyện Tại phân lớp nhị phân, vector đặc trưng tập liệu học sử dụng để tính toán cho mô hình huấn luyện Trong đó, đặc trưng vector xem xét phân lớp thuộc Iphone hay Bana Hill Bước 5: Tập liệu kiểm tra, cho qua mô hình huấn luyện, ta kết đánh giá cộng đồng mạng xã hội Dựa vào mô hình huấn luyện hình thành bước 4, ta phân lớp cho câu tập liệu kiểm tra (với đầu vào vector đặc trưng) 3.2 MÔ HÌNH VÀ GIẢI PHÁP CHO BÀI TOÁN 3.2.1 Đề xuất giải toán Thông tin người dùng Twitter follow lấy về, xây dựng lại mạng xã hội cho qua CONGA để phát cộng đồng Từ cộng đồng đó, ta xây dựng liệu Footer Page 21 of 126 Header Page 22 of 126 20 đánh giá nhóm người dùng kiện, tượng chung Với liệu lấy Tiếng Việt, sử dụng phân lớp SVM để phân tách nhận định người dùng theo chủ đề sản phẩm Iphone dịch vụ du lịch Bana Hill, để từ đưa đánh giá chung kiện, tượng đó, phần người nhóm hướng dẫn thầy TS Huỳnh Công Pháp bạn Nguyễn Hải Minh Phùng Hữu Đoàn thực Đầu vào: Tập người dùng mạng xã hội, liên kết tương ứng, nhận xét, đánh giá người dùng kiện, tượng Đầu ra: Phân lớp theo chủ đề nhóm cộng đồng tất ý kiến, đánh giá, nhận xét Phát biểu toán: Coi người dùng nút mạng, xây dựng mạng xã hội phân chia thành nhóm (cộng đồng) dựa liên kết nút mạng Đưa danh sách quan điểm kiện, tượng cộng đồng vừa xây dựng theo chủ đề chọn Như trình bày chương 2, phần 3.1 chọn thuật toán CONGA phát cộng đồng, phận lớp SVM để giải toán 3.2.2 Mô tả thực nghiệm Như trình bày, mô hình phần 2.2, mô hình đề xuất cho toán Khóa luận tập trung chủ yếu vào việc đánh giá kết thực nghiệm pha chính: phân nhóm cộng đồng CONGA phân lớp SVM a Mô tả liệu Dữ liệu thu thập theo phần: Footer Page 22 of 126 Header Page 23 of 126 21 Phần 1: Ta thu thập thông tin người sử dụng trực tuyến Twitter, ID, tên truy cập, danh sách bạn bè, follower following, status, mẫu tin Tweet mà người sử dụng gửi từ API mà Twitter cung cấp cho người sử dụng để tương tác với sở liệu Twitter Phần 2: Thu thập liệu tweet mà người dùng mạng xã hội vừa xây dựng đề cập đến kiện, tượng Từ phân chia liệu đến cộng đồng mạng xã hội cộng đồng kiện Số lượng tin tức retweet tweet từ tương đối lớn, đủ để phục vụ cho việc học kiểm tra phân lớp theo cộng đồng khác b Môi trường thực nghiệm c Các công cụ phần mềm sử dụng 3.3 Kết thực nghiệm đánh giá a Kết thực nghiệm v Phần 1: Phát cộng đồng Hình 3.2 Kết phân chia cộng đồng Hình 3.3 Cấu trúc đồ thị chia thành cộng đồng v Phần 2: Phân loại văn SVM Giao diện chương trình Footer Page 23 of 126 Header Page 24 of 126 22 Hình 3.5 Kết phân loại văn Tập liệu đầu vào từ người dùng chia theo nhóm cộng đồng đầu CONGA, sau qua bước tiền xử lý cho tổng cộng 3053 câu quan điểm để xây dựng máy học kiểm chứng hiệu Sau tách từ loại bỏ stopword, số từ lại 19937 từ Sau mô hình hóa, văn vector trọng số từ, trọng số số TF*IDF trình bày Như tập ngữ liệu mô hình hóa ma trận chứa TF*IDF từ có kích thước 19937*3053 phần tử Kết bước đầu, chương trình phân lớp theo chủ để văn đầu vào xác dựa liệu học được, đạt 78,08% độ xác b Đánh giá + Kết đánh giá phát cộng đồng mạng sử dụng CONGA đạt 86,9 % độ xác Footer Page 24 of 126 Header Page 25 of 126 23 + Kết đánh giá phân lớp SVM đạt 78,08% độ xác Nhận xét: Dựa vào kết đánh giá, nhận thấy phương pháp phân lớp quan điểm cộng đồng theo chủ đề sử dụng thuật toán CONGA vector đặc trưng SVM mang lại kết hợp lý 3.4 KẾT LUẬN CHƯƠNG Trong chương này, trình bày lý lựa chọn thuật toán SVM, thuật toán Tôi tiến hành thực nghiệm, xem xét đánh giá kết trình thực nghiệm mô hình gồm phát khai phá quan điểm cộng đồng mạng xã hội Twitter với miền tiếng Việt sử dụng phương pháp phát cộng đồng CONGA phân lớp văn tho chủ đề máy vector hỗ trợ SVM Qua đánh giá cho thấy kết khả quan Footer Page 25 of 126 Header Page 26 of 126 24 KẾT LUẬN Nội dung nghiên cứu kết đạt Trong luận văn này, xây dựng mô hình phát cộng đồng mạng xã hội thực nghiệm mạng xã hội Twitter cách sử dụng thuật toán phát cộng đồng CONGA Phương pháp đem lại kết tốt việc phát cộng đồng chồng chéo mạng xã hội Đồng thời áp dụng phương pháp xây dựng mô hình phân lớp SVM quan điểm người dùng theo chủ đề Tôi tiến hành cài đặt thử nghiệm tập người dùng Twitter cho kết khả quan, mô hình phân nhóm cộng đồng chuẩn xác, phân lớp quan điểm người dùng theo chủ đề đạt độ xác 78,08% Hướng phát triển Mở rộng cài đặt thử nghiệm với thuật toán phân loại văn khác kNN, Naïve Bayes, đem nhiều kết lĩnh vực Mở rộng cài đặt thử nghiệm khai phá liệu để rút trích thông tin mạng xã hội khác Facebook,… Áp dụng cho vùng liệu lớn tổng quát Footer Page 26 of 126 ... tài “ Ứng dụng khai phá liệu để trích rút thông tin theo chủ đề từ trang mạng xã hội cần thiết có ý nghĩa mặt lý thuyết thực tiễn Mục đích nghiên cứu - Nghiên cứu phương pháp, kỹ thuật khai phá. .. phương pháp tách từ, phân loại văn Tiếng Việt - Nghiên cứu phương pháp lấy liệu người dùng chủ đề mạng xã hội Twitter - Xây dựng hệ thống phân loại văn SVM theo chủ đề từ liệu lấy từ mạng xã hội. .. hướng phát triển đề tài Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu o Kỹ thuật, phương pháp khai phá liệu o Phương pháp thu thập liệu từ mạng xã hội o Các chủ đề quan tâm mạng xã hội Twitter

Ngày đăng: 07/05/2017, 09:03

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan