Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

31 166 0
Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TRƯƠNG CÔNG HẢI DỰ ĐỐN GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA TRÊN NỘI DUNG BÀI VIẾT Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2017 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS TS Từ Minh Phương Phản biện 1: .…………………………………………………………… .…………………………………………………………… ………… …………………………………………………………… ………… Phản biện 2: … ………………………………………………………… .…………………………………………………………… ………… …………………………………………………………… ………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỤC LỤC MỞ ĐẦU Chương - GIỚI THIỆU BÀI TỐN DỰ ĐỐN GIỚI TÍNH 1.1 Giới thiệu toán dự đốn giới tính 1.1.1 Mở đầu .4 1.1.2 Bài toán dự đốn giới tính 1.1.3 Ứng dụng toán dự đốn giới tính 1.2 Các phương pháp dự đốn giới tính .5 1.3 Các phương pháp dự đốn giới tính dựa biết người dùng 1.3.1 Dự đốn giới tính sử dụng viết từ blog .6 1.3.2 Dự đốn giới tính sử dụng liệu từ thông điệp twitter phương pháp hồi quy 1.4 Kết luận chương Chương - KỸ THUẬT HỌC MÁY SVM VÀ ÁP DỤNG TRONG DỰ ĐỐN GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI 2.1 Phạm vi toán .7 2.2 Đặc trưng văn biểu diễn 2.2.1 Đặc trưng văn 2.2.2 Biểu diễn văn 2.3 Kỹ thuật học máy SVM 2.3.1 Ý tưởng 2.3.2 Cơ sở lý thuyết 10 2.3.3 Bài toán phân lớp với SVM 10 2.3.4 Các bước phương pháp SVM .13 2.3.5 Ưu điểm phương pháp SVM phân lớp liệu 14 2.4 Kết luận chương 14 Chương - THỰC NGHIỆM VÀ ĐÁNH GIÁ 15 3.1 Thu thập mô tả liệu 15 3.1.1 Thu thập liệu 15 3.1.2 Mô tả liệu đầu vào 16 3.2 Các tiêu chuẩn đánh giá 16 3.3 Phương pháp thực nghiệm 17 3.4 Tiền xử lý liệu .17 3.4.1 Tách từ .18 3.4.2 Lọc từ điển 18 3.5 Kết thực nghiệm 19 3.6 Kết luận chương 25 KẾT LUẬN 26 Kết đạt 26 Hạn chế 26 Hướng phát triển 26 DANH MỤC TÀI LIỆU THAM KHẢO 28 MỞ ĐẦU Trong năm gần đây, với phát triển mạng xã hội như: Facebook, Twitter, Youtube…Với số lượng lớn người dùng liên tục cập nhật thông tin liên quan đến vấn đề đời sống, xã hội, kinh tế, giải trí… Việc xác định xác thơng tin cá nhân người dùng nhiều tổ chức, công ty, cá nhân quan tâm tới Trong nhiều trường hợp thông tin người dùng không cập nhật vào hồ sơ cá nhân hay người dùng khơng muốn người khác thấy khơng có đủ thơng tin cần thiết Trong đó, có thơng tin quan trọng giới tính người dùng Dựa vào số nghiên cứu có, dự đốn giới tính người dùng dựa văn phong, cách dùng từ, diễn đạt nội dùng viết với việc áp dụng mô hình học máy huấn luyện viết biết giới tính người dùng Việc dự đốn xác giới tính người dùng đưa số liệu thông kế, kế hoạch quảng cáo công ty, tổ chức cung cấp dịch vụ phù hợp với giới tính người dùng mạng xã hội nói riêng mạng Internet nói chúng Vì vậy, tác giả lựa chọn đề tài luận văn thạc sĩ “Dự đốn giới tính người dùng mạng xã hội dựa nội dung viết” Chương - GIỚI THIỆU BÀI TOÁN DỰ ĐOÁN GIỚI TÍNH 1.1 Giới thiệu tốn dự đốn giới tính 1.1.1 Mở đầu Ngày nay, với phát triển không ngừng khoa học công nghệ với hoàn thiện sở hạ tầng trang thiết bị tương đối đại không ngừng phát triển Theo báo cáo tổng kết Bộ TT&TT năm 2016, tỷ lệ người sử dụng Internet Việt Nam đạt 62,76% dân số Việc người trao đổi thông tin liên lạc, tìm kiếm cập nhật thơng tin lĩnh vực lĩnh vực tương đối dễ dàng nhanh chóng Từ thực tế xuất nhu cầu muốn biết thông tin người dùng Internet có thơng tin giới tính Trong nhiều trường hợp thơng tin giới tính khơng có sẵn họ không muốn người khác biết xuất tốn dự đốn giới tính 1.1.2 Bài tốn dự đốn giới tính Dự đốn giới tính (hay Determination Gender Gender Prediction) q trình phân loại xác định giới tính Nam giới tính Nữ dựa liệu biết trước Dưới hình vẽ mơ tả quy trình tốn dự đốn giới tính: Hình 1.1: Quy trình tốn dự đốn giới tính Để tiến hành dự đốn giới tính nói chung, thực theo phần là: Huấn luyện, Dự đốn 1.1.3 Ứng dụng tốn dự đốn giới tính Hầu hết thông tin hoạt động trực tuyến tìm kiếm thơng tin, chat, email, mua sắm trực tuyến Từ việc dự đốn thơng tin người dùng có giới tính từ liệu giúp nhiều lợi ích đưa số liệu thống kê sử dụng theo giới tính người dùng, kế hoạch quảng cáo sản phẩm phù hợp với giới tính giúp giảm chi phí tập trung hiệu 1.2 Các phương pháp dự đốn giới tính Trên giới có nhiều phương pháp sử dụng để dự đốn Ở giai đoạn đầu phân loại giới tính, hầu hết nghiên cứu lĩnh vực tập trung vào việc nghiên cứu tác giả, nhiệm vụ xác định dự đoán đặc điểm tác giả cách phân tích câu chuyện, tác phẩm, tiểu thuyết tạo tác giả nam hay tác giả nữ Các phương pháp mà nhà nghiên cứu sử dụng nghiên cứu chủ yếu dựa việc phân tích phong cách viết, văn phong sử dụng đặc trưng ngữ pháp chẳng hạn từ vựng, cú pháp, đặc trưng dựa nội dung 1.3 Các phương pháp dự đốn giới tính dựa biết người dùng 1.3.1 Dự đốn giới tính sử dụng viết từ blog Blog loại nhật ký, website cá nhân phổ biến giúp chia sẻ kinh nghiệm sống thơng tin sống ngày người Đây loại liệu rất lớn chứa viết, văn hàng trăm nghìn tác giả người dùng tạo Những thông tin chứa đựng nhiều đặc trưng khai thác cho tốn phân loại, cụ thể việc xác định giới tính blogger Bài báo nghiên cứu cụ thể xác định nhân học giới tính Schler et al [10] thực năm 2007 với tập liệu tất blog truy cập ngày tháng năm 2004 1.3.2 Dự đốn giới tính sử dụng liệu từ thông điệp twitter phương pháp hồi quy Xác định giới tính sử dụng liệu từ thông điệp Twitter phương pháp phân loại cho bình luận theo đặc trưng dựa nội dung bình luận phương pháp hồi quy Ở bước đầu tiên, từ tập liệu thô ý kiến Twitter thu thập theo chủ đề, ta tiến hành tiền xử lý kí tự đặc biệt Twitter, kí tự trùng lặp gần nhau, từ viết tắt, tiếng lóng, biểu tượng cảm xúc, mạng ngữ nghĩa 1.4 Kết luận chương Chương giới thiệu tốn dự đốn giới tính ứng dụng, phương pháp dự đốn giới tính người dùng trình bày số báo có dự đốn giới tính dựa nội dung viết khác Đây tiền đề tham khảo để phát triển luân văn Chương - KỸ THUẬT HỌC MÁY SVM VÀ ÁP DỤNG TRONG DỰ ĐỐN GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI 2.1 Phạm vi toán Trong luận văn tập trung vào tốn dự đốn giới tính người dùng mạng xã hội dựa nội dung viết mạng xã hội Facebook Dữ liệu viết Facebook đăng Status có nội dung văn đặc biệt người dùng trang cá nhân Chúng ta chia thành kiểu tốn nhỏ: Dự đốn giới tính người dùng với Status khác Dự đốn giới tính cách kết hợp Status người dùng Luận văn tập trung vào việc dự đoán dựa đặc trưng văn nội dung viết Tiếng Việt với việc áp dụng phương pháp học máy vector hỗ trợ SVM để dự đoán 2.2 Đặc trưng văn biểu diễn 2.2.1 Đặc trưng văn Tiếng Việt ngôn ngữ đơn lập Đặc điểm bao quát tiếng Việt mặt ngữ âm, ngữ nghĩa, ngữ pháp 2.2.2 Biểu diễn văn Chúng ta cần biểu diễn văn vector đặc trưng để dùng giải thuật SVM để phân loại Trước tiên cần xây dựng từ điển cho tập liệu văn Trong luận văn sử dụng mơ hình n-gram để xây dựng từ điển Ví dụ cho tập văn D gồm câu C1 C2 Bảng 2.1: Bảng 2.1: Danh sách tập văn D gồm câu C1 C2 Số thứ tự Giới tính Mã câu Nội dung Nữ C1 Con mèo ngồi mũ Nam C2 Con chó cắn mèo mũ Tập từ điển tương ứng với n-gram sau: 1-gram: con, mèo, ngồi, trên, chiếc, mũ, chó, cắn, 2-gram: mèo, mèo ngồi, ngồi trên, chiếc, mũ, chó, chó cắn, cắn con, mèo và, 3-gram: mèo ngồi, mèo ngồi trên, ngồi chiếc, mũ, chó cắn, chó cắn con, cắn mèo, mèo và, mèo chiếc, mũ Dựa vào mơ hình n-gram em xây dựng tập danh sách từ điển tập liệu đầu thành tập từ điển để đánh giá: Tập từ điển unigram: Là tập hợp danh sách từ điển có 1-gram Tập từ điển bigram: Là tập hợp danh sách từ gồm 1-gram 2-gram Tập từ điển trigram: Là tập hợp dang sách từ gồm 1-gram, 2-gram 3gram Sau xây dựng tập từ điển, để biểu diễn văn cần tìm trọng số cho tập từ điển Trong luận văn sử dụng trọng số là: số lần xuất từ, số TF-IDF, trọng số Binary Bài toán Input: Cho tập văn gồm m văn D = {𝑑1 , 𝑑2 , , 𝑑𝑚 } T tập từ điển gồm n từ khác T = {𝑡1 , 𝑡2 , , 𝑡𝑛 } Output: Xây dựng w = (𝑤𝑖𝑗 ) ma trận trọng số, 𝑤𝑖𝑗 trọng số từ 𝑡𝑖  T văn 𝑑𝑗  D a) Trọng số xuất từ (count) 15 Chương - THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Thu thập mô tả liệu 3.1.1 Thu thập liệu Trên Facebook có cung cấp Graph API [15] cho phép lấy thơng tin người dùng có Status họ bạn bè Để có đánh giá độ xác phương pháp SVM em lấy dữ liệu người dùng có thơng tin giới tính rõ ràng (nam/nữ), lấy Status văn khơng chứa URL, tag bạn bè, hình ảnh, video… Hình 3.1: Tạo project để hỗ trợ lấy nhiều danh sách Status Mỗi dịng file csv có định dạng sau: < Id người dùng>, , , < Id Status>, < Status> Số lượng Status lấy lưu vào file full_status.csv File full_status.csv có nhiều Status cần loại bỏ sau: Có số lượng từ ký tự (ngăn cách dấu cách) nhỏ lớn 225 16 Các Status trùng Các Status tiếng Việt Những Status có q nhiều kí tự từ Sau loại bỏ Staus khơng phù hợp em lưu danh sách Status lại vào file có tên full_status_filter.csv 3.1.2 Mơ tả liệu đầu vào Trong file full_status_filter.csv có chứa danh sách Status nhiều người dùng khác Bảng 3.1 thống kế tập liệu đầu vào theo người dùng theo Status: Với thống kế theo người dùng ta coi người dùng có nhiều Status, tập hợp Status giới tính người dùng Với thống kế theo Status Status thể giới tính người dùng, Status người dùng riêng biệt đánh giá theo viết Bảng 3.1: Thống kế danh sách Status theo người dùng viết Người dùng 3.2 Status Số lượng Tỉ lệ Số lượng Tỉ lệ Nam 659 57.8% 109,170 49.7% Nữ 482 42.2% 107,702 50.3% Tổng số 1,141 100% 216,872 100% Các tiêu chuẩn đánh giá Để đánh giá giải thuật máy học số số thông dụng sử dụng Giả sử phân lớp có lớp lớp âm (negative) lớp dương (positive) số định nghĩa sau: TP- True positive: số phần tử dương phân loại dương FN - False negative: số phần tử dương phân loại âm 17 TN- True negative: số phần tử âm phân loại âm FP - False positive: số phần tử âm phân loại dương Độ xác (Accuracy) = 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 Trong luận văn sử dụng phương pháp k-fold Cross validation [18] với 10-fold để thực việc đánh giá 3.3 Phương pháp thực nghiệm Để tiến hành thực nghiệm với tập liệu em sử dụng thư viện hỗ trợ phương pháp học máy SVM có thư viện Liblinear [16] Thư viện hỗ trợ phương pháp học máy SVM có ưu điểm bật sau: Tốc độ xử lý nhanh Có thể phân loại tốn có từ hàng triệu đến hàng chục triệu đặc trưng Yêu cầu cấu hình máy thấp, máy tính cá nhân thơng thường hoạt động - Định dạng file: Định dạng file liệu huấn luyện file kiểm tra là: :: Trong đó: : giá trị đích tập huấn luyện Với tốn dự đốn giới tính label có hai giá trị nam -1 nữ : số nguyên Là thứ tự từ từ điển : trọng số index Nếu value = khơng cần phải ghi 3.4 Tiền xử lý liệu Sau có liệu em tiến hành tiền xử lý liệu với bước tách từ vào lọc từ điển 18 3.4.1 Tách từ Danh sách tập liệu Status Tiếng Việt cần phải tách từ trước xây dựng từ điểm với mơ hình n-gram Em xây dựng mơ-đun tách từ cách sử dụng thư viện vnTokenizer Trong trình đưa file liệu chạy qua vnTokenizer có số Status không tách từ bị loại bỏ Danh sách Status sau chạy lưu vào file csv có tên vn_tokenizer_status.csv 3.4.2 Lọc từ điển Với liệu gồm nhiều Status danh sách từ điểm lớn có nhiều từ khơng có ý nghĩa việc dự đốn, làm chậm trình xử lý Để giảm bớt từ điển em loại bỏ từ có số lần xuất lần ký từ đơn “a”, “!”, “#”… thay chữ số thành #digit Bảng 3.2 thống kê số lượng danh sách từ điển tương ứng với mô hinh n-gram Bảng 3.2: Thống kế số lượng từ tập liệu Từ điển Tống số lại Tập từ điển unigram 12,923 Tập từ điển bigram 370,663 Tập từ điển trigram 1,230,451 Trung bình 538,012 Sau có từ điển em tìm trọng số tương ứng tạo file định dạng Liblinear Với từ điển tạo file với trọng số tương ứng số lần xuất hiện, TF-IDF Binary Tổng cộng có file sau: Bảng 3.3: Danh sách file theo định dạng liblinear Số thứ tự Tên file Mô tả Unigram_count.libsvm Bộ từ điển unigram với trọng số xuất từ Unigram_tfidf.libsvm Bộ từ điển unigram với trọng số TF-IDF 19 3.5 Unigram_binary.libsvm Bộ từ điển unigram với trọng số Binary Bigram_count.libsvm Bộ từ điển bigram với trọng số xuất từ Bigram_tfidf.libsvm Bộ từ điển bigram với trọng số TF-IDF Bigram_binary.libsvm Bộ từ điển bigram với trọng số Binary Trigram_count.libsvm Bộ từ điển trigram với trọng số xuất từ Trigram_tfidf.libsvm Bộ từ điển trigram với trọng số TF-IDF Trigram_binary.libsvm Bộ từ điển trigram với trọng số Binary Kết thực nghiệm Bảng 3.4: Kết độ xác tập liệu theo Status Count Binary Tf-Idf Trung bình Unigram 69.41% 69.57% 70.05% 69.68% Bigram 66.96% 67.19% 69.78% 67.98% Trigram 67.65% 67.76% 70.00% 68.47% Trung bình 68.01% 68.17% 69.95% 68.71% Bảng 3.4 cho thấy độ xác cao 70.05% với tập từ điển unigram trọng số TF-IDF Kết độ xác thấp 66.96% thuộc tập từ điển bigram với trọng số lần xuất từ Chênh lệch độ xác cao thấp 3.09% Trung bình độ xác file 68.71% 20 70.50% 70.05% 70.00% 69.57% 69.41% 69.50% 69.78% 70.00% 69.00% 68.50% 68.00% 67.76% 67.65% 67.50% 67.19% 66.96% 67.00% 66.50% 66.00% 65.50% 65.00% count binary unigram bigram tf-idf trigram Hình 3.2: Biểu đồ thể kết theo trọng số Theo hình 3.2 ta thấy xét theo trọng số TF-IDF cho kết tốt trung bình 69.95% đến trọng số Binary 68.17% số lần xuất 68.01% 70.50% 70.00% 69.50% 69.00% 68.50% 68.00% 67.50% 67.00% 66.50% 66.00% 65.50% 65.00% 70.05% 70.00% 69.78% 69.41% 69.57% 67.65% 67.76% 66.96% unigram 67.19% bigram count binary trigram tf-idf Hình 3.3: Biểu đồ thể kết theo tập từ điển 21 Ngược lại xét tập từ điển unigram cho kết tốt trung bình 69.68% đế trigram 68.47% cuối đến từ điển bigram 67.98% biểu đồ hình 3.3 Kết Bảng 3.4 cho thấy độ xác việc dự đốn giới tính người dùng Status riêng rẽ Việc dự đốn tồn Status tùng người dùng cho kết bảng sau: Bảng 3.5: Kết độ xác tập liệu theo người dùng Unigram Bigram Trigram Trung bình Count Binary Tf-Idf Trung bình 93.87% 90.89% 77.83% 87.53% 91.32% 76.42% 86.94% 91.85% 75.99% 86.74% 91.35% 76.75% 87.07% 93.08% 92.38% 93.11% Bảng 3.5 cho thấy độ xác cao 93.87% với tập từ điển unigram trọng số lần xuất Kết độ xác thấp 75.99% thuộc tập từ điển trigram với trọng số TF-IDF Chênh lệch độ xác cao thấp 17.88% Trung bình độ xác file 87.07% 22 100.00% 93.87% 93.08% 92.38% 90.89% 91.32% 90.00% 77.83% 76.42% 80.00% 75.99% 70.05% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% count binary unigram bigram tf-idf trigram Hình 3.4: Biểu đồ thể kết theo trọng số tập liệu theo người dùng Theo hình 3.4 ta thấy xét theo trọng độ lệch khác xa trung bình 4.87% trọng số lần xuất từ cho kết tốt trung bình 93.11% đến trọng số Binary 91.35% thấp TF-IDF 76.75% 100.00% 93.87% 93.08% 91.32% 90.89% 92.38% 91.85% 90.00% 80.00% 77.83% 76.42% 75.99% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% unigram bigram count binary trigram tf-idf 23 Hình 3.5: Biểu đồ thể kết theo tập từ điển tập liệu theo người dùng Nếu xét tập từ điển độ chênh lệch nhỏ 0.62% unigram cho kết tốt trung bình 87.53% đế bigram 86.94% cuối đến từ điển bigram 86.74% biểu đồ hình 3.5 Từ Bảng 3.4 Bảng 3.5 cho thấy Nếu dự đốn theo Status trọng số TF-IDF cho kết tốt theo người dùng kết tốt mà trọng số Binary Điều cho thấy mực độ quan trọng từ với việc dự đoán theo Status phụ thuộc vào việc từ tồn tập liệu Status Cịn với theo người dùng, với việc người có nhiều Status mức độ quan trọng từ tập tập liệu thấp từ xuất gần người dùng có, việc dự đốn phụ thuộc vào số lượng sử dụng từ người dùng Để đánh giá số lượng tập liệu ảnh hưởng đến độ xác dự đốn em chia tập liệu gốc thành tập nhỏ ngẫu nhiên với số lượng Status tập 10000, 50000, 100000, 150000 Với bước thực tương tự tập liệu ban đầu em thu kết với phương pháp 10-fold Cross validation sau: Bảng 3.6: Kết độ xác tập liệu với 10,000 Status Count Binary Tf-Idf Trung bình Unigram 61.57% 62.53% 64.10% 62.73% Bigram 61.66% 61.96% 64.15% 62.59% Trigram 62.00% 62.16% 64.45% 62.87% Trung bình 61.74% 66.22% 64.23% 62.73% Bảng 3.7: Kết độ xác tập liệu với 50,000 Status 24 Count Binary Tf-Idf Trung bình Unigram 65.99% 66.08% 67.11% 66.39% Bigram 64.77% 64.77% 67.35% 65.63% Trigram 65.19% 65.21% 67.45% 65.95% Trung bình 65.32% 65.35% 67.30% 65.99% Bảng 3.8: Kết độ xác tập liệu với 100,000 Status Count Binary Tf-Idf Trung bình Unigram 67.68% 67.97% 68.68% 68.11% Bigram 65.90% 66.10% 68.39% 66.80% Trigram 66.43% 66.64% 68.72% 67.26% Trung bình 66.67% 66.90% 68.60% 67.39% Bảng 3.9: Kết độ xác tập liệu với 150,000 Status Count Binary Tf-Idf Trung bình Unigram 68.59% 68.78% 69.45% 68.94% Bigram 66.51% 66.63% 69.29% 67.48% Trigram 67.13% 67.24% 69.58% 67.98% Trung bình 67.41% 67.55% 69.44% 68.13% 25 Độ xác 70.00% 69.00% 68.00% 67.00% 66.00% 65.00% 64.00% 63.00% 62.00% 61.00% 60.00% 59.00% 68.13% 68.71% 67.39% 65.99% 62.59% 10,000 50,000 100,000 150,000 216,872 Độ xác Hình 3.6: Biểu đồ kết độ xác trung bình tập liệu Hình 3.6 cho thấy độ xác tỉ lệ thuận với số lượng liệu Status Số lượng lới độ xác cao Chênh lệch tập liệu lớn tập nhỏ 10,000 Status 6.12% Độ lệch trung bình tập liệu 1.53% 3.6 Kết luận chương Chương đưa tiêu chuẩn đánh giá cá phương pháp thực nghiệm thực tập liệu thu thập Các giai đoạn tiền xử lý liệu để xây dựng lên file để đánh giá Cuối kết thực nghiệm 26 KẾT LUẬN Kết đạt Luận văn tiến hành nghiên cứu giải toán dự dốn giới tính người dùng mạng xã hội dựa nội dung viết nói chung thực nghiệm với mạng xã hội Facebook nội dung viết tiếng Việt dựa vào đặc trưng Bài toán tảng cho nhiều ứng dụng quan trọng để dự đốn giới tính người dùng nói riêng thơng tin khác nói chung Những kết mà luận văn đạt được: Nghiên cứu tìm hiểu tốn dự đốn giới tính, trình bày số phương pháp dự đốn giới tính nghiên cứu trước Phân tích hai đặc điểm nội dung viết tiếng Việt phục vụ cho trình tiền xử lý Tìm hiểu áp dụng cơng cụ tiền xử lý liệu đầu vào Nghiên cứu tìm hiểu thuật toán Support Vector Machine hai lớp nhiều lớp Xây dựng chương trình lấy nội dung viết người dùng mạng xã hội Facebook Xây dựng chương trình huấn luyện kiểm thử với liệu lấy Hạn chế Hạn chế số lượng chất lượng liệu ảnh hưởng đến kết dự đoán Luận văn tập trung lấy liệu dự đốn giới tính người dùng mạng xã hội Facebook chưa thực nghiệm mạng xã hội khác Twitter, Youtube… Hướng phát triển 27 Xây dựng liệu lớn hoàn chỉnh, phong phú mạng xã hội khác Cải thiện hiệu suất, tăng tốc độ xử lý liệu với liệu lớn Xây dựng hệ thống hoàn chỉnh cho liệu người dùng mạng xã hội, blog, comment… 28 DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu Tiếng Anh [01] Do Viet Phuong and Tu Minh Phuong “Gender Prediction Using Browsing History” KSE (1) 2013: 271-283 [02] Argamon, S., M Koppel, J Fine & A R Shimoni (2003) Gender, genre, and writing style in formal written texts Text, 23 [03] Popescu, A & G Grefenstette (2010) Mining user home location and gender from Flickr tags In Proc of ICWSM-10, pp 1873–1876 [04] Katja Filippova User Demographics and Language in an Implicit Social Network [05] Claudia Peersman, Walter Daelemans, Leona Van Vaerenbergh Predicting Age and Gender in Online Social Networks [06] RE Fan, KW Chang, CJ Hsieh, XR Wang, CJ Lin "LIBLINEAR: A library for large linear classification" Journal of machine learning research (Aug), 1871-1874 [07] PENG Qiu-fang, LIU Yang – Research of gender prediciton based on SVM with E-commerce data Available from: http://lxbwk.njournal.sdu.edu.cn/EN/abstract/abstract3503.shtml [08] Mendenhall's studies of word-length distribution in the works of Shakespeare and Bacon Available from: https://academic.oup.com/biomet/article-abstract/62/1/207/220350/Mendenhalls-studies-of-word-length-distribution [09] De Vel, O., Anderson, A., Corney, M., Mohay, G M (2001) Mining e-mail content for author identification forensics SIGMOD Record 30(4), pp 55-64 [10] Argamon, S., Koppel, M., Fine, J and Shimoni, A (2003) Gender, Genre, and Writing Style in Formal Written Texts, Text 23(3), August 29 [11] Argamon, S., Koppel, M., Pennebaker, J and Schler, J (2008) Automatically Profiling the Author of an Anonymous Text, Communications of the ACM [12] Burger, J D., J Henderson, G Kim & G Zarrella (2011) Discriminating gender on Twitter In Proc of EMNLP-11, pp 1301–1309 [13] Nowson, S & J Oberlander (2006) The identity of bloggers: Openness and gender in personal weblogs In Proceedings of the AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs, Stanford, CA, 27-29 March 2006, pp 163–167 [14] Yan, X & L Yan (2006) Gender classification of weblogs authors In Proceedings of the AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs, Stanford, CA, 27-29 March 2006, pp 228–230 Website tham khảo [15] https://developers.facebook.com [16] https://www.csie.ntu.edu.tw/~cjlin/liblinear/ [17] http://restfb.com [18] http://mccormickml.com/2013/08/01/k-fold-cross-validation-with-matlabcode/ ... đề tài luận văn thạc sĩ ? ?Dự đoán giới tính người dùng mạng xã hội dựa nội dung viết? ?? 4 Chương - GIỚI THIỆU BÀI TOÁN DỰ ĐỐN GIỚI TÍNH 1.1 Giới thiệu tốn dự đốn giới tính 1.1.1 Mở đầu Ngày nay,... luận văn tập trung vào tốn dự đốn giới tính người dùng mạng xã hội dựa nội dung viết mạng xã hội Facebook Dữ liệu viết Facebook đăng Status có nội dung văn đặc biệt người dùng trang cá nhân Chúng... trọng giới tính người dùng Dựa vào số nghiên cứu có, dự đốn giới tính người dùng dựa văn phong, cách dùng từ, diễn đạt nội dùng viết với việc áp dụng mơ hình học máy huấn luyện viết biết giới tính

Ngày đăng: 23/10/2017, 12:45

Hình ảnh liên quan

Hình 1.1: Quy trình bài tốn dự đốn giới tính - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Hình 1.1.

Quy trình bài tốn dự đốn giới tính Xem tại trang 7 của tài liệu.
Dựa vào mơ hình n-gram em sẽ xây dựng tập danh sách từ điển đối với tập dữ liệu đầu thành 3 tập từ điển để đánh giá:  - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

a.

vào mơ hình n-gram em sẽ xây dựng tập danh sách từ điển đối với tập dữ liệu đầu thành 3 tập từ điển để đánh giá: Xem tại trang 10 của tài liệu.
Hình 2.1: Minh họa bài tốn phân 2 lớp bằng phương pháp SVM - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Hình 2.1.

Minh họa bài tốn phân 2 lớp bằng phương pháp SVM Xem tại trang 13 của tài liệu.
Hình 2.2: Tập dữ liệu được phân chia nhưng cĩ nhiễu - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Hình 2.2.

Tập dữ liệu được phân chia nhưng cĩ nhiễu Xem tại trang 14 của tài liệu.
Hình 2.3: Tập dữ liệu khơng phân chia tuyến tính - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Hình 2.3.

Tập dữ liệu khơng phân chia tuyến tính Xem tại trang 15 của tài liệu.
Hình 3.1: Tạo project để hỗ trợ lấy nhiều danh sách Status. - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Hình 3.1.

Tạo project để hỗ trợ lấy nhiều danh sách Status Xem tại trang 17 của tài liệu.
Bảng 3.2: Thống kế số lượng từ của tập dữ liệu. - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Bảng 3.2.

Thống kế số lượng từ của tập dữ liệu Xem tại trang 20 của tài liệu.
Bảng 3.4 cho thấy độ chính xác cao nhất 70.05% với tập từ điển unigram và trọng  số  TF-IDF - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Bảng 3.4.

cho thấy độ chính xác cao nhất 70.05% với tập từ điển unigram và trọng số TF-IDF Xem tại trang 21 của tài liệu.
Bảng 3.4: Kết quả độ chính xác của tập dữ liệu theo từng Status. - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Bảng 3.4.

Kết quả độ chính xác của tập dữ liệu theo từng Status Xem tại trang 21 của tài liệu.
Theo hình 3.2 ta thấy nếu xét theo trọng số thì TF-IDF cho kết quả tốt nhất trung  bình  là  69.95%  rồi  đến  trọng  số  Binary  là  68.17%  và  số  lần  xuất  hiện  là  68.01% - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

heo.

hình 3.2 ta thấy nếu xét theo trọng số thì TF-IDF cho kết quả tốt nhất trung bình là 69.95% rồi đến trọng số Binary là 68.17% và số lần xuất hiện là 68.01% Xem tại trang 22 của tài liệu.
Hình 3.2: Biểu đồ thể hiện kết quả theo trọng số. - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Hình 3.2.

Biểu đồ thể hiện kết quả theo trọng số Xem tại trang 22 của tài liệu.
Kết quả ở Bảng 3.4 cho thấy độ chính xác của việc dự đốn giới tính của người  dùng  trên  từng  Status  riêng  rẽ  nhau - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

t.

quả ở Bảng 3.4 cho thấy độ chính xác của việc dự đốn giới tính của người dùng trên từng Status riêng rẽ nhau Xem tại trang 23 của tài liệu.
Theo hình 3.4 ta thấy nếu xét theo trọng thì độ lệch khác xa nhau trung bình là 4.87% trong đĩ trọng số lần xuất hiện của từ cho kết quả tốt nhất trung bình là  93.11% rồi đến trọng số Binary là 91.35% và thấp nhất là TF-IDF 76.75% - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

heo.

hình 3.4 ta thấy nếu xét theo trọng thì độ lệch khác xa nhau trung bình là 4.87% trong đĩ trọng số lần xuất hiện của từ cho kết quả tốt nhất trung bình là 93.11% rồi đến trọng số Binary là 91.35% và thấp nhất là TF-IDF 76.75% Xem tại trang 24 của tài liệu.
Hình 3.4: Biểu đồ thể hiện kết quả theo trọng số của tập dữ liệu theo từng người dùng - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Hình 3.4.

Biểu đồ thể hiện kết quả theo trọng số của tập dữ liệu theo từng người dùng Xem tại trang 24 của tài liệu.
Hình 3.5: Biểu đồ thể hiện kết quả theo tập từ điển của tập dữ liệu theo từng người dùng - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Hình 3.5.

Biểu đồ thể hiện kết quả theo tập từ điển của tập dữ liệu theo từng người dùng Xem tại trang 25 của tài liệu.
Bảng 3.9: Kết quả độ chính xác của tập dữ liệu với 150,000 Status. - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Bảng 3.9.

Kết quả độ chính xác của tập dữ liệu với 150,000 Status Xem tại trang 26 của tài liệu.
Bảng 3.8: Kết quả độ chính xác của tập dữ liệu với 100,000 Status. - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Bảng 3.8.

Kết quả độ chính xác của tập dữ liệu với 100,000 Status Xem tại trang 26 của tài liệu.
Hình 3.6: Biểu đồ kết quả độ chính xác trung bình của từng tập dữ liệu. - Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (tt)

Hình 3.6.

Biểu đồ kết quả độ chính xác trung bình của từng tập dữ liệu Xem tại trang 27 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan