PHÂN LOẠI DỮ LIỆU BÁO CHÍ TRỰC TUYẾN ĐỂ ĐIỀU HƯỚNG THÔNG TIN THEO THỊ HIẾU ĐỘC GIẢ

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - ĐỖ DUY TIẾN PHÂN LOẠI DỮ LIỆU BÁO CHÍ TRỰC TUYẾN ĐỂ ĐIỀU HƯỚNG THÔNG TIN THEO THỊ HIẾU ĐỘC GIẢ CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 (Khoa học máy tính) LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN MẠNH HÙNG HÀ NỘI – 2015 LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác TÁC GIẢ LUẬN VĂN ĐỖ DUY TIẾN LỜI CẢM ƠN Trong suốt trình học tập thực đồ án này, nhận nhiều quan tâm giúp đỡ, hưỡng dẫn tận tình thầy cô với lời động viên khuyến khích từ phía gia đình, bạn Tôi xin bày tỏ lời cảm ơn chân thành đến tất người Tôi xin tỏ lòng biết ơn sâu sắc đến thầy Nguyễn Mạnh Hùng tận tình hướng dẫn, định hướng cho trình thực đề tài Thầy cho lời khuyên, dẫn, truyền đạt cho kiến thức, kinh nghiệm việc thực đồ án Tôi xin cảm ơn thầy cô khoa Quốc tế đào tạo sau đại học, học viện Công nghệ Bưu Viễn thông tận tình dạy dỗ cho kiến thức bổ ích suốt trình hai năm học tập, giúp nâng cao chuyên môn, làm tảng để hoàn thành khóa luận, tự tin phát triển công việc sau Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân bên, cảm thông, hỗ trợ, giúp đỡ khó khăn công việc, sống trình học tập Hà Nội, tháng 12 năm 2015 Đỗ Duy Tiến MỤC LỤC DANH MỤC HÌNH VẼ VÀ SƠ ĐỒ DANH MỤC BẢNG BIỂU MỞ ĐẦU Ngày nay, công nghệ ngày phát triển, internet phủ sóng khắp nơi Nhà nhà, người người sở hữu thiết bị di động điện thoại, máy tính bảng… để cập nhật thường xuyên thông tin, kiện diễn toàn giới Tuy nhiên, lượng thông tin nhiều, lại lộn xộn, xếp khiến người gặp khó khăn việc thu thập Mỗi ngày họ phải săn tìm thông tin hữu ích, kiến thức mà họ mong muốn đống liệu khổng lồ dẫn tới việc bỏ sót thông tin quý giá hay tiêu phí nhiều thời gian vào thông tin không cần thiết Vấn đề đặt thách thức lớn website báo điện tử Việc cung cấp thông tin hữu ích đối tượng độc giả ngày trở nên cấp bách Tuy nhiên, điều khó khăn mà website báo điện tử gặp phải số lượng độc giả lớn, khối lượng thông tin nhiều, việc phân loại thủ công gần Đòi hỏi phải có hệ thống tự động thu thập, phân tích phân loại bạn đọc, phân loại thông tin Do đó, lựa chọn đề tài: “Phân loại liệu báo chí trực tuyến để điều hướng thông tin theo thị hiếu độc giả” nhằm tìm hiểu xây dựng trình thu thập, phân tích liệu bạn đọc để từ phân loại thành nhóm nhỏ, sau rút trích thông tin hữu ích phù hợp với nhóm riêng biệt Nội dung luận văn gồm chương: Nội dung đồ án trình bày thành ba chương theo cấu trúc sau: Chương 1: Tổng quan toán phân loại liệu báo chí trực tuyến Trình bày tổng quan phân loại liệu báo chí trực tuyến: phân loại độc giả tin tức theo loại độc giả với hướng tiếp cận để giải toán Chương 2: Thuật toán K – láng giềng gần Trình bày sở lý thuyết thuật toán K – láng giềng gần Từ áp dụng vào để giải toán phân loại tin tức báo theo thị hiếu độc giả Chương 3: Phân loại liệu báo chí trực tuyến để điều hướng thông tin theo thị hiếu độc giả Trình bày cụ thể trình thực việc xây dựng hệ thống phân loại liệu báo chí theo thị hiếu độc giả: sở liệu, ứng dụng, bước thực nghiệm kết đạt Từ đưa phân tích, nhận xét Kết luận hướng phát triển Trình bày tóm tắt kết đạt chưa đạt Từ đề xuất mục tiêu hướng nghiên cứu, phát triển CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI DỮ LIỆU BÁO CHÍ TRỰC TUYẾN Chương trình bày tổng quan toán phân loại báo chí trực tuyến theo thị hiếu độc giả Từ đó, luận văn đưa hướng tiếp cận để giải toán 1.1 1.1.1 Bài toán phân loại liệu báo chí trực tuyến Phân loại liệu tin tức báo chí Cùng với phát triển vượt bậc công nghệ thông tin nhu cầu sử dụng Internet người làm tăng vọt lượng thông tin giao dịch Internet Vì mà văn điện tử tăng lên nhanh số lượng chủ đề đặc biệt thư viện điện tử, tin tức điện tử mạng toàn cầu… Báo điện tử cho phép người khắp giới tiếp cận tin tức nhanh chóng không phụ thuộc vào không gian thời gian, tin tức báo điện tử cập nhật thường xuyên thông tin từ nhiều nguồn khác Với lượng thông tin đồ sộ vậy, yêu cầu lớn đặt tổ chức tìm kiếm tin tức với số lượng lớn từ nhiều nguồn khác vào chủ đề tương ứng mà đảm bảo tính chất “nhanh, cập nhật kịp thời” phải đảm bảo cách xác, có hiệu Phân loại thông tin giải pháp hợp lý cho yêu cầu Nhưng thực tế cho thấy khối lượng thông tin lớn, việc phân loại liệu thủ công điều vô khó khăn, thực bàn tay người số lượng tin tức lớn, dẫn đến cần nhiều nhân lực gây tốn phân loại không xác Hướng giải cho việc xây dựng chương trình phân loại thông tin tự động máy tính Vậy phân loại thông tin cách hiệu giúp người đọc lấy tin tức cần thiết Luận văn sử dụng phân loại tin tức theo nhóm tin mà độc giả hay đọc 10 Chúng ta đưa toán phân loại báo chí tiếng Việt toán phân lớp văn tiếng Việt Phân lớp văn toán khai phá liệu văn bản, việc gán tên chủ đề (tên lớp/ nhãn lớp) xác định trước vào văn dựa nội dung chúng Ở đây, tên chủ đề xác định theo phân loại nhóm độc giả Ví dụ như, phân loại tin tức vào nhóm độc giả thích đọc báo giới, xã hội, văn hóa, tình yêu … 1.1.2 Phân loại độc giả website báo chí Xu hướng "điện tử hóa" báo chí ngày mạnh Báo điện tử có tác dụng tiện ích hẳn loại hình báo chí truyền thống, dung lượng thông tin lớn, tương tác thông tin nhanh, phát hành không bị trở ngại không gian, thời gian, biên giới quốc gia Với báo điện tử, độc giả truy cập tin tức đâu không phụ thuộc vào môi trường làm việc miễn máy tính, điện thoại họ có kết nối Internet có cài đặt trình duyệt web tuân thủ tiêu chuẩn Ngược lại thời điểm mà số lượng blog, số lượng trang báo điện tử Internet chưa nhiều tiếp cận Internet để đọc báo, dễ dàng tập hợp số liệu đưa kết luận thói quen độc giả Nhưng sao? Có hàng triệu người truy cập vào trang báo điện tử ngày Do đó, việc đưa kết luận thói quen độc giả Vậy nên, luận văn tiến hành phân loại độc giả vào nhóm, nhóm độc giả có chung thói quen, sở thích, nhóm tin tức quan tâm (ví dụ nhóm bạn đọc tin xã hội, nhóm bạn đọc tin giới,…) Việc làm giúp nhà quản trị trang báo quản lý độc giả cách dễ dàng mà hỗ trợ độc giả cập nhật tin tức nhanh kịp thời Kết hợp việc phân loại độc giả phân loại liệu tin tức vào nhóm độc giả, luận văn trình bày cách xây dựng ứng dụng hỗ trợ độc giả đọc báo Đối với độc giả truy cập vào website đọc báo, hệ thống xác định độc giả 39 Số lượng Số người dùng 1000 người dùng Số lượt đọc/ người dùng 132.7 lượt đọc Số nhãn phân loại 30 chuyên mục Bảng 9: Thông tin liệu báo chí Số lượng Số báo 1000 báo Số báo chuyên mục 121 báo Số nhãn phân loại 30 chuyên mục 3.2.3 Ngôn ngữ lập trình thư viện sử dụng Trong luận văn lựa chọn ngôn ngữ Java, ngôn ngữ PHP, công nghệ swing, để cài đặt mô hình Điều mang đến điểm mạnh cho chương trình: - Chương trình chạy đa nền, đa hệ điều hành - Chương trình có giao diện kiểu MDI cho phép mở nhiều cửa sổ chức khác nhau, dễ sử dụng - Chương trình xử lý đa tiến trình tiền xử lý, tách từ, lựa, phân lớp văn bản,… - Việc sử dụng ngôn ngữ hướng đối tượng, code tổ chức phân tầng, module hóa rõ ràng làm cho chương trình có mã nguồn sáng sủa, dễ bảo trì, dễ thêm - Hệ quản trị CSDL MySQL Ngoài sử dụng thư viện jsoup để hỗ trợ đưa liệu dạng HTML sang text, API VnSentenceDetector hỗ trợ tách câu văn bản, API vnTokenizer hỗ trợ tách từ câu 40 3.3 Chi tiết tiến trình thực 3.3.1 Pha thu thập liệu Tại pha thu thập liệu, liệu thu thập dạng liệu người dùng liệu báo chí Dữ liệu người dùng thu thập bao gồm lịch sử hoạt động người dùng gán nhãn thông qua số khảo sát thực tế website: http://petrotimes.vn Dữ liệu sau thu thập chọn lọc lại lần để tránh nhiễu liệu liệu gán nhãn không xác như: + Những người dùng thuộc nhóm thích chuyên mục A chưa đọc hay lượng xem chuyên mục A + Những người dùng gán nhãn lượng báo đọc Dữ liệu báo thu thập dựa báo ngẫu nhiên chuyên mục 3.3.2 Pha tiền xử lý liệu a Đưa liệu dạng text Ban đầu liệu dạng file HTML Sử dụng thư viện jsoup để hỗ trợ chuyển file dạng HTML dạng file text để ta dễ dàng thực hiện, xử lý bước b Tách câu văn Sau chuyển văn định dạng text, văn tách thành câu riêng biệt Việc làm giúp lo lắng việc làm sai nội dung văn bản, làm sai nội dung câu thực loại bỏ ký tự đặc biệt từ dừng Để thực thao tác tách câu nội dung văn bản, luận văn sử dụng thư viện dành cho ngôn ngữ java API VnSentenceDetector Bộ thư viện sử dụng để tự động phát câu văn tiếng Việt Sau sử dụng API VnSentenceDetector văn tách thành câu Nếu lúc trước nội dung báo ghi theo đoạn, 41 sử dụng công cụ đoạn không mà thay vào câu viết theo dòng, dòng câu có báo Hình 3.5: Tập câu tách từ báo c Tách từ, xây dựng tập từ vựng cho hệ thống Để lấy tập từ để xây dựng liệu cho hệ thống, tiến hành phân chia câu thành từ có nghĩa (từ đơn, từ ghép) Do tiếng Việt đa dạng phức tạp với hệ thống từ đơn, từ ghép Do để tiến hành tách từ xác câu cho không ý nghĩa luận văn sử dụng thư viện vnTokenizer Bộ thư viện sử dụng kết hợp từ điển ngram, mô hình ngram huấn luyện sử dụng treebank tiếng Việt (70,000 câu tách từ) Nó có độ xác lên đến 97% Tách từ trình tách văn thành mảnh nhỏ riêng biệt, gọi từ, ví dụ trình tách từ Input: Nhóm bạn: Hương, Hoa, Mai học lớp Output: Nhóm bạn Hương Hoa Mai học lớp Các token hiểu thành phần tách nhỏ văn ví dụ trên, type lớp nhóm token có ký tự giống lại với nhau, Còn thuật ngữ - term type dùng để lưu vào từ điển hệ thống 42 IR Ví dụ có câu “to sleep perchance to dream” có tokens có types token “to” xuất lần, từ “to” Stopword nên không lưu vào từ điển hệ thống nên có term khác sleep, perchance dream Tư tưởng phương pháp tách thành phần khác phân biệt dấu cách Tuy nhiên với ngôn ngữ khác lại có đặc trưng riêng, ví dụ đồ án làm dựa văn tiếng Việt nên gặp phải vấn đề từ đơn từ ghép (từ có nhiều tiếng), phương pháp tách tiếng Việt trình bày phần sau đồ án Hình 3.6: Tập từ tách từ báo Sau tách từ xong, luận văn thực so sánh từ tách với tập từ dừng xây dựng sẵn để loại bỏ từ không cần thiết, không mang nhiều ý nghĩa nội dung, tránh nhiễu d Loại bỏ stopwords Vấn đề khác văn có từ xuất nhiều nghĩa mà người dùng quan tâm để lấy thông tin văn để tiết kiệm không gian lưu trữ gia tăng tốc độ tìm kiếm, công cụ tìm kiếm không ghi nhận lại từ phổ biến, chung chung từ gọi stopword [1] Phương pháp phổ biến để loại bỏ stopword xếp danh sách từ hay thuật ngữ theo tần số xuất tập văn (nghĩa tổng số lần xuất 43 thuật ngữ hay từ tập văn bản) sau xác định stopword từ có tần số xuất nhiều danh sách Ngoài ra, có phương pháp khác liệt kê tất danh sách stopword, sau từ tách nằm danh sách loại bỏ từ để không đưa vào từ điển Ở đây, luận văn sử dụng phương pháp 3.3.3 Vec-tơ hóa liệu Sau xử lý nội dung viết xây dựng tập từ vựng báo, việc phải làm biểu diễn báo dạng vector Có nhiều cách biểu diễn đồ án tập trung vào phương pháp TF-IDF cách biểu diễn Nội dung viết tập viết chuyển thành vector giá trị TF-IDF, TF-IDF cao từ xuất nhiều viết này, xuất viết khác tập training Số chiều vector biểu diễn với kích thước tập từ vựng xây dựng phần thu thập thông tin Lý hai số viết thể số nội dung định, có số từ thường dùng để mô tả nội dung đó; tầm quan trọng từ viết so với từ khác thường cao Việc tính giá trị TF-IDF cho vector TF-IDF viết thực qua bước sau: - Với từ tập từ vựng: + Đếm số viết mà từ xuất + Tính giá trị IDF từ theo công thức Trong đó: : tổng số viết đem huấn luyện : số viết có chứa từ t - Với viết : + Xác định tập từ có viết mà không trùng + Đếm số lần xuất từ tập viết viết 44 + Nhân số lần xuất từ tập với giá trị IDF tương ứng từ Sau thực bước trên, văn có vector k chiều, giá trị tf-idf từ xuất văn Tuy nhiên, theo lý thuyết, chiều vector phải kích thước tập từ vựng Sự khác biệt qua trình xử lý, từ không xuất viết có giá trị tf-idf 0, giá trị ý nghĩa lại tốn thời gian để thống kê, giá trị bị loại vector biểu diễn 3.4 Xây dựng ứng dụng phân loại tin tức báo chí theo thị hiếu độc giả Nhiệm vụ phần mềm thực phân loại viết báo chí từ tư vấn cho người dùng báo thuộc nhóm tin mà người dùng hay đọc Giao diện chương trình sau Hình 3.7: Giao diện chương trình Đối với chức phân loại viết, thực lấy nội dung tin tức đẩy vào cách copy text import file tin tức vào 45 Hình 3.8: Import file tin tức Chọn file xong nội dung tin tức hiển thị lên vùng text Click phân loại hệ thống tính toán đưa loại tin tức Hình 3.9: Chức phân loại viết Khi người dùng truy cập internet liệu người dùng gồm thông tin lịch sử người dùng lưu lại cookie Do vậy, sử dụng người dùng 46 định danh dựa cookie Ứng dụng tính toán số lần truy cập vào đọc trang báo, dựa vào để đánh giá vấn đề mà người dùng quan tâm Hình 3.10: Hồ sơ người dùng Từ đây, hệ thống tính toán để tư vấn cho người dùng tin tức đáng quan tâm xếp theo thứ từ cao xuống thấp với thời gian đăng Hình 3.11: Kết tư vấn viết cho người dùng 47 Người dùng cần chọn báo muốn đọc cách nhấp đúp chuột để hiển thị tin tức: Hình 3.12: Giao diện hiển thị tin tức 3.5 Kết thực nghiệm 3.5.1 Chạy thử nghiệm Để xác định mức độ đắn tin cậy ứng dụng, ta thực chạy thử nghiệm với nhiều ví dụ trường hợp khác - Thực chạy thử nghiệm nhiều máy tính người dùng với nhiều người dùng khác Thực phân loại tin tức có sẵn trang báo dantri.com.vn, vnexpress.net … Chạy thử nghiệm nhiều giá trị k khác Đối với phân loại tin tức: Chạy thử nghiệm với 1000 tin tức khác lấy từ nguồn dantri.com.vn, vnexpress.net với giá trị k khác Thực so sánh nhãn phân loại với nhãn gốc ta kết sau: Bảng 10: Bảng kết chạy thực nghiệm phân loại tin tức 48 K Số tin tức xác Số tin tức không Độ xác xác (%) 622 378 62,2% 739 261 73,9% 695 305 69,5% Theo kết thực nghiệm, với liệu training sử dụng luận văn giá trị k mang kết xác k =5 với độ xác 73,9% Đối với phân loại người dùng: Có 1000 người dùng để kiểm nghiệm Khi kết so sánh với nhãn gốc kết sau Bảng 3.11: Bảng kết chạy thực nghiệm phân loại người dùng K Số tin tức không Độ xác xác (%) 791 209 79,1% 821 179 82,1% 844 156 84,4% Theo kết chạy thực nghiệm liệu training với k=7 kết chạy thực nghiệm phân loại người dùng có độ xác 84,4% 3.5.2 Số tin tức xác Đánh giá Qua kết chạy thực nghiệm, ta thấy phương pháp sử dụng phân loại văn mang độ xác khoảng 73,9%, phân loại người dùng khoảng 84,4% Luận văn đưa ưu Độ xác chưa cao tập liệu chưa đủ lớn để bảo phủ toàn tập từ tiếng Việt Thứ hai phân loại nhiều thời gian, trình tìm kiếm k liệu lân cận Ưu điểm: - Dễ sử dụng cài đặt Xử lý tốt với liệu nhiễu (do dựa khoảng cách để định phân lớp) Độ xác tương đối cao Nhược điểm: - Cần lưu tất mẫu để dự đoán Cần nhiều thời gian để xác định lớp cho mẫu (cần tính so sánh khoảng cách đến tất mẫu huấn luyện) Phụ thuộc vào giá trị k người dùng lựa chọn Nếu k nhỏ, nhạy cảm với nhiễu Nếu k lớn, vùng lân cận chứa điểm lớp khác 49 3.6 Kết luận Ở trên, luận văn đề xuất công cụ phân loại liệu báo chí trực tuyến để điều hướng thông tin theo thị hiếu người dùng sử dụng thuật toán K – láng giềng gần Qua thực nghiệm cho thấy kết qua tương đối xác trình xử lý chậm cần xác định khoảng cách từ liệu test đến liệu huẩn luyện Nhưng ứng dụng bước đầu đáp ứng yêu cầu toán đặt giao diện ứng dụng dễ hiểu, thân thiện với người dùng 50 KẾT LUẬN Nguồn thông tin từ trang báo vô dồi to lớn, cung cấp thông tin từ lĩnh vực khác giúp cho bạn đọc cập nhật thông tin nóng hổi diễn toàn cầu Tầm quan trọng trang báo điện tử ngày trở nên quan trọng ngày nay, số lượng trang báo ngày nhiều tạo cho người dùng nhìn đa chiều vấn đề Tuy nhiên số lượng báo trang báo nhiều nên việc tìm đọc báo theo ý muốn khó khăn Đôi người dùng tìm báo mà quan tâm việc tìm viết nhiều thời gian công sức Trong đồ án này, sở tìm hiểu nghiên cứu toán cụ thể thực tế phân loại liệu báo chí trực tuyến để điều hướng thông tin theo thị hiếu độc giả Luận văn đạt yêu cầu ban đầu đặt là: - - Đưa phương pháp tiếp cận để giải toán phân loại văn phân loại người dùng Đi sâu nghiên cứu thuật toán K – láng giềng gần áp dụng để giải toán phân loại liệu báo chí để điều hướng thông tin theo thị hiếu độc giả Đưa nhận xét, đánh giá phương pháp Xây dựng ứng dụng phân loại độc giả, phân loại tin tức theo thị hiếu độc giả xây dựng ứng dụng hỗ trợ độc giả đọc báo Tiến hành thực nghiệm hệ thống với liệu lấy từ báo với nhiều chủ đề khác liệu người dùng, từ đưa đánh giá nhận xét kết thu cho toán nhỏ cho hệ thống Về đồ án đạt yêu cầu, vấn đề đặt ban đầu nhiên tồn nhiều hạn chế là: - Tập liệu chưa phong phú, số lượng từ tách dẫn đến độ xác chưa cao Tốc độ xử lý chương trình chưa nhanh, cần tiếp tục hoàn thiện phương pháp phân loại nâng cao hiệu suất tăng tốc cho trình tìm k phần tử lân cận 51 Hướng phát triển: - Chương trình xây dựng vận hành tương đối tốt nhiều hạn chế, cần tiếp tục hiệu chỉnh để chương trình chạy tốt hơn, tăng tốc cho - trình tìm k phần tử lân cận Tiếng Việt phong phú nên cần xây dựng tập liệu lớn bao phủ - tập từ ngữ tiếng Việt Xây dựng hệ tư vấn trang báo dựa quan điểm người dùng từ nội dung bình luận họ trang báo 52 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Nguyễn Đình Bình “Nghiên cứu khai phá liệu web ứng dụng tìm kiếm trích chọn thông tin theo chủ đề”, Luận văn thạc sĩ, Trường Đại học Đà Nẵng, [2] 2012 Trần Cao Đệ Phạm Nguyên Khang,Phân loại văn với máy học vector [3] hỗ trợ định, tạp chí khoa học 2012, đại học Cần Thơ Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với [4] phân loại vectơ hỗ trợ SVM Tạp chí CNTT&TT, Tháng năm 2006 Hoàng Thị Mai.“Khai phá liệu phương pháp phân cụm liệu”, [5] Luận văn thạc sĩ, Trường ĐHSP Hà Nội, 2006 Nguyễn Trần Thiên Thanh, Trần Khải Hoàng, Tìm hiểu hướng tiếp cận toán phân loại văn xây dựng phần mềm phân loại tin tức báo điện [6] tử, Khóa luận cử nhân tin học 2005 Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú “Giáo trình khai phá liệu WEB” Tài liệu tiếng Anh: [7] Paulo Batista , Mfirio J Silva , Mário J Silva , and Campo Grande Mining On-line Newspaper Web Access Logs Proceedings of the AH’2002 Workshop [8] on Recommendation and Personalization in eCommerce (2002) 100–108 Christopher D.Manning, Hinrich Schutze, Foundations of Statistical Natural [9] Language Processing, MIT Press Cambridge, MA: May 1999 Ron Kohavi, J Ross Quinlan Decision Tree Discovery, 1999 [10] Joachims, Text Categorization with Support Vector Machines, Learning with Many Relevant Features, In European Conference on Machine Learning [11] (ECML), 1998 Marc Damashek, Gauging Similarity with n-grams: Language – Independent categorization of Text, Science, New Series, Vol 267, No 5199 (Feb 10, [12] 1995), pp 843-848,American Association for the Advancement of Science Taher H Haveliwala Topic-Sensitive PageRank Proceedings of the 11th 53 international conference on World Wide Web Pages 517-526 ACM New York, [13] NY, USA ©2002 Bing Liu.Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications) Springer-Verlag New York, Inc [14] Secaucus, NJ, USA ©2006 Kjetil Nørvåg and Randi Oyri News Item Extraction for Text Mining in Web Newspapers 2005 International Workshop on Challenges in Web Information Retrieval and Integration (WIRI 2005), page 195-204, 8-9 April 2005, Tokyo, [15] Japan Tomek Strzalkowski Document Representation in Natural Language Text Retrieval Proceeding HLT '94 Proceedings of the workshop on Human Language Technology, pages 364-369 Association for Computational [16] Linguistics Stroudsburg, PA, USA ©1994 Bhavani Thuraisingham Web Data Mining and Applications in Business [17] Intelligence and Counter-Terrorism.CRC Press, June 2003 Yan Wang Web Mining and Knowledge Discovery of Usage Patterns February, 2000 Đường dẫn tham khảo [18] http://bis.net.vn/forums/36.aspx [19] https://vi.wikipedia.org/wiki/ [20] http://www.slideshare.net/myloveforyounqt/data-miningphn-lp-theo-thut-ton [21] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/ [22] http://www.ngonngu.net [...]... văn bản láng giềng phải lớn 36 CHƯƠNG 3: PHÂN LOẠI DỮ LIỆU BÁO CHÍ TRỰC TUYẾN ĐỂ ĐIỀU HƯỚNG THÔNG TIN THEO THỊ HIẾU ĐỘC GIẢ Chương này trình bày về bài toán, mô hình thực hiện việc phân loại dữ liệu bạn đọc, phân loại dữ liệu tin tức, từ đó xây dựng, thử nghiệm và đánh giá kết quả bài toán phân loại tin tức website báo chí điều hướng nội dung theo thị hiếu độc giả 3.1 Tiến trình xử lý bài toán 3.1.1... việc phân loại tin tức báo chí theo thị hiếu độc giả, ứng dụng được xây dựng nhằm thực hiện những mục tiêu sau: Phân loại được độc giả, từ đó giúp độc giả có thể thu thập được thông tin một cách toàn diện, kịp thời và đúng lúc • Phân loại tin tức báo chí theo thị hiếu độc giả: thực hiện phân loại một bài báo mới vào các nhóm đã được xác định theo thị hiếu của các nhóm độc giả Bài toán: Phân loại tin. .. Bài toán: Phân loại tin tức báo chí theo thị hiếu độc giả được xác định như sau: • Input: Thông tin độc giả là thông tin lịch sử truy cập của người dùng gồm có chuyên mục cùng số lần truy cập bài báo thuộc chuyên mục tương ứng • Một tin tức báo chí tiếng Việt • Output: • • 3.1.2 Nhãn của độc giả: tên chuyên mục mà độc giả yêu thích Nhãn của bài báo: là chuyên mục của bài báo ấy Sơ đồ tiến trình xử lý... sẽ xác định nhóm của tin tức dựa vào nhóm độc giả đã xác định ở trên: chính trị, xã hội, quốc tế, biển đông, thể thao… Giả sử ta có các tập dữ liệu các tin tức phân loại theo thị hiếu độc giả như sau: Bảng 2.1: Tập dữ liệu các tin tức phân loại theo thị hiếu độc giả 2.3.2 Mã văn bản Nhãn 1000001 Xã hội 1000002 Pháp luật 1000003 Xã hội 1000004 Xã hội 1000005 Thể thao 1000006 Xã hội 1000007 Pháp luật... kết quả phân loại văn bản Mỗi tin tức tương ứng với một lớp từ 26 ngữ, một vai trò ngữ nghĩa nhất định Nói chung, tùy thuộc vào mục đích phân loại, mà ta có nhiều hướng gán nhãn tin tức khác nhau Ở đây, tôi thực hiện gán nhãn tin tức theo thị hiếu độc giả Tức là, chúng ta sẽ xác định nhóm của tin tức dựa vào nhóm độc giả đã xác định ở trên: chính trị, xã hội, quốc tế, biển đông, thể thao… Giả sử ta... bộ phân loại được xây dựng bởi các thuật toán này lại thường cho kết quả chính xác không cao với những bộ dữ liệu lớn, hoặc quá phức tạp Dẫn đến việc cần thiết tìm ra phương pháp mới để giải quyết các bài toán phân loại tự động Luận văn này sẽ áp dụng kỹ thuật K láng giếng gần nhất vào việc phân loại báo chí theo thị hiếu độc giả 23 CHƯƠNG 2: THUẬT TOÁN K-LÁNG GIỀNG GẦN NHẤT Chương này trình bày cơ... thuyết cơ bản về bài toán độc giả đọc tin tức và phân loại các tin tức báo chí theo thị hiếu độc giả bằng thuật toán K – láng giềng gần nhất, đây cũng là bài toán được nghiên cứu chính trong luận văn Về cơ bản đối với ngôn ngữ tiếng Việt phức tạp, cần có sự nghiên cứu vận dụng, phù hợp, mang lại hiệu quả khi áp dụng Phương pháp K- láng giềng gần nhất là một phương pháp đơn giản Tuy nhiên, thuật toán... trong quá trình tiền xử lí giúp loại bỏ nhiễu tốt hơn và làm tăng độ chính xác Ví dụ: loại bỏ các từ dừng trong câu S’ ở phần trên ta được: data mining tính hữu dụng nó môi trường kinh doanh đầy tính cạnh tranh ứng dụng rộng rãi lĩnh vực thương mại tài chính điều trị y học giáo dục viễn thông 1.3.3 Áp dụng thuật toán để phân loại dữ liệu Sau khi tiến hành xử lý xong dữ liệu, thì sẽ áp dụng các thuật... càng chính xác Hình 1.1: Siêu mặt phẳng phân chia dữ liệu huấn huyện [3] Ở hình trên, dữ liệu được chia thành hai lớp + và – với khoảng cách biên lớn nhất Các điểm gần nhất (được khoanh trong) là các vector hỗ trợ - Suport Vector 1.3 Các nghiên cứu giải quyết bài toán với ngôn ngữ Tiếng Việt 16 Chúng ta đưa bài toán phân loại nội dung các bài báo tiếng Việt về bài toán phân loại văn bản tiếng Việt Phân. .. “K-láng giềng gần nhất” để phân lớp nội dung web điều hướng tin tức theo thị hiếu độc giả 2.1 2.1.1 Giới thiệu thuật toán K-láng giềng gần nhất (K-NN) Định nghĩa K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến trong lĩnh vực Data Mining K-NN là thuật toán có mục đích phân loại lớp cho một mẫu mới (Query point) dựa vào khoảng cách gần nhất giữa các đối tượng cần phân lớp với tất cả các ... giềng gần Từ áp dụng vào để giải toán phân loại tin tức báo theo thị hiếu độc giả Chương 3: Phân loại liệu báo chí trực tuyến để điều hướng thông tin theo thị hiếu độc giả Trình bày cụ thể trình... 1: Tổng quan toán phân loại liệu báo chí trực tuyến Trình bày tổng quan phân loại liệu báo chí trực tuyến: phân loại độc giả tin tức theo loại độc giả với hướng tiếp cận để giải toán Chương 2:... thống tự động thu thập, phân tích phân loại bạn đọc, phân loại thông tin Do đó, lựa chọn đề tài: Phân loại liệu báo chí trực tuyến để điều hướng thông tin theo thị hiếu độc giả nhằm tìm hiểu xây

PHÂN LOẠI DỮ LIỆU BÁO CHÍ TRỰC TUYẾN ĐỂ ĐIỀU HƯỚNG THÔNG TIN THEO THỊ HIẾU ĐỘC GIẢ

Thông tin tài liệu

Từ khóa liên quan

Mục lục

DANH MỤC HÌNH VẼ VÀ SƠ ĐỒ

DANH MỤC BẢNG BIỂU

MỞ ĐẦU

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI DỮ LIỆU BÁO CHÍ TRỰC TUYẾN

1.1. Bài toán phân loại dữ liệu báo chí trực tuyến

1.1.1. Phân loại dữ liệu tin tức báo chí

1.1.2. Phân loại độc giả của một website báo chí

1.1.3. Những thách thức trong việc phân loại

1.2. Hướng tiếp cận giải quyết bài toán dựa vào các thuật toán học máy

1.2.1. Phân lớp dựa trên bài toán Naïve Bayes

1.2.2. Phân lớp dựa trên thuật toán K - Nearest Neighbor (K-NN)

1.2.3. Phân lớp dựa vào thuật toán cây quyết định

1.2.4. Phân lớp sử dụng Support Vector Machines (SVM)

1.3. Các nghiên cứu giải quyết bài toán với ngôn ngữ Tiếng Việt

1.3.1. Tiền xử lý văn bản

1.3.2. Tách từ

1.3.3. Áp dụng thuật toán để phân loại dữ liệu

1.4. Kết luận

CHƯƠNG 2: THUẬT TOÁN K-LÁNG GIỀNG GẦN NHẤT

2.1. Giới thiệu thuật toán K-láng giềng gần nhất (K-NN)

2.1.1. Định nghĩa

2.1.2. Mô tả thuật toán K-NN

2.2. Ưu điểm và nhược điểm của thuật toán K-NN

2.2.1. Ưu điểm

2.2.2. Nhược điểm

2.3. Áp dụng thuật toán K-NN với bài toán phân loại tin tức

2.3.1. Gán nhãn các tin tức trong tập huấn luyện đã xác định

Tài liệu cùng người dùng

Tài liệu liên quan