Hệ thống phân loại bài báo điện tử theo nội dung

65 872 0
Hệ thống phân loại bài báo điện tử theo nội dung

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Hệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dung

i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn trung thực chƣa đƣợc công bố công trình khác Tp HCM, ngày 20 tháng năm 2016 Học viên thực luận văn Hồ Đắc Hưng ii LỜI CẢM ƠN Em xin gửi lời cảm ơn sâu sắc tới Thầy Tân Hạnh, cảm ơn Thầy tận tình hƣớng dẫn, truyền đạt cho em kiến thức kinh nghiệm quý báu Em xin gửi lời tri ân tới quý Thầy Cô Học Viện Công Nghệ Bƣu Chính Viễn Thơng sở thành phố Hồ Chí Minh, cảm ơn Thầy Cơ hết lịng dạy dỗ em Trong suốt trình làm đề tài em nhận đƣợc quan tâm giúp đỡ q Thầy Cơ, gia đình bạn bè Đó nguồn động viên quý giá lớn lao tiếp thêm động lực thêm sức mạnh cho em hoàn thành đồ án Con xin cảm ơn Bố Mẹ nguồn động viên, tạo điều kiện tốt cho đƣợc sống theo đuổi giấc mơ Em xin chân thành cảm ơn! Tp HCM, ngày 20 tháng năm 2016 Học viên thực luận văn Hồ Đắc Hưng iii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG .vi DANH SÁCH HÌNH VẼ vii MỞ ĐẦU Chƣơng - TỔNG QUAN 1.1 Giới thiệu tổng quan 1.1.1 Mục tiêu nghiên cứu 1.1.2 Đối tượng phạm vi nghiên cứu 1.1.3 Ý nghĩa luận văn 1.2 Kết luận chƣơng Chƣơng - CƠ SỞ LÝ THUYẾT 2.1 Truy hồi thông tin 2.1.1 Tổng quan hướng tiếp cận truy hồi thông tin 2.1.2 Truy hồi thông tin theo hướng thống kê 11 2.1.2.1 Mơ hình Boolean 11 2.1.2.2 Mơ hình khơng gian vector 16 2.1.2.3 Mơ hình Latent Semantic Indexing (LSI) 22 2.1.3 Truy hồi thông tin theo hướng ngữ nghĩa 24 2.1.3.1 Hướng tiếp cận xử lý ngôn ngữ tự nhiên 24 2.1.3.2 Hướng tiếp cận Ontology .28 iv 2.2 Phân loại văn 31 2.2.2 Thuật toán định 36 2.2.3 Thuật toán k láng giềng gần 38 2.2.4 Thuật toán Support Vector Machine (SVM) 39 2.3 Kết luận chƣơng .41 Chƣơng – CÀI ĐẶT 42 3.1 Cài đặt Web Crawler 43 3.2 Tiền xử lý văn .45 3.2.1 Mơ hình sử dụng độ đo TF-IDF .46 3.2.2 Mô hình sử dụng độ đo TF-IDF .47 3.2.3 Mơ hình sử dụng chuỗi phổ biến cực đại 47 3.3 Vector hóa văn 48 3.3.1 Mơ hình sử dụng độ đo TF-IDF .48 3.3.2 Mơ hình sử dụng từ điển ngữ nghĩa 48 3.3.3 Mơ hình sử dụng chuỗi phổ biến cực đại 48 3.4 Áp dụng thuật toán phân loại 51 3.4.1 Mơ hình sử dụng độ đo TF-IDF .51 3.4.2 Mơ hình sử dụng từ điển ngữ nghĩa 52 3.4.3 Mơ hình sử dụng chuỗi phổ biến cực đại 52 3.5 Đánh giá 52 3.6 Kết luận chƣơng .54 KẾT LUẬN VÀ KHUYẾN NGHỊ 55 DANH MỤC TÀI LIỆU THAM KHẢO 56 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh XML Extensible Markup Language HTML HyperText Markup Language IR Information Retrieval p Precision r Recall F F-Measure vi DANH SÁCH BẢNG Bảng 3.1: Bảng kết thực nghiệm mơ hình sử dụng chuỗi phổ biến cực đại 52 Bảng 3.2: Bảng kết thực nghiệm mơ hình sử dụng độ đo TF-IDF 52 Bảng 3.3: Bảng kết thực nghiệm mơ hình sử dụng độ từ điển ngữ nghĩa 52 vii DANH SÁCH HÌNH VẼ Hình 3.1: Tổng quan mục tiêu luận văn 52 Hình 3.2: Giải pháp tổng quan 52 MỞ ĐẦU Báo điện tử phƣơng tiện truyền thông đại chúng đại Hiện nay, phát triển tảng mạng Internet nhƣ thiết bị di động tạo điều kiện cho báo điện tử ngày phát triển mạnh mẽ Báo điện tử có lợi phƣơng tiện truyền thông đại chúng khác khả tƣơng tác, khả đa phƣơng tiện, tính thời Nhƣng bên cạnh lợi đó, báo điện tử cịn đem lại số toán cần phải giải nhƣ: đảm bảo an tồn thơng tin, xác thơng tin Để đảm bảo tính đắn nội dung nhƣ tính hợp pháp báo điện tử Các quan chức phải thƣờng xuyên theo dõi kiểm duyệt nội dung báo điện tử Sự phát triển nhanh số lƣợng trang báo điện tử nhƣ số lƣợng báo điện tử khiến cho việc quản lý gặp nhiều khó khăn Năm 2015, nƣớc ta có 105 báo, tạp chí điện tử [1] nhiều trang thơng tin điện tử tổng hợp Điều địi hỏi nguồn nhân lực chi phí khổng lồ việc theo dõi kiểm duyệt Do đó, việc xây dựng hệ thống thu thập phân loại báo mạng điện tử toán cần thiết để hỗ trợ cho việc quản lý, theo dõi nhƣ kiểm tra nội dung báo điện tử Chương - TỔNG QUAN Chƣơng tập trung vào việc khảo sát số công trình nghiên cứu phân loại văn bản, truy hồi thơng tin Trên sở vấn đề mà luận văn cần giải 1.1 Giới thiệu tổng quan Truy hồi thơng tin (Information Retrieval) đƣợc định nghĩa nhƣ ứng dụng khoa học máy tính có chức thu thập, tổ chức, lƣu trữ, truy hồi phân bố thông tin Các nghiên cứu liên quan đến lĩnh vực truy hồi thông tin thƣờng nhắm đến tảng lý thuyết cải thiện cơng nghệ tìm kiếm, bao gồm cấu trúc trì kho liệu lớn Hiện nay, hầu hết hệ thống truy hồi thông tin thực chất hệ thống truy hồi tài liệu, nghĩa hệ thống truy tìm tài liệu số tài liệu có sở liệu lƣu trữ có nội dung liên quan, phù hợp, đáp ứng với nhu cầu thông tin ngƣời dùng, sau ngƣời dùng tìm kiếm thơng tin họ cần tài liệu liên quan Một số cơng trình nghiên cứu:  “Cơ sở tài liệu văn có ngữ nghĩa kỹ thuật tổ chức lƣu trữ tìm kiếm” (Trƣơng Châu Long) [2]  “Xây dựng hệ thống tìm kiếm thơng tin theo hƣớng tiếp cận ngữ nghĩa” (Lê Thúy Ngọc) [3]  A Survey of Concept-based Information Retrieval Tools on the Web (Haav, H.M., T.-L Lubi) [4]  Ontology-based Information Retrieval (Henrik Bulskov Styltsvig) [5] Yahoo Mail, Gmail ứng dụng mail quen thuộc với nhiều ngƣời Một tính nhƣng quan trọng hệ thống mail khả tự động xác định thƣ rác Đây ví dụ điển hình tốn phân loại văn tự động Trong toán phân loại văn bản, nhà nghiên cứu phân biệt rạch ròi thuật ngữ “text categorization” “text classification” Thuật ngữ “text categorization” thƣờng đƣợc dùng để diễn tả việc xếp văn theo nội dung, “text classification” đƣợc dùng với ý nghĩa rộng hơn, việc gán tài liệu văn vào tập cụ thể khơng thiết phải dựa nội dung mà dựa tác giả, nhà xuất bản, ngôn ngữ,… Trong ngữ cảnh hẹp luận văn, toán phân loại văn đƣợc xem nhƣ tốn phân lớp Cơng việc phân loại văn tự động gán nhãn phân loại lên văn Nhiều kỹ thuật máy học khai khoáng liệu đƣợc áp dụng vào toán phân loại văn Ví dụ nhƣ:  Cây định (Decision tree)  Phƣơng pháp phân loại dựa vào thuật toán Naïve bayes  K- láng giềng gần (KNN)  Mạng neuron nhân tạo (Artificial Neural Network)  Support Vector Machine (SVM) Vấn đề phân loại văn thu hút quan tâm nhiều nhà nghiên cứu giới, tiêu biểu cơng trình nghiên cứu nhƣ:  “Text classification using machine learning” (Mohammed.Andul.Wajeed) [6]  “Machine Learning in Automated Text Categorization” (Fabrizio Sebastiani (2002)) [7] Trong nƣớc, có nhiều tác giả quan tâm nghiên cứu cơng bố cơng trình nghiên cứu nhƣ : 44 Web kho thông tin lƣu trữ tập trung, mà tập gồm hàng trăm, hàng nghìn nhà cung cấp khác độc lập nhau, nhà cung cấp có dịch vụ riêng họ, nhà cung cấp đối thủ cạnh tranh Nói cách khác, web đƣợc xem nhƣ kho thông tin liên hợp đƣợc kết hợp với tập giao thức chuẩn liệu đƣợc thống nhƣ TCP (Transmission Control Protocol), DNS (Domain Name Service), HTTP (Hypertext Transfer Protocol), HTML (Hypertext Maker Language) Thuật toán web crawler đơn giản: cho tập URL, web crawler tải tất trang web đƣợc cho URL, trích xuất hyperlink sau lần lƣợt tải trang web đƣợc cho hyperlink Tuy nhiên, web crawler có thách thức nhƣ: mở rộng liên tục web, đánh đổi lƣợng thông tin thu trang web thông lƣợng web crawler, bị nghi ngờ tin tặc, ngăn chặn từ nhà cung cấp,… Do yêu cầu cụ thể đề tài thu thập báo từ tập hợp trang báo điện tử theo ngày nên xây dựng tập tin cấu hình bao gồm phần:  Query: chứa thông tin để xây dựng nên câu query  Search structure: chứa thông tin để nhận biết vị trí trích xuất đƣờng dẫn  Content structure: chứa thông tin để nhận biết vị trí trích xuất nội dung báo điện tử Tập tin cấu hình đƣợc xây dựng ngơn ngữ xml với số thẻ bản:        45          Các báo điện tử đƣợc thu thập đƣợc lƣu trữ dƣới định dạng tập tin văn (*.txt) Đồng thời, thông tin báo điện tử nhƣ: tên báo, tóm tắt, đƣờng dẫn tập tin nội dung đƣợc lƣu trữ vào sở liệu Tập tin cấu hình chứa đựng thơng tin cần thiết để crawler thu thập báo điện tử Mỗi tập tin cấu hình dùng cho việc thu thập báo điện tử theo ngày một, nhiều ngày lần 3.3 Tiền xử lý văn Văn ngơn ngữ phi cấu trúc, cần phải chuyển đổi văn thành dạng cấu trúc để phân loại tự động Giai đoạn tiền xử lý văn bƣớc đệm để việc vector hóa văn bƣớc sau đƣợc tiến hành thuận lợi có hiệu suất tốt cho q trình phân loại Các cơng việc giai đoạn tiền xử lý văn tách từ loại bỏ stop word Trong tiếng Việt, có loại từ từ đơn từ ghép Từ đơn từ đƣợc cấu thành từ tiếng, ví dụ: “ăn”, “uống”, “đi”,… Từ ghép từ đƣợc cấu thành từ hai hay nhiều tiếng mà tiếng có quan hệ ngữ nghĩa với nhau, ví dụ: “đơn vị”, “học viện”, “phịng ban”, “giảng viên”,…Khi thực việc tách từ thủ công, việc nhập nhằng khó xảy ngƣời tách từ hiểu rõ ngữ nghĩa câu tách từ dựa ngữ nghĩa từ câu Tuy nhiên, việc tách từ thủ công điều với 46 tập liệu khổng lồ Ngƣợc lại với việc tách từ thủ công tách từ tự động, tách từ tự động giải tốn tách từ tập liệu khổng lồ nhƣng phải giải vấn đề nhập nhằng ngôn ngữ:  Nhập nhằng chồng chéo: chuỗi “a b c” bị nhập nhằng chồng chéo mà “a b” “b c” xuất từ điển Khi chƣơng trình chuỗi “a b c” phải đƣợc tách thành “a b”, “c” hay “a”, “b c”  Nhập nhằng kết hợp: chuỗi “a b c” bị nhập nhằng kết hợp mà “a”, “b” “a b” xuất từ điển Ngoài vấn đề nhập nhằng, tách từ tiếng Việt cịn gặp khó khăn việc xác định từ chƣa biết trƣớc nhƣ danh từ riêng, từ vay mƣợn, thành ngữ, từ láy,… Bên cạnh công việc tách từ, giai đoạn tiền xử lý văn cịn có cơng việc loại bỏ stop word Stop word từ xuất nhiều tất văn thuộc nhiều thể loại khác nhau, không mang ý nghĩa không chứa thông tin đáng kể Trong trình phân loại văn bản, xuất stop word không hỗ trợ mà cịn làm giảm độ xác q trình phân loại nhƣ làm tăng thời gian xử lý Do cần phải loại bỏ stop word Để loại bỏ stop word, dùng từ điển thiết lập ngƣỡng cho độ đo TF-IDF 3.3.1 Mô hình sử dụng độ đo TF-IDF Để tách từ mơ hình này, chúng tơi sử dụng chƣơng trình vnTokenizer vnTokenizer chƣơng trình tách văn tiếng Việt thành đơn vị ngữ pháp với độ xác 98% vnTokenizer đƣợc viết ngôn ngữ Java chạy mơi trƣờng Java Runtime 1.6 trở lên Chƣơng trình vnTokenizer đƣợc thiết kế để sử dụng dƣới dạng dịng lệnh thơng qua API Để thực thi chƣơng trình vnTokenizer, sử dụng script hệ điều hành: vnTokenizer.bat cho Windows vnTokenizer.sh cho Unix, Linux, Mac OS X 47 Chƣơng trình vnTokenizer tách từ tập tin văn nhiều tập tin văn thƣ mục Các tập tin văn đầu vào phải tập tin văn đƣợc mã hóa UTF-8 Các tập tin văn đầu đƣợc lƣu dƣới dạng tập tin văn XML đƣợc mã hóa UTF-8 Trong mơ hình sử dụng độ đo TF-IDF, chúng tơi dùng chƣơng trình vnTokenizer để tách từ tập tin văn lƣu thành tập tin văn với từ nằm dòng để chuẩn bị cho bƣớc xử lý sau Để loại bỏ stop word, dùng từ điển chứa stop word để làm sở so sánh xác định stop word 3.3.2 Mơ hình sử dụng độ đo TF-IDF Cũng giống nhƣ mơ hình sử dụng độ đo TF-IDF, mơ hình sử dụng từ điển ngữ nghĩa quan tâm đến đơn vị ngữ pháp từ chúng tơi sử dụng chƣơng trình vnTokenizer để tách từ Để loại bỏ stop word, dùng từ điển chứa stop word để làm sở so sánh xác định stop word 3.3.3 Mơ hình sử dụng chuỗi phổ biến cực đại Chuỗi cực đại tập tài liệu chuỗi từ thƣờng xuyên xuất tài liệu không chuỗi cực đại không đƣợc chứa chuỗi cực đại khác Một số nghiên cứu liên quan:  Discovery of frequent sets (Agrawal, Mannila, Srikant, Toivonen, & Verkamo, 1996)  Discovery of sequential patterns (Agrawal & Srikant, 1995; Mannila, Toivonen, & Verkamo, 1995) Cách tiếp cận theo chuỗi cực đại cách tiếp cận theo kiểu bottom-up Các chuỗi có độ dài lớn đƣợc xây dựng dựa chuỗi có độ dài nhỏ Cách tiếp cận độc lập với ngôn ngữ nên giai đoạn tiền xử lý văn cần loại bỏ dấu câu stop word tách từ dựa vào khoảng trắng 48 3.4 Vector hóa văn 3.4.1 Mơ hình sử dụng độ đo TF-IDF Sau trải qua giai đoạn tiền xử lý văn bản, tài liệu đƣợc loại bỏ dấu câu stop word Lúc này, tài liệu cịn lại tập từ có nghĩa từ đặc trƣng cho tài liệu Trong khơng gian tập tài liệu, có lƣợng lớn N từ Mỗi văn đƣợc biểu diễn dạng vector nhị phân, gán văn chứa từ đặc trƣng ngƣợc lại gán không xuất từ đặc trƣng Mỗi phần từ vector tƣơng ứng với giá trị độ đo từ Trong mơ hình sử dụng độ đo TFIDF, dùng độ đo TF-IDF từ đế gán giá trị cho thành phần vector 3.4.2 Mơ hình sử dụng từ điển ngữ nghĩa Cũng giống nhƣ mơ hình sử dụng độ đo TF-IDF, mơ hình sử dụng từ điển ngữ nghĩa, sau trả qua giai đoạn tiền xử lý văn bản, tài liệu cịn lại tập từ có nghĩa từ đặc trƣng cho tài liệu Tuy nhiên, mơ hình sử dụng từ điển ngữ nghĩa, sử dụng độ đo nhị phân đế gán giá trị cho vector đặc trƣng Mỗi thể loại vector đặc trƣng nhị phân Khi phân loại tài liệu mới, chúng tơi tính độ phù hợp ngữ nghĩa tài liệu thể loại thông qua vector Khi độ phù hợp vƣợt qua giá trị ngƣỡng kết luận tài liệu thuộc chủ đề 3.4.3 Mơ hình sử dụng chuỗi phổ biến cực đại Khác với mơ hình sử dụng độ đo TF-IDF mơ hình sử dụng từ điển ngữ nghĩa, tài liệu mơ hình sử dụng chuỗi cực đại đƣợc đặc trƣng chuỗi cực đại đƣợc đặc trƣng từ Do đó, chúng tơi cần phải tìm chuỗi cực đại tập tài liệu huấn luyện nhƣ chuỗi cực đại tài liệu Giả sử S tập tài liệu huấn luyện, tài liệu tập hợp từ 49 Gọi chuỗi p cực đại S không tồn p‟ S chuỗi p p phổ biến S nghĩa tần số xuất p S vƣợt qua ngƣỡng α Thuật toán tìm tất chuỗi cực đại tập huấn luyện S gồm pha: pha khởi tạo pha khai phá pha mở rộng Pha khởi tạo: Đầu vào: S: tập tài liệu huấn luyện Output: Grams2: tất cặp từ phổ biến S Với tài liệu d S Thu thập cặp từ có thứ tự d Grams2 = cặp từ có thứ tự phổ biến S Return Grams2 Pha khai phá: Input: Grams2: cặp từ phổ biến Output: Max: tập chuỗi phổ biến cực đại k := Max := ∅ Trong Gramsk ≠ ∅ Xét tất ram Nếu ram chuỗi m Max khôn phải chuỗi 50 Nếu phổ biến max : Mở rộn Max := Max ⋃ max Nếu max Loại bỏ tron Gramsk N ược ại Loại bỏ tron Grams Nối chuỗi tron Gramsk thành Gramsk k := k + Return Max Pha mở rộn : Input: p: chuỗi Output: p’: chuỗi phổ biến cực đại với p chuỗi Lặp Gọi độ dài chuỗi p Tìm chuỗi p’ có độ dài Nếu p’ phổ biến p : p’ Cho đến khơn có p’ phổ biến Return p p chuỗi p’ 51 Với tài liệu, thực thuật tốn để tìm chuỗi phổ biến cực đại tài liệu Thuật toán tƣơng tự nhƣ thuật tốn tìm chuỗi phổ biến cực đại tập huấn luyện nhƣng xét giới hạn tài liệu Tập hợp tất chuỗi phổ biến cực đại tập huấn luyện tạo thành chiều vector Để gán giá trị cho thành phần vector ứng với tài liệu, sử dụng độ đo Qrel để tính phù hợp chuỗi phổ biến cực đại tài liệu với chuỗi cực đại tập huấn luyện, sau chọn giá trị tối đa Qrel(AiAj ) = idf(AiAj , D) · adj(AiAj ) 3.5 Áp dụng thuật toán phân loại 3.5.1 Mơ hình sử dụng độ đo TF-IDF Sau vector hóa tài liệu, chúng tơi tiến hành xây dựng file arff để tiến hành huấn luyện Trong file arff có phần:  @relation  @attribute  @data Phần @relation biểu diễn tên quan hệ, phần @attribute chứa thuộc tính, thuộc tính tƣơng ứng với chiều vector, phần @data chứa vector vector đặc trƣng cho tài liệu tập huấn luyện Sau xây dựng xong tập tin arff huấn luyện, sử dụng thƣ viện Weka để tiến hành huấn luyện thuật toán SVM Khi có tài liệu cần đƣợc phân loại, xây dựng vector đặc trƣng tƣơng ứng với tài liệu Sau đó, nạp file arff huấn luyện vào thuật toán SVM gọi thủ tục phân loại phân loại 52 3.5.2 Mô hình sử dụng từ điển ngữ nghĩa Để tiến hành phân loại, cần khai xây dựng vector cho thể loại Mỗi thể loại đƣợc mô tả tập từ Khi phân loại tài liệu d, chúng tơi tính độ phù hợp tài liệu với thể loại ci dựa vào từ điển ngữ nghĩa Nếu độ phù hợp tài liệu d chủ để ci vƣợt ngƣỡng định tài liệu d thuộc thể loại ci Chúng tơi xây dựng từ điển có quan hệ ngữ nghĩa với trọng số tƣơng ứng:  Đồng nghĩa:  Gần nghĩa: 0.8  Liên quan: 0.6 3.5.3 Mơ hình sử dụng chuỗi phổ biến cực đại Tƣơng tự nhƣ mơ hình sử dụng độ đo TF-IDF, xây dựng tập tin arff huấn luyện dựa vector đặc trƣng tài liệu tập huấn luyện Khi có tài liệu cần đƣợc phân loại, chƣơng trình nạp tập tin arff huấn luyện vào thuật toán SVM gọi phƣơng thức phân loại Trong mơ hình sử dụng chuỗi cực đại, đặc trƣng chuỗi cực đại độ đo đƣợc sử dụng độ đo Qrel 3.6 Đánh giá Với điện kiện thiết bị hạn chế nhƣ thời gian có hạn, chúng tơi sử dụng 616 báo điện tử đƣợc thu thập từ trang vnexpress theo chủ đề “giáo dục” “sức khỏe” để làm tập huấn luyện Chúng sử dụng 72 báo điện tử đƣợc thu thập từ trang vnexpress theo chủ đề “giáo dục” “sức khỏe” để làm tập kiểm tra Sau cài đặt mô hình phân loại báo điện tử với kho liệu, chúng tơi đánh giá mơ hình dựa độ đo: p, r F 53 Bảng 3.1: Bảng kết thực nghiệm mơ hình sử dụng chuỗi phổ biến cực đại Giáo dục Sức khỏe p 0.69 1.00 r 1.00 0.66 F 0.82 0.79 Bảng 3.2: Bảng kết thực nghiệm mơ hình sử dụng độ đo TF-IDF Giáo dục Sức khỏe p 0.91 0.93 r 0.95 0.87 F 0.93 0.90 Bảng 3.3: Bảng kết thực nghiệm mơ hình sử dụng từ điển ngữ nghĩa Giáo dục Sức khỏe p 0.95 0.93 r 0.92 0.93 F 0.93 0.93 54 Dựa vào kết thu đƣợc, chúng tơi nhận thấy độ xác mơ hình sử dụng chuỗi phổ biến cực đại có độ xác (độ đo p) thấp nhất: 0.69 Kế đến mơ hình sử dụng độ đo TF-IDF với độ xác 0.91 Và cuối mơ hình sử dụng từ điển ngữ nghĩa có độ xác cao nhất: 0.95 Mơ hình sử dụng chuỗi phổ biến cực đại mơ hình sử dụng độ TF-IDF mơ hình dựa tảng xác suất thống kê Do đó, mơ hình khơng thể biểu diễn mối quan hệ ngữ nghĩa từ tiếng Việt Mơ hình sử dụng từ điển ngữ nghĩa biểu diễn mối quan hệ ngữ nghĩa từ tiếng Việt Việc định nghĩa chủ đề dựa từ từ điển ngƣời dùng định nghĩa nên khả phân loại tài liệu phù hợp với đánh giá ngƣời dùng cao 3.7 Kết luận chương Chƣơng khảo sát cài đặt mơ hình áp dụng cho tốn phân loại báo điện tử:  Mơ hình sử dụng độ đo TF-IDF  Mơ hình sử dụng từ điển ngữ nghĩa  Mơ hình sử dụng chuỗi cực đại 55 KẾT LUẬN VÀ KHUYẾN NGHỊ  Kết luận văn Trong luận văn, chúng tơi trình bày số thuật toán phân loại dựa vào máy học thuật toán chuỗi cực đại Từ đó, chúng tơi xây dựng thử nghiệm mơ hình:  Mơ hình sử dụng chuỗi phổ biến cực đại  Mơ hình sử dụng độ đo TF-IDF  Mơ hình sử dụng từ điển ngữ nghĩa Qua thử nghiệm, chúng tơi nhận thấy mơ hình sử dụng từ điển ngữ nghĩa có độ xác cao biểu diễn đƣợc mối quan hệ ngữ nghĩa tiếng Việt Luận văn xây dựng hệ thu thập phân loại báo điện tử dựa nội dung, góp phần hỗ trợ vào cơng tác quản lý trang báo điện tử  Hướng phát triển Về phần thu thập báo điện tử, chƣơng trình sử dụng tập tin cấu hình Hƣớng phát triển phần thu thập báo điện tử xây dựng hệ thống thu thập báo điện tử tự động Về phân phân loại báo điện tử, chƣơng trình sử dụng từ điển đƣợc xây dựng thủ công Hƣớng phát triển phần phân loại báo điện tử tìm phƣơng pháp xây dựng từ điển tự động 56 DANH MỤC TÀI LIỆU THAM KHẢO [1] http://infonet.vn/nam-2015-so-luong-co-quan-bao-chi-in-tang-12-co-quanpost187377.info, truy nhập ngày 10/12/2015 [2] Trƣơng Châu Long, Cơ sở tài liệu văn có ngữ nghĩa kỹ thuật tổ chức lưu trữ tìm kiếm, Luận văn thạc sĩ, Đại học Công Nghệ Thông Tin TP.HCM, 2009 [3] Lê Thúy Ngọc, Xây dựng hệ thống tìm kiếm thơng tin theo hướng tiếp cận ngữ nghĩa, Luận văn thạc sĩ, Trƣờng đại học Khoa Học Tự Nhiên TP.HCM, 2008 [4] Haav, H.-M and T.-L Lubi, “A Survey of Concept-based Information Retrieval Tools on the Web”, in 5th East-European Conference 2001 [5] Henrik Bulskov Styltsvig, “Ontology-based Information Retrieval”, A dissertation Presented to the Faculties of Roskilde University in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy, 2006 [6] Mohammed.Andul.Wajeed, T.Adilakshmi, “Text classification using machine learning”, JATIT, Journal of Theoretical and Applied Information Technology, 2009 [7] Fabrizio Sebastiani, “Machine Learning in Automated Text Categorization”, ACM Computing Surveys, Vol 34 (No 1), pp 01- 47, 2002 [8] Nguyễn Mạnh Hiển, Nguyễn Linh Giang, "Phân loại văn tiếng việt với phân loại véctơ hỗ trợ SVM", Chuyên san Các cơng trình nghiên cứu - triển khai viễn thơng cơng nghệ thơng tin, Tạp chí Bƣu viễn thông Công nghệ thông tin, số 15, trang 66-75, 2005 [9] Nguyễn Ngọc Bình, “Dùng lý thuyết tập thơ kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda‟04 Hà Nội 2004 57 [10] Nguyễn Linh Giang, Nguyễn Duy Hải, “Mơ hình thống kê hình vị tiếng Việt ứng dụng”, Chun san “Các cơng trình nghiên cứu, triển khai Cơng nghệ Thơng tin Viễn thơng, Tạp chí Bƣu Viễn thơng, số 1, tháng 7-1999, trang 61-67 1999 [11] Huỳnh Quyết Thắng, Đinh Thị Thu Phƣơng, “Tiếp cận phƣơng pháp học khơng giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vectơ”, Kỷ yếu Hội thảo ICT.rda‟04, trang 251-261, Hà Nội 2005 [12] Đỗ Phúc, “Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn tiếng Việt có xem xét ngữ nghĩa”, Tạp chí phát triển KH&CN, tập 9, số 2, pp.23-32, năm 2006 [13] Le-Hong, P., T M H Nguyen, A Roussanaly, and T V Ho, "A hybrid approach to word segmentation of Vietnamese texts", Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain, Springer, LNCS 5196, pp 240 249, 2008 [14] Salton, G., Fox, E.A., Wu H., “Extended boolean information retrieval”, Communications of the ACM, 26(11), pp 1022-1036, 1983 [15] Salton, G., Allan, J., Buckley, C., “Approaches to Passage Retrieval in Full Text Information Systems”, Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 49-58, 1993 [16] Korfhage, R.R Information Storage and Retrieval, John Wiley and Sons, New York, 1997 [17] van Rijsbergen, C.J., Information Retrieval (2nd ed.), Butterworths, London, 1979 58 [18] Deerwester, S., Dumais, S., Furnas, G., Landauer, T., Harshman, R “Indexing by latent semantic analysis”, Journal of the American Society for Information Science, 41(6), pp 391-407, 1990 [19] Bartell, B.T., Cottrell, G.W., Belew, R.K “Latent Semantic Indexing is an optimal special case of Multidimensional Scaling”, Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 161-167, 1992 ... số trang báo điện tử; đề tài xây dựng hệ thống phân loại báo điện tử đáp ứng yêu cầu sau:  Tự động thu thập báo điện tử dựa vào tập tin cấu hình đƣợc thiết lập  Tiền xử lý báo điện tử chọn đặc... duyệt nội dung báo điện tử Sự phát triển nhanh số lƣợng trang báo điện tử nhƣ số lƣợng báo điện tử khiến cho việc quản lý gặp nhiều khó khăn Năm 2015, nƣớc ta có 105 báo, tạp chí điện tử [1]... sử dụng để nhận biết đƣợc nội dung báo thuộc chủ đề Ví dụ, tác giả có báo đƣợc cơng bố trƣớc báo đƣợc phân loại tác giả trích dẫn báo tác giả khác mà báo đƣợc phân loại Tận dụng siêu liệu hỗ

Ngày đăng: 17/12/2016, 23:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan