Hệ thống phân loại bài báo điện tử theo nội dung (tt)

Thông tin tài liệu

Hệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dungHệ thống phân loại bài báo điện tử theo nội dung

i MỞ ĐẦU Báo điện tử phương tiện truyền thông đại chúng đại Hiện nay, phát triển tảng mạng Internet thiết bị di động tạo điều kiện cho báo điện tử ngày phát triển mạnh mẽ Báo điện tử có lợi phương tiện truyền thông đại chúng khác khả tương tác, khả đa phương tiện, tính thời Nhưng bên cạnh lợi đó, báo điện tử cịn đem lại số toán cần phải giải như: đảm bảo an tồn thơng tin, xác thơng tin Để đảm bảo tính đắn nội dung tính hợp pháp báo điện tử Các quan chức phải thường xuyên theo dõi kiểm duyệt nội dung báo điện tử Sự phát triển nhanh số lượng trang báo điện tử số lượng báo điện tử khiến cho việc quản lý gặp nhiều khó khăn Năm 2015, nước ta có 105 báo, tạp chí điện tử [1] nhiều trang thơng tin điện tử tổng hợp Điều đòi hỏi nguồn nhân lực chi phí khổng lồ việc theo dõi kiểm duyệt Do đó, việc xây dựng hệ thống thu thập phân loại báo mạng điện tử toán cần thiết để hỗ trợ cho việc quản lý, theo dõi kiểm tra nội dung báo điện tử Chương - TỔNG QUAN Chương tập trung vào việc khảo sát số cơng trình nghiên cứu phân loại văn bản, truy hồi thông tin Trên sở vấn đề mà luận văn cần giải 1.1 Giới thiệu tổng quan Truy hồi thơng tin (Information Retrieval) định nghĩa ứng dụng khoa học máy tính có chức thu thập, tổ chức, lưu trữ, truy hồi phân bố thông tin Các nghiên cứu liên quan đến lĩnh vực truy hồi thông tin thường nhắm đến tảng lý thuyết cải thiện cơng nghệ tìm kiếm, bao gồm cấu trúc trì kho liệu lớn Hiện nay, hầu hết hệ thống truy hồi thông tin thực chất hệ thống truy hồi tài liệu, nghĩa hệ thống truy tìm tài liệu số tài liệu có sở liệu lưu trữ có nội dung liên quan, phù hợp, đáp ứng với nhu cầu thông tin người dùng, sau người dùng tìm kiếm thơng tin họ cần tài liệu liên quan Một số cơng trình nghiên cứu:  “Cơ sở tài liệu văn có ngữ nghĩa kỹ thuật tổ chức lưu trữ tìm kiếm” (Trương Châu Long) [2]  “Xây dựng hệ thống tìm kiếm thơng tin theo hướng tiếp cận ngữ nghĩa” (Lê Thúy Ngọc) [3]  A Survey of Concept-based Information Retrieval Tools on the Web (Haav, H.-M., T.-L Lubi) [4]  Ontology-based Information Retrieval (Henrik Bulskov Styltsvig) [5] Yahoo Mail, Gmail ứng dụng mail quen thuộc với nhiều người Một tính quan trọng hệ thống mail khả tự động xác định thư rác Đây ví dụ điển hình toán phân loại văn tự động Trong toán phân loại văn bản, nhà nghiên cứu phân biệt rạch ròi thuật ngữ “text categorization” “text classification” Thuật ngữ “text categorization” thường dùng để diễn tả việc xếp văn theo nội dung, “text classification” dùng với ý nghĩa rộng hơn, việc gán tài liệu văn vào tập cụ thể khơng thiết phải dựa nội dung mà dựa tác giả, nhà xuất bản, ngôn ngữ,… Trong ngữ cảnh hẹp luận văn, toán phân loại văn xem tốn phân lớp Cơng việc phân loại văn tự động gán nhãn phân loại lên văn Nhiều kỹ thuật máy học khai khoáng liệu áp dụng vào toán phân loại văn Ví dụ như:  Cây định (Decision tree)  Phương pháp phân loại dựa vào thuật toán Naïve bayes  K- láng giềng gần (KNN)  Mạng neuron nhân tạo (Artificial Neural Network)  Support Vector Machine (SVM) Vấn đề phân loại văn thu hút quan tâm nhiều nhà nghiên cứu giới, tiêu biểu cơng trình nghiên cứu như:  “Text classification using machine learning” (Mohammed.Andul.Wajeed) [6]  “Machine Learning in Automated Text Categorization” (Fabrizio Sebastiani (2002)) [7] Trong nước, có nhiều tác giả quan tâm nghiên cứu cơng bố cơng trình nghiên cứu :  “Phân loại văn tiếng việt với phân loại véctơ hỗ trợ SVM” (Nguyễn Mạnh Hiển) [8]  “Dùng lý thuyết tập thô kỹ thuật khác để phân loại, phân cụm văn tiếng Việt” (Nguyễn Ngọc Bình) [9]  “Mơ hình thống kê hình vị tiếng Việt ứng dụng” (Nguyễn Linh Giang, Nguyễn Duy Hải) [10]  “Tiếp cận phương pháp học khơng giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vectơ” (Huỳnh Quyết Thắng, Đinh Thị Thu Phương) [11]  “Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào tốn phân loại văn tiếng Việt có xem xét ngữ nghĩa” (Đỗ Phúc) [12] 1.1.1 Mục tiêu nghiên cứu Trên sở nghiên cứu xử lý ngôn ngữ tự nhiên, tập trung vào bái toán phân loại văn bản, tốn truy hồi thơng tin tìm hiểu số trang báo điện tử; đề tài xây dựng hệ thống phân loại báo điện tử đáp ứng yêu cầu sau:  Tự động thu thập báo điện tử dựa vào tập tin cấu hình thiết lập  Tiền xử lý báo điện tử chọn đặc trưng cho báo điện tử  Phân loại báo theo chủ đề định nghĩa trước 1.1.2 Đối tượng phạm vi nghiên cứu  Đối tượng nghiên cứu: o Nghiên cứu kỹ thuật web crawler o Nghiên cứu thuật toán phân loại văn o Nghiên cứu chức hệ thống truy hồi thông tin o Khảo sát số trang báo điện tử: vnexpress.net, vietnamnet.vn, tuoitre.vn,…  Phạm vi nghiên cứu: o Đầu vào: báo mạng điện tử từ tập website hữu hạn, định dạng HTML, văn tiếng Việt có nội dung o Chủ đề: tập chủ đề định nghĩa trước o Đầu ra: báo mạng điện tử phân vào chủ đề tương ứng  Những vấn đề luận văn quan tâm o Truy hồi thông tin sử dụng từ làm đặc trưng cho văn o Truy hồi thông tin sử dụng chuỗi phổ biến cực đại làm đặc trưng cho văn o Phân loại văn dựa vào thống kê o Phân loại văn dựa vào ngữ nghĩa 1.1.3 Ý nghĩa luận văn Luận văn đưa cách thức triển khai ứng dụng phân loại báo điện tử hỗ trợ công tác quản lý quan chức 1.2 Kết luận chương Chương khảo sát số cơng trình nghiên cứu lĩnh vực truy hồi thông tin, phân loại văn Dù xuất từ lâu hai tốn ln thu hút nhiều quan tâm, đặc biệt thời đại bùng nổ thông tin Các chương luận văn trình bày chi tiết hướng tiếp cận hai lĩnh vực Chương - CƠ SỞ LÝ THUYẾT Chương trình bày mơ hình truy hồi thơng tin tốn phân loại văn Tìm hiểu trình thực phân loại văn đồng thời khảo sát số thuật toán lĩnh vực 2.1 Truy hồi thông tin Hệ thống truy hồi thông tin tập trung vào việc truy hồi tài liệu dựa nội dung thành phần cấu trúc Một câu truy vấn người dùng mơ tả tính chất thành phần có cấu trúc khơng có cấu trúc tài liệu truy hồi Ví dụ: “Này máy tính, tìm tài liệu truy hồi thơng tin” Câu truy vấn yêu cầu hệ thống truy hồi thông tin truy hồi tài liệu mà có phần nội dung nói chủ đề cụ thể “truy hồi thơng tin” Hệ thống truy hồi thơng tin tìm kiếm tài liệu tập cho trước chủ đề thỏa mãn nhu cầu thơng tin Chủ đề nhu cầu thông tin biểu diễn câu truy vấn, phát sinh người dùng Các tài liệu thỏa mãn câu truy vấn xác định người dùng xem phù hợp Các tài liệu khơng nói chủ đề cho trước xem không phù hợp Một hệ thống truy hồi thông tin sử dụng câu truy vấn để phân loại tài liệu, trả cho người dùng tập tài liệu thỏa mãn tiêu chuẩn phân loại Tỉ lệ tài liệu trả cho người dùng người dùng kết luận phù hợp cao nghĩa tiêu chuẩn phân loại tốt 2.1.1 Tổng quan hướng tiếp cận truy hồi thơng tin Nhìn chung, có hướng tiếp cận truy hồi thơng tin ngữ nghĩa thống kê Các cách tiếp cận ngữ nghĩa cố gắng thực số mức độ phân tích cú pháp ngữ nghĩa Trong cách tiếp cận thống kê, tài liệu truy hồi tài liệu xếp hạng cao nghĩa có mức độ phù hợp với câu truy vấn cao dựa độ đo thống kê Các hướng tiếp cận thống kê rơi vào mơ hình sau: boolean, boolean mở rộng, vector space xác suất Các hướng tiếp cận thống kê chia tài liệu câu truy vấn thành “term” Các “term” có tính chất phổ biến, đếm đo đạc dựa vào thống kê Các “term” từ xuất câu truy vấn cho trước tập tài liệu Các từ thường xuất dạng chưa xử lý, từ phải qua bước xử lý “stemmed” để nhận từ gốc Mục đích q trình loại trừ biến thể xuất thể văn phạm khác từ Ví dụ: “retrieve”, “retrieved”, “retrieves” Các từ ví dụ cần nhận diện thể từ Vì vậy, người dùng đưa câu truy vấn cần phải xác định thể có từ mà họ cho xuất tài liệu mà họ tìm kiếm Trong tiếng Việt, từ khơng có “stemming”, khơng cần q trình “stemmed” để tiền xử lý văn Một trình khác khâu tiền xử lý văn loại bỏ từ dùng chung khơng có nghĩa, từ gọi “stop word” Các IR engine thường cung cấp “stop list” để loại bỏ tiền xử lý văn Trong tiếng Việt, có nhiều “stop word”, ví dụ như: “bị”, “bởi”, “càng”, “ơi”, “than ơi”, “trời ơi”,… “Stemming” “stop word” phụ thuộc vào ngôn ngữ, ngơn ngữ khác có dạng “stemming” “stop word” khác Một số công cụ tinh vi trích “cụm từ” “term” Một cụm từ kết hợp từ đứng liền kề xác định thông qua tần số việc đồng thời xuất tập cho trước xác định cách dùng từ điển Trong xử lý Việt, công cụ vnTokenizer TS Lê Hồng Phương [13] tự động tách đoạn văn tiếng Việt thành đơn vị ngữ pháp Các trọng số thường gán cho “term” tài liệu câu truy vấn Một trọng số gán cho “term” tài liệu khác với trọng số gán cho “term” tài liệu khác Trọng số thường độ đo hiệu “term” thường dùng việc phân biệt tài liệu tập cho trước Trọng số thường chuẩn hóa để nằm đoạn [0 1] Trọng số gán cho “term” câu truy vấn Trọng số “term” câu truy vấn thường độ đo tầm quan trọng “term” việc tính tốn độ phù hợp câu truy vấn tài liệu Cũng với tài liệu, “term” có trọng số khác câu truy vấn khác Trọng số “term” câu truy vấn thường chuẩn hóa nằm đoạn [0 1] Theo hướng tiếp cận thống kê tài liệu thường biểu diễn dạng tập hợp từ khóa độc lập Hướng tiếp cận thống kê thường dùng cho việc biểu diễn tài liệu mà không xét đến hình thái từ, thứ tự từ hay vị trí xuất từ tài liệu mối quan hệ ngữ nghĩa chúng, cách biểu diễn mang mức độ thơng tin thấp nhìn góc nhìn ngơn ngữ học khơng xử lý biến thể mặt ngôn ngữ học từ biến thể hình thái học, biến thể từ vựng học, biến thể ngữ nghĩa học biến thể cú pháp học Hướng tiếp cận ngữ nghĩa giải vấn đề Một số hướng tiếp cận theo ngữ nghĩa như: hướng tiếp cận xử lý ngôn ngữ tự nhiên, hướng tiếp cận ontology 2.1.2 Truy hồi thông tin theo hướng thống kê 2.1.2.1 Mơ hình Boolean 2.1.2.2 Mơ hình khơng gian vector 2.1.2.3 Mơ hình Latent Semantic Indexing (LSI) 2.1.3 Truy hồi thơng tin theo hướng ngữ nghĩa 2.1.3.1 Hướng tiếp cận xử lý ngôn ngữ tự nhiên 2.1.3.2 Hướng tiếp cận Ontology 2.2 Phân loại văn Phân loại (phân lớp) văn q trình phân tích nội dung văn bản, dự đốn văn thuộc nhóm văn nhóm văn cho trước Một văn thuộc nhiều nhóm văn khơng thuộc nhóm văn mà ta định nghĩa Bài toán phân lớp văn phát biểu sau: cho trước tập văn D={d1,d2,…,di} tập chủ đề định nghĩa C={c1,c2,…,cj}(Fabrizio Sebastiani (2002)) Ta phải tìm hàm với , tức phải tìm di thuộc lớp cj định nghĩa trước  di, cj   True di thuộc lớp cj  di, cj   False di khơng thuộc lớp c 2.2.1 Nạve Bayes Giả sử ta có nguồn tài liệu đầu vào nhiệm vụ hệ thống gán tài liệu đầu vào vào thể loại định Với thể loại, ta có sẵn số lượng định tài liệu phân loại khứ Một cách tiếp cận tự động bán tự động xây dựng mơ hình thống kê cho thể loại mà ta quan tâm, tận dụng tài liệu phân loại Cách tiếp cận giả định ta tính tốn ước lượng phân bố term tài liệu thuộc chủ đề Ý tưởng dùng phân bố để dự đoán xem tài liệu thuộc thể loại Đầu tiên, ta cần chuyển đổi xác suất xuất term thể loại sang xác suất thể loại term Sau đó, ta cần phương thức đề kết nối kiện term tài liệu lại Nói cách khác, ta dễ dàng tính P(t | Ci ) cho term t thể loại Ci, ta cần quan tâm đến P(Ci | t ) tốt P(Ci | TD ) với TD tập term xuất tài liệu D Naïve Bayes cách tiếp cận thống kê cho mơ hình ngơn ngữ sử dụng Bayes’s Rule giả định đặc trưng độc lập Do đó, ta tính xác suất mà tài liệu D thuộc thể loại Ci công thức: P(Ci | D)  P( D | Ci ) P(Ci ) P ( D) Bỏ qua ràng buộc phụ thuộc term, ta dùng quy tắc nhân để kết hợp xác suất lại với tính chất độc lập Cho tài liệu D đại diện vector gồm n thành phần D  (t1, , tn ) thể loại Ci tập thể loại cho trước Ta có: j n P( D | Ci )   P(t j | Ci ) j 1 Tài liệu D gán vào lớp thể loại Ci có xác suất lớn nhật thuộc tập thể loại C theo công thức: j n   max  P(Ci ) P(t j | Ci )  j 1   11 tập huấn luyện gần D nhất, sau chọn nhiều thể loại gán cho D dựa vào thể loại gán cho k tài liệu 2.2.4 Thuật toán Support Vector Machine (SVM) Phương pháp SVM coi cơng cụ mạnh cho tốn phân lớp phi tuyến tính tác giả Vapnik Chervonenkis phát triển mạnh mẽ năm 1995 Phương pháp thực phân lớp dựa nguyên lý Cực tiểu hóa Rủi ro có Cấu trúc SRM (Structural Risk Minimization), xem phương pháp phân lớp giám sát không tham số tinh vi Các hàm công cụ đa dạng SVM cho phép tạo không gian chuyên đổi để xây dựng mặt phẳng phân lớp Cho trước tập huấn luyện, biểu diễn khơng gian vector, tài liệu điểm, phương pháp tìm siêu phẳng định tốt chia điểm không gian thành hai lớp riêng biệt tương ứng lớp “+” lớp “-“ Chất lượng siêu phẳng định khoảng cách (gọi biên) điểm liệu gần lớp đến mặt phẳng Khi đó, khoảng cách biên lớn mặt phẳng định tốt, đồng thời việc phân loại xác Tiến hành xét toán đơn giản tách hai lớp với tập liệu mẫu huấn luyện Và sau ta mở rộng phương pháp cho nhiều trường hợp tổng qt mà liệu chí khơng thể tách phân lớp Với xi, i = 1, , , N tập vector đặc trưng huấn luyện X Và thuộc hai lớp w1,w2 giả sử tập liệu phân lớp tuyến tính Với mục tiêu xây dựng mặt siêu phẳng(hyperplane) để tách xác phân lớp mẫu huấn luyện cho phương trình sau: g(x) = wTx + w0 =0 Trong w vector trọng số, w0 độ dịch Phương pháp máy học SVM tập mặt siêu phẳng phụ thuộc vào tham số w w0 Mục tiêu phương pháp SVM ước lượng hai giá trị để cực đại hóa lề(margin) Với giá trị lề lớn mặt siêu phẳng phân lớp tốt Nếu tập liệu huấn luyện khả tách tuyến tính ta có ràng buộc sau: 12 wTxi + w0 ≥ +1 yi = +1 wTxi + w0 ≤ -1 yi = -1 Hai mặt siêu phẳng có phương trình wTxi + w0 = ± gọi mặt siêu phẳng hỗ trợ 2.3 Kết luận chương Chương trình bày mơ hình truy hồi thơng tin tốn phân loại văn 13 Chương – CÀI ĐẶT Chương khảo sát cài đặt mơ hình áp dụng cho toán phân loại báo điện tử:  Mơ hình sử dụng độ đo TF-IDF  Mơ hình sử dụng từ điển ngữ nghĩa  Mơ hình sử dụng chuỗi phổ biến cực đại 3.1 Tổng quan ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… PHÂN LOẠI CÁC BÀI BÁO THUỘC CHỦ ĐỀ CÁC BÀI BÁO THUỘC CHỦ ĐỀ TẬP CÁC CHỦ ĐỀ … ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… Hình 3.1: Tổng quan mục tiêu luận văn Mục tiêu tổng quan luận văn (Hình 3.1) phân loại báo điện tử dựa tập chủ đề cho trước trình bày hình Để thực mục tiêu này, xây dựng giải pháp sau: 14 CHỦ ĐỀ THU THẬP KHO TRANG WEB PHÂN LOẠI CHỦ ĐỀ … Hình 3.2: Giải pháp tổng quan Trong giải pháp mà chúng tơi đề xuất (Hình 3.2), cần cài đặt web crawler để thực việc thu thập báo điện tử cần tổ chức kho lưu trữ báo điện tử thu thập Ngồi ra, chúng tơi cần phải cài đặt phân loại dựa độ đo TF-IDF, từ điển ngữ nghĩa chuỗi phổ biến cực đại Quy trình xử lý hệ thống gồm bước:  Thu thập báo điện tử web crawler thực  Tiền xử lý văn báo điện tử thu thập  Trích chọn đặc trưng báo điện tử  Áp dụng thuật tốn phân loại Các phần trình bày cụ thể bước xử lý 3.2 Cài đặt Web Crawler Một web crawler (còn biết đến robot spider) hệ thống tải lượng lớn trang web Các web crawler thường dùng vào nhiều mục đích khác Web kho thông tin lưu trữ tập trung, mà tập gồm hàng trăm, hàng nghìn nhà cung cấp khác độc lập nhau, nhà cung cấp có dịch vụ riêng họ, nhà cung cấp đối thủ cạnh tranh Nói cách khác, web xem kho thơng tin liên hợp kết hợp với 15 tập giao thức chuẩn liệu thống TCP (Transmission Control Protocol), DNS (Domain Name Service), HTTP (Hypertext Transfer Protocol), HTML (Hypertext Maker Language) Thuật toán web crawler đơn giản: cho tập URL, web crawler tải tất trang web cho URL, trích xuất hyperlink sau tải trang web cho hyperlink Tuy nhiên, web crawler có thách thức như: mở rộng liên tục web, đánh đổi lượng thông tin thu trang web thông lượng web crawler, bị nghi ngờ tin tặc, ngăn chặn từ nhà cung cấp,… Do yêu cầu cụ thể đề tài thu thập báo từ tập hợp trang báo điện tử theo ngày nên chúng tơi xây dựng tập tin cấu hình bao gồm phần:  Query: chứa thông tin để xây dựng nên câu query  Search structure: chứa thơng tin để nhận biết vị trí trích xuất đường dẫn  Content structure: chứa thơng tin để nhận biết vị trí trích xuất nội dung báo điện tử Tập tin cấu hình xây dựng ngôn ngữ xml với số thẻ bản:               16   Các báo điện tử thu thập lưu trữ định dạng tập tin văn (*.txt) Đồng thời, thông tin báo điện tử như: tên báo, tóm tắt, đường dẫn tập tin nội dung lưu trữ vào sở liệu Tập tin cấu hình chứa đựng thơng tin cần thiết để crawler thu thập báo điện tử Mỗi tập tin cấu hình dùng cho việc thu thập báo điện tử theo ngày một, nhiều ngày lần 3.3 Tiền xử lý văn Văn ngôn ngữ phi cấu trúc, cần phải chuyển đổi văn thành dạng cấu trúc để phân loại tự động Giai đoạn tiền xử lý văn bước đệm để việc vector hóa văn bước sau tiến hành thuận lợi có hiệu suất tốt cho trình phân loại Các cơng việc giai đoạn tiền xử lý văn tách từ loại bỏ stop word Trong tiếng Việt, có loại từ từ đơn từ ghép Từ đơn từ cấu thành từ tiếng, ví dụ: “ăn”, “uống”, “đi”,… Từ ghép từ cấu thành từ hai hay nhiều tiếng mà tiếng có quan hệ ngữ nghĩa với nhau, ví dụ: “đơn vị”, “học viện”, “phòng ban”, “giảng viên”,…Khi thực việc tách từ thủ cơng, việc nhập nhằng khó xảy người tách từ hiểu rõ ngữ nghĩa câu tách từ dựa ngữ nghĩa từ câu Tuy nhiên, việc tách từ thủ công điều với tập liệu khổng lồ Ngược lại với việc tách từ thủ công tách từ tự động, tách từ tự động giải toán tách từ tập liệu khổng lồ phải giải vấn đề nhập nhằng ngôn ngữ:  Nhập nhằng chồng chéo: chuỗi “a b c” bị nhập nhằng chồng chéo mà “a b” “b c” xuất từ điển Khi chương trình khơng biết chuỗi “a b c” phải tách thành “a b”, “c” hay “a”, “b c”  Nhập nhằng kết hợp: chuỗi “a b c” bị nhập nhằng kết hợp mà “a”, “b” “a b” xuất từ điển Ngoài vấn đề nhập nhằng, tách từ tiếng Việt cịn gặp khó khăn việc xác định từ chưa biết trước danh từ riêng, từ vay mượn, thành ngữ, từ láy,… 17 Bên cạnh công việc tách từ, giai đoạn tiền xử lý văn có cơng việc loại bỏ stop word Stop word từ xuất nhiều tất văn thuộc nhiều thể loại khác nhau, không mang ý nghĩa không chứa thông tin đáng kể Trong trình phân loại văn bản, xuất stop word khơng hỗ trợ mà cịn làm giảm độ xác q trình phân loại làm tăng thời gian xử lý Do cần phải loại bỏ stop word Để loại bỏ stop word, dùng từ điển thiết lập ngưỡng cho độ đo TF-IDF 3.3.1 Mơ hình sử dụng độ đo TF-IDF Để tách từ mơ hình này, chúng tơi sử dụng chương trình vnTokenizer vnTokenizer chương trình tách văn tiếng Việt thành đơn vị ngữ pháp với độ xác 98% vnTokenizer viết ngôn ngữ Java chạy môi trường Java Runtime 1.6 trở lên Chương trình vnTokenizer thiết kế để sử dụng dạng dịng lệnh thơng qua API Để thực thi chương trình vnTokenizer, sử dụng script hệ điều hành: vnTokenizer.bat cho Windows vnTokenizer.sh cho Unix, Linux, Mac OS X Chương trình vnTokenizer tách từ tập tin văn nhiều tập tin văn thư mục Các tập tin văn đầu vào phải tập tin văn mã hóa UTF-8 Các tập tin văn đầu lưu dạng tập tin văn XML mã hóa UTF-8 Trong mơ hình sử dụng độ đo TF-IDF, chúng tơi dùng chương trình vnTokenizer để tách từ tập tin văn lưu thành tập tin văn với từ nằm dòng để chuẩn bị cho bước xử lý sau Để loại bỏ stop word, dùng từ điển chứa stop word để làm sở so sánh xác định stop word 3.3.2 Mơ hình sử dụng độ đo TF-IDF Cũng giống mơ hình sử dụng độ đo TF-IDF, mơ hình sử dụng từ điển ngữ nghĩa quan tâm đến đơn vị ngữ pháp từ chúng tơi sử dụng chương trình vnTokenizer để tách từ Để loại bỏ stop word, dùng từ điển chứa stop word để làm sở so sánh xác định stop word 18 3.3.3 Mơ hình sử dụng chuỗi phổ biến cực đại Chuỗi cực đại tập tài liệu chuỗi từ thường xuyên xuất tài liệu không chuỗi cực đại không chứa chuỗi cực đại khác Một số nghiên cứu liên quan:  Discovery of frequent sets (Agrawal, Mannila, Srikant, Toivonen, & Verkamo, 1996)  Discovery of sequential patterns (Agrawal & Srikant, 1995; Mannila, Toivonen, & Verkamo, 1995) Cách tiếp cận theo chuỗi cực đại cách tiếp cận theo kiểu bottom-up Các chuỗi có độ dài lớn xây dựng dựa chuỗi có độ dài nhỏ Cách tiếp cận độc lập với ngôn ngữ nên giai đoạn tiền xử lý văn cần loại bỏ dấu câu stop word tách từ dựa vào khoảng trắng 3.4 Vector hóa văn 3.4.1 Mơ hình sử dụng độ đo TF-IDF Sau trải qua giai đoạn tiền xử lý văn bản, tài liệu loại bỏ dấu câu stop word Lúc này, tài liệu cịn lại tập từ có nghĩa từ đặc trưng cho tài liệu Trong không gian tập tài liệu, có lượng lớn N từ Mỗi văn biểu diễn dạng vector nhị phân, gán văn chứa từ đặc trưng ngược lại gán không xuất từ đặc trưng Mỗi phần từ vector tương ứng với giá trị độ đo từ Trong mơ hình sử dụng độ đo TF-IDF, dùng độ đo TF-IDF từ đế gán giá trị cho thành phần vector 3.4.2 Mơ hình sử dụng từ điển ngữ nghĩa Cũng giống mơ hình sử dụng độ đo TF-IDF, mơ hình sử dụng từ điển ngữ nghĩa, sau trả qua giai đoạn tiền xử lý văn bản, tài liệu cịn lại tập từ có nghĩa từ đặc trưng cho tài liệu Tuy nhiên, mơ hình sử dụng từ điển ngữ nghĩa, sử dụng độ đo nhị phân đế gán giá trị cho vector đặc trưng Mỗi thể loại vector đặc trưng nhị phân Khi phân loại tài liệu mới, 19 tính độ phù hợp ngữ nghĩa tài liệu thể loại thông qua vector Khi độ phù hợp vượt qua giá trị ngưỡng kết luận tài liệu thuộc chủ đề 3.4.3 Mơ hình sử dụng chuỗi phổ biến cực đại Khác với mơ hình sử dụng độ đo TF-IDF mơ hình sử dụng từ điển ngữ nghĩa, tài liệu mơ hình sử dụng chuỗi cực đại đặc trưng chuỗi cực đại đặc trưng từ Do đó, chúng tơi cần phải tìm chuỗi cực đại tập tài liệu huấn luyện chuỗi cực đại tài liệu Giả sử S tập tài liệu huấn luyện, tài liệu tập hợp từ Gọi chuỗi p cực đại S không tồn p’ S chuỗi p p phổ biến S nghĩa tần số xuất p S vượt qua ngưỡng α Thuật tốn tìm tất chuỗi cực đại tập huấn luyện S gồm pha: pha khởi tạo pha khai phá pha mở rộng Pha khởi tạo: Đầu vào: S: tập tài liệu huấn luyện Output: Grams2: tất cặp từ phổ biến S Với tài liệu d S Thu thập cặp từ có thứ tự d Grams2 = cặp từ có thứ tự phổ biến S Return Grams2 Pha khai phá: Input: Grams2: cặp từ phổ biến Output: Max: tập chuỗi phổ biến cực đại k := 20 Max := ∅ Trong Gramsk ≠ ∅ Xét tất gram g Nếu gram g chuỗi chuỗi m ∈ Max Nếu g phổ biến max : Mở rộng g Max := Max ⋃ max Nếu max g Loại bỏ g Gramsk Ngược lại Loại bỏ g Grams Nối chuỗi Gramsk thành Gramsk k := k + Return Max Pha mở rộng: Input: p: chuỗi Output: p’: chuỗi phổ biến cực đại với p chuỗi Lặp Gọi l độ dài chuỗi p Tìm chuỗi p’ có độ dài l Nếu p’ phổ biến p chuỗi p’ 21 p : p’ Cho đến khơng có p’ phổ biến Return p Với tài liệu, thực thuật tốn để tìm chuỗi phổ biến cực đại tài liệu Thuật toán tương tự thuật tốn tìm chuỗi phổ biến cực đại tập huấn luyện xét giới hạn tài liệu Tập hợp tất chuỗi phổ biến cực đại tập huấn luyện tạo thành chiều vector Để gán giá trị cho thành phần vector ứng với tài liệu, sử dụng độ đo Qrel để tính phù hợp chuỗi phổ biến cực đại tài liệu với chuỗi cực đại tập huấn luyện, sau chọn giá trị tối đa Qrel(AiAj ) = idf(AiAj , D) · adj(AiAj ) 3.5 Áp dụng thuật toán phân loại 3.5.1 Mơ hình sử dụng độ đo TF-IDF Sau vector hóa tài liệu, chúng tơi tiến hành xây dựng file arff để tiến hành huấn luyện Trong file arff có phần:  @relation  @attribute  @data Phần @relation biểu diễn tên quan hệ, phần @attribute chứa thuộc tính, thuộc tính tương ứng với chiều vector, phần @data chứa vector vector đặc trưng cho tài liệu tập huấn luyện Sau xây dựng xong tập tin arff huấn luyện, sử dụng thư viện Weka để tiến hành huấn luyện thuật toán SVM Khi có tài liệu cần phân loại, xây dựng vector đặc trưng tương ứng với tài liệu Sau đó, nạp file arff huấn luyện vào thuật toán SVM gọi thủ tục phân loại phân loại 22 3.5.2 Mô hình sử dụng từ điển ngữ nghĩa Để tiến hành phân loại, cần khai xây dựng vector cho thể loại Mỗi thể loại mô tả tập từ Khi phân loại tài liệu d, chúng tơi tính độ phù hợp tài liệu với thể loại ci dựa vào từ điển ngữ nghĩa Nếu độ phù hợp tài liệu d chủ để c i vượt ngưỡng định tài liệu d thuộc thể loại ci Chúng tơi xây dựng từ điển có quan hệ ngữ nghĩa với trọng số tương ứng:  Đồng nghĩa:  Gần nghĩa: 0.8  Liên quan: 0.6 3.5.3 Mơ hình sử dụng chuỗi phổ biến cực đại Tương tự mơ hình sử dụng độ đo TF-IDF, xây dựng tập tin arff huấn luyện dựa vector đặc trưng tài liệu tập huấn luyện Khi có tài liệu cần phân loại, chương trình nạp tập tin arff huấn luyện vào thuật toán SVM gọi phương thức phân loại Trong mơ hình sử dụng chuỗi cực đại, đặc trưng chuỗi cực đại độ đo sử dụng độ đo Qrel 3.6 Đánh giá Với điện kiện thiết bị hạn chế thời gian có hạn, chúng tơi sử dụng 616 báo điện tử thu thập từ trang vnexpress theo chủ đề “giáo dục” “sức khỏe” để làm tập huấn luyện Chúng sử dụng 72 báo điện tử thu thập từ trang vnexpress theo chủ đề “giáo dục” “sức khỏe” để làm tập kiểm tra Sau cài đặt mơ hình phân loại báo điện tử với kho liệu, chúng tơi đánh giá mơ hình dựa độ đo: p, r F Bảng 3.1: Bảng kết thực nghiệm mơ hình sử dụng chuỗi phổ biến cực đại 23 Giáo dục Sức khỏe p 0.69 1.00 r 1.00 0.66 F 0.82 0.79 Bảng 3.2: Bảng kết thực nghiệm mơ hình sử dụng độ đo TF-IDF Giáo dục Sức khỏe p 0.91 0.93 r 0.95 0.87 F 0.93 0.90 Bảng 3.3: Bảng kết thực nghiệm mơ hình sử dụng độ từ điển ngữ nghĩa Giáo dục Sức khỏe p 0.95 0.93 r 0.92 0.93 F 0.93 0.93 Mơ hình sử dụng chuỗi phổ biến cực đại mơ hình sử dụng độ TF-IDF mơ hình dựa tảng xác suất thống kê Do đó, mơ hình khơng thể biểu diễn mối quan hệ ngữ nghĩa từ tiếng Việt Mơ hình sử dụng từ điễn ngữ nghĩa biểu diễn mối quan hệ ngữ nghĩa từ tiếng Việt Việc định nghĩa chủ đề dựa từ từ điển người dùng định nghĩa nên khả phân loại tài liệu phù hợp với đánh giá người dùng cao 24 3.7 Kết luận chương Chương khảo sát cài đặt mơ hình áp dụng cho tốn phân loại báo điện tử:  Mơ hình sử dụng độ đo TF-IDF  Mơ hình sử dụng từ điển ngữ nghĩa  Mơ hình sử dụng chuỗi cực đại 25 KẾT LUẬN VÀ KHUYẾN NGHỊ  Kết luận văn Luận văn xây dựng hệ thu thập phân loại báo điện tử dựa nội dung, góp phần hỗ trợ vào công tác quản lý trang báo điện tử  Hướng phát triển Về phần thu thập báo điện tử, chương trình sử dụng tập tin cấu hình Hướng phát triển phần thu thập báo điện tử xây dựng hệ thống thu thập báo điện tử tự động Về phân phân loại báo điện tử, chương trình sử dụng từ điển xây dựng thủ công Hướng phát triển phần phân loại báo điện tử tìm phương pháp xây dựng từ điển tự động ... thu thập báo điện tử xây dựng hệ thống thu thập báo điện tử tự động Về phân phân loại báo điện tử, chương trình sử dụng từ điển xây dựng thủ công Hướng phát triển phần phân loại báo điện tử tìm... hiểu số trang báo điện tử; đề tài xây dựng hệ thống phân loại báo điện tử đáp ứng yêu cầu sau:  Tự động thu thập báo điện tử dựa vào tập tin cấu hình thiết lập  Tiền xử lý báo điện tử chọn đặc... văn Luận văn xây dựng hệ thu thập phân loại báo điện tử dựa nội dung, góp phần hỗ trợ vào công tác quản lý trang báo điện tử  Hướng phát triển Về phần thu thập báo điện tử, chương trình sử dụng

Ngày đăng: 17/12/2016, 23:46

Xem thêm: Hệ thống phân loại bài báo điện tử theo nội dung (tt), Hệ thống phân loại bài báo điện tử theo nội dung (tt)

Hệ thống phân loại bài báo điện tử theo nội dung (tt)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan