Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)

52 529 0
Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)

i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tp.HCM, ngày 07 tháng 11 năm 2017 Học viên thực luận văn Đồn Đức Q ii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới Thầy Tân Hạnh tận tình hướng dẫn, truyền đạt cho kiến thức kinh nghiệm quý báu Tôi xin gửi lời tri ân tới quý Thầy Cơ Học Viện Cơng Nghệ Bưu Chính Viễn Thơng sở thành phố Hồ Chí Minh, cảm ơn Thầy Cơ tận tình bảo truyền đạt kiến thức thời gian vừa qua Trong suốt q trình làm đề tài tơi nhận quan tâm giúp đỡ q thầy cơ, gia đình bạn bè Đó nguồn động viên quý giá, tiếp thêm động lực thêm sức mạnh cho tơi hồn thành luận văn Tôi xin cảm ơn Vợ tôi, người thay tơi việc gia đình suốt thời gian thực luận văn Một lần xin chân thành cảm ơn người! Tp HCM, ngày 07 tháng 11 năm 2017 Học viên thực luận văn Đồn Đức Q iii MỤC LỤC Lời cam đoan i Lời cảm ơn ii Mục lục iii Danh mục ký hiệu, chữ viết tắt vi Danh mục bảng vii Danh mục hình vẽ viii MỞ ĐẦU CHƯƠNG − TỔNG QUAN BÀN TOÁN PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu toán phân loại văn 1.1.1 Phân lớp văn dựa cách tiếp cận chuyên gia 1.1.2 Phân lớp văn dựa cách tiếp cận máy học 1.2 Phương pháp tách từ 1.2.1 Đặc điểm tiếng Việt 1.2.2 Tách từ cách xây dựng Ontology 1.2.3 Tách từ so khớp dài tự điển 1.3 Phương pháp biểu diễn văn máy 10 1.3.1 Một số kỹ thuật trích chọn đặc trưng văn 11 1.3.2 Biểu diễn văn Vector 12 1.4 Phương pháp đánh giá hiệu phân lớp: 14 CHƯƠNG − CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN 16 2.1 Bài toán phân loại văn 16 2.2 Các thuật toán thường dùng phân loại văn 17 2.2.1 Thuật tốn Nạve bayes 18 2.2.2 Thuật toán k-Means 19 2.2.3 Thuật toán kNN (k-Nearest Neighbors, k-láng giềng gần nhất) 21 2.2.4 Thuật toán SVM (Support Vector Machine) 23 2.2.5 Thuật toán FSVM (Fuzzy Support Vector Machine) 25 iv 2.2.6 Thuật toán cực đại hoá kỳ vọng (Expectation–maximization algorithm) 25 2.2.7 Mạng neural nhân tạo – ANN (Artificial Neural Network) 26 2.2.8 Cây định (Decision Tree) 27 2.3 Kết chương 29 CHƯƠNG − THỰC NGHIỆM HỆ THỐNG PHÂN LOẠI BÁN TỰ ĐỘNG VĂN BẢN QUY PHẠM PHÁP LUẬT DỰA TRÊN CHỦ ĐỀ CHO HỆ THỐNG TRUY HỒI THÔNG TIN 30 3.1 Đặt vấn đề 30 3.2 Tổng quan toán 31 3.3 Mơ tả tốn 33 3.4 Các bước thực 33 CHƯƠNG − CÀI ĐẶT, ĐÁNH GIÁ 35 4.1 Cài đặt 35 4.1.2 Ngôn ngữ cơng cụ lập trình 35 4.1.3 Thiết kế liệu 35 4.1.4 Mối quan hệ bảng 38 4.1.5 Giao diện 38 4.2 Đánh giá 40 CHƯƠNG − KẾT LUẬN, HƯỚNG PHÁT TRIỂN 42 5.1 Kết luận 42 5.2 Hướng phát triển 42 DANH MỤC TÀI LIỆU THAM KHẢO 43 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt ANN Artificial Neural Network Mạng thần kinh nhân tạo DNF Disjunctive Normal Form Mẫu phân bố gián đoạn EM Expectation–Maximization Thuật toán cực đại kỳ vọng hoá algorithm IDF Inverse Document Frequency Nghịch đảo tần suất tài liệu kNN k-Nearest Neighbor k-láng giềng gần SVM Support Vector Machines Máy học vectơ hỗ trợ Term Frequency Tần suất TF vi DANH SÁCH BẢNG Bảng 1.3: Liệt kê số stopword 11 Bảng 4.1.3a SubJect (chủ đề) 35 Bảng 4.1.3b Document (văn bản) 36 Bảng 4.1.3c Mô tả cấu trúc Word (Từ) 37 vii DANH SÁCH HÌNH VẼ Hình 2.1 Hình mơ tả phân loại văn 16 Hình 2.2.2 Sơ đồ khối thuật toán K-Means 20 Hình 2.2.3 Mơ tả cách hoạt động thuật toán kNN 22 Hình 2.2.4a Ví dụ biên lớp (trường hợp khơng tốt) 23 Hình 2.2.4b Ví dụ biên lớp (trường hợp tốt) 24 Hình 2.2.7a Quá trình xử lý ANN 27 Hình 2.2.7b Một số kiến trúc ANN 27 Hình 3.2 Sơ đồ tổng quan giải pháp 32 Hình 4.1.4 Mối quan hệ bảng 38 MỞ ĐẦU Quản lý hành nhà nước vấn đề cấp thiết quốc gia Trong việc quản lý hành nhà nước hệ thống văn quy phạm pháp luật đóng vai trò then chốt, nước ta việc quản lý hệ thống văn chưa thống tập trung Bên cạnh thủ tục hành chính, văn hành cho lĩnh vực, ngành nghề, lĩnh vực nhiều đa dạng Việc phân loại văn quy phạm pháp luật, văn hành cách tự động để tra cứu văn dễ dàng yêu cầu thiết thực cơng tác quản lý hành Bài tốn phân loại văn khơng phải tốn mới, trước có nhiều người nghiên cứu đạt thành định như: Nguyễn Linh Giang - Nguyễn Mạnh Hiển (tỉ lệ xác từ 51%  94%) [2], Trần Cao Đệ Phạm Nguyên Khang (tỉ lệ xác 88%  92%) [1] Để giải tốn phân loại văn ta tiếp cận nhiều cách như: hướng tiếp cận toán phân loại lý thuyết đồ thị [3], cách tiếp cận sử dụng lý thuyết tập thô [4], cách tiếp cận thống kê [5], cách tiếp cận sử dụng phương pháp học không giám sát đánh mục [6, 7] Các cách tiếp cận mạng lại số kết khả quan định Trong năm gần đây, phương pháp phân loại sử dụng Bộ phân loại vector hỗ trợ (SVM) quan tâm sử dụng nhiều lĩnh vực nhận dạng phân loại, thuật toán cải tiến SVM thuật toán Fuzzy SVM cho phép loại bỏ liệu nhiễu q trình huấn luyện cải thiện độ xác trình phân lớp Về kỹ thuật truy tìm văn bản, luận văn tìm hiểu sử dụng mơ hình truy tìm văn theo mơ hình khơng gian vector VSM (Vector Space Model) Nguyên lý hoạt động cốt lõi hệ truy tìm văn VSM tự động hóa quy trình tìm kiếm văn có liên quan cách tính độ đo tương tự câu truy vấn văn Việc phân loại văn quy phạm pháp luật bán tự động dựa chủ đề văn thực cách xây dựng ontology để thu thập thông tin phân lớp - Mục đích nghiên cứu: Phân loại văn bán tự động dựa chủ đề theo nội dung văn - Đối tượng nghiên cứu: o Các loại văn hành chính, văn quy phạm pháp luật liên quan đến qui định nhân Ngành Giáo dục từ năm 2011 đến o Học máy (machine learning), học có giám sát học có giám sát - Phân loại văn bản: o Các kỹ thuật phân loại văn o Các thuật toán thường áp dụng phân loại văn - Mơ tả tốn: Cho trước tập Chủ đề S = {s1, s2, …, sn} tập văn D = {d1, d2, …dm} Trong di văn phân chủ đề sj (theo hệ chuyên gia) Văn d (văn mới) đưa vào tập D, nhiệm vụ cho biết d thuộc chủ đề tập S đưa yêu cầu người dùng tự phân loại tay (nếu văn d khơng có đặc trưng chủ đề độ tương tự với văn phân loại thấp) Hướng giải quyết: Khi có văn D thêm vào, ta thực hiện: tìm loại văn (Công văn, Quyết định, nghị định, thông tư, nghị quyết,…), tìm số hiệu văn bản, tách từ, sau tách từ ta vectơ hố từ, tính độ tương tự D với văn gán chủ đề, tìm văn x có độ tương tự cao mà văn D có từ đặc trưng chủ để x, tồn văn x thoả điều thi ta gán D chủ đề với x, người lại yêu cầu người dùng gán chủ đề tay Cấu trúc luận văn bao gồm chương: - Chương 1: Tổng quan toán phân loại văn - Chương 2: Các phương pháp phân loại văn - Chương 3: Phân loại bán tự động văn quy phạm pháp luật dựa chủ đề cho hệ thống truy hồi thông tin - Chương 4: Cài đặt, đánh giá, hướng phát triển - Chương 5: Kết luận 31 3.2 Tổng quan toán: Bài toán cho trước tập văn D = {d1,d2, ,dn} tập chủ đề S = {s1,s2, ,sn} Với văn d đưa vào, nhiệm vụ hệ thống gợi ý chủ đề s cho văn d thêm chủ đề bổ sung d vào chủ đề Để giải toán ta cần tập D tập văn mẫu để hệ thống huấn luyện tập chủ đề S chứa chủ đề nội dung văn D Việc phân loại chia làm pha bản: • Pha 1:  Tiền xử lý: chuyển đổi văn dạng text, tách từ, loại bỏ từ không mang ý nghĩa (Stop word) văn bản, trích chọn đặc trưng  Tập huấn luyện: xây dựng tập huấn luyện chủ đề cho hệ thống vănPhân loại văn dựa term cấu trúc văn quy phạm pháp luật • Pha 2:  Xây dựng chủ đề văn bản, chọn từ đặc trưng văn • Pha 3:  Phân loại văn trích chọn pha dựa ontoly 32 Văn Bộ tách từ Bộ trích chọn đặc trưng Tính độ tương tự với văn Kiểm tra từ đặc trưng lớp Không thoả Thoả Gán lớp Yêu cầu người dùng gán lớp Kết thúc Hình 3.2: Sơ đồ tổng quan giải pháp 33 3.3 Mô tả toán: - Cho trước tập Chủ đề S = {s1, s2, …, sn} tập văn D = {d1, d2, …dm} Trong di văn phân chủ đề sj (theo hệ chuyên gia) Văn d (văn mới) đưa vào tập D, nhiệm vụ cho biết d thuộc chủ đề tập S đưa yêu cầu người dùng tự phân loại tay (nếu văn d đặc trưng chủ đề độ tương tự với văn phân loại q thấp) Bài tốn giải thuật tốn sau: Bước 1: tính độ tương tự văn d với văn D Bước 2: tìm văn x D có độ tương tự với d cao d có chứa từ đặc trưng chủ đề văn x Bước 3: tìm thấy x gán d có chủ đề với x, ngược lại không tồn tịa văn x việc gán chủ đề cho d thực tay 3.4 Các bước thực hiện: - Hiện việc phân nhóm, phân loại liệu thường thực thơng qua Vectơ hố văn Việc vectơ hoá văn tập D văn d, việc biểu diễn văn vectơ trình bày mục 1.3.2 luận văn Sau vectơ hoá văn ta tính độ tương tự d với văn phân nhóm văn d dựa vào độ tương tự đặc trung chủ đề Cụ thể bước: - Bước chuẩn bị: o Xây dựng tập chủ đề hệ thống thông qua việc sử dụng lấy ý kiến chuyên gia o Xây dựng tập từ khoá đặc trưng cho chủ đề, việc thực thực theo hệ chuyên gia - Bước phân loại văn mới: 34 Bước 1: Chuẩn hoá văn - Thực chia loại văn dựa vào cấu trúc văn quy định Chính phủ [9] - Thực tìm số hiệu văn dựa vào cấu trúc văn quy định Chính phủ [9] - Loại bỏ từ dừng (stop word) - Chuẩn hoá dấu câu - Thực tác từ, việc tách từ thực cách so khớp từ dài từ điển (đã trình bày mục 1.2.3) - Tính TF, TF_val (đã trình bày mục 1.3.2) Bước 2: Trích chọn đặc trưng - Tính số IDF, IDF_val TF.IDF (đã trình bày mục 1.3.2) - Trích chọn từ đặc trưng dựa vào số IDF, IDF_val TF.IDF Bước 3: Phân loại - Tính độ tương tự văn d với văn phân loại - Sắp xếp độ tương tự giảm dần - Tìm văn x có độ tương tự cao d chứa từ đặc trưng chủ đề X o Nếu tồn văn x thoả điều kiện gán d vào chủ đề o Ngược lại khơng tồn văn x thoả điều kiện yêu cầu người dùng tự phân chủ đề 35 CHƯƠNG CÀI ĐẶT, ĐÁNH GIÁ Cài đặt 4.1 4.1.2 Ngôn ngữ cơng cụ lập trình: - Luận văn sử dụng cơng cụ lập trình Visual Studio 2015 hãng MicroSoft Ngơn ngữ lập trình sử dụng để viết hệ thống thử nghiệm C# dựa Frameword 4.7 - Do ứng dụng thiết kế để minh hoạ nên thiết kế giao diện Windows Form liệu dạng text - Việc chuyển đổi văn từ dạng *.doc, *.docx, *.pdf sang dạng *.txt sử dụng công cụ Doxillion Document Converter NCH Software 4.1.3 Thiết kế liệu: Bảng 4.1.3a: Mô tả cấu trúc SubJect (chủ đề) TT Tên trường ID Kiểu Long Diễn giải Mã số chủ đề, dùng để phân biệt chủ đề với Name String Tên chủ đề Extrac String Chứa từ đặc trưng chủ đề, từ phân biệt dấu chấm phẩy “;” 36 Bảng 4.1.3b: Mô tả cấu trúc Document (văn bản) TT Tên trường ID Kiểu Long Diễn giải Mã số văn bản, dùng để phân biệt văn với SubID Long Mã chủ đề văn DocNum String Số hiệu văn Loai String Tên loại văn bản: Nghị định, Thông tư, Quyết định, Nghị định, Thông liên tịch, Tờ trình, Thống báo, Cơng văn,… Name String Tên tệp (dạng text) 37 Bảng 4.1.3c: Mô tả cấu trúc Word (Từ) TT Tên trường Kiểu Diễn giải ID Long Mã số từ văn DocID Long Từ thuộc văn Word String Từ IS_Extrac Bool True từ đặc trung, ngược false TF Double Số lần xuất từ văn TF_VAL Double Giá trị TF tính theo cơng thức 𝑡𝑓𝑣𝑎𝑙 = IDF Double �1 + log(𝑡𝑓) IDF_VAL Double Giá trị IDF tính theo cơng thức idf_val = Số văn có chứa từ từ khơng xuất văn ID, ngược lại tính theo 𝑖𝑑𝑓_𝑣𝑎𝑙 = log( văn TFIDF Double Giá trị 𝑚 𝑖𝑑𝑓 TF.IDF TF_VAL*IDF_VAL ) với m số lượng tính 38 4.1.4 Mối quan hệ bảng Document Subject ID Word ID ∞ SubId ID ∞ DocID Hình 4.1.4 : Mối quan hệ bảng 4.1.5 Giao diện: 39 40 4.2 Đánh giá: Bảng trình bày kết thử nghiệm hệ thống STT Số Số văn Số văn văn hệ thống phân người yêu cầu người loại dùng phân loại 12 10 nâng Chủ đề Tuyển Dụng Nâng ngạch, lương, phụ cấp Bổ nhiệm Nghỉ hưu, việc 10 Thuyên chuyển 10 Đào tạo, bồi dưỡng 10 41  Tỉ lệ dương TP (True Positive) số văn phân loại việc gán (50 văn bản)  Tỷ lệ dương sai FP (False Positive): số văn phâm loại việc gán nhãn sai (5 văn bản)  Tỷ lệ âm TN (True Negative): số văn không phân loại việc gán nhãn (9 văn bản)  Tỷ lệ âm sai FN (False Negative): số văn không phân loại việc gán nhãn sai (6 văn bản) Quyết định hệ chuyên gia Phân lớp Quyết định True False True 50 False hệ thống máy học Hiệu (hay độ xác) hệ thống phân lớp, đánh giá công thức sau: 𝐩𝐫𝐞𝐜𝐢𝐬𝐢𝐨𝐧 = 𝐩𝐫𝐜𝐚𝐥𝐥 = 𝐅𝐒𝐜𝐨𝐫𝐞 = 𝑻𝑷 𝑻𝑷 𝑻𝑷+𝑭𝑷 𝑻𝑷+𝑭𝑵 = = 𝟓𝟎 𝟓𝟎 𝟓𝟎+𝟗 𝟓𝟎+𝟔 = 𝟎 𝟖𝟗𝟐𝟖 𝟐∗𝒓𝒆𝒄𝒂𝒍𝒍∗𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏+𝒓𝒆𝒄𝒂𝒍𝒍 = 𝟎 𝟖𝟒𝟕𝟒 = 𝟎 𝟖𝟕𝟑𝟗 Khi F_Score = 0.8739 (hay 87.39%) coi hiệu hệ thống phân lớp 42 CHƯƠNG KẾT LUẬN, HƯỚNG PHÁT TRIỂN 5.1 Kết luận - Từ kết nghiên cứu luận văn, cài đặt hệ thống thử nghiệm dựa mơn hình khơng gian vecto, giải phần tương đối ổn toán phân loại văn quy phạm pháp luật dựa vào việc truy hồi thông tin - Tuy nhiên nhiều hạn chế: việc tiền xử lý vằn – chuyển đổi từ *.doc, *.docx, *.dbf sang *.txt - phụ thuộc vao phần mêm bên ngồi - Hệ thống sử dụng máy đơn, dẫn đến việc ứng dụng không rộng liệu không lớn - Việc sử dụng C# lập trình xử lý văn nhiều hạn chế, khơng khai thác thư viện sẵn có Python hay R - Giao diện người dùng chưa thân thiện 5.2 Hướng phát triển - Xây dựng thêm hệ thống tự chuyển đổi dạng văn (từ *.doc, *.docx, *.dbf sang *.txt) - Thay đổi giao diện Windows Form thành Web Form để sử dụng công cụ Python R, đồng thời thiết kế lại ứng dụng thành ứng dụng nhiều người dùng nhằm thu thập nhiều văn hơn, giúp việc phân loại tốt - Cập nhật thêm tính tìm thời hạn văn (nếu có) cho biết văn điều chỉnh văn nào,… 43 DANH MỤC TÀI LIỆU THAM KHẢO [1] Trần Cao Đệ Phạm Nguyên Khang, “Phân loại văn với máy học vector hỗ trợ định” tạp chí Khoa học 2012:21a Đại học Cần Thơ 52-63 [2] Nguyễn Mạnh Hiển, Nguyễn Linh Giang (2005), "Phân loại văn tiếng việt với phân loại véctơ hỗ trợ SVM" Chun san Các cơng trình nghiên cứu - triển khai viễn thông công nghệ thơng tin, Tạp chí Bưu viễn thơng Cơng nghệ thơng tin, số 15 [3] Đỗ Bích Diệp (2004), Phân loại văn dựa mơ hình đồ thị, Luận văn cao học Trường Đại học Tổng hợp New South Wales - Australia [4] Nguyễn Ngọc Bình (2004), “Dùng lý thuyết tập thô kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04 Hà Nội [5] Nguyễn Linh Giang, Nguyễn Duy Hải, “Mơ hình thống kê hình vị tiếng Việt ứng dụng”, Chun san Các cơng trình nghiên cứu, triển khai Công nghệ Thông tin Viễn thông, Tạp chí Bưu Viễn thơng, số 1, tháng 71999, trang 61-67 1999 [6] Huỳnh Quyết Thắng, Đinh Thị Phương Thu (2005), “Tiếp cận phương pháp học không giám sát học có giám sát với tốn phân lớp văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mơ hình vector”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261 [7] Đinh Thị Phương Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng (2005), “Phương án xây dựng tập mẫu cho toán phân lớp văn tiếng Việt: nguyên lý, giải thuật, thử nghiệm đánh giá kết quả”, Bài báo gửi đăng Tạp chí khoa học cơng nghệ 44 [9] Thông 01/2011/TT-BNV ngày 19 tháng 01 năm 2011 Bộ Nội vụ hướng dẫn thể thức kỹ thuật trình bày văn hành chính, Điều 10: Tên loại trích yếu nội dung văn [10] Nguyễn Ngọc Bình (2004), “Dùng lý thuyết tập thơ kỹ thuật khác để phân loại, phân cụm văn tiếng Việt” Kỷ yếu hội thảo ICT.rda’04 [11] Trang Nhật Quang (2007), Ðề xuất công cụ hỗ trợ thu thập phân loại thông tin tiếng Việt internet, Luận van Thạc sĩ, Ðại học Khoa học Tự nhiên TP.HCM, TP.HCM [12] Nguyễn Tài Cẩn (1996), Ngữ pháp tiếng Việt, NXB ĐH Quốc gia Hà Nội [13] Đinh Văn Đức (1986), Ngữ pháp tiếng Việt: Từ loại, NXB Đại học trung học chuyên nghiệp [14] Nguyễn Thanh Tuấn, Hoàng Thị Thanh Hà, Nguyễn Văn Tin, Lê Thành Nhân, “Mơ hình truy vấn liệu tùy chọn dựa ngữ nghĩa câu truy vấn” Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00042 [15] Bùi Nguyên Khởi (2009), Nghiên cứu số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản”, trường Đại học Công nghệ Thông tin [16] Yi-Wei Chen and Chih-Jen Lin, “Combining SVMs with Various Feature Selection Strategies”, Department of Computer Science, National Taiwan University, Taipei 106, Taiwan [17] Baeza-Yates & Ribeiro-Neto, Modern Information Retrieval, Chap 03: Modeling, Modern Information Retrieval 2nd Edition 45 [18] http://viet.jnlp.org/dongdu , truy cập ngày 12/8/2017 [19] https://vi.wikipedia.org/wiki/Học_máy , truy cập ngày 22/8/2017 [20] http://slidegur.com/doc/139203/bài-toán-phân-l-p-tài-li-u , truy cập ngày 20/8/2017 [21] http://www.maxreading.com/sach-hay/dai-cuong-ve-tieng-viet/dac-diemtieng-viet-29201.html , truy cập ngày 12/8/2017 [22] https://en.wikipedia.org/wiki/Naive_Bayes_classifier , truy cập ngày 22/8/2017 [23] https://vi.wikipedia.org/wiki Định_lý_Bayes , truy cập ngày 22/8/2017 [24] https://vi.wikipedia.org/wiki/Học_có_giám_sát , truy cập ngày 22/8/2017 [25] https://vi.wikipedia.org/wiki/Học_khơng_giám_sát , truy cập ngày 22/8/2017 [26] https://machinelearningcoban.com/2017/01/01/kmeans , truy cập ngày 24/8/2017 [27] https://machinelearningcoban.com/2017/01/08/knn , truy cập ngày 24/8/2017 [28] https://vi.wikipedia.org/wiki/Máy_vectơ_hỗ_trợ , truy cập ngày 16/8/2017 [29] http://bis.net.vn/forums/t/482.aspx , truy cập ngày 16/8/2017 ... câu truy vấn văn 2 Việc phân loại văn quy phạm pháp luật bán tự động dựa chủ đề văn thực cách xây dựng ontology để thu thập thông tin phân lớp - Mục đích nghiên cứu: Phân loại văn bán tự động dựa. .. luận văn bao gồm chương: - Chương 1: Tổng quan toán phân loại văn - Chương 2: Các phương pháp phân loại văn - Chương 3: Phân loại bán tự động văn quy phạm pháp luật dựa chủ đề cho hệ thống truy hồi. .. 29 CHƯƠNG − THỰC NGHIỆM HỆ THỐNG PHÂN LOẠI BÁN TỰ ĐỘNG VĂN BẢN QUY PHẠM PHÁP LUẬT DỰA TRÊN CHỦ ĐỀ CHO HỆ THỐNG TRUY HỒI THÔNG TIN 30 3.1 Đặt vấn đề 30 3.2 Tổng quan

Ngày đăng: 12/03/2018, 16:15

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

  • MỤC LỤC

  • DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

  • DANH SÁCH BẢNG

  • DANH SÁCH HÌNH VẼ

  • MỞ ĐẦU

  • CHƯƠNG 1 TỔNG QUAN BÀN TOÁN PHÂN LOẠI VĂN BẢN

    • 1.1 Giới thiệu bài toán phân loại văn bản

      • 1.1.1 Phân lớp văn bản dựa trên cách tiếp cận chuyên gia [24]

      • 1.1.2 Phân lớp văn bản dựa trên cách tiếp cận máy học [15]

      • 1.2 Phương pháp tách từ

        • 1.2.1 Đặc điểm tiếng Việt [16],[17], [25]

        • 1.2.2 Tách từ bằng cách xây dựng các Ontology [18]

        • 1.2.3 Tách từ bằng so khớp dài nhất trong bộ tự điển

        • 1.3 Phương pháp biểu diễn văn bản trên máy [19]

          • 1.3.1 Một số kỹ thuật trích chọn đặc trưng của văn bản [19]

          • 1.3.2 Biểu diễn văn bản bằng Vector[21]

            • 1.3.2.1 Phương pháp dựa trên tần số thuật ngữ (TF-Term Frequency)[21]

            • 1.3.2.2 Phương pháp nghịch đảo tần số văn bản IDF (Inverse Document Frequency) [21]

            • 1.3.3.3 Phương pháp TFxIDF [21]:

            • 1.4 Phương pháp đánh giá hiệu quả của phân lớp:

            • CHƯƠNG 2 CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN

              • 2.1 Bài toán phân loại văn bản

              • 2.2 Các thuật toán thường dùng trong phân loại văn bản

                • 2.2.1 Thuật toán Naïve bayes [26],[27]

                • 2.2.2 Thuật toán k-Means [30]

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan