Ứng dụng máy vector hỗ trợ phân loại công văn theo lĩnh vực

26 116 0
Ứng dụng máy vector hỗ trợ phân loại công văn theo lĩnh vực

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THANH XUÂN SỬ DỤNG MÁY VECTOR HỖ TRỢ PHÂN LOẠI CÔNG VĂN THEO LĨNH VỰC Chuyên ngành: Khoa học máy tính Mã số: 8480101 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2018 Cơng trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS PHẠM MINH TUẤN Phản biện 1: TS TRƯƠNG NGỌC CHÂU Phản biện 2: TS PHẠM XUÂN HẬU Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật chuyên ngành Khoa học may tính họp Trường Đại học Bách khoa Đà Nẵng vào ngày 05 tháng 01 năm 2018 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu Truyền thông Trường Đại học Bách khoa Đại học Đà Nẵng - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Trong quan hành việc phân loại văn bản, công văn theo lĩnh vực như: Công nghệ thông tin, Du lịch, Giao thông vận tải, Giáo dục đào tạo, … công việc thực hàng ngày, việc thực văn thư quan, đơn vị nhiên việc tốn nhiều cơng sức có khơng xác Do tính cấp thiết cần phải có công cụ phân loại tự động giúp cho công việc đơn giản, nhanh xác Phân loại văn tốn xử lý ngơn ngữ tự nhiên gắn liền với học máy thuộc tốn phân loại Việc phân loại văn tự động tiếng anh áp dụng từ lâu, với văn tiếng việt có số khó khăn văn tiếng việt có từ ghép gây nhập nhằng mặt ngữ nghĩa trình tiền xử lý văn bản, trích chọn đặc trưng Vì lý đề xuất chọn đề tài luận văn cao học: “Ứng dụng máy vector hỗ trợ phân loại cơng văn theo lĩnh vực” Mục đích nghiên cứu Nghiên cứu bước giải toán Machine Learning Nắm vững lý thuyết phân lớp Machine Learning, Máy vector hỗ trợ Nắm vững cách trích chọn đặc trưng từ văn bản, công văn Xây dựng phần mềm phân loại văn bản, cơng văn cách xác Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu bao gồm: Học máy áp dụng vào tốn phân loại, trích rút đặc trưng văn bản, ngơn ngữ lập trình cơng cụ xây dựng tốn học máy phân loại văn Phạm vi nghiên cứu: Nghiên cứu học máy, nghiên cứu kỹ thuật phân loại, nghiên cứu kỹ thuật chuẩn hóa văn bản, nghiên cứu kỹ thuật trích đặc trưng văn tiếng việt Phương pháp nghiên cứu Phương pháp nghiên cứu qua nguồn tư liệu xuất bản, báo đăng tạp chí khoa học, sưu tập tư liệu liên quan đến vấn đề nghiên cứu mạng Internet Xây dựng kho liệu dataset phục vụ cho việc training Đánh giá độ xác thuật toán phân loại Ý nghĩa khoa học ý nghĩa thực tiễn luận văn Nghiên cứu chuẩn hóa văn bản, trích rút đặc trung văn tiếng việt cho toán nhận dạng, phân loại văn Kết mở cách trích rút đặc trung văn cho nghiên cứu sau Cấu trúc luận văn Cấu trúc luận văn bao gồm phần Mở đầu, Kết luận chương sau: Chương - Cơ sở lý thuyết Chương - Ứng dụng máy vector hỗ trợ phân loại công văn theo lĩnh vực Chương - Triển khai đánh giá kết Chương - CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU Phân loại văn [1] [2] toán thuộc lĩnh vực Xử lý ngôn ngữ tự nhiên [3] dạng văn Nhưng gắn liền với học máy (Machine Learning) [4] liên quan đến phân loại Bài tốn phân loại văn trình bày sau: cho tập { } Kết gồm văn đầu vào ký hiệu: việc phân loại gán văn vào tập gồm { } hiệu là: phân lớp ký Cũng giống toán học máy khác tốn phân loại văn bao gồm hai bước Huấn luyện (learning) [4] Phân loại (prediction) [4] Hình 1.1: Mơ hình tốn phân loại văn bản, tài liệu Bước thứ Huấn luyện (learning) [4] cách sử dụng kỹ thuật học máy để tìm model hợp lý cho toán phân loại, bao gồm bước sau: Tiền xử lý văn [5] o Làm liệu o Tách từ (Words segmentation) [7] Biểu diễn vector đặc trưng (Feature Extraction) [8] Huấn luyện (learning) [8] Bước thứ hai đem mơ hình thu sau huấn luyện bước thứ nhất, vào thực tế để xem có thực đủ tốt hay không Bước bao gồm bước xử lý văn bước 1, khác điều không huấn luyện lại mơ hình mà sử dụng trực tiếp mơ hình có sẵn để dự đốn văn đưa vào cho kết 1.2 TIỀN XỬ LÝ VĂN BẢN 1.2.1 Xử lý ngôn ngữ tự nhiên 1.2.1.1 Lọc bỏ lỗi tả, lỗi kí tự 1.2.1.2 Loại bỏ từ không mang nghĩa, lặp lại nhiều văn (Stop Words) 1.2.1.3 Tách từ 1.2.2 Biểu diễn văn dạng vector đặc trưng 1.2.2.1 Túi đựng từ (BoW) 1.2.2.2 TF-IDF TF-IDF [10] trọng số từ văn thu qua thống kê thể mức độ quan trọng từ văn bản, mà thân văn xét nằm tập hợp văn TF: Term Frequency, số lần term xuất văn Cách tính TF sau: ( ( ) { ( ) )} Thương số lần xuất từ văn số lần xuất nhiều từ văn (giá trị thuộc khoảng [0, 1]) ( )- số lần xuất từ t văn d { ( )} - số lần xuất nhiều từ văn IDF: inverse document frequency Tần số nghịch từ tập văn ( | | ) }| |{ | |: - tổng số văn tập |{ }|:- số văn chứa từ định, với điều kiện xuất văn Nếu từ khơng xuất văn tập mẫu số => phép chia cho khơng khơng hợp lệ, người ta thường thay mẫu thức }| + |{ Cơ số công thức không thay đổi giá trị từ mà thu hẹp khoảng giá trị từ Vì thay đổi số dẫn đến việc giá trị từ thay đổi số định tỷ lệ trọng lượng với không thay đổi Tuy nhiên việc thay đổi khoảng giá trị giúp tỷ lệ IDF TF tương đồng để dùng bên cho công thức Giá trị TF-IDF: ( ) ( ) ( ) Những từ có giá trị cao từ xuất nhiều văn này, xuất văn khác Việc giúp lọc từ phổ biến giữ lại từ có giá trị cao (từ khố văn đó) 1.2.3 Giảm chiều liệu 1.3 HỌC MÁY 1.3.1 Khái niệm 1.3.2 Các phương pháp học máy 1.3.2.1 Học không giám sát (Unsupervised Learning) 1.3.2.2 Học có giám sát (Supervised Learning) 1.3.2.3 Học bán giám sát (Semi-Supervised Learning) 1.3.2.4 Học tăng cường (Reinforcement learning) 1.4 MỘT SỐ GIẢI THUẬT HỌC MÁY PHÂN LOẠI VĂN BẢN 1.5 MÁY VECTOR HỖ TRỢ (SVM) 1.5.1 Lý thuyết máy vector hỗ trợ Là phương pháp dựa tảng lý thuyết thống kê với hệ thống toán học chặt chẽ, V đảm bảo kết tìm xác Với tính tổng quát cao, V phương pháp áp dụng cho nhiều toán nhận dạng phân loại đối tượng 1.5.1.1 Tổng quan máy vector hỗ trợ SVM [18] biết đến cơng cụ mạnh mẽ tốn phân lớp phi tuyến tính tác giả Vapnik Chervonenkis đề xuất vào năm 1995 Về mặt học thuật, hệ thống máy vector hỗ trợ xây dựng một tập hợp siêu ph ng không gian vơ hạn chiều, sử dụng cho ứng dụng phân loại, hồi quy nhiệm vụ cụ thể khác ột cách trực giác, để phân loại tốt điểm không gian, khoảng cách từ siêu ph ng tới điểm liệu tất lớp xa tốt, hay c n gọi khoảng cách lề lớn sai số tổng qt hóa thuật tốn bé 1.5.1.2 Cơ sở lý thuyết V chất tốn tối ưu với mục tiêu tìm siêu g ng không gian nằm cho sai số phân loại cực tiểu hóa Với tập mẫu {( )( { thuộc vào hai lớp nhãn: ( biểu thị lớp , ) ( )} với , } nhãn lớp tương ứng biểu thị lớp ) Ta có, phương trình siêu ph ng chứa vectơ Xi không gian: ( ) ( ) { Như vậy, ( ) biểu diễn phân lớp nêu Ta nói Khi đó, để có siêu ph ng || ||với với vào hai lớp ta phải giải tốn sau: tìm thỏa mãn điều kiện sau: ( ( )) Bài tốn V giải kỹ thuật sử dụng toán tử Lagrange để biến đổi thành dạng đ ng thức V ột đặc điểm thú vị mặt ph ng định phụ thuộc upport Vector có khoảng cách đến mặt ph ng định || || Cho d điểm khác bị xóa thuật tốn cho kết giống ban đầu Đây điểm bật phương pháp V so với phương pháp khác tất liệu tập huấn luyện đ ng để tối ưu hóa kết Tóm lại, trường hợp nhị phân phân tách tuyến tính, việc phân lớp thực qua hàm định ( ) ( ) hàm thu việc thay đổi vector chuẩn vector để cực đại hóa viền chức Việc mở rộng V , để phân đa lớp đầu tư nghiên cứu Có phương pháp tiếp cận để giải vấn để xây dựng kết hợp nhiều phân lớp nhị phân SVM 1.5.1.3 Bài toán phân lớp nhị phân với SVM Bài toán đặt là: Xác định hàm phân lớp để phân lớp mẫu tương lai, nghĩa với mẫu liệu xi cần phải xác định xi phân vào lớp hay lớp Để xác định hàm phân lớp dựa phương pháp V , ta tiến hành tìm hai siêu ph ng song song cho khoảng cách y chúng lớn để phân tách hai lớp làm hai phía Hàm phân tách tương ứng với phương trình siêu ph ng nằm hai siêu ph ng tìm được: Trong Các điểm có nhãn Các điểm có nhãn Các điểm tương ứng với uport Vector Hình 1.2: Mơ hình b i t n hân l nh hân s n 10 Ch n h m nhân (Kernel function): Lựa chọn hàm nhân ph hợp tương ứng cho toán cụ thể để đạt độ xác cao q trình phân lớp n th m h việ hu n lu ện v i tậ m u: Trong trình huấn luyện sử dụng thuật tốn tối ưu hóa khoảng cách siêu ph ng trình phân lớp, xác định hàm phân lớp không gian đặc trưng nhờ việc ánh xạ liệu vào không gian đặc trưng cách mô tả hạt nhân, giải cho hai trường hợp liệu phân tách không phân tách tuyến tính khơng gian đặc trưng iểm th tậ liệu hu n lu ện 1.5.1.6 So sánh số cải tiến Về bản, V - có hai đặc trưng bản: Luôn kết hợp với liệu có ý nghĩa lớp mặt vật lý, giải thích cách tường minh - Không cần thiết phải sử dụng liệu huấn luyện lớn, nhiên phương pháp có liệu huấn luyện đủ lớn cho kết tối ưu 1.5.1.7 Một số ứng dụng SVM 1.5.2 Hàm nhân (Kernel Function) 1.5.2.1 Khái niệm Một hàm nhân hàm ( cho với ) 〈 ( ) , ta có: ( )〉 Trong 〈 〉 tích vơ hướng khơng gian đặc trưng 11 1.5.2.2 Hàm nhân máy học tuyến tính 1.5.2.3 Hàm nhân mơ hình SVM Kernel hàm nhân trả giá trị tích ảnh điểm liệu vài không gian Bảng 1.1: Công thức hàm nhân SVM Gauss RBF Đa thức Sigmoidal Inverse multi-quadric ( ) ( ) ( ) ( ) ‖ ( (〈 ‖ 〉 ) ( 〈 √‖ ) 〉 ‖ ) 12 Chương - ỨNG DỤNG MÁY VECTOR HỖ TRỢ PHÂN LOẠI CÔNG VĂN THEO LĨNH VỰC 2.1 BÀI TOÁN TRONG THỰC TẾ Trên sở lý thuyết chương I, luận văn tiến hành xây dựng ứng dụng phân loại văn tự động nhằm xác định hiệu khả tiếp cận với hiệu suất chấp nhận ứng dụng mô hình sở thực tế Tập liệu để training testing lấy từ liệu văn tỉnh Quảng Bình phân loại theo lĩnh vực cách xác nhất, sau chọn 10 lĩnh vực phổ biến để sử dụng Như tìm hiểu phương pháp phân loại văn chương trước, nhận thấy SVM phương pháp nhiều cải tiến, có hiệu suất cao so với phương pháp khác Do đó, tơi chọn phương pháp V để phát triển ứng dụng 2.2 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 2.2.1 Mục tiêu Xây dựng phần mềm đọc tự động văn với định dạng Microsoft Word dạng text sau đưa kết lĩnh vực văn đầu vào 2.2.2 Mô hình hoạt động phần mềm 13 Hình bên thể mơ hình hoạt động phần mềm Ở mơ hình có luồng liệu training predict Ở luồng training, người dùng cung cấp văn mẩu chương trình học để tạo model dự đốn Ở luồng predict, người dung cung cấp văn cần phân loại, sau xử lý văn thành vector đưa vào phần mềm Phần mềm trả lĩnh vực thuộc văn đầu vào cách xác Hình 2.1: Mơ hình hoạt động phần m m phân loại 2.2.3 Chức phần mềm 2.2.3.1 Tiền xử lý văn 2.2.3.2 Học hàm phân loại văn 2.2.3.3 Phân loại văn 2.3 SỬ DỤNG MÁY VECTOR HỖ TRỢ ĐỂ PHÂN LOẠI 2.3.1 Tiền xử lý văn 2.3.1.1 Chuyển định dạng từ Word sang dạng text (.txt) 2.3.1.2 Làm liệu text a) Loại bỏ ký tự đặc biệt Loại ký tự khơng có ý nghĩa “%@$.,=+!;/()*"&^:#|\n\t\'” chử số, khoảng trắng b) X lý lỗi đ nh dạn văn 14 Cùng với văn khơng phải định dạng Unicode (UTF-8) đưa vào phần mềm dẫn tới bị lỗi bên dưới: C¸c hoạt động Tuần lễ phải đảm bảo thiết thực, hiệu quả, tập trung h-ớng sở , doanh nghiệp ng-ời lao động chung tay thực tốt công tác bảo đảm an toàn lao động sản xuất, tránh hình thức, lãng phí II Chủ đề hình thức tổ chức: Chủ đề: Chủ đề phát động Tuần lễ quốc gia lần thứ 16 là: "Suy nghĩ hành động mục tiêu không tai nạn lao động, bệnh nghề nghiệp, cháy nổ nơi làm việc Phn ln cỏc bn ca c quan nhà nước Quảng Bình có số đơn vị không sử dụng Font chử Unicode (UTF-8) để soạn thảo, mà sử dụng định dạng Font chữ khác, nên đưa vào phần mềm phải xác định văn có lỗi tiến hành thay định dạng bị lỗi văn đọc Do bước 2.3.1.1 chuyển văn Word thành file text gặp văn bị lỗi định dạng, đọc được, dẫn đến việc phân loại sai Chính bước gặp văn có định dạng chuyển sang file text bị lỗi trên, phải thực bước để thay định dạng lỗi để trở thành file có ý nghĩa đọc Bằng bước sau: Bước 1: Kiểm tra văn có bị lỗi định dạng Font chữ không cách xét tần số xuất ký t nh l ả, ì, ầ, ệ, đ, à, … có nhiều văn bản, kết luận văn bị lỗi Font chữ Trong khn khổ luận văn, tơi đánh giá văn có tỉ lệ ký tự lỗi so với toàn văn lớn 10% văn lỗi định dạng 15 Bước 2: Thay ký tự lỗi thành ký tự có ý nghĩa Ta có bảng định dạng ký tự bị lỗi ký tự Unicode thay phụ lục Bước 3: Chuyển qua bước để tiến hành nhận dạng văn 2.3.1.3 Chuẩn hóa từ Mục đích đưa văn từ dạng khơng đồng dạng Dưới góc độ tối ưu nhớ lưu trữ tính xác quan trọng Một việc quan định dạng tất từ dạng chử thường, đưa vào chương trình có phân biệt hoa thường gây nhập nhằng việc phân loại 2.3.1.4 Tách từ Trong tiếng Việt, dấu cách (space) không sử dụng kí hiệu phân tách từ, có ý nghĩa phân tách âm tiết với Vì thế, để xử lý tiếng Việt, cơng đoạn tách từ (word segmentation) toán quan trọng bậc 2.3.1.5 Loại bỏ từ StopWords StopWords từ xuất nhiều ngôn ngữ tự nhiên, nhiên lại không mang nhiều ý nghĩa Ở Tiếng Việt StopWords từ như: để, này, Đối với ứng dụng phân loại văn bản, công văn quan nhà nước số lượng StopWords ngồi từ thơng dụng Tiếng Việt có nhiều từ đặc thù văn bản, công văn là: ‘ủy ban nhân dân’, ‘đồn thể’, ‘chủ tịch’, ‘phó chủ tịch’, ‘cộng hòa xã hội chủ nghĩa việt nam’, … địa danh tỉnh 16 2.3.1.6 Vector hóa từ Để vector hóa từ ta sử dụng Bag of Words, thuật toán hỗ trợ xử lý ngôn ngữ tự nhiên mục đích BoW phân loại text hay văn Ý tưởng BoW phân tích phân nhóm dựa theo "Bag of Words" Với test data mới, tiến hành tìm số lần từ test data xuất "bag" Tuy nhiên BoW tồn khuyết điểm, nên TF-IDF phương pháp khắc phục 2.3.2 Phân loại văn dựa vào máy vector hỗ trợ Sau văn vector hóa, bước ta chọn mơ hình, thuật tốn học máy phân lớp Máy vector hỗ trợ (SVM) Dữ liệu văn vector hóa chia thành hai tập liệu gồm: - Dữ liệu training - Dữ liệu testing để đánh giá mơ hình Trong chương trình phân loại văn công văn này, sử dụng hàm nhân Linear (Hàm nhân tuyến tính) 2.3.3 Kiểm thử, đánh giá hàm phân loại Việc kiểm thử, đánh giá quan trọng giúp xác định độ xác thuật toán Giá trị hàm phân loại tính vector tập vector kiểm thử Nếu giá trị hàm phân loại khơng âm vector xét vector văn công văn ngược lại au đó, cách so sánh với nhãn vector kiểm thử, ta tính độ xác hàm phân loại Độ xác giúp định có giữ lại hàm phân loại vừa học phải thực lại giải thuật xử lý văn sử dụng thuật toán phân loại khác 17 Chương TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 MÔI TRƯỜNG TRIỂN KHAI 3.1.1 Bài toán Trên sở vấn đề học thuật phân tích thiết kế đưa đây, luận văn tiến hành xây dựng ứng dụng thực tế “Xâ ựng phần m m phân loại văn bản, ôn văn the lĩnh vực áp d ng tỉnh Quảng Bình” 3.1.2 Ngơn ngữ lập trình 3.1.3 Các thư viện hỗ trợ 3.1.3.1 scikit-learn 3.1.3.2 Words segmentation 3.1.3.3 Thư viện StopWords 3.1.3.4 Thư viện Pickle 3.1.4 Tập liệu training testing Tôi sử dụng tập liệu văn tỉnh Quảng Bình phân chia thành 10 lĩnh vực khác Được phân chia tỉ lệ training testing bảng đây: Bảng 2.1: Tập d liệu training testing STT Lĩnh vực Tổng số Training Testing CNTT Viễn thông 45 30 15 Đất đai 289 239 50 Giáo dục đào tạo 236 199 37 Giao thông 121 97 24 Khoa học – Công nghệ 43 29 14 18 Nơng nghiệp 247 209 38 Phòng chống lụt bảo 77 64 13 Thi đua – Khen thưởng 286 240 46 Xây dựng 186 159 27 10 Y tế 195 159 36 Tổng cộng 1725 1425 300 3.1.5 Hình ảnh Demo chương trình Hình 2.2: Ứng d ng phân loại văn tự động n n Web 3.2 MƠ HÌNH PHÂN LOẠI VĂN BẢN Luận văn tiến hành xây dựng mơ hình phân loại văn theo hai phương pháp dựa văn đầu vào huấn luyện kiểm thử để tiến hành đánh giá so sánh kết phân loại, nhằm chọn mơ hình phân loại có độ xác cao Hai phương pháp khác bước làm liệu (2.3.1.1) phần tiền xử lý văn 19 (2.3.1), phần lại đề sử dụng chung phương pháp Cuối việc xử lý văn vector đặc trưng văn Kết đầu vào thuật toán học máy Máy vector hỗ trợ kết cuối mơ hình phân loại văn Các phương pháp là: 3.2.1 Mơ hình phân loại sử dụng xử lý văn loại bỏ tất ký tự khơng mang nghĩa Mơ hình thực bước xử tiền xử lý văn mục 2.3.1, khác bước làm liệu không tiến hành kiểm tra ký tự bị lỗi định dạng Unicode trình chuyển đổi từ doc, docx, pdf sang txt, mà tiến hành loại bỏ tất ký tự không mang nghĩa Cuối c ng trích rút vector đặc trưng đưa vào huấn luyện kiểm thử 3.2.2 Mơ hình phân loại sử dụng xử lý văn loại bỏ tất các ký tự đặc biệt, thay ký tự lỗi định dạng thành ký tự có nghĩa Mơ hình thực bước xử tiền xử lý văn tương tự mơ hình nêu mục 3.2.1, khác bước làm liệu sau chuyển đổi từ doc, docx, pdf sang txt, loại bỏ ký tự không mang nghĩa (mục 2.3.1.2 a) kiểm tra xem văn có bị lỗi định dạng Unicode khơng, sau tiến hành thay ký tự lỗi định dạng thành ký tự có nghĩa theo bước mục 2.3.1.2 b Cuối sử dụng vector đặc trưng để huấn luyện kiểm thử 20 3.3 ĐÁNH GIÁ KẾT QUẢ 3.3.1 Đánh giá tốn phân loại 3.3.2 Đánh giá mơ hình phân loại cơng văn theo lĩnh vực PP1: Trích ch n đặ trưn văn từn lĩnh vực, làm d liệu s d ng x l văn loại bỏ t t ký tự khôn m n n hĩ Bảng 2.2: Kết đ nh giá phân loại văn the 10 lĩnh vực, s d ng x l văn loại bỏ ký tự khôn m n n hĩ (PP1) precis ion Lĩnh vực recall f1score Tổng VB kiểm thử VB có nhiều ký tự lỗi CNTT Viễn thông 0.53 0.67 0.59 15 Đất đai 0.97 0.78 0.87 50 10 Giáo dục đào tạo 0.91 0.78 0.84 37 Giao thông 0.42 0.54 0.47 24 KH-CN 0.57 0.86 0.69 14 Nông nghiệp 0.85 0.74 0.79 38 Phòng chống lụt bảo 0.98 0.62 0.76 13 Thi đua – Khen thưởng 0.98 0.96 0.97 46 Xây dựng 0.59 0.89 0.71 27 Y tế 0.9 0.75 0.82 36 Trung bình/Tổng 0.82 0.78 0.79 300 60 21 PP2: Trích ch n đặ trưn văn từn lĩnh vực, làm d liệu s d ng x l văn loại bỏ t t các ký tự đặc biệt, thay ký tự lỗi đ nh dạng thành ký tự có n hĩ Bảng 2.3: Kết đ nh i phân loại văn the 10 lĩnh vực, s d ng x l văn loại bỏ ký tự đặc biệt, thay ký tự lỗi đ nh dạng thành ký tự ó n hĩ (PP2) VB có nhiều ký tự lỗi recall CNTT Viễn thông 1.00 0.8 0.89 15 Đất đai 1.00 0.98 0.99 50 10 Giáo dục đào tạo 0.92 0.95 0.93 37 Giao thông 0.87 0.54 0.67 24 Khoa học – Công nghệ 0.60 0.86 0.71 14 Nơng nghiệp 0.90 0.95 0.92 38 Phòng chống lụt bảo 0.92 0.85 0.88 13 Thi đua – Khen thưởng 0.98 0.96 0.97 46 Xây dựng 0.72 0.85 0.78 27 Y tế 0.92 0.94 0.93 36 Trung bình/Tổng 0.91 0.9 0.9 300 60 Lĩnh vực f1score Tổng VB kiểm thử precisi on 22 Biểu đồ so sánh kết hai phương pháp: Hình 2.3: Biểu đồ so sánh kết h i hươn h (PP1, PP2) Thống kê cho thấy, mức độ xác sử dụng mơ hình nhận dạng đề xuất cao Kết cho thấy rằng, việc sử dụng kỹ thuật xử lý văn mơ hình phân lớp V tốn phân loại văn thực hiệu Bên cạnh từ hai kết đánh giá biểu đồ so sánh (PP1, PP2) ta thấy việc xác định ký tự bị lỗi việc văn Font chữ Unicode (PP2) cho việc đánh giá có kết tốt Điều giúp cho việc phân loại tương lai, văn đưa vào văn định dạng Font chữ Unicode phân loại cách xác 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong quan nhà nước nay, việc sử dụng văn điện tử thay cho văn giấy ngày phổ biến Việc lưu trữ, tìm kiếm văn dễ dàng nhờ máy tính Nhưng cơng việc phân loại văn làm thủ cơng, dựa vào người Do cần phải có nghiên cứu để phân loại văn bản, công văn cách tự động Luận văn bao tr m phương pháp phân loại văn sử dụng rộng rãi tập trung vào phương pháp tiền xử lý văn sử dụng thuật toán Máy vector hỗ trợ để phân loại văn Trong tốn học máy việc có liệu quan trọng việc phân loại hiệu Luận văn tập trung giải khác biệt tiền xử lý văn Tiếng Anh Tiếng Việt Thừa kế phương pháp tiền xử lý văn Tiếng Anh, bổ sung cải tiến để áp dụng vào Tiếng Việt cách hiệu nhất, nhằm loại bỏ từ không cần thiết cho việc phân loại giảm chiều vector đặc trưng Luận văn đề xuất việc tìm kiếm văn có nhiều ký tự lỗi để xác định văn nhiều lỗi lỗi định dạng chữ Unicode để đưa phương án thay định dạng chữ thành ký tự có ý nghĩa nhằm trích rút vector đặc trưng phục vụ cho việc phân loại xác Với kết nhận từ thực nghiệm, tơi thấy có sở để tin tưởng vào kết khả quan việc ứng dụng giải thuật V , kết hợp với phương pháp trích chọn đặc trưng hợp lí cho tốn phân loại văn Trong khuôn khổ luận văn xây dựng ứng dụng đơn giản phân loại công văn theo lĩnh vực áp dụng tỉnh Quảng Bình 24 Hướng phát triển tương lai đề tài nghiên cứu điều chỉnh phương pháp phân loại văn cho phù hợp với ngôn ngữ Tiếng Việt Đồng thời thử nghiệm thêm hàm nhân khác V như: Polynomial, RFB, sigmoid biểu diễn vector đặc trưng khác văn doc2vec Nhằm so sánh kết với phương pháp au áp dụng để phân loại thêm nhiều loại văn không giới hạn văn quan hành mà phân loại tin tức theo thể loại, phần mềm lọc spam mail, … ... ‖ ) 12 Chương - ỨNG DỤNG MÁY VECTOR HỖ TRỢ PHÂN LOẠI CƠNG VĂN THEO LĨNH VỰC 2.1 BÀI TỐN TRONG THỰC TẾ Trên sở lý thuyết chương I, luận văn tiến hành xây dựng ứng dụng phân loại văn tự động nhằm... động phần m m phân loại 2.2.3 Chức phần mềm 2.2.3.1 Tiền xử lý văn 2.2.3.2 Học hàm phân loại văn 2.2.3.3 Phân loại văn 2.3 SỬ DỤNG MÁY VECTOR HỖ TRỢ ĐỂ PHÂN LOẠI 2.3.1 Tiền xử lý văn 2.3.1.1 Chuyển... phương pháp khắc phục 2.3.2 Phân loại văn dựa vào máy vector hỗ trợ Sau văn vector hóa, bước ta chọn mơ hình, thuật tốn học máy phân lớp Máy vector hỗ trợ (SVM) Dữ liệu văn vector hóa chia thành hai

Ngày đăng: 15/09/2019, 22:55

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan