NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NHỮ VĂN KIÊN NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 Người hướng dẫn khoa học: TS NGUYỄN PHƯƠNG THÁI TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2013 MỞ ĐẦU Gán nhãn từ loại (Part-of-speech tagging –POS tagging) tự động phát lỗi giải (nhãn) từ loại (Detecting Errors in Partof-Speech Annotation) hai toán quan trọng xử lý ngôn ngữ tự nhiên Tuy nhiên nghiên cứu Việt Nam hai vấn đề giai đoạn đầu, phương pháp tự động phát lỗi giải từ loại kho ngữ liệu tiếng Việt chưa có nhiều tài liệu tham khảo công trình nghiên cứu Do đó, nhu cầu sở khoa học xây dựng công cụ thực sẵn dùng Thực tế cho thấy, hai trình liên quan mật thiết với ảnh hưởng đến chất lượng hệ chung Vì thế, luận văn “Nghiên cứu phƣơng pháp tự động phát lỗi kho ngữ liệu tiếng Việt đƣợc giải từ loại” Đóng góp luận luận văn việc tìm hiểu, nghiên cứu đề xuất mô hình thực gán nhãn từ loại phương pháp tự động phát lỗi giải từ loại kho ngữ liệu tiếng Việt; sử dụng công cụ vnTagger thực gán nhãn từ loại; bên cạnh tiến hành xây dựng công cụ tự động phát lỗi giải từ loại tiếng Việt kho ngữ liệu VietTreeBank có 10.165 câu với khoảng 230.000 từ Luận văn tiến hành thực nghiệm kho ngữ liệu VietTreeBank áp dụng mô hình entropy cực đại thuật toán variaion n-gram cho kết thực nghiệm khả quan, có độ xác cao Các kết hữu ích cho nghiên cứu mức cao dịch máy, tự động sửa lỗi giải, tóm tắt văn bản,… Cấu trúc luận văn trình bày sau: Chƣơng 1: Tổng quan từ loại: Trong chương này, luận văn giới thiệu hai vấn đề xử lý ngôn ngữ tự nhiên tách từ gán nhãn từ loại tiếng Việt – hướng tiếp cận cho toán gán nhãn tìm hiểu kho ngữ liệu treebank tiếng Việt gồm có tập nhãn từ loại hướng dẫn gán nhãn phát triển VietTreeBank Chƣơng 2: Phƣơng pháp gán nhãn từ loại phát lỗi tự động kho ngữ liệu tiếng Việt đƣợc giải từ loại: Chương nghiên cứu đề xuất mô hình gán nhãn từ loại phương pháp phát lỗi tự động giải từ loại kho ngữ liệu VietTreeBank Các công việc mà luận văn tiến hành nhằm đề xuất sử dụng mô hình gán nhãn từ loại Maximum Entropy Model (MEM) phương pháp entropy cực đại kết hợp với thuật toán variation Ngram cho toán tự động phát lỗi giải từ loại kho ngữ liệu tiếng Việt Chƣơng Thực nghiệm đánh giá kết quả: Chương trình bày công việc thực nghiệm mà khóa luận tiến hành, bao gồm việc sử dụng công cụ gán nhãn từ loại vnTagger xây dựng công cụ tự động phát lỗi giải từ loại Từ kết đạt tiến hành đối chiếu, đánh giá đưa vị trí lỗi giải từ loại kho ngữ liệu VietTreeBank Chƣơng Kết luận hƣớng phát triển: Tóm lược kết đạt đóng góp khóa luận, đồng thời định hướng số hướng nghiên cứu thời gian tới 3 Chƣơng TỔNG QUAN VỀ TỪ LOẠI 1.1 Vấn đề tách từ gán nhãn từ loại tiếng Việt 1.1.1 Khái quát toán tách từ Tiếng Việt ngôn ngữ đơn lập, không biến hình, ký tự dựa hệ chữ Latin Cũng giống với thứ tiếng khác tiếng Trung, tiếng Nhật, tiếng Hàn từ tiếng Việt không xác định khoảng trắng (dấu cách) Một từ tiếng Việt tạo nhiều hình vị hình vị phân tách khoảng trắng Từ đơn vị để phân tích cấu trúc ngôn ngữ, để tiến tới ứng dụng xa xử lý ngôn ngữ tiếng Việt gán nhãn chức cú pháp, phân tích cú pháp việc ta phải giải toán tách từ Các nhà nghiên cứu đề xuất số hướng tiếp cận để giải toán tách từ [6, 16] Nhìn chung, hướng tiếp cận chia thành hai loại: tiếp cận dựa từ điển tiếp cận dựa thống kê Hai phương pháp tiêu biểu hướng tiếp cận dựa vào từ điển Longest Matching Maximal Matching Hầu hết nghiên cứu khởi thủy tách từ dựa cách tiếp cận [14] Hướng tiếp cận có đặc điểm đơn giản, dễ hiểu nhiên hiệu mang lại không cao Lý không xử lý nhiều trường hợp nhập nhằng khả phát từ văn Chính mà hệ thống tách từ có chất lượng cao thường sử dụng hướng tiếp cận dựa thống kê Trong nghiên cứu đó, tác giả phân tách hai trình nhận dạng từ tách từ biết hai tiến trình độc lập Nghiên cứu phương pháp phát từ ta thấy thông tin N-gram đóng vai trò hữu ích giúp ta phát từ mà corpus thống kê đủ lớn xác định độ đo phù hợp Câu hỏi đặt làm cách để tận dụng từ tất nguồn tri thức 4 1.1.2 Khái quát toán gán nhãn từ loại 1.1.2.1 Giới thiệu toán gán nhãn từ loại Công việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn đó, tức phân loại từ thành lớp từ loại dựa thực tiễn hoạt động ngôn ngữ Việc gán nhãn từ loại thường thể cách gán cho từ “nhãn” có sẵn theo tập nhãn cho trước: + Input: Một chuỗi từ (ví dụ tiếng Việt: “Tôi vẽ tranh”) + Output: Một nhãn tốt cho từ câu (Ví dụ: Tôi/P vẽ/V một/M bức_tranh/N1) 1.1.2.2 Quá trình gán nhãn từ loại: Gán nhãn từ loại trình gồm bước xử lý sau: - Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi từ Giai đoạn đơn giản hay phức tạp tuỳ theo ngôn ngữ quan niệm đơn vị từ vựng - Khởi tạo gán nhãn: Tức tìm cho từ tập tất nhãn từ loại mà có Tập nhãn thu từ sở liệu từ điển kho ngữ liệu gán nhãn tay - Quyết định kết gán nhãn: Đó giai đoạn loại bỏ nhập nhằng, tức lựa chọn cho từ nhãn phù hợp với ngữ cảnh tập nhãn khởi tạo nói Như vậy, gán nhãn từ loại bước tiền xử lý quan trọng cho phần trình xử lý ngôn ngữ tự nhiên phân tích cú pháp, phân tích ngữ nghĩa 1.1.2.3 Ngữ liệu (Corpus) Để thực gán nhãn từ loại ta phải có kho ngữ liệu, chúng là: - Từ điển văn phạm loại bỏ nhập nhằng Tập nhãn từ loại dùng treebank tiếng Việt - Kho văn gán nhãn, kèm theo quy tắc ngữ pháp xây dựng tay - Kho văn chưa gán nhãn, có kèm theo thông tin ngôn ngữ tập từ loại thông tin mô tả quan hệ từ loại hậu tố Kho văn chưa gán nhãn, với tập từ loại xây dựng tự động nhờ tính toán thống kê Trong trường hợp khó dự đoán trước tập từ loại 1.1.2.4 Các hướng tiếp cận giải toán Khi thực toán gán nhãn từ loại, ta gặp phải số khó khăn Khó khăn chủ yếu từ thường có nhiều từ loại Hiện nay, có hai hướng tiếp cận cho gán nhãn từ loại tự động tiếp cận có giám sát không giám sát: - Tiếp cận có giám sát: nghĩa phải xây dựng kho ngữ liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại Gán nhãn dựa luật sử dụng từ điển để tìm từ loại cho từ, sử dụng luật làm thành nghĩa thường liên quan tới sở liệu lớn luật viết tay - Tiếp cận không giám sát: Các mô hình không giám sát không yêu cầu kho ngữ liệu gán nhãn lại sử dụng thuật toán tính toán phức tạp để tự động xây dựng nhóm từ (nghĩa xây dựng tập nhãn) dựa nhóm từ để tính toán thông tin xác suất cần thiết cho gán nhãn thống kê để xây dựng luật ngữ cảnh cần thiết cho hệ thống dựa luật 1.1.2.5 Bài toán gán nhãn từ loại tiếng Việt + Ngôn ngữ tiếng Việt (Vietnamese language): Tiếng Việt ngôn ngữ có trật tự cố định với thứ tự từ S-V-O (chủ ngữ, động từ tân ngữ) Tiếng Việt dựa vào thứ tự thành phần câu để truyền đạt thông tin ngữ pháp quan trọng Mặc dù, văn tiếng Việt viết chữ bảng chữ Latin, có ba đặc tính chủ yếu tiếng Việt mà phân biệt với ngôn ngữ phương Tây là: - Thứ nhất, tiếng Việt ngôn ngữ cố định hình thức từ không thay đổi Vì tất thông tin văn phạm chuyển tải thông qua thứ tự từ cấu tạo từ Đặc điểm cố định làm cho tượng đặc biệt ngôn ngữ phổ biến tiếng Việt: hình thức từ sử dụng khả mà không nằm đặc trưng (một động từ sử dụng danh từ, danh từ tính từ ) mà không cần thay đổi hình thái - Thứ hai, tiếng Việt ngôn ngữ đơn lập, trường hợp đặc biệt phân tích ngôn ngữ, hình vị nhất, âm tiết đơn lập Đơn vị từ vựng tạo thành âm tiết, có vị trí tách biệt văn Mặc dù từ điển chứa phần lớn từ ghép, âm tiết chiếm phần lớn từ xuất - Sự khác biệt thứ ba, hệ sau này, dấu phân cách từ tiếng Việt: khoảng trống sử dụng để tách biệt âm tiết dấu hiệu cụ thể phân biệt khoảng trống từ thực tế Ví dụ, chuỗi đơn giản ba âm tiết a b c tạo thành ba từ (a) (b) (c), hai từ (ab) (c), hai từ (a) (bc) chí từ (abc) + Tập nhãn từ loại tiếng Việt (Vietnamese tagset): Theo [9] giới thiệu tập nhãn sử dụng dự án phát triển treebank cho ngôn ngữ Tập nhãn đầy đủ thiết kế để sử dụng treebank tiếng Việt gồm có 18 nhãn (xem Bảng 1.2) Hiện nay, Việt Nam có số tập nhãn từ loại xây dựng, chủ yếu mức thô, tiêu biểu kể đến: Bộ nhãn VnPOStag tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định nhãn ký hiệu đặc biệt khác Bộ VietTreeBank gồm 18 nhãn Bộ nhãn nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag gồm 48 nhãn 01 nhãn không xác định 7 1.1.3 Một số khái niệm sử dụng luận văn 1.1.3.1 Ngữ liệu (Corpus) Ngữ liệu thường tập hợp câu dạng tiếng nói hay văn bản, có chứa thông tin cần thiết cho toán cụ thể xử lý ngôn ngữ tự nhiên 1.1.3.2 Ngữ liệu vàng (Golden Corpus) Ngữ liệu vàng dạng ngữ liệu có chứa thông tin từ loại nhãn từ loại hoàn toàn xác 1.1.3.3 Ngữ liệu huấn luyện (Training corpus) Ngữ liệu huấn luyện ngữ liệu tạo từ ngữ liệu vàng để chuẩn bị cho trình học máy 1.1.3.4 Hình vị (Morpheme) Hình vị xem đơn vị tế bào gốc, đơn vị tế bào ngôn ngữ, gọi “từ tố” Hình vị tiếng Việt có gồm có tiếng, có gồm nhiều tiếng tạo thành 1.1.3.5 Âm tiết hay tiếng Tiếng (âm tiết): hay nhiều âm phát lúc tạo thành Tiếng đơn vị tiếng Việt có âm đầu, vần 1.1.3.6 Từ (Word) Từ gồm có tiếng tổ hợp tiếng có ý nghĩa hoàn chỉnh Căn vào cách cấu tạo, ta có từ đơn từ phức; từ phức có từ ghép từ láy (hay láy âm) 1.2 Tìm hiểu treebank tiếng Việt 1.2.1 Giới thiệu Tiếng Việt ngôn ngữ đơn lập ký tự tách từ việc phân tích câu có nhiều nhập nhằng Để giải nhập nhằng nhóm tác giả xây dựng treebank tiếng Việt vận dụng nhiều thủ thuật ngôn ngữ học Quá trình gán nhãn cú pháp hỗ trợ công cụ gán nhãn tự động công cụ soạn thảo Nguồn ngữ liệu thô lấy từ báo tuổi trẻ điện tử Độ đồng thuận mà nhóm tác giả đạt cao, khoảng 90% Treebank thường dùng để xây dựng hệ phân tích cú pháp, gán nhãn từ loại, tách từ 8 Trong luận văn này, trình bày tập nhãn từ loại hướng dẫn gán nhãn từ loại Còn phần tập nhãn cú pháp hướng dẫn gán nhãn cú pháp, công cụ hỗ trợ người làm ngữ liệu qui trình gán nhãn cú pháp xem [18] 1.2.2 Tập nhãn từ loại Dựa vào nghĩa khái quát Nhóm tác giả xây dựng tập nhãn từ loại chứa thông tin từ loại sở mà không bao gồm thông tin hình thái, phân loại con, v.v Tập nhãn từ loại liệt kê Bảng 1.3, gồm có 18 nhãn từ loại 1.2.3 Hướng dẫn gán nhãn 1.2.3.1 Xây dựng tài liệu hướng dẫn gán nhãn Đây tài liệu quan trọng bao gồm không thông tin tập nhãn, mà hướng dẫn gán nhãn cho tượng cụ thể với ví dụ minh họa 1.2.3.2 Công cụ hỗ trợ Công cụ hỗ trợ người gán nhãn làm việc hiệu Có hai nội dung hỗ trợ soạn thảo cú pháp gán nhãn từ loại tự động 1.2.3.3 Quá trình gán nhãn từ loại Quá trình gán nhãn câu gồm ba bước: tách từ, gán nhãn từ loại, phân tích cú pháp Qui trình thực gán nhãn tương tự nhau, nhiên bước yêu cầu kiến thức có đặc trưng riêng Mỗi người gán nhãn có người review sửa lỗi Những trường hợp không chắn ghi lại để thảo luận với nhóm thiết kế (xem hình 1.3) Theo [10], công cụ gán nhãn sử dụng phát triển Treebank có số điểm F1 90,5%, độ xác không cao Do đó, luận văn trình bày công cụ gán nhãn từ loại Lê Hồng Phương dựa nguyên lý phân lớp liệu entropy cực đại, quan sát kể nguồn tri thức hữu ích cho việc gán nhãn từ loại tiếng Việt đạt kết là: độ xác tổng thể 93.40% độ xác với từ chưa biết 80.69% thử nghiệm treebank tiếng Việt [9] 9 Chƣơng PHƢƠNG PHÁP GÁN NHÃN TỪ LOẠI VÀ PHÁT HIỆN LỖI TỰ ĐỘNG TRONG KHO NGỮ LIỆU TIẾNG VIỆT ĐƢỢC CHÚ GIẢI TỪ LOẠI 2.1 Giới thiệu mô hình N-gram 2.1.1 Khái quát Một N-gram yếu tố (từ, tiếng, nhãn từ loại,) liên tiếp ngữ liệu Số yếu tố N-gram gọi bậc N-gram, thông thường N-gram có bậc từ tới N-gram bậc gọi unigram, bậc gọi bigram, bậc gọi trigram, bậc gọi quadrigram,… N-gram dùng để ước lượng xác suất xuất yếu tố dựa vào yếu tố xung quanh câu Do đó, N-gram áp dụng cho hệ thống tách từ, gán nhãn từ loại, phát lỗi giải từ loại,… 2.1.2.Variation n-gram Theo [3], với từ xuất ngữ liệu có tập nhãn xác định có khả gán cho từ Một từ xuất nhiều lần kho ngữ liệu gán với nhiều nhãn khác kho ngữ liệu Chúng gọi Variation (biến thể) Biến thể ngữ liệu giải gây hai lý do: + Nhập nhằng: Một từ gán nhiều nhãn từ loại vị trí xuất khác Trong kho ngữ liệu, từ ta có nhiều lựa chọn nhãn từ loại để gán + Lỗi: Việc gán nhãn từ không quán lần xuất tương tự Tác giả sử dụng thuật ngữ variation n-gram Ngram bao gồm n từ kho ngữ liệu có chứa từ gán nhãn từ loại khác lần xuất khác N-gram kho ngữ liệu Từ thể biến đổi gọi variation nuclei (hạt nhân biến đổi) 10 2.1.3 Thuật toán Variation N-gram Ðể tìm tất biến thể n-gram kho ngữ liệu đầu vào kho ngữ liệu giải từ loại kết đầu danh sách biến thể n-gram, từ n = đến giá trị n lớn mà có Variation n-gram kho ngữ liệu, gồm bước sau: Bước 1: Xác định tập biến thể 1-gram lưu trữ biến thể 1-gram vị trí chúng kho ngữ liệu Bước 2: Dựa vị trí lưu trữ Variation n-gram kho ngữ liệu, mở rộng n-gram hai phía (trừ ngữ liệu kết thúc đó) Với (n +1)-gram, kiểm tra xem khác kho ngữ liệu hay không có thay đổi gán nhãn (n + 1)-gram vị trí khác lưu trữ tất biến thể (n + 1)-gram vị trí chúng kho ngữ liệu Bước 3: Lặp lại Bước nhận giá trị n mà không variation n-gram kho ngữ liệu 2.2 Mô hình entropy cực đại Mô hình entropy cực đại kỹ thuật dùng để đánh giá phân phối xác suất liệu văn Tư tưởng phương pháp chưa biết không rõ ràng giả định (cực đại hóa độ hỗn loạn) Tức áp đặt phân phối lên kiện chưa biết Dữ liệu gán nhãn sử dụng để lấy tập ràng buộc cho mô hình mà mô tả đặc điểm riêng cho lớp cụ thể gán cho văn cần phân lớp Cuối cùng, thuật toán IIS tìm phân phối mà thỏa mãn ràng buộc đưa thỏa mãn cực đại entropy với phân phối xác suất Ưu điểm lớn mô hình cực đại entropy tính mềm dẻo mô hình: cung cấp hệ thống quy luật có tính thống kê ngẫu nhiên để bổ sung cú pháp, ngữ nghĩa vào đặc trưng Tuy nhiên, mô hình cực đại entropy đòi hỏi chi phí lớn cho việc tính toán để ước lượng xác tham số mô hình 11 2.2.1 Nguyên lý entropy cực đại Tư tưởng chủ đạo nguyên lý cực đại hóa Entropy ta phải xác định phân phối mô hình cho phân phối tuân theo giả thiết biết từ thực nghiệm không đưa thêm giả thiết khác 2.2.2 Các đặc trưng gán nhãn từ loại (POS – tagging) Trong MEM, dùng liệu huấn luyện để xác định ràng buộc phân phối điều kiện Mỗi ràng buộc thể đặc trưng liệu huấn luyện Mỗi ràng buộc quan sát đầu vào nhãn đầu xem đặc trưng fi (h,t) Vì thế, xác suất đồng thời lịch sử h nhãn t xác định tham số mà đặc trưng tương ứng hữu ích, ví dụ:  i thỏa mãn fj(h,t) = Một đặc trưng có (h,t), tác động vào từ nhãn history h, phải mã hoá thành thông tin mà giúp dự đoán t, vần từ tại, xác định hai nhãn phía trước Các từ nhãn ngữ cảnh cụ thể có sẵn đặc trưng cho định nghĩa sau history hi công thức 2.11 hi = {wi, wi+1, wi+2, wi-1, wi-2, ti-1, ti-2} (2.11) 2.2.3 Bộ công cụ gán nhãn từ loại tiếng Việt vnTagger 2.2.3.1 Giới thiệu vnTagger Chương trình vnTagger tác giả Lê Hồng Phương dùng để tách từ gán nhãn từ loại cho văn tiếng Việt Tập nhãn dùng chương trình Bảng 1.2 gồm 18 nhãn từ loại 2.2.3.2 Yêu cầu cài đặt Máy cần cài JRE (Java Runtime Environment) phiên 1.6 2.2.3.3 Chạy chương trình dạng dòng lệnh (MS DOS): - vnTagger.sh chạy Linux/Unix/Mac OS - vnTagger.bat chạy hệ điều hành MS Windows Gán nhãn tệp vnTagger.bat -i samples/5.txt -o samples/5.tagged.xml Kiểm tra tệp gán nhãn 2.2.3.4 Khai báo hàm thư viện (API) 12 2.2.4 Áp dụng cho toán gán nhãn từ loại tiếng Việt 2.2.4.1 Mô hình gán nhãn từ loại tiếng Việt Chúng ta có nhiều cách tiếp cận khác cho toán gán nhãn từ loại Luận văn này, sử dụng phương pháp học máy MEM sử dụng thành công cho tiếng Anh số thứ tiếng khác Khi đó, toán gán nhãn từ loại xem toán phân lớp với lớp nhãn từ loại xác định trước Lúc này, việc gán nhãn từ loại thực sau có thông tin từ vựng thông tin nhãn từ loại Kiến trúc tổng thể mô hình gán nhãn từ loại sử dụng thực nghiệm thể hình 2.6 2.2.4.2 Thực nghiệm mô hình gán nhãn từ loại Theo [9], kết thực nghiệm số mô hình gán nhãn từ loại đạt từ việc sử dụng phương pháp huấn luyện liệu dựa mô hình entropy cực đại (xem mục 2.2) Việc thiết lập đặc trưng gán nhãn từ loại khác tạo nên khác biệt mô hình gán nhãn Tất mô hình huấn luyện kiểm thử kho ngữ liệu VietTreeBank + Kho ngữ liệu đánh giá Mô hình huấn luyện thử nghiệm phần gán nhãn từ loại kho ngữ liệu VietTreebank gồm có 10,165 câu tách từ, gán nhãn từ loại tay phân tích cú pháp đầy đủ + Mô hình sở Trước tiên phát triển mô hình sở tương tự mô hình Markov có điều kiện ngữ cảnh có sẵn để dự đoán nhãn từ wi chuỗi từ wiw2…wn với nhãn t1t2…tn {ti-1ti-2wiwi+1} Mô hình có độ xác tổng thể 90.23% độ xác từ chưa biết 47,08% Vì lý đó, tác giả tập trung vào việc mở rộng tính thiết lập phép vnTagger đoán tốt nhãn từ chưa biết 13 + Đặc trưng từ chưa biết Để tăng khả dự đoán mô hình cho từ chưa biết, số mẫu tính đặc biệt có mô hình sở mô hình kết gọi mô hình 1a Dựa ý tưởng từ chưa biết từ gặp, chúng không quan sát trước Chúng ta xem xét tính bổ sung cố gắng tìm nhãn từ ghép chưa biết âm tiết cuối từ Mô hình 1a tăng cường với đặc tính bổ sung gọi mô hình 1b Chúng ta tìm thấy hữu ích độ dài từ tính âm tiết dự đoán từ chưa biết Thêm mẫu số lượng âm tiết wi mô hình 1b tăng nhẹ tính xác kết mô hình 1c Kết tập kiểm tra bốn mô hình trình bày thể bảng 2.5 [9] + Đặc trưng danh từ riêng Một nguyên nhân gây lỗi gán nhãn nhập nhằng Danh từ riêng (Np) Danh từ (N) Bảng 2.6 cho thấy kết mô hình 1d kết hợp đặc trưng âm tiết viết hoa + Mô hình tổng quát Việc sử dụng đặc trưng mở rộng từ vựng nhiều từ liên tiếp gần nghĩa với tạo hiệu suất gán nhãn mức độ cao Bằng cách kết hợp tất đặc trưng tốt mô hình 1d thêm mẫu đặc trưng hai từ trước vào vị trí ± từ tại, có mô hình 2, tạo thành mô hình tốt thực nghiệm thể Bảng 2.7 Mô hình có độ xác cao kết gán nhãn từ loại cho văn tiếng Việt Bảng 2.8 cho thấy độ xác mô hình kết hợp tốt với độ xác câu [9]: Độ xác tổng Độ xác từ Độ xác câu thể chƣa biết 93.40% 80.69% 31.40% Bảng 2.8 Độ xác mô hình tốt 14 Tuy nhiên, tiếng Việt ngôn ngữ đơn lập ký tự tách từ việc phân tích câu có nhiều nhập nhằng ký tự phân tách từ Đơn vị nhỏ cấu tạo nên từ âm tiết Từ tiếng Việt đơn âm tiết đa âm tiết Nên trình tách từ gán nhãn từ loại tránh khỏi xảy lỗi, nhập nhằng từ, việc xác định nhãn sai hay chưa kết hợp đặc trưng cụ thể ngữ cảnh xung quanh từ,… 2.3 Mô hình entropy cực đại cho toán phát lỗi tự động kho ngữ liệu tiếng Việt đƣợc giải từ loại Trong luận văn này, xây dựng công cụ tự động phát lỗi dựa mô hình MEM thuật toán Variation n-gram Mà lỗi giải từ loại kho ngữ liệu gây hai lý là: nhập nhằng từ loại lỗi gán nhãn Do đó, công việc sửa chữa lỗi giải từ loại gồm có hai bước sau : Bước 1: Xét từ kho ngữ liệu phân loại nhãn từ gán nhãn hay sai Điều thực dựa phương pháp phát hoàn toàn tự động áp dụng kho ngữ liệu lớn Bước 2: Tìm kiếm nhãn cho vị trí đó: Xem xét vị trí xác lỗi xác định nhãn cho từ 2.3.1 Dữ liệu huấn luyện Để sử dụng được, mô hình entropy cực đại cần cung cấp nhiều thông tin nhãn từ loại thông tin ngữ cảnh Entropy cực đại huấn luyện cách xét thuộc tính vị trí i chuỗi liệu quan sát gồm hai phần: thứ nhất, thông tin ngữ cảnh vị trí i chuỗi liệu quan sát thứ hai, phần thông tin nhãn tương ứng Trong luận văn này, sử dụng cộng cụ vnTagger để tách từ gán nhãn từ loại cho kho ngữ liệu VietTreeBank Công cụ tích hợp sẵn tập liệu huấn luyện dùng để gán nhãn cho từ loại tiếng Việt 15 2.3.2 Thuộc tính phân lớp Để tự động phát lỗi giải kho ngữ liệu tiếng Việt cách phân lớp ngữ cảnh dựa tảng việc gán nhãn cho từ phụ thuộc vào ngữ cảnh từ Thông tin ngữ cảnh sử dụng nhãn từ phía trước phía sau từ Mỗi ngữ cảnh xuất ngữ liệu huấn luyện giúp cho chọn nhãn cho từ Xác suất mà nhãn xuất ngữ cảnh lưu lại, trình gán nhãn cho ngữ liệu giúp chọn nhãn xác Theo [3], đưa nhận định rằng, biến thể có nhiều khả lỗi nhập nhằng xuất đoạn dài câu khác Hay nói cách khác, variation ngram với giá trị n lớn khả variation lỗi cao 2.3.3 Cách phát lỗi dựa kết phân lớp Trong luận văn này, xây dựng công cụ tự động phát lỗi giải từ loại kho ngữ liệu VTB, gồm bước sau: Bước 1: Tiền xử lý kho ngữ liệu treebank tiếng Việt; Bước 2: Sử dụng công cụ gán nhãn tự động vnTagger để tách từ gán nhãn từ loại cho kho ngữ liệu VietTreeBank Với tập liệu đầu vào kho ngữ liệu VTB loại bỏ nhãn từ loại gán tay trước đó; Bước 3: Đi thống kê số lượng variation nucleis vị trí chúng kho ngữ liệu treebank tiếng Việt giải từ loại tay n-grams (01 gram, 02 gram,…,n –gram) đồng thời đưa vị trí variation nucleis có khả lỗi phương pháp so sánh nhãn vị trí variation nucleis với nhãn từ loại (cùng vị trí) kho ngữ liệu VTB sử dụng vnTagger gán nhãn từ loại Bước Bước 4: Dựa kho ngữ liệu vàng để đánh giá variation nucleis thống kê Bước Được xây dựng nhà ngôn ngữ học dự án quốc gia VLSP văn tiếng Việt 16 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Mô tả liệu công cụ đƣợc sử dụng thử nghiệm 3.1.1 Mô tả liệu thử nghiệm Bộ liệu VietTreeBank: Đây sản phẩm dự án quốc gia VLSP, gồm 142 văn tương ứng với 10.165 câu khoảng 230.000 từ Bộ liệu gán nhãn từ loại tay với tập nhãn từ loại VTB (VietTreeBank) gồm 16 nhãn từ loại, nhãn cho từ không gán nhãn nhãn cho ký hiệu đặc biệt (Bảng 1.3) 3.1.2 Mô tả công cụ sử dụng thử nghiệm 3.1.2.1 Công cụ gán nhãn từ loại Trong luận văn này, sử dụng công cụ vnTagger tác giả Lê Hồng Phương viết ngôn ngữ lập trình Java dựa mô hình MEM để tách từ gán nhãn từ loại tự động cho văn tiếng Việt Tập nhãn dùng chương trình Bảng 1.2 gồm 18 nhãn từ loại (xem mục 2.2.3) Kho ngữ liệu giải từ loại vnTagger dùng so sánh đánh giá để đưa vị trí variation nucleis có khả lỗi nhãn từ loại treebank tiếng Việt gán nhãn tay, với: Input: Kho ngữ liệu treebank tiếng Việt loại bỏ nhãn từ loại gán tay trước Output: Kho ngữ liệu VTB gán nhãn từ loại công cụ vnTagger 3.1.2.2 Công cụ tự động phát lỗi giải từ loại Công cụ xây dựng dựa thuật toán variation n-gram Công cụ viết ngôn ngữ lập trình C# dùng để thống kê số lượng variation nucleis vị trí từ giải từ loại kho ngữ liệu tiếng Việt, với: Input: Kho ngữ liệu VTB giải từ loại tay Output: Danh sách thống kê số lượng variation nucleis vị trí chúng kho ngữ liệu VietTreeBank giải từ loại n-grams (01 gram, 02 gram,…,n–gram) đưa tập nhãn vị trí variation nucleis có khả lỗi 17 3.1.3 Thử nghiệm chương trình đánh giá kết 3.1.3.1 Thử nghiệm chương trình Chương trình tự động phát lỗi: với mục đích kiểm nghiệm phương pháp entropy cực đại kết hợp với thuật toán variation n-gram để tự động phát lỗi giải từ loại kho ngữ liệu VietTreeBank có 10.165 câu tách từ gán nhãn từ loại tay Tập liệu sử dụng làm đầu vào cho việc kiểm thử tự động phát lỗi giải từ loại Hình 3.1 Giao diện chƣơng trình Chương trình gồm hai chức chính: chức gán nhãn từ loại chức phát lỗi giải + Chức gán nhãn từ loại: gọi đến công cụ vnTagger để tách từ gán nhãn từ loại tự động cho kho ngữ liệu VietTreeBank Theo [9], công cụ có độ xác gán nhãn là: Độ xác tổng thể: 93.40%, độ xác từ chưa biết: 80.69% độ xác câu: 31.40% Và thời gian thực gán nhãn từ loại cho 218.816 từ kho ngữ liệu VietTreeBank là: phút 03 giây 18 Hình 3.2 Giao diện chƣơng trình gán nhãn từ loại + Chức phát lỗi giải từ loại: thực thống kê số lượng variation nucleis, vị trí chúng kho ngữ liệu VietTreeBank giải từ loại tay đánh dấu vị trí variation nucleis có khả lỗi Hình 3.3 Giao diện chƣơng trình phát lỗi giải từ loại Kết chương trình thu được: 16-grams với số variation nucleis, vị trí chúng phát kho ngữ liệu số vị trí có khả lỗi nhãn từ loại gram, cụ thể sau: 19 Số variation Số vị trí Số vị trí variation nucleis variation nucleis nucleis có khả lỗi 1-gram 1.646 116.346 17.965 2-gram 4.661 29.270 9.547 3-gram 1.316 3.995 1.593 4-gram 269 670 313 5-gram 85 211 100 6-gram 41 102 49 7-gram 23 56 29 8-gram 15 37 22 9-gram 25 16 10-gram 21 14 11-gram 10 12-gram 10 13-gram 14-gram 15-gram 16-gram Bảng 3.1 Số lƣợng n-grams variation nucleis VTB Số n-gram Từ bảng 3.1 ta thấy, variation nucleis n-grams lớn tỷ lệ variation nuclei lỗi cao Để đưa vị trí variation nucleis có khả lỗi đem so sánh nhãn từ loại vị trí variation nuclei với nhãn từ loại gán công cụ vnTagger (cùng vị trí) khác đánh dấu vị trí 3.3.3.2 Đánh giá kết thử nghiệm Vì variation nucleis phát công cụ phát lỗi giải từ loại mức độ nhãn từ loại vị trí variation nucleis có khả xảy lỗi Chính vậy, để đánh giá vị trí có xác lỗi hay không tiến hành xây dựng công cụ tự động đánh giá vị trí variation nucleis có khả lỗi dựa kho ngữ liệu vàng với từ gán nhãn từ loại hoàn toàn xác 20 Hình 3.4 Kết đánh giá variation nucleis Với liệu đầu vào kho ngữ liệu vàng tập nhãn vị trí variation nucleis có khả lỗi (được thay nhãn vnTagger) Trước tiên, công cụ đánh giá tiến hành thống kê 820 từ kho ngữ liệu vàng (pos_key.txt) thuộc tập variation nucleis VTB (từ 1-gram,…,16-gram) Tiếp theo, đem so sánh nhãn từ loại gán vnTagger vị trí variation nucleis phát kho ngữ liệu VietTreeBank với nhãn từ loại từ kho ngữ liệu vàng (cùng vị trí xuất hiện) Nếu hai nhãn trùng công cụ phát lỗi phát sai ngược lại công cụ phát lỗi phát đồng thời công cụ đánh giá lỗi đưa đề xuất nhãn từ loại thay cho nhãn lỗi Kết 5.036 vị trí xuất 820 variation nucleis có 3.654 vị trí trùng với nhãn kho ngữ liệu vàng 1.382 vị trí khác với nhãn kho ngữ liệu vàng (nhãn lỗi) 21 Chƣơng KẾT LUẬN 4.1 Kết đạt đƣợc - Cơ sở lý thuyết: Luận văn hệ thống hóa số vấn đề lý thuyết tách từ, gán nhãn từ loại, phát lỗi giải từ loại ngôn ngữ tiếng Việt nắm bắt cách tiếp cận khác tình hình nghiên cứu nước giới, cụ thể sau: Về từ loại nghiên cứu toán tách từ hướng tiếp cận với toán gán nhãn, trình gán nhãn từ loại tập nhãn từ loại tiếng Việt Tìm hiểu số khái niệm kho ngữ liệu, ngữ liệu vàng, ngữ liệu huấn luyện, từ, âm tiết (tiếng) trình xây dựng, cách gán nhãn treebank tiếng Việt Tìm hiểu mô hình entropy cực đại mô hình N-gram.Với ưu điểm mềm dẻo linh hoạt mô hình entropy cực đại, luận văn sử dụng mô hình entropy cực đại kết hợp với thuật toán variation n-grams để giải toán tự động phát lỗi giải từ loại trình bày chi tiết chương - Về mặt thực nghiệm: Dựa sở lý thuyết mô hình entropy cực đại mô hình n-gram để xây dựng chương trình tự động phát lỗi giải từ loại kho ngữ liệu treebank tiếng Việt Chương trình viết ngôn ngữ lập trình C# với giao diện tiện dụng gồm hai chức (gán nhãn từ loại phát lỗi giải từ loại) Chương trình dựa kho ngữ liệu VietTreeBank gán nhãn từ loại tay để đưa lỗi giải từ loại vị trí lỗi kho ngữ liệu tiếng Việt Điều đó, giúp hệ thống tìm kiếm thông tin, hệ thống nhận dạng tiếng nói hệ thống dịch máy,…có độ xác hiệu Kết chạy chương trình phát lỗi kho ngữ liệu VietTreeBank thu được: 16-grams với số variation nucleis vị trí chúng phát kho ngữ liệu grams là: 22 Số n-gram Số variation nucleis Số vị trí variation nucleis Số vị trí variation nucleis có khả lỗi 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram 10-gram 11-gram 12-gram 13-gram 14-gram 15-gram 16-gram 1.646 4.661 1.316 269 85 41 23 15 5 116.346 29.270 3.995 670 211 102 56 37 25 21 10 10 17.965 9.547 1.593 313 100 49 29 22 16 14 5 Và chương trình đánh giá 5.036 vị trí xuất 820 variation nucleis có 3.654 vị trí trùng với nhãn kho ngữ liệu vàng 1.382 vị trí khác với nhãn kho ngữ liệu vàng (nhãn lỗi) 4.2 Hƣớng phát triển Do hạn chế thời gian nên khoá luận số vấn đề cần tiếp tục hoàn thiện phát triển thời gian tới: Tìm hiểu, nghiên cứu thêm đặc điểm ngôn ngữ tiếng Việt phương pháp phát lỗi giải, sửa lỗi giải để xây dựng công cụ tự động phát sửa lỗi giải từ loại kho ngữ liệu tiếng Việt Tiếp tục nghiên cứu xây dựng kho ngữ liệu vàng treebank tiếng Việt

NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan