Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng việt được chú giải từ loại

Thông tin tài liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NHỮ VĂN KIÊN NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 Người hướng dẫn khoa học: TS NGUYỄN PHƯƠNG THÁI TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2013 1 MỞ ĐẦU Gán nhãn từ loại (Part-of-speech tagging –POS tagging) và tự động phát hiện lỗi chú giải (nhãn) từ loại (Detecting Errors in Part- of-Speech Annotation) là hai bài toán quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên các nghiên cứu tại Việt Nam về hai vấn đề này vẫn còn ở giai đoạn đầu, trong đó phương pháp tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt còn chưa có nhiều tài liệu tham khảo và các công trình nghiên cứu. Do đó, nhu cầu cả về cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng. Thực tế cho thấy, hai quá trình này liên quan mật thiết với nhau và ảnh hưởng đến chất lượng một hệ chung. Vì thế, trong luận văn này chúng tôi “Nghiên cứu phƣơng pháp tự động phát hiện lỗi trong kho ngữ liệu tiếng Việt đƣợc chú giải từ loại”. Đóng góp của luận luận văn là việc tìm hiểu, nghiên cứu và đề xuất mô hình thực hiện gán nhãn từ loại và phương pháp tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt; sử dụng công cụ vnTagger thực hiện gán nhãn từ loại; bên cạnh đó chúng tôi tiến hành xây dựng một công cụ tự động phát hiện lỗi chú giải từ loại tiếng Việt trên kho ngữ liệu VietTreeBank có 10.165 câu với khoảng hơn 230.000 từ. Luận văn tiến hành thực nghiệm trên kho ngữ liệu VietTreeBank áp dụng mô hình entropy cực đại và thuật toán variaion n-gram đã cho kết quả thực nghiệm khả quan, có độ chính xác cao. Các kết quả này sẽ hữu ích cho các nghiên cứu ở mức cao hơn như dịch máy, tự động sửa lỗi chú giải, tóm tắt văn bản,… 2 Cấu trúc của luận văn được trình bày như sau: Chƣơng 1: Tổng quan về từ loại: Trong chương này, luận văn giới thiệu hai vấn đề cơ bản về xử lý ngôn ngữ tự nhiên là tách từ và gán nhãn từ loại tiếng Việt – các hướng tiếp cận cho bài toán gán nhãn và tìm hiểu về kho ngữ liệu treebank tiếng Việt gồm có tập nhãn từ loại và hướng dẫn gán nhãn trong khi phát triển VietTreeBank. Chƣơng 2: Phƣơng pháp gán nhãn từ loại và phát hiện lỗi tự động trong kho ngữ liệu tiếng Việt đƣợc chú giải từ loại: Chương này nghiên cứu và đề xuất mô hình gán nhãn từ loại và phương pháp phát hiện lỗi tự động chú giải từ loại trong kho ngữ liệu VietTreeBank. Các công việc mà luận văn đã tiến hành nhằm đề xuất sử dụng mô hình gán nhãn từ loại Maximum Entropy Model (MEM) và phương pháp entropy cực đại kết hợp với thuật toán variation N- gram cho bài toán tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt. Chƣơng 3. Thực nghiệm và đánh giá kết quả: Chương này trình bày các công việc thực nghiệm mà khóa luận đã tiến hành, bao gồm việc sử dụng công cụ gán nhãn từ loại vnTagger và xây dựng công cụ tự động phát hiện lỗi chú giải từ loại. Từ kết quả đạt được tiến hành đối chiếu, đánh giá và đưa ra các vị trí lỗi chú giải từ loại trong kho ngữ liệu VietTreeBank. Chƣơng 4. Kết luận và hƣớng phát triển: Tóm lược các kết quả đã đạt được và đóng góp của khóa luận, đồng thời định hướng một số hướng nghiên cứu tiếp theo trong thời gian sắp tới. 3 Chƣơng 1. TỔNG QUAN VỀ TỪ LOẠI 1.1. Vấn đề tách từ và gán nhãn từ loại tiếng Việt 1.1.1. Khái quát về bài toán tách từ Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký tự được dựa trên hệ chữ cái Latin. Cũng giống như với các thứ tiếng khác như tiếng Trung, tiếng Nhật, tiếng Hàn thì từ trong tiếng Việt không được xác định bởi khoảng trắng (dấu cách). Một từ tiếng Việt có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phân tách nhau bởi các khoảng trắng. Từ là đơn vị cơ bản để phân tích cấu trúc của ngôn ngữ, do vậy để tiến tới những ứng dụng xa hơn về xử lý ngôn ngữ tiếng Việt như gán nhãn chức năng cú pháp, phân tích cú pháp thì việc đầu tiên ta phải giải quyết bài toán tách từ. Các nhà nghiên cứu đã đề xuất một số hướng tiếp cận để giải bài toán tách từ [6, 16]. Nhìn chung, các hướng tiếp cận đó được chia thành hai loại: tiếp cận dựa trên từ điển và tiếp cận dựa trên thống kê. Hai phương pháp tiêu biểu của hướng tiếp cận dựa vào từ điển là Longest Matching và Maximal Matching. Hầu hết những nghiên cứu khởi thủy về tách từ đều dựa trên cách tiếp cận này như trong [14]. Hướng tiếp cận này có đặc điểm là đơn giản, dễ hiểu tuy nhiên hiệu quả mang lại không cao. Lý do là bởi nó không xử lý được rất nhiều trường hợp nhập nhằng cũng như không có khả năng phát hiện từ mới trong văn bản. Chính vì vậy mà các hệ thống tách từ có chất lượng cao hiện nay thường sử dụng hướng tiếp cận dựa trên thống kê. Trong các nghiên cứu đó, tác giả đã phân tách hai quá trình nhận dạng từ mới và tách từ đã biết như hai tiến trình độc lập nhau. Nghiên cứu các phương pháp phát hiện từ mới ta thấy thông tin N-gram đóng vai trò hữu ích giúp ta phát hiện từ mới khi mà corpus thống kê đủ lớn và xác định được độ đo phù hợp. Câu hỏi đặt ra là làm cách nào để tận dụng được từ tất cả các nguồn tri thức đó. 4 1.1.2 Khái quát về bài toán gán nhãn từ loại 1.1.2.1. Giới thiệu bài toán gán nhãn từ loại Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ. Việc gán nhãn từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước: + Input: Một chuỗi các từ (ví dụ đối với tiếng Việt: “Tôi vẽ một bức tranh”) + Output: Một nhãn tốt nhất cho từng từ trong câu (Ví dụ: Tôi/P vẽ/V một/M bức_tranh/N 1 ) 1.1.2.2. Quá trình gán nhãn từ loại: Gán nhãn từ loại là một quá trình gồm 3 bước xử lý như sau: - Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. - Khởi tạo gán nhãn: Tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay. - Quyết định kết quả gán nhãn: Đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên. Như vậy, trong gán nhãn từ loại thì bước tiền xử lý quan trọng cho các phần tiếp theo trong quá trình xử lý ngôn ngữ tự nhiên như phân tích cú pháp, phân tích ngữ nghĩa. 1.1.2.3. Ngữ liệu (Corpus) Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu, chúng có thể là: - Từ điển và các văn phạm loại bỏ nhập nhằng. 1 Tập nhãn từ loại được dùng trong treebank tiếng Việt 5 - Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây dựng bằng tay. - Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu tố. Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán thống kê. Trong trường hợp này khó có thể dự đoán trước về tập từ loại. 1.1.2.4. Các hướng tiếp cận giải bài toán Khi thực hiện bài toán gán nhãn từ loại, ta gặp phải một số khó khăn. Khó khăn này chủ yếu là do các từ thường có nhiều hơn một từ loại. Hiện nay, có hai hướng tiếp cận chính cho gán nhãn từ loại tự động là tiếp cận có giám sát và không giám sát: - Tiếp cận có giám sát: nghĩa là phải xây dựng một kho ngữ liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại. Gán nhãn dựa trên luật sử dụng từ điển để tìm các từ loại có thể cho các từ, sử dụng các luật làm thành một nghĩa và thường liên quan tới một cơ sở dữ liệu lớn các luật được viết bằng tay. - Tiếp cận không giám sát: Các mô hình không giám sát không yêu cầu kho ngữ liệu đã gán nhãn nhưng lại sử dụng các thuật toán tính toán phức tạp để tự động xây dựng các nhóm từ (nghĩa là xây dựng các tập nhãn) và dựa trên các nhóm từ này để tính toán các thông tin xác suất cần thiết cho các bộ gán nhãn thống kê hoặc để xây dựng các luật ngữ cảnh cần thiết cho các hệ thống dựa trên luật. 1.1.2.5. Bài toán gán nhãn từ loại tiếng Việt + Ngôn ngữ tiếng Việt (Vietnamese language): Tiếng Việt là ngôn ngữ có trật tự khá cố định với thứ tự của từ là S-V-O (chủ ngữ, động từ và tân ngữ). Tiếng Việt dựa vào thứ tự các thành phần câu để truyền đạt thông tin ngữ pháp quan trọng. Mặc dù, văn bản tiếng Việt được viết bằng một chữ cái của bảng chữ cái Latin, có ba đặc tính chủ yếu của tiếng Việt mà phân biệt nó với các ngôn ngữ phương Tây là: 6 - Thứ nhất, tiếng Việt là một ngôn ngữ cố định trong đó hình thức của từ không bao giờ thay đổi. Vì thế tất cả các thông tin văn phạm được chuyển tải thông qua thứ tự từ và cấu tạo từ. Đặc điểm cố định làm cho một hiện tượng đặc biệt của ngôn ngữ phổ biến trong tiếng Việt: là hình thức của từ được sử dụng một khả năng mà không nằm trong đặc trưng của nó (một động từ được sử dụng như một danh từ, một danh từ như một tính từ ) mà không cần bất kỳ thay đổi hình thái. - Thứ hai, tiếng Việt là một ngôn ngữ đơn lập, trường hợp đặc biệt của phân tích ngôn ngữ, là mỗi hình vị là một duy nhất, âm tiết đơn lập. Đơn vị từ vựng có thể được tạo thành bằng một hoặc một số âm tiết, luôn có vị trí tách biệt trong văn bản. Mặc dù bộ từ điển chứa một phần lớn các từ ghép, một âm tiết chiếm một phần lớn của những từ xuất hiện. - Sự khác biệt thứ ba, một hệ quả của sau này, là không có dấu phân cách từ trong tiếng Việt: khoảng trống được sử dụng để tách biệt giữa các âm tiết và không có dấu hiệu cụ thể phân biệt khoảng trống giữa các từ thực tế. Ví dụ, một chuỗi đơn giản của ba âm tiết a b c có thể tạo thành ba từ (a) (b) (c), hai từ (ab) (c), hai từ (a) (bc) hoặc thậm chí một từ duy nhất (abc). + Tập nhãn từ loại tiếng Việt (Vietnamese tagset): Theo [9] đã giới thiệu một tập nhãn hiện đang được sử dụng trong một dự án phát triển một treebank cho ngôn ngữ này. Tập nhãn đầy đủ được thiết kế để sử dụng trong treebank tiếng Việt gồm có 18 nhãn (xem Bảng 1.2) Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại được xây dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến: Bộ nhãn VnPOStag của tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định và các nhãn ký hiệu đặc biệt khác. Bộ VietTreeBank gồm 18 nhãn. Bộ nhãn của nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag gồm 48 nhãn và 01 nhãn không xác định. 7 1.1.3. Một số khái niệm sử dụng trong luận văn 1.1.3.1. Ngữ liệu (Corpus) Ngữ liệu thường là tập hợp các câu dưới dạng tiếng nói hay văn bản, trong đó có chứa các thông tin cần thiết cho từng bài toán cụ thể trong xử lý ngôn ngữ tự nhiên. 1.1.3.2. Ngữ liệu vàng (Golden Corpus) Ngữ liệu vàng cũng là một dạng ngữ liệu trong đó có chứa thông tin về từ loại và nhãn của từ loại hoàn toàn chính xác. 1.1.3.3. Ngữ liệu huấn luyện (Training corpus) Ngữ liệu huấn luyện là ngữ liệu được tạo ra từ ngữ liệu vàng để chuẩn bị cho quá trình học máy. 1.1.3.4. Hình vị (Morpheme) Hình vị được xem là đơn vị tế bào gốc, đơn vị tế bào của ngôn ngữ, và còn được gọi là “từ tố”. Hình vị tiếng Việt có khi gồm có một tiếng, nhưng cũng có khi gồm nhiều tiếng tạo thành. 1.1.3.5. Âm tiết hay tiếng Tiếng (âm tiết): là do một hay nhiều âm phát ra cùng một lúc tạo thành. Tiếng là đơn vị cơ bản trong tiếng Việt và có âm đầu, vần và thanh. 1.1.3.6. Từ (Word) Từ gồm có một tiếng hoặc một tổ hợp tiếng có ý nghĩa hoàn chỉnh. Căn cứ vào cách cấu tạo, ta có từ đơn và từ phức; trong đó từ phức có từ ghép và từ láy (hay láy âm). 1.2. Tìm hiểu về treebank tiếng Việt 1.2.1. Giới thiệu Tiếng Việt là ngôn ngữ đơn lập và không có ký tự tách từ cho nên việc phân tích câu có nhiều nhập nhằng. Để giải quyết nhập nhằng đó nhóm tác giả xây dựng treebank tiếng Việt đã vận dụng nhiều thủ thuật ngôn ngữ học. Quá trình gán nhãn cú pháp được hỗ trợ bằng công cụ gán nhãn tự động và công cụ soạn thảo. Nguồn ngữ liệu thô được lấy từ báo tuổi trẻ điện tử. Độ đồng thuận mà nhóm tác giả đạt được là khá cao, khoảng hơn 90%. Treebank thường được dùng để xây dựng các hệ phân tích cú pháp, gán nhãn từ loại, tách từ. 8 Trong luận văn này, chúng tôi chỉ trình bày về tập nhãn từ loại và hướng dẫn gán nhãn từ loại. Còn phần tập nhãn cú pháp và hướng dẫn gán nhãn cú pháp, công cụ hỗ trợ người làm ngữ liệu và qui trình gán nhãn cú pháp xem trong [18]. 1.2.2. Tập nhãn từ loại Dựa vào nghĩa khái quát. Nhóm tác giả đã xây dựng tập nhãn từ loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loại con, v.v. Tập nhãn từ loại của chúng tôi được liệt kê trong Bảng 1.3, gồm có 18 nhãn từ loại. 1.2.3. Hướng dẫn gán nhãn 1.2.3.1. Xây dựng tài liệu hướng dẫn gán nhãn Đây là một tài liệu rất quan trọng bao gồm không chỉ các thông tin về tập nhãn, mà còn hướng dẫn gán nhãn cho các hiện tượng cụ thể với các ví dụ minh họa. 1.2.3.2. Công cụ hỗ trợ Công cụ hỗ trợ người gán nhãn làm việc hiệu quả hơn. Có hai nội dung chính là hỗ trợ soạn thảo cây cú pháp và gán nhãn từ loại tự động. 1.2.3.3. Quá trình gán nhãn từ loại Quá trình gán nhãn một câu gồm ba bước: tách từ, gán nhãn từ loại, và phân tích cú pháp. Qui trình thực hiện gán nhãn là tương tự nhau, tuy nhiên mỗi bước yêu cầu những kiến thức và có những đặc trưng riêng. Mỗi người gán nhãn có một người review và sửa lỗi. Những trường hợp không chắc chắn thì ghi lại để thảo luận với nhóm thiết kế (xem hình 1.3). Theo [10], các công cụ gán nhãn hiện đang được sử dụng phát triển Treebank có số điểm F1 là 90,5%, độ chính xác không cao. Do đó, trong luận văn này chúng tôi sẽ trình bày một công cụ gán nhãn từ loại của Lê Hồng Phương dựa trên nguyên lý phân lớp dữ liệu của entropy cực đại, nó quan sát kể cả các nguồn tri thức mới hữu ích cho việc gán nhãn từ loại tiếng Việt và đạt được kết quả là: độ chính xác tổng thể 93.40% và độ chính xác với những từ chưa biết 80.69% được thử nghiệm trên treebank tiếng Việt [9]. 9 Chƣơng 2. PHƢƠNG PHÁP GÁN NHÃN TỪ LOẠI VÀ PHÁT HIỆN LỖI TỰ ĐỘNG TRONG KHO NGỮ LIỆU TIẾNG VIỆT ĐƢỢC CHÚ GIẢI TỪ LOẠI 2.1. Giới thiệu mô hình N-gram 2.1.1. Khái quát Một N-gram là một bộ các yếu tố (từ, tiếng, nhãn từ loại,) liên tiếp trong ngữ liệu. Số yếu tố trong một N-gram được gọi là bậc của N-gram, thông thường N-gram có bậc từ 1 tới 4. N-gram bậc 1 được gọi là unigram, bậc 2 được gọi là bigram, bậc 3 được gọi là trigram, bậc 4 được gọi là quadrigram,… N-gram được dùng để ước lượng xác suất xuất hiện của một yếu tố dựa vào các yếu tố xung quanh nó trong câu. Do đó, N-gram có thể áp dụng cho các hệ thống tách từ, gán nhãn từ loại, phát hiện lỗi chú giải từ loại,… 2.1.2.Variation n-gram Theo [3], với mỗi từ xuất hiện trong một ngữ liệu thì có một tập nhãn được xác định có khả năng được gán cho từ này. Một từ xuất hiện nhiều hơn một lần trong một kho ngữ liệu như vậy có thể được gán với nhiều nhãn khác nhau trong một kho ngữ liệu. Chúng được gọi là Variation (biến thể). Biến thể trong một ngữ liệu được chú giải gây ra bởi một trong hai lý do: + Nhập nhằng: Một từ có thể được gán bằng nhiều nhãn từ loại và ở những vị trí xuất hiện khác nhau. Trong kho ngữ liệu, từ đó ta có nhiều lựa chọn nhãn từ loại để gán. + Lỗi: Việc gán nhãn một từ không nhất quán trong những lần xuất hiện tương tự. Tác giả sử dụng thuật ngữ variation n-gram đối với một N- gram bao gồm n từ trong kho ngữ liệu có chứa từ được gán nhãn từ loại khác nhau trong các lần xuất hiện khác của cùng N-gram đó trong kho ngữ liệu. Từ thể hiện sự biến đổi đó được gọi là variation nuclei (hạt nhân biến đổi). [...]... từ, … 2.3 Mô hình entropy cực đại cho bài toán phát hiện lỗi tự động trong kho ngữ liệu tiếng Việt đƣợc chú giải từ loại Trong luận văn này, chúng tôi sẽ xây dựng công cụ tự động phát hiện lỗi dựa trên mô hình MEM và thuật toán Variation n-gram Mà lỗi chú giải từ loại trong kho ngữ liệu gây ra bởi một trong hai lý do là: nhập nhằng của từ loại và lỗi gán nhãn Do đó, công việc sửa chữa lỗi chú giải từ. .. là một lỗi càng cao 2.3.3 Cách phát hiện lỗi dựa trên kết quả phân lớp Trong luận văn này, chúng tôi xây dựng công cụ tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu VTB, gồm các bước sau: Bước 1: Tiền xử lý kho ngữ liệu treebank tiếng Việt; Bước 2: Sử dụng công cụ gán nhãn tự động vnTagger để tách từ và gán nhãn từ loại cho kho ngữ liệu VietTreeBank Với tập dữ liệu đầu vào là kho ngữ liệu. .. từ loại + Chức năng phát hiện lỗi chú giải từ loại: thực hiện thống kê số lượng các variation nucleis, vị trí của chúng trong kho ngữ liệu VietTreeBank được chú giải từ loại bằng tay và đánh dấu các vị trí của variation nucleis có khả năng lỗi Hình 3.3 Giao diện chƣơng trình phát hiện lỗi chú giải từ loại Kết quả chương trình thu được: 16-grams với số variation nucleis, vị trí của chúng được phát hiện. .. chương trình Chương trình tự động phát hiện lỗi: với mục đích kiểm nghiệm phương pháp entropy cực đại kết hợp với thuật toán variation n-gram để tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu VietTreeBank có 10.165 câu được tách từ và gán nhãn từ loại bằng tay Tập dữ liệu này sẽ được sử dụng làm đầu vào cho việc kiểm thử tự động phát hiện lỗi chú giải từ loại Hình 3.1 Giao diện chƣơng trình chính... tách từ và gán nhãn từ loại tự động cho văn bản tiếng Việt Tập nhãn được dùng trong chương trình ở Bảng 1.2 gồm 18 nhãn từ loại (xem tại mục 2.2.3) Kho ngữ liệu được chú giải từ loại bởi vnTagger dùng so sánh và đánh giá để đưa ra các vị trí của variation nucleis có khả năng lỗi nhãn từ loại trong treebank tiếng Việt được gán nhãn bằng tay, với: Input: Kho ngữ liệu treebank tiếng Việt đã loại bỏ nhãn từ. .. nhãn từ loại được gán bằng tay trước đó Output: Kho ngữ liệu VTB được gán nhãn từ loại bởi công cụ vnTagger 3.1.2.2 Công cụ tự động phát hiện lỗi chú giải từ loại Công cụ được xây dựng dựa trên thuật toán variation n-gram Công cụ này được viết bằng ngôn ngữ lập trình C# dùng để thống kê số lượng các variation nucleis và vị trí của từ được chú giải từ loại trong kho ngữ liệu tiếng Việt, với: Input: Kho. .. sánh nhãn từ loại được gán bởi vnTagger ở các vị trí của variation nucleis được phát hiện trong kho ngữ liệu VietTreeBank với nhãn từ loại của từ đó trong kho ngữ liệu vàng (cùng vị trí xuất hiện) Nếu hai nhãn trùng nhau thì công cụ phát hiện lỗi đã phát hiện sai ngược lại thì công cụ phát hiện lỗi đã phát hiện đúng đồng thời công cụ đánh giá lỗi đưa ra đề xuất nhãn từ loại thay thế cho nhãn lỗi Kết... nhãn từ loại và phát hiện lỗi chú giải từ loại) Chương trình dựa trên kho ngữ liệu VietTreeBank đã được gán nhãn từ loại bằng tay để đưa ra các lỗi chú giải từ loại và vị trí của các lỗi đó trong kho ngữ liệu tiếng Việt Điều đó, giúp các hệ thống tìm kiếm thông tin, hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy,…có độ chính xác và hiệu quả hơn Kết quả chạy chương trình phát hiện lỗi. .. cụ đã được tích hợp sẵn tập dữ liệu huấn luyện dùng để gán nhãn cho từ loại tiếng Việt 15 2.3.2 Thuộc tính phân lớp Để tự động phát hiện được các lỗi chú giải trong kho ngữ liệu tiếng Việt bằng cách phân lớp ngữ cảnh dựa trên nền tảng cơ bản là việc gán nhãn cho một từ phụ thuộc vào ngữ cảnh của từ đó Thông tin ngữ cảnh được chúng tôi sử dụng đó là nhãn của từ phía trước và phía sau của từ hiện tại... đại kết hợp với thuật toán variation n-grams để giải quyết bài toán tự động phát hiện lỗi chú giải từ loại được trình bày chi tiết tại chương 2 - Về mặt thực nghiệm: Dựa trên cơ sở lý thuyết của mô hình entropy cực đại và mô hình n-gram để xây dựng chương trình tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu treebank tiếng Việt Chương trình được viết bằng ngôn ngữ lập trình C# với giao diện . NHỮ VĂN KIÊN NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI Chuyên ngành: Khoa học máy tính Mã. hiểu, nghiên cứu và đề xuất mô hình thực hiện gán nhãn từ loại và phương pháp tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt; sử

Ngày đăng: 17/02/2014, 08:47

Xem thêm: Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng việt được chú giải từ loại, Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng việt được chú giải từ loại

Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng việt được chú giải từ loại

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan