LUẬN VĂN: PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ docx

78 568 0
LUẬN VĂN: PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vương Hoài Thu PHÂN TÍCH PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vương Hoài Thu PHÂN TÍCH PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI – 2009 LỜI CẢM ƠN Đầu tiên tôi xin tỏ lòng biết ơn sâu sắc đến thầy giáo hướng dẫn của tôi,TS Lê Anh Cường, người đã hướng dẫn, chỉ bảo và tạo điều kiện để tôi hoàn thành luận văn này. Tôi xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Nguyễn Phương Thái và nhóm xây dựng ngữ liệu Viet Treebank, đặc biệt là thầy Ngyễn Phương Thái, người đã hướng dẫn và cung cấp tài liệu, dữ liệu cần thiết cho tôi trong quá trình hoàn thành luận văn. Tôi xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Công nghệ, đặc biệt là những thầy cô trong bộ môn Khoa học máy tính, những người đã dạy bảo, tạo điều kiện cho tôi trong suốt quá trình học tập tại trường. Cuối cùng, gia đình và bạn bè là hậu phương vững chắc, là nguồn động viên giúp tôi hoàn thành luận văn này. TÓM TẮT Phân tích pháp là một trong những bài toán cơ bản và quan trọng nhất trong xử lý ngôn ngữ tự nhiên (XLNNTN). Kết quả của phân tích pháp được sử dụng trong rất nhiều ứng dụng XLNNTN khác như dịch máy, hỏi đáp, trích chọn thông tin… Xây dựng một bộ phân tích pháp cho tiếng Việt có độ chính xác cao là một công việc rất có ý nghĩa. Mục tiêu đề ra của luận văn là xây dựng bộ phân tích pháp tiếng Việt theo tiếp cận thống kê. Đây là một hướng tiếp cận khá mới mẻ trong cách xây dựng bộ phân tích pháp tiếng Việt. Luận văn sẽ trình bày khái quát về các cách tiếp cận trong việc xây dựng bộ phân tích pháp, và đi sâu tìm hiều về văn phạm phi ngữ cảnh xác suất từ vựng (Lexicalized Probabilistic Context Free Grammar). Cụ thể hơn, tôi tìm hiểu, nghiên cứu 3 mô hình xác suất của Collins [11], và áp dụng công cụ phân tích của Bikel’s [9] để thử nghiệm cho phân tích pháp tiếng Việt. Phân tích pháp dựa theo thống cần có dữ liệu để huấn luyện mô hình. Trong luận văn, tôi sẽ sử dụng ngữ liệu Viet Treebank. Kết quả thực nghiệm cho thấy độ chính xác (precision) là trên 80% với hơn 9000 câu huấn luyện và 500 câu kiểm tra. Những kết quả của luận văn cho thấy rằng, đối với tiếng Việt, mô hình 1 của Collin có độ chính xác thấp hơn so với mô hình 2, và mô hình 3 chưa thực sự hiệu quả. Ngoài ra, kết quả thực nghiệm còn chỉ ra một số tham số của mô hình 2 của Collins có ảnh hưởng tới độ chính xác của bộ phân tích pháp. MỤC LỤC MỞ ĐẦU 1 Chương 1. Giới thiệu 2 1.1. Xử lý ngôn ngữ tự nhiên và các vấn đề chính 2 1.2. Phân tích pháp và ứng dụng trong xử lý ngôn ngữ tự nhiên 3 1.2.1. Định nghĩa: 3 1.2.2. Vai trò của phân tích pháp trong xử lý ngôn ngữ tự nhiên 3 1.3. Phân tích pháp dành cho tiếng Việt 4 1.3.1. Nhập nhằng – vấn đề chính của xử lý ngôn ngữ tự nhiên: 4 1.3.2. Phân tích pháp trong tiếng Việt 5 1.4. Mục tiêu 6 Chương 2. Phương pháp phân tích pháp 7 2.1. Văn phạm phi ngữ cảnh 7 2.2. Các phương pháp cổ điển 8 2.2.1. Phân tích top – down 8 2.2.2. Phân tích bottom – up: 10 2.2.3. So sánh giữa top – down và bottom – up 13 2.2.4. Thuật toán CYK (Cocke – Younger – Kasami) 13 2.2.5. Thuật toán Earley 15 2.3. Văn phạm phi ngữ cảnh xác suất (PCFGs) 19 2.3.1. Định nghĩa 19 2.3.2. Nhược điểm của văn phạm phi ngữ cảnh xác suất 20 2.4. Văn phạm phi ngữ cảnh xác suất từ vựng (LPCFGs) 22 2.4.1. Cấu trúc head 22 2.4.2. Mô hình một: Mô hình cơ sở 23 2.4.3. Mô hình 2: Phân biệt định ngữ và bổ ngữ, subcategorization 25 2.4.4. Mô hình 3: Trace và Wh-movement 27 Chương 3. Tiếp cận trong xây dựng bộ phân tích pháp Tiếng Việt 28 3.1. Penn Treebank 28 3.1.1. Gán nhãn từ loại 28 3.1.2. Bracketing 30 3.2. Viet Treebank 32 3.2.1. Mục tiêu 32 3.2.2. Danh sách từ loại và các nhãn pháp 32 3.2.3. Một số đặc điểm của Viet Treebank 34 Chương 4. Bộ phân tích pháp của Bikel 35 4.1. Một số nhiệm vụ cơ bản 35 4.1.1. Tiền xử lý 35 4.1.2. Huấn luyện 40 4.1.3. Các loại tham số và các đánh giá 42 4.1.4. Decode 48 4.2. Tổng quan về bộ phân tích pháp 49 4.2.1. Mở đầu 49 4.2.2. Vấn đề cơ bản 50 4.2.3. Tổng quan về hệ thống 50 4.2.4. Khả năng 54 4.3. Kết luận 55 Chương 5. Áp dụng bộ phân tích pháp của Bikel và dữ liệu Viet Treebank 56 5.1. Gói ngôn ngữ tiếng Việt 56 5.2. Quá trình thực hiện: 57 5.2.1. Xử lý dữ liệu 57 5.2.2. Cấu hình để thực hiện: 58 5.2.3. Huấn luyện 61 5.2.4. Phân tích pháp 62 5.2.5. Đánh giá kết quả: 62 5.3. Kết quả đạt được: 63 KẾT LUẬN 67 TÀI LIỆU THAM KHẢO 68 DANH SÁCH CÁC BẢNG Bảng 1: Bảng phân tích bằng thuật toán CYK 15 Bảng 2: Bảng nhãn từ loại trong Penn Treebank 29 Bảng 3: Bảng nhãn pháp trong Penn Treebank 31 Bảng 4: Nhãn từ loại trong Viet Treebank 32 Bảng 5: Bảng nhãn cụm từ trong Penn Treebank 33 Bảng 6: Bảng nhãn mệnh đề trong Viet Treebank 34 Bảng 7: Các mức back-off với 47 Bảng 8: Tham số do Bikel đề xuất 47 Bảng 9: Cấu trúc back-off đối với các tham số 48 Bảng 10: Sô lượng câu để huấn luyện 58 Bảng 11: Bảng so sánh kết quả đối với xâu dài không quá 40 từ 63 Bảng 12: Bảng so sánh kết quả đối với xâu dài không quá 100 từ 64 DANH SÁCH CÁC HÌNH VẼ Hình 1: Mô hình xử lý ngôn ngữ tự nhiên 1 Hình 2: Cây pháp của câu "tôi nhìn cô gái với chiếc ống nhòm" 5 Hình 3: Dẫn xuất phân tích top - down 10 Hình 4: Dẫn xuất phân tích bottom - up 13 Hình 5: Mã giả của thuật toán Earley 17 Hình 6: Miêu tả dẫn xuất xâu từ N i 1 Hình 7: Cây pháp của câu "bò ăn cỏ " 20 Hình 8: Cây dẫn xuất thứ nhất của xâu "Trung hiểu Nam hơn Thắng" 21 Hình 9: Cây dẫn xuất thứ hai của xâu "Trung hiểu Nam hơnThắng" 21 Hình 10: Cây pháp của xâu "bò ăn cỏ" có thêm thông tin từ vựng 23 Hình 11: Miêu tả độ đo khoảng cách trong câu 25 Hình 12: Cây pháp với hậu tố - C đánh dấu complement. "IBM" và "Lotus" là chủ ngữ và bổ ngữ, trong khi "Last week" là định ngữ 25 Hình 13: Hai ví dụ về các thành phần bổ trợ được sinh ra một cách độc lập đã gây ra sai số. 26 Hình 14: Dữ liệu đã gán nhãn trước khi xử lý thủ công 30 Hình 15: Dữ liệu đã gán nhãn sau khi xử lý thủ công 30 Hình 16: Dữ liệu hoàn chỉnh 32 Hình 17: Liên kết từ trong Penn Treebank 36 Hình 18: Liên kết từ trong Viet Treebank 36 Hình 19: Nút NBP cần thêm nút NP 37 Hình 20: Nhãn NBP được chỉnh sửa 38 Hình 21: Nâng cấc dấu câu lên, trong cây bên phải xuất hiện các dấu phẩy nằm cạnh nhau 39 Hình 22: Nút có nhãn HEAD cũng không là ngoại lệ khi thay đổi nhãn chức năng 40 Hình 23: Một ví dụ về hàm vi (“verb intervening”) nhận giá trị true, do nhãn NP có chứ động từ 41 Hình 24: Các thành phần và luồng làm việc 51 1 MỞ ĐẦU Phân tích pháp là một bài toán trung tâm trong XLNNTN. Phân tích pháp được sử dụng trong rất nhiều ứng dụng của XLNNTN. Độ chính xác của bộ phân tích pháp có ảnh hưởng lớn tới kết quả của các ứng dụng xử lý ngôn ngữ khác. Các nghiên cứu về xây dựng phân tích pháp tự động đã được phát triển từ rất sớm và đã có nhiều bộ phân tích pháp với chất lượng rất tốt cho các ngôn ngữ như tiếng Anh, tiếng Trung [9]. Ngày nay, nhiều ứng dụng trong XLNNTN đang được nghiên cứu và phát triển cho tiếng Việt và nhu cầu về một bộ phân tích pháp tiếng Việt với độ chính xác cao là rất cấp thiết. Tuy nhiên, các nghiên cứu về phân tích pháp tiếng Việt vẫn còn hạn chế và tập trung chủ yếu vào tiếp cận (Knowledge-based), với kết quả còn hạn chế và chưa có bộ phân tích nào được công bố rộng rãi. Vì vậy, khóa luận này hướng tới việc xây dựng bộ phân tích pháp tiếng Việt theo tiếp cận thống kê. Chúng tôi theo tiếp cận này sử dụng văn phạm phi ngữ cảnh xác suất từ vựng (Lexicalized Probabilistic Context Free Grammar). Luận văn sẽ nghiên cứu các cách tiếp cận cơ bản trong phân tích pháp, đi sâu tìm hiểu văn phạm phi ngữ cảnh xác suất từ vựng theo 3 mô hình của Collins [11]. Từ đó, dựa vào hiểu biết về ngữ liệu Viet Treebank để huấn luyện và đánh giá độ chính xác của mô hình dựa trên việc tích hợp tiếng Việt vào bộ phân tích pháp của Bikel [9]. Kiến trúc cúa hệ phân tích pháp của Bikel cũng được nghiên cứphân tích để có thể sửa đổi đối tượng tương thích cho tiếng Việt cũng như khảo sát ảnh hưởng của các tham số khác nhau đối với phân tích pháp tiếng Việt. [...]... tiếng Việt theo tiếp cận thống với các nghiên cứu cụ thể sau: - Nghiên cứu các tiếp cận và phương pháp cơ bản trong phân tích pháp, tập trung vào tiếp cận sử dụng thông thông tin từ vựng - Phân tích và áp dụng bộ phân tích pháp của Bikel [9] để xây dựng bộ phân tích pháp tiếng Việt Với mục tiêu đó luận văn sẽ trình bày các nội dung sau: Chương 2 trình bày về các phương pháp tiếp cận. .. ta có thể hiểu câu này theo một cách khác là Nam hiểu Trung nhiều hơn Thành hiểu Trung 1.3.2 Phân tích pháp trong tiếng Việt Mặc dù phân tích pháp có vai trò trung tâm trong các ứng dụng XLNNTN, nhưng những nghiên cứu về phân tích pháp cho tiếng Việt còn rất hạn chế và chưa có bộ phân tích pháp nào được công bố rộng rãi Một số bộ phân tích pháp đi theo hướng tiếp cận (knowledge-base)... cơ sở như là phân tích từ tố, phân tích pháp, phân tích ngữ nghĩa Trong đó, phân tích pháp đóng vai trò trung tâm trong ứng dụng XLNNTN và là mục tiêu của luân văn này 1.2 Phân tích pháp và ứng dụng trong xử lý ngôn ngữ tự nhiên 1.2.1 Định nghĩa: Phân tích pháp (parsing hay syntatic analys) là quá trình phân tích một chuỗi từ tố (chuỗi từ tố này là kết quả của quá trình phần tích từ tố,... dựng bộ phân tích pháp từ phương pháp cổ điển như chiến lược phân tích top-down hay chiến lược phân tích bottom-up, cho đến hướng tiếp cận thống như sử dụng văn phạm phi ngữ cảnh xác suất, cuối cùng là sử dụng văn phạm phi ngữ cảnh xác suất từ vựng để xây dựng bộ phân tích pháp Chương 3 sẽ trình bày về kho ngữ liệu, một thành phần không thể thiếu theo hướng tiếp cận sử dụng thống Chương... trong dịch chuyển đổi và dịch liên ngữ, quá trình phân tích pháp là một bước quan trọng Tư tưởng chung ở đây là đều phân tích câu nguồn trở thành cây pháp sử dụng bộ phân tích pháp Đối với dịch chuyển đổi, hệ thống sẽ xây dựng cây pháp tương đương trong ngôn ngữ đích và cuối cùng đưa cây pháp thành câu cần đưa ra Đối với dịch liên ngữ, cây pháp ở ngôn ngữ nguồn được đưa thành một biểu... ngữ pháp thủ công và không sử dụng thống trong đó Do việc xây dựng luật ngữ pháp thủ công nên độ chính xác của bộ phân tích pháp này còn chưa cao, chỉ phân tích được một 5 số lượng hữu hạn câu do văn phạm sinh ra Hướng tiếp cận sử dụng thống cũng đã được nghiên cứu [6], nhưng còn sơ lược và đặc biệt là chưa có kết quả thực nghiệm 1.4 Mục tiêu Luận văn hướng tới việc xây dựng bộ phân tích pháp. .. cách tiếp cận xây dựng kho ngữ liệu tiếng Anh – Penn Treebank và kho ngữ liệu tiếng ViệtViet Treebank Chương 4 sẽ cung cấp cái nhìn tổng quan nhất về bộ phân tích pháp của Bikel Chương 5 sẽ trình bày về cách thức thực hiện thực nghiệm thông qua việc sử dụng bộ phân tích pháp của Bikel cho tiếng Việt dựa vào kho ngữ liệu Viet Treebank và các kết quả cũng như đánh giá với hướng tiếp thống sử... ngữ cảnh xác suất (PCFGs) 2.3.1 Định nghĩa Một hướng tiếp cận mới trong việc xây dựng bộ phân tích pháp là sử dụng phương pháp thống Bài toán phân tích pháp giống như một bài toán trong học máy, thông qua quá trình huấn luyện xây dựng một mô hình xác suất, để thực hiện việc lựa chọn cây pháp phù hợp nhất Trong phần này chúng ta sẽ tiếp cận văn phạm phi ngữ cảnh xác suất (PCFG – Probabilistic... đó là áp dụng phân tích pháp trong kiểm tra lỗi ngữ pháp Đối với việc kiểm tra lỗi ngữ pháp ta cần thực hiện việc phân tích pháp câu đầu vào, xem cấu trúc có đúng không? Trong dịch máy, hiện nay, có ba chiến lược dịch cơ bản là dịch trực tiếp, dịch chuyển đổi và dịch liên ngữ Đối với dịch trực tiếp, cách dịch này dựa vào bộ từ điền 3 song ngữ để dịch, không sử dụng đến phân tích pháp Tuy nhiên... diễn chung này được chuyển về cây pháp ở ngôn ngữ đích, cuối cùng trả về câu cần dịch Trong lĩnh vực như nhận dạng tiếng nói (speech recoginition) sử dụng phân tích pháp có thể giúp sửa sai quá trình nhận dạng Trong tổng hợp tiếng nói, phân tích pháp giúp đặt trọng âm vào đúng vị trí trong câu Những ví dụ ở trên đây đã khẳng định được vai trò của phân tích pháp trong xử lý ngôn ngữ tự nhiên . một bộ phân tích cú pháp cho tiếng Việt có độ chính xác cao là một công việc rất có ý nghĩa. Mục tiêu đề ra của luận văn là xây dựng bộ phân tích cú pháp tiếng Việt theo tiếp cận thống kê. Đây. những nghiên cứu về phân tích cú pháp cho tiếng Việt còn rất hạn chế và chưa có bộ phân tích cú pháp nào được công bố rộng rãi. Một số bộ phân tích cú pháp đi theo hướng tiếp cận cũ (knowledge-base). là phân tích từ tố, phân tích cú pháp, phân tích ngữ nghĩa. Trong đó, phân tích cú pháp đóng vai trò trung tâm trong ứng dụng XLNNTN và là mục tiêu của luân văn này. 1.2. Phân tích cú pháp

Ngày đăng: 28/06/2014, 00:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan