XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ

60 1.1K 1
XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Ngọc Kha XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Ngọc Kha XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Phương Thái HÀ NỘI - 2010 LỜI CẢM ƠN Đầu tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến thầy hướng dẫn của tôi, TS. Nguyễn Phương Thái, người đã tạo điều kiện cho tôi có một môi trường nghiên cứu rất tốt, hướng dẫn, chỉ bảo cho tôi trong quá trình nghiên cứu và hoàn thành luận văn này. Tôi xin tỏ lòng biết ơn tới các thầy trong bộ môn Khoa Học Máy Tính, cùng các thầy cô trường Đại học Công nghệ, ĐHQG Hà Nội, đã tạo điều kiện cho tôi có môi trường làm việc tốt; dạy dỗ, bồi dưỡng kiến thức cho tôi trong những năm tháng học tập tại trường, cùng với những góp ý về chuyên môn trong quá trình tôi nghiên cứu và hoàn thành luận văn tốt nghiệp. Tôi xin chân thành cảm ơn ThS. Nguyễn Thị Phương Thảo, Viện Công Nghệ Thông Tin, Viện Khoa Học Việt Nam đã có những góp về đề tài nghiên cứu của tôi. Cuối cùng, gia đình, bạn bè và người thân là chỗ dựa tinh thần vững chắc giúp tôi vượt qua những giai đoạn khó khăn và hoàn thành luận văn này. Hà Nội, ngày 20 tháng 05 năm 2010 Sinh Viên Vũ Ngọc Kha TÓM TẮT NỘI DUNG Dịch máy thống kê là quá trình dịch văn bản từ ngôn ngữ này sang một ngôn ngữ khác dựa trên mô hình được sinh ra một cách tự động từ ngữ liệu song ngữ. Yếu điểm của phương pháp dịch máy thống kê là nó không sử dụng thông tin ngữ cảnh trong quá trình dịch. Xử lý nhập nhằng ngữ nghĩa sử dụng thông tin ngữ cảnh của một cụm từ để đưa ra nghĩa đúng của cụm từ đó trong một văn cảnh cụ thể. Tích hợp xử lý nhập nhằng ngữ nghĩa sẽ nâng cao chất lượng bản dịch của hệ dịch máy thống kê. Hệ dịch không chỉ có ưu điểm của phương pháp thống kê mà còn có thêm thế mạnh từ tri thức ngôn ngữ được kết hợp linh hoạt dưới dạng các yếu tố ngôn ngữ tương ứng như từ loại, thông tin hình thái… Luận văn sử dụng MEM (Maximum Entropy Model) để huấn luyện mô hình WSD. WSD sử dụng MEM có khả năng ứng dụng với bộ dữ liệu lớn, rất phù hợp với hướng tiếp cận thống kê. Mô hình WSD sau khi đã được huấn luyện có thể lấy làm thuộc tính cho SMT. Tương tự như mô hình dịch hay mô hình ngôn ngữ, mô hình WSD là một thành phần xác định xác suất của các nghĩa của một từ, cụm từ trong câu nguồn. Trọng số của thuộc tính WSD có thể được điều chỉnh dựa vào huấn luyện cực tiểu sai số (Minimum Error Rate Training). Kết quả thực nghiệm cho thấy, độ chính xác của bộ WSD sử dụng MEM là khoảng trên 70%, điểm BLEU của hệ dịch máy khi được tích hợp WSD tăng lên từ 36.57 (không sử dụng WSD) lên 37.45 (sử dụng tất cả các thuộc tính WSD). Ngoài ra, thực nghiệm cũng cho thấy các thuộc tính WSD khi được sử dụng cùng nhau sẽ cho kết quả tốt nhất. MỤC LỤC DANH SÁCH CÁC HÌNH VẼ DANH SÁCH CÁC BẢNG BẢNG CÁC TỪ VIẾT TẮT BLEU Bilingual Evaluation Understudy IIS Improved Iterative Scaling MEM Maximum Entropy Model MLE Maximum Likelihood Estimation MT Machine Translation LODCE Longman Dictionary of Contemporary English POS Part Of Speech SMT Statistical Machine Translation WSD Word Sense Disambiguation BẢNG CÁC THUẬT NGỮ Word Sense Disambiguation Xử lý nhập nhằng ngữ nghĩa Machine Translation Dịch máy Statistical Machine Translation Dịch máy thống kê Phrase-based SMT Dịch máy thống kê dựa vào cụm từ Sample Mẫu Interlingua Dịch liên ngữ Corpus-based Dựa vào ngữ liệu Example-based Dựa vào ví dụ Phrase-based Dựa vào cụm từ Knowledge-based Dựa vào tri thức Word-based Dựa trên từ Noisy channel model Mô hình kênh nhiễu Alignment model Mô hình dóng hàng từ Fertility Độ hỗn loạn Phrase Cụm từ Reordering model Mô hình trật tự từ Language model Mô hình ngôn ngữ Translation model Mô hình dịch Smoothing Làm mịn Maximum Likelihood Estimation Ước lượng hợp lý cực đại Linear Interpolation Nội suy tuyến tính Feature Đặc trưng Active Feature Đặc trưng tích cực Word penalty Hàm phạt từ Corpus-based method Phương pháp dựa trên ngữ liệu Labeled dataset Tập dữ liệu đã được gán nhãn Domain adaptation Thích nghi miền BẢNG CÁC THUẬT NGỮ Constraint Ràng buộc Principle of Insuficient Reason Nguyên lý lập luận thiếu Indicator Function Hàm chỉ thị Feature Function Hàm đặc trưng Simplex Đơn hình Primal problem Bài toán cơ sở Dual problem Bài toán đối ngẫu Contrained optimization Tối ưu có ràng buộc Uncontrained optimization Tối ưu không ràng buộc Gradient ascent Leo dốc gradient Gradient conjugate Liên hợp gradient Iterative scaling algorithm Thuật toán leo lặp Basic feature selection Lựa chọn đặc trưng cơ sở Minimum Error Rate Training Huấn luyện cực tiểu sai số Approximate gains Xấp xỉ độ tăng LỜI MỞ ĐẦU Thời gian gần đây, dịch máy đóng một vai trò quan trọng, hỗ trợ con người trong việc tìm kiếm, cập nhật thông tin từ nhiều nguồn ngôn ngữ khác nhau. Trong số các hướng nghiên cứu trong dịch máy hiện nay, hướng tiếp cận thống kê đang được đánh giá là hướng phát triển tiềm năng và thu hút được sự quan tâm của nhiều nhà nghiên cứu trên thế giới. Ưu điểm vượt trội của phương pháp tiếp cận thống kê là hệ dịch tự động thu thập các thông tin, thiết lập các từ điển, các quy luật dựa trên kết quả thống kê có được từ kho ngữ liệu. Do đó, dịch máy thống kê tính khả chuyển cao và có khả năng áp dụng cho tất cả các cặp ngôn ngữ. Trong phương pháp thống kê, có ba hướng tiếp cận chính, đó là dịch máy thống kê dựa trên đơn vị từ, dựa trên đơn vị cụm từ và dựa trên cú pháp. Trong đó, dịch máy thống kê dựa trên đơn vị cụm từ hiện đang là phương pháp tiếp cận đưa ra kết quả tốt nhất và thu hút được nhiều sự quan tâm nhất. Tuy nhiên, cách tiếp cận thống kê vẫn phải đối mặt với những hạn chế do sự thiếu hụt về thông tin ngôn ngữ, thông tin ngữ cảnh. Mô hình dịch thống kê vẫn chưa giải quyết được một số vấn đề cơ bản của dịch máy ví dụ như trật tự từ, lựa chọn cụm từ phù hợp…Gần đây, các nghiên cứu tích hợp thông tin ngôn ngữ và thông tin ngữ cảnh vào dịch máy thống kê đã gặt hái được những thành công đáng khích lệ. Các hạn chế trên đã được cải thiện khá tốt. Việc lựa chọn từ dịch ảnh hưởng rất nhiều đến chất lượng dịch, do đó, nâng cao chất lượng của việc lựa chọn từ dịch sẽ nâng cao chất lượng hệ dịch. Xử lý nhập nhằng ngữ nghĩa sử dụng các thông tin ngữ cảnh để đưa ra nghĩa đúng của một từ, cụm từ trong một văn cảnh cụ thể. Nó sẽ cung cấp thêm thông tin cho việc xác định nghĩa trong ngôn ngữ đích của một từ, cụm từ trong ngôn ngữ nguồn. Từ đó nâng cao chất lượng hệ dịch thống kê. Dịch máy thống kê làm việc trên kho ngữ liệu song ngữ lớn nên sử dụng MEM để huấn luyện WSD là phương án tối ưu nhất. Mô hình WSD sử dụng MEM có thể ứng dụng với bộ dữ liệu lớn, rất phù hợp với hướng tiếp cận thống kê. Theo những quan sát, đánh giá trên, luận văn hướng đến việc nghiên cứu và tích hợp xử lý nhập nhằng ngữ nghĩa vào hệ dịch thống kê Anh – Việt dựa trên đơn vị cụm từ. Trong đó, mô hình cực đại Entropy (MEM) sẽ được sử dụng để huấn luyện WSD. Nếu thực hiện thành công, chất lượng dịch sẽ được nâng cao đáng kể. [...]... NHẰNG NGỮ NGHĨA SỬ DỤNG MÔ HÌNH MAXIMUM ENTROPY Chương này sẽ đề cập đến bài toán xử lý nhập nhằng ngữ nghĩa, mô hình Maximum Entropy và ứng dụng nó vào bài toán xử lý nhập nhằng ngữ nghĩa 4.1 Giới thiệu xử lý nhập nhằng ngữ nghĩa Không giống như ngôn ngữ nhân tạo (ví dụ ngôn ngữ lập trình), ngôn ngữ tự nhiên vốn đã có tính nhập nhằng Một từ có thể có nhiều nghĩa trong các văn cảnh khác nhau Ví dụ, trong. .. Chương III: CÁC THÀNH PHẦN TRONG MỘT HỆ DỊCH MÁY THỐNG KÊ ANH – VIỆT DỰA TRÊN ĐƠN VỊ CỤM TỪ Chương này sẽ giới thiệu về mô hình log-linear và ứng dụng của nó trong bài toán dịch máy thống kê dựa trên đơn vị cụm từ 3.1 Mô hình log-linear áp dụng cho bài toán dịch máy Ở chương II, chúng ta đã biết đến hệ dịch thống kê dựa trên đơn vị cụm từ áp dụng công thức Bayes, hệ dịch thống kê này bao gồm 3 mô hình... phân tích dựa trên đơn vị cụm từ (phrase-based ) được đề xuất để giải quyết vấn đề này Ở đây, khái niệm cụm từ (phrase) không theo định nghĩa của ngôn ngữ học mà các cụm từ này được sinh ra dựa vào các phương pháp thống kê áp dụng trên ngữ liệu học Trong [1], Koehn mô tả một cách khái quát quá trình dịch thống kê dựa trên cụm từ như sau: ♦ Câu nguồn được tách thành các cụm từ ♦ Mỗi cụm từ được dịch sang... tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ liệu Chính vì vậy, dịch máy dựa vào thống kê có tính khả chuyển cao và áp dụng được cho bất kỳ cặp ngôn ngữ nào Dịch máy dựa trên phương pháp thống kê sẽ tìm câu ngôn ngữ đích e phù hợp nhất (có xác suất cao nhất) khi cho trước câu ngôn ngữ nguồn f Một hệ dịch máy dựa trên phương pháp thống kê có thể được mô hình... THIỆU DỊCH MÁY VÀ KHÓ KHĂN TRONG DỊCH MÁY 1.1 Dịch máy là gì ? Dịch máy (Machine Translation - MT) hay còn gọi là dịch tự động là một nhánh của xử lý ngôn ngữ tự nhiên, là sự kết hợp giữa ngôn ngữ dịch thuật và khoa học máy tính Dịch máy thực hiện dịch một ngôn ngữ này (ngôn ngữ nguồn) sang một ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch 1.2... ngôn ngữ đích ♦ Các cụm từ đã dịch được sắp xếp theo một thứ từ phù hợp Phương pháp dịch máy thống kê dựa trên đơn vị cụm từ là phương pháp mới được phát triển, có một số mô hình đã được xây dựng và chất lượng được đánh giá là khá cao khi áp dụng cho các cặp ngôn ngữ như Anh-Trung, AnhArab, [2] Tuy chất lượng có tốt hơn mô hình dịch thống kê dựa trên đơn vị từ, mô hình dịch thống kê dựa trên cụm từ. .. pháp cơ sở cho xử lý nhập nhằng ngữ nghĩa Các phương pháp để xử lý nhập nhằng ngữ nghĩa thường được phân loại theo nguồn tri thức chính dùng để phân biệt các nghĩa Các phương pháp mà chủ yếu dựa vào từ điển, từ điển chuyên đề (thesauri), tri thức về từ vựng, và không sử dụng bất cứ một thông tin corpus nào, được gọi dưới thuật ngữ chuyên ngành là các phương pháp dựa vào từ điển hay dựa vào tri thức Các... tượng Trong phần sau, chúng tôi sẽ giới thiệu kỹ hơn về phương pháp tiếp cận này 1.5 Khó khăn trong dịch máy Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhập nhằng hiệu quả Nhập nhằng, đây là khái niệm chỉ tính không rõ ràng của ngôn ngữ Nhập nhằng có thể là do hiện tượng đồng âm gây ra, nhập nhằng từ loại, hoặc nhập nhằng từ đa nghĩa 1.5.1 Nhập nhằng từ đồng âm Ví dụ ta cần dịch. .. dụng trong mô hình dịch dựa vào cụm từ Ngoài 3 thành phần chính như trong hệ dịch thống kê (đã được giới thiệu ở trên) thì mô hình dịch dựa vào cụm từ còn sử dụng một số đặc trưng khác như hàm phạt từ và xác suất dịch theo 2 hướng 25 3.2.1 Hàm phạt từ và hàm phạt cụm từ (Word penalty) Đặc trưng của hàm phạt từ là đảm bảo cho câu đầu ra ứng với một câu đầu vào không quá ngắn hoặc quá dài Tùy thuộc vào. .. log-linear Trong mô hình log-linear áp dụng cho dịch máy thống kê, mô hình ngôn ngữ và mô hình dịch vẫn là 2 thành phần đặc trưng cơ bản nhất Ngoài ra, một số đặc trưng hữu ích khác giúp cho quá trình dịch máy thống kê dựa trên đơn vị cụm từ là mô hình trật tự từ, trọng số dịch từ vựng, hàm phạt từ Sau khi tích hợp, WSD cũng là một thành phần trong mô hình log-linear Ta có thể thấy mô hình dịch thống kê áp . thông tin ngữ cảnh trong quá trình dịch. Xử lý nhập nhằng ngữ nghĩa sử dụng thông tin ngữ cảnh của một cụm từ để đưa ra nghĩa đúng của cụm từ đó trong một văn cảnh cụ thể. Tích hợp xử lý nhập nhằng ngữ. THUẬT NGỮ Word Sense Disambiguation Xử lý nhập nhằng ngữ nghĩa Machine Translation Dịch máy Statistical Machine Translation Dịch máy thống kê Phrase-based SMT Dịch máy thống kê dựa vào cụm từ Sample. pháp thống kê, có ba hướng tiếp cận chính, đó là dịch máy thống kê dựa trên đơn vị từ, dựa trên đơn vị cụm từ và dựa trên cú pháp. Trong đó, dịch máy thống kê dựa trên đơn vị cụm từ hiện đang

Ngày đăng: 09/06/2015, 13:08

Từ khóa liên quan

Mục lục

  • Vũ Ngọc Kha

    • HÀ NỘI - 2010

    • HÀ NỘI - 20< hai số cuối của năm bảo vệ KLTN>

    • Vũ Ngọc Kha

      • HÀ NỘI - 20<hai số cuối của năm bảo vệ KLTN>

      • LỜI MỞ ĐẦU

      • Chương I:

      • GIỚI THIỆU DỊCH MÁY VÀ KHÓ KHĂN TRONG DỊCH MÁY

        • 1.1 Dịch máy là gì ?

        • 1.2 Lịch sử dịch máy

          • Dịch máy Anh - Việt

          • 1.3 Phân loại các tiếp cận dịch máy

            • 1.3.1 Dịch trực tiếp

            • 1.3.2 Dịch chuyển đổi

            • 1.3.3 Dịch liên ngữ

            • 1.4 Dịch máy thống kê

            • 1.5 Khó khăn trong dịch máy

              • 1.5.1 Nhập nhằng từ đồng âm

              • 1.5.2 Nhập nhằng từ loại

              • 1.5.3 Nhập nhằng cú pháp

              • 1.5.4 Nhập nhằng tham chiếu

              • 1.5.5 Nhập nhằng phân đoạn

              • 1.5.6 Cấu trúc ngữ pháp phức tạp

              • 1.5.7 Lượng từ vựng nhiều

              • 1.5.8 Không đồng nhất giữa ngôn ngữ

              • Chương II:

Tài liệu cùng người dùng

Tài liệu liên quan