Đang tải... (xem toàn văn)
Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC TP H C M VĂN CHÍ NAM TN XỬ LÝ NGỮ NGHĨA H TRONG HỆ DỊCH TỰ ĐỘNG ANH – VIỆT C N TT -Ð H K CHO CÁC TÀI LIỆU TIN HỌC K ho a LUẬN VĂN CỬ NHÂN TIN HỌC TP Hồ Chí Minh – Năm 2003 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC TP H C M VĂN CHÍ NAM - 9912618 TN XỬ LÝ NGỮ NGHĨA H TRONG HỆ DỊCH TỰ ĐỘNG ANH – VIỆT TT -Ð H K CHO CÁC TÀI LIỆU TIN HỌC K ho a C N LUẬN VĂN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN TS ĐINH ĐIỀN NIÊN KHOÁ 1999 - 2003 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN H C M TP TN H K -Ð H TT C N ho a K Tp Hồ Chí Minh, ngày tháng 07 năm 2003 TS Đinh Điền NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN H C M TP TN H K -Ð H TT C N ho a K Tp Hồ Chí Minh, ngày tháng 07 năm 2003 Lời Cảm Ơn Sau thời gian thực luận văn tốt nghiệp, đến nay, công việc liên quan đến luận văn hoàn tất Trong suốt thời gian này, H C cho phép tơi có đơi điều gửi đến người vô biết ơn M nhận nhiều giúp đỡ Ở phần luận văn, TP Xin gởi lời cảm ơn chân thành đến Thầy Đinh Điền, người tận tình hướng dẫn, động viên, giúp đỡ em suốt thời gian TN qua Nếu lời dẫn, tài liệu, ngữ liệu, lời động viên khích lệ Thầy luận văn khó lịng hồn thiện K H Cũng xin gửi lời biết ơn đến nhà, đến pá, đến má, đến mẹ, đến -Ð H dượng ba, đến chế Hiền, đến chế Nghí, người ln dành tình thương yêu cho Nàm, người hỗ trợ, dõi TT theo bước Nàm tất năm học vừa qua Xin tri ân tất Thầy Cô, người dày công dạy dỗ, C N truyền cho em nhiều tri thức quí báu ho a Cảm ơn bạn, anh nhóm VCL đóng góp bạn, anh cho luận văn Đặc biệt xin gởi lời cảm ơn đến với K anh Ngô Quốc Hưng, anh Phạm Phú Hội, bạn Nguyễn Thái Ngọc Duy cho công cụ phục vụ luận văn góp ý cho chương trình Cảm ơn tất bạn bè tôi, người sát cánh vui niềm vui, chia sẻ khó khăn tơi Cịn nhiều điều khơng thể diễn tả hết lời, xin ghi nhớ tim Văn Chí Nam Lời Nói Đầu Những năm gần đây, với phát triển nhanh chóng lĩnh vực cơng nghệ thơng tin, việc sử dụng tài liệu để nắm bắt tri thức vô phổ biến Song khó khăn lớn nhiều người Việt việc hiểu ngôn ngữ thể tài liệu (mà chủ yếu tiếng Anh) Do đó, M tạo lập hệ thống dịch tài liệu tin học từ tiếng Anh sang tiếng Việt có ý H C nghĩa to lớn Chắc chắn giúp nhiều người Việt có điều kiện tiếp cận tốt nội dung, kiến thức tin học giới TP Nhưng vấn đề khó khăn gặp phải việc thiết lập hệ dịch tự động tính nhập nhằng vốn có ngơn ngữ tự nhiên, nhập nhằng lớn TN nhập nhằng ngữ nghĩa Việc chọn nghĩa thích hợp cho từ công H việc không dễ dàng lý thú Giải tốt vấn đề ngữ nghĩa nâng K cao chất lượng cho hệ dịch tự động Anh – Việt -Ð H Đề tài hướng đến việc giải tốt nhập nhằng nghĩa từ tài liệu tin học nhờ vào việc huấn luyện ngữ liệu song ngữ để rút luật chuyển đổi Thông qua việc kết hợp khối khác dịch tự động, tạo TT câu dịch tiếng Việt hiểu Sự thay đổi lĩnh vực xem xét không ảnh hưởng nhiều đến cấu trúc mơ hình Chúng tơi thực việc giới hạn lĩnh vực C N ngồi ý nghĩa nêu phía cịn có lý thử nghiệm mơ hình xử lý ngữ nghĩa mới, xem xét tính tương hỗ từ thông tin ngữ liệu song ngữ đảm bảo chất ho a lượng câu dịch K Luận văn tổ chức thành chương phụ lục ¾ Chương giới thiệu tổng quan dịch máy nói chung xử lý ngữ nghĩa nói riêng ¾ Chương giới thiệu sở lý thuyết cần sử dụng, có đề cập đến thuật tốn huấn luyện ¾ Chương đưa mơ hình cài đặt cho khối xử lý ngữ nghĩa ¾ Chương cụ thể hố mơ hình cài đặt ¾ Chương tổng kết luận văn đề hướng phát triển Mục Lục Lời Nói Đầu i Mục Lục ii Danh Sách Hình vii M Danh Sách Bảng Biểu viii H C Chương TỔNG QUAN .1 1.1 SƠ LƯỢC VỀ DỊCH MÁY TP 1.1.1 Lịch sử Dịch Máy 1.1.2 Khái niệm Dịch Máy TN 1.1.3 Các bước xử lý hệ Dịch Máy H 1.2 XỬ LÝ NGỮ NGHĨA TRONG DỊCH MÁY 10 K 1.2.1 Vai trò chức xử lý ngữ nghĩa 10 -Ð H 1.2.2 Các mức độ nhập nhằng tầng xử lý ngữ nghĩa 12 1.2.2.1 Nhập nhằng mức từ vựng 12 1.2.2.2 Mức độ nhập nhằng cấu trúc .12 TT 1.2.2.3 Mức độ nhập nhằng liên câu 13 C N 1.2.2.4 Mức độ nhập nhằng theo thể loại văn 14 1.2.3 Các khó khăn xử lý ngữ nghĩa 15 ho a 1.2.3.1 Nhập nhằng nghĩa 15 K 1.2.3.2 Phụ thuộc vào ngữ cảnh 15 1.2.3.3 Phụ thuộc vào tri thức 15 1.2.3.4 Sự khác biệt tiếng Anh Việt .16 1.2.3.5 Yếu tố khác 16 1.3 CÁC CÁCH TIẾP CẬN TRONG XỬ LÝ NGỮ NGHĨA VÀ CÁC CƠNG TRÌNH TRƯỚC ĐÂY 17 1.3.1 Xử lý ngữ nghĩa thời gian đầu 17 ii 1.3.2 Dựa trí tuệ nhân tạo 18 1.3.3 Dựa sở tri thức 20 1.3.3.1 Từ điển máy 20 1.3.3.2 Từ điển đồng nghĩa .22 1.3.3.3 Từ điển điện toán 23 M 1.3.4 Dựa ngữ liệu 24 H C Chương CƠ SỞ LÝ THUYẾT .27 2.1 CƠ SỞ LÝ THUYẾT VỀ NGÔN NGỮ HỌC 28 TP 2.1.1 Nghĩa từ 28 2.1.1.1 Cơ cấu nghĩa từ .29 TN 2.1.1.2 Phân tích nghĩa từ 29 H 2.1.1.3 Nghĩa từ hoạt động ngôn ngữ .30 K 2.1.2 Quan hệ đồng nghĩa trái nghĩa từ vựng 30 -Ð H 2.1.2.1 Từ đồng nghĩa .30 2.1.2.2 Từ trái nghĩa 31 TT 2.1.3 Biến đổi từ vựng 31 2.1.3.1 Những biến đổi bề mặt 31 C N 2.1.3.2 Những biến đổi chiều sâu từ vựng 32 2.2 HỌC DỰA TRÊN CHUYỂN ĐỔI .32 ho a 2.2.1 Học dựa chuyển đổi ? 32 K 2.2.2 Giải thuật học dựa chuyển đổi tổng quát 33 2.2.3 Mơ tả trình tự tạo luật chuyển đổi 35 2.2.4 Yêu cầu việc áp dụng thuật toán học dựa chuyển đổi vào xử lý ngữ nghĩa 37 2.2.5 Nhận xét .38 2.3 MỘT SỐ GIẢI THUẬT HỌC DỰA TRÊN CHUYỂN ĐỔI CẢI TIẾN 39 2.3.1 Lazy TBL .39 iii 2.3.2 TBL đa chiều 40 2.3.3 TBL nhanh 40 2.4 THUẬT TOÁN FAST-TBL .41 2.4.1 Quy ước 41 2.4.2 Phát sinh luật 42 M 2.4.2.1 Trường hợp 43 H C 2.4.2.2 Trường hợp 44 2.5 VĂN PHẠM PHỤ THUỘC 46 TP 2.5.1 Giới thiệu .46 2.5.2 Vận dụng văn phạm phụ thuộc vào xử lý ngữ nghĩa 49 TN 2.5.3 Các loại quan hệ phân tích cú pháp dựa văn phạm H phụ thuộc 50 K Chương MƠ HÌNH CÀI ĐẶT 53 -Ð H 3.1 CÁC NGUỒN TRI THỨC ĐỂ XỬ LÝ NGỮ NGHĨA .54 3.1.1 Tri thức từ loại hình thái 54 3.1.2 Tri thức ngôn từ .56 TT 3.1.3 Tri thức quan hệ cú pháp ràng buộc ngữ nghĩa 57 C N 3.1.4 Tri thức chủ đề 58 3.1.5 Tri thức tần suất nghĩa từ 59 ho a 3.2 CÁC BƯỚC THỰC HIỆN 59 K 3.3 MƠ HÌNH HUẤN LUYỆN CHO BỘ GÁN NHÃN NGỮ NGHĨA 61 3.4 HỆ THỐNG NHÃN NGỮ NGHĨA .62 3.4.1 Yêu cầu hệ thống nhãn ngữ nghĩa 62 3.4.2 Cơ sở việc phân lớp ngữ nghĩa 63 3.4.3 Nhận xét hệ thống nhãn ngữ nghĩa có liên quan 64 3.5 CHUẨN BỊ NGỮ LIỆU HUẤN LUYỆN 66 3.5.1 Giới thiệu kho ngữ liệu song ngữ Anh-Việt VCLEVC .66 iv 3.5.2 Rút trích thống kê từ ngữ liệu song ngữ 68 3.5.2.1 Thống kê nghĩa tiếng Việt 68 3.5.2.2 Thống kê tần số xuất nghĩa từ tiếng Anh 69 3.5.2.3 Ý nghĩa 70 3.5.3 Xây dựng ngữ liệu huấn luyện .70 M 3.5.3.1 Gán nhãn ngữ nghĩa bán tự động cho ngữ liệu .71 H C 3.5.3.2 Xây dựng “ngữ liệu vàng” 72 Chương CÀI ĐẶT THỬ NGHIỆM .75 TP 4.1 GÁN NHÃN CƠ SỞ 76 4.1.1 Mơ hình gán nhãn sở .76 TN 4.1.2 Xử lý ngôn từ, thành ngữ .78 H 4.1.3 Xử lý ràng buộc lựa chọn 79 K 4.1.3.1 Cơ sở tri thức .79 -Ð H 4.1.3.2 Thuật toán .79 4.1.4 Xử lý dựa lĩnh vực xem xét 81 TT 4.1.5 Xử lý dựa tần số xuất 82 4.2 MẪU LUẬT 82 C N 4.2.1 Các từ ngữ cảnh 83 4.2.2 Từ gốc ngữ cảnh 83 ho a 4.2.3 Từ loại ngữ cảnh .83 K 4.2.4 Nhãn ngữ nghĩa ngữ cảnh 83 4.2.5 Từ có quan hệ ngữ pháp ngữ cảnh .84 4.2.6 Các nhãn ngữ cảnh có quan hệ ngữ pháp 84 4.3 GẮN NGHĨA TIẾNG VIỆT 84 4.3.1 Các từ không cần gắn nghĩa tiếng Việt 85 4.3.2 Gắn thêm lượng từ Những 86 4.3.2.1 Mô tả .86 v ... Dịch ngôn ngữ cách thay từ ngôn ngữ nguồn với từ ngơn ngữ đích cách máy móc Những hệ dịch trực tiếp phù hợp Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học. .. ngôn ngữ thứ n Hình 1-4 : Một hệ dịch liên ngơn ngữ cho n ngôn ngữ khác Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học TỔNG QUAN Dịch dựa luật : Đây cách... ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC TP H C M VĂN CHÍ NAM - 9912618 TN XỬ LÝ NGỮ NGHĨA H TRONG HỆ DỊCH TỰ ĐỘNG ANH – VIỆT TT -Ð H K CHO CÁC TÀI LIỆU TIN HỌC