XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT

79 84 0
XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT Mã số: Đ2012- - Chủ nhiệm đề tài: PGS.TS VÕ TRUNG HÙNG Đà Nẵng, 11/2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT Mã số: Đ2012- - Xác nhận quan chủ trì đề tài (ký, họ tên, đóng dấu) Chủ nhiệm đề tài PGS.TS Võ Trung Hùng Đà Nẵng, 11/2011 DANH SÁCH THAM GIA Các cá nhân tham gia: - PGS.TS Võ Trung Hùng, Ban Khoa học, Cơng nghệ Mơi trường, ĐHĐN - ThS Hồng Như Quỳnh, Trường Đại học Ngoại ngữ, Đại học Đà Nẵng - Nguyễn Thị Hoa, Trường Cao đẳng Sư phạm tỉnh Quảng Trị Các tổ chức phối hợp: i - Trung tâm DATIC, Trường Đại học Bách khoa, Đại học Đà Nẵng - Trung tâm Phát triển phần mềm, Đại học Đà Nẵng - Trung tâm Nghiên cứu xử lý ngơn ngữ tự nhiên GETALP (Cộng hòa Pháp) MỤC LỤC DANH SÁCH THAM GIA i MỤC LỤC ii DANH MỤC HÌNH ẢNH iv THÔNG TIN KẾT QUẢ NGHIÊN CỨU .vi RESEARCH RESULT INFORMATION vii MỞ ĐẦU CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Kho ngữ liệu song ngữ 1.1.1 Khái niệm 1.1.2 Ứng dụng kho ngữ liệu song ngữ 1.1.3 Nghiên cứu số kho ngữ liệu song ngữ giới .5 1.2 Một số nguồn trích rút ngữ liệu 1.2.1 Nguồn từ điển .8 1.2.2 Ngữ liệu SUSANNE 1.2.3 Nguồn Internet 1.2.4 Nguồn sách 1.3 Dịch tự động 1.3.1 Lịch sử phát triển 1.3.2 Khái niệm 11 1.3.3 Cấu trúc chương trình dịch tự động 12 1.3.4 Một số hệ thống dịch tự động 16 1.4 Môi trường hợp tác .20 1.4.1 Khái niệm 20 1.4.2 Các công cụ dùng để giao tiếp hợp tác 21 1.4.3 Các tính mơi trường hợp tác 22 1.4.4 Các công nghệ hỗ trợ môi trường hợp tác 23 1.4.5 Một số môi trường hợp tác mạng 24 CHƯƠNG GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU 28 2.1 Giới thiệu 28 2.2 Mơ hình tổng thể 28 2.3 Đề xuất giải pháp để xây dựng kho ngữ liệu song ngữ .30 2.3.1 Các tiêu chí chọn mẫu ngữ liệu 30 2.3.2 Chọn nguồn liệu chuẩn hóa 30 2.3.3 Xây dựng cấu trúc kho ngữ liệu song ngữ 32 2.4 Giải pháp trích rút ngữ liệu 34 2.4.1 Nguồn Từ điển Lạc Việt 34 2.4.2 Nguồn Báo điện tử VOV News 35 2.4.3 Các kho ngữ liệu xây dựng sẵn .37 ii CHƯƠNG PHÁT TRIỂN ỨNG DỤNG 39 3.1 Xây dựng kho ngữ liệu 39 3.1.1 Trích từ Từ điển Lạc Việt 39 3.1.2 Trích từ VOV New 45 3.1.3 Trích từ kho ngữ liệu Anh, Pháp 56 3.1.4 Một số nguồn liệu khác .59 3.2 Hiệu chỉnh kho ngữ liệu 59 3.2.1 Xây dựng hệ thống 59 3.2.2 Xây dựng giao diện hệ thống 63 3.3 Thử nghiệm đánh giá chương trình 68 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 70 iii DANH MỤC HÌNH ẢNH Hình Q trình xử lý chương trình dịch tự động 14 Hình Giao diện hệ thống dịch Babel Fish 17 Hình Giao diện hệ thống dịch Systran 18 Hình Giao diện hệ thống dịch Reverso .19 Hình Giao diện hình dịch với Google translate 20 Hình Giao diện trang WebOffice 24 Hình Giao diện trang Wikipedia .25 Hình Giao diện trang Windows Live 27 Hình Mơ hình tổng qt để xây dựng kho ngữ liệu 29 Hình 10 Ví dụ hình thức trình bày nguồn liệu khác 31 Hình 11 Các giải pháp tổ chức CSDL 32 Hình 12 Giao diện Từ điển Lạc Việt .34 Hình 13 Ví dụ trang web có phiên ngơn ngữ khác 36 Hình 14 Sơ đồ q trình trích từ Từ điển Lạc Việt 40 Hình 15 Mục từ có câu ví dụ Anh – Việt 41 Hình 16 Tập tin tiếng Việt Doc trích từ Từ điển Lạc Việt 42 Hình 17 Tập tin tiếng Anh Doc trích từ Từ điển Lạc Việt 42 Hình 18 Hệ thống bóc tách nội dung VietSpider 46 Hình 19 Trích nội dung từ web 47 Hình 20 Trang web tiếng Việt trước tách lấy nội dung 48 Hình 21 Trang web tiếng Anh trước tách lấy nội dung 49 Hình 22 Ví dụ tạo luồng trang VOV News tiếng Việt 50 Hình 23 Trang web tiếng Việt thực tách lấy nội dung 50 Hình 24 Trang web tiếng Anh thực tách lấy nội dung 51 Hình 25 Dữ liệu sau bóc tách 52 Figure 26 Sơ đồ q trình xử lý trích từ trang web sử dụng MorphAdorner .53 Hình 27 Tách câu trực tuyến MorphAdorner 54 Hình 28 Kết tách câu tiếng Anh cơng cụ trực tuyến MorphAdorner 55 iv Hình 29 Kết tách câu tiếng Việt công cụ trực tuyến MorphAdorner 56 Hình 30 Sơ đồ trình xử lý nguồn liệu có sẵn 57 Hình 31 Giao diện Vdict 58 Hình 32 Mơ hình kiến trúc mơi trường hiệu chỉnh kho ngữ liệu 61 Hình 33 Cấu trúc quy ước lưu liệu 62 Hình 34 Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp .63 Hình 35 Giao diện hệ thống 64 Hình 36 Giao diện tìm kiếm, dịch câu, xem sửa 64 Hình 37 Giao diện hiệu chỉnh câu dịch 65 Hình 38 Giao diện câu đóng góp bị trùng 66 Hình 39 Giao diện thay đổi câu dịch dành cho chuyên gia 66 Hình 40 Giao diện Game điền khuyết 67 Hình 41 Giao diện Game xếp thứ tự từ 67 Hình 42 Giao diện Game dịch Anh – Việt 68 v THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: Xây dựng kho ngữ liệu đa ngữ phục vụ xử lý tiếng Việt - Mã số: Đ2012- - - Chủ nhiệm: PGS.TS Võ Trung Hùng - Thành viên tham gia: ThS Hoàng Như Quỳnh, Nguyễn Thị Hoa - Cơ quan chủ trì: Đại học Đà Nẵng - Thời gian thực hiện: 2012 Mục tiêu: Xây dựng kho ngữ liệu đa ngữ có chứa tiếng Việt lớn số lượng chất lượng tốt nhằm phục vụ cho nghiên cứu xử lý tiếng Việt Tính sáng tạo: Ứng dụng hệ thống dịch tự động môi trường hợp tác để mở rộng kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên Tóm tắt kết nghiên cứu: - Hướng dẫn học viên bảo vệ thành công luận văn Thạc sĩ - Xây dựng kho ngữ liệu đa ngữ gồm tập câu Anh, Pháp, Việt - Cơng bố báo Tạp chí Khoa học Công nghệ, Đại học Đà Nẵng Tên sản phẩm: UD Corpus Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: sử dụng Trung tâm DATIC (Đại học Đà Nẵng) GETA (Cộng hòa Pháp) Hình ảnh, sơ đồ minh họa vi RESEARCH RESULT INFORMATION General information: - Project Title: Building a multilingual corpus for Vietnamese processing - Code number: Đ2012- - - Coordinator: PGS.TS Võ Trung Hùng - Members: ThS Hoàng Như Quỳnh, Nguyễn Thị Hoa - Implementing Institution: The University of Danang - Duration: 01-12/2012 Objectives: Building a multilingual corpus containing the multilingual sentences with huge quantity and hight quality to cater to the research on Vietnamese processing Innovation: Using of automatic translation systems and collaboration environment to develop and extend linguistics corpus on natural language processing Results obtained: - One student successfully defended Master thesis - Developing an multilingual corpus in English, French, and Vietnamese - One article published in the Journal of Science and Technology, University of Danang Product name: UD Corpus Application: using at DATIC (the University of Danang) and GETA (France) Figure and flowchart vii MỞ ĐẦU Hiện nay, người sử dụng 7000 ngơn ngữ nói khác nhau, số có 1500 ngơn ngữ có chữ viết [5] Chính đa dạng ngơn ngữ q trình tồn cầu hóa diễn mạnh mẽ nên vấn đề cấp thiết đặt làm để người nói viết ngơn ngữ khác hiểu dễ dàng Để phục vụ cho mục đích đó, nghiên cứu xử lý ngơn ngữ tự nhiên phủ, trường đại học/viện nghiên cứu, công ty phần mềm, nhà khoa học đầu tư nghiên cứu từ sớm Những vấn đề liên quan đến xử lý ngôn ngữ tự nhiên đa dạng từ lý thuyết ngơn ngữ, phân tích văn bản, nhận dạng, dịch tự động, hỏi đáp tự động [4],… Đa số phương pháp, kỹ thuật sử dụng xử lý ngôn ngữ tự nhiên cần đến liệu song ngữ đa ngữ Hiện nay, ngôn ngữ lớn (ngơn ngữ có nhiều người sử dụng và/hoặc sử dụng quốc gia có tiềm lực mạnh kinh tế, khoa học, kỹ thuật) có nhiều kho ngữ liệu chất lượng xây dựng Chúng ta dễ dàng tìm thấy kho ngữ liệu tiếng Anh, tiếng Pháp, tiếng Hoa, tiếng Nhật… Đặc biệt, có nhiều kho ngữ liệu song ngữ Anh – Pháp, Anh – Hoa, Anh - Nhật,… Ngược lại, ngôn ngữ tiếng Việt nghiên cứu chưa nhiều, rời rạc đặc biệt thiếu vắng kho ngữ liệu lớn khối lượng đảm bảo chất lượng để phục vụ công tác nghiên cứu phát triển ứng dụng Vì vậy, việc nghiên cứu, xây dựng kho ngữ liệu đa ngữ phục vụ cho xử lý tiếng Việt vấn đề cần thiết, cấp bách đặt Trong báo cáo này, chúng tơi trình bày lại kết nghiên cứu thực nghiệm để xây dựng kho ngữ liệu đa ngữ Anh – Pháp – Việt gồm tập hợp câu song song tương ứng ngôn ngữ Phương pháp sử dụng dùng hệ thống dịch tự động sẵn có Systran, Google, Reverso, … để dịch tự động số kho ngữ liệu sẵn có sang ngơn ngữ khác (chủ yếu từ tiếng Anh sang tiếng Pháp sang tiếng Việt) sau sử dụng mơi trường hợp tác để người tham gia hiệu chỉnh Chất lượng kho ngữ liệu liên tục cải thiện tham gia đóng góp người sử dụng (trong trường hợp nghiên cứu tham gia giảng viên, sinh viên ngoại ngữ) cuối kiểm tra xác nhận nhà ngôn ngữ Kết đạt Từ nguồn ngữ liệu thông qua máy dịch thuật Google cơng cụ dịch thuật trực tuyến miễn phí Google cung cấp dịch nhanh văn trang web,… với nhiều ngôn ngữ Hoặc sử dụng website dịch tự động trực tuyến Vdict Vdict website dịch trực tuyến có tích hợp cơng cụ dịch Google, với Vdict ta so sánh hai kết dịch Vdict Google từ lựa chọn dịch có độ xác cao Sơ đồ xử lý nguồn liệu huấn luyện sau: Dữ liệu huấn luyện Xử lý liệu Công cụ dịch Google/ Vdict Macro Word XML_Vn XML_En Hình 30 Sơ đồ q trình xử lý nguồn liệu có sẵn Hình 31 Giao diện Vdict Trên giao diện cơng cụ dịch Vdict, cơng cụ dịch tự động qua lại tất ngôn ngữ giới Kết tra từ Vdict trình bày rõ ràng giúp xố bỏ rào cản ngơn ngữ Vdict tích hợp thêm máy dịch tự động Google cho phép so sánh, lựa chọn dịch xác Với ưu công tác trường Đại học Ngoại ngữ, nhờ giúp đỡ số sinh viên năm thứ tư khoa tiếng Anh trường kiểm tra lại dịch cơng cụ nói trên, từ có dịch xác để cập nhật vào kho ngữ liệu song ngữ xây dựng Tất nguồn liệu tiếng Anh dịch tiếng Việt lưu trữ tập tin Doc Tiếp theo sử dụng công cụ giới thiệu phần để tiến hành xây dựng, cập nhật kho ngữ liệu song ngữ Anh – Việt 9.4 Một số nguồn liệu khác Xuất phát từ hạn chế việc tìm kiếm cặp câu song ngữ Anh – Việt từ nguồn nói Và để làm phong phú thêm nội dung kho ngữ liệu song ngữ chúng tơi tiến hành tìm kiếm thêm nhiều cặp câu Anh – Việt từ nguồn khác mẫu truyện, văn điện tử lưu định dạng Pdf số website song ngữ khác Các nguồn liệu sử dụng cơng cụ giới thiệu trích lấy cặp câu Anh – Việt, đặc biệt với tập tin định dạng Pdf sử dụng thêm phần mềm chuyển đổi sang định dạng Doc để thuận tiện cho công việc tách liệu 10 Hiệu chỉnh kho ngữ liệu Như chúng tơi trình bày chương 2, có số phương pháp hiệu chỉnh kho ngữ liệu phương pháp chuyên gia hay phương pháp tự động Nhưng hai phương pháp tồn số nhược điểm nên chọn phương pháp hiệu chỉnh kho ngữ liệu môi trường hợp tác để khắc phục nhược điểm mà hai phương pháp mang lại 10.1 Xây dựng hệ thống Do đặc điểm hệ thống hiệu chỉnh ngữ liệu môi trường hợp tác dùng chung cho phép nhiều đối tượng địa điểm khác tham gia, nên việc triển khai máy tính đơn không ưu tiên Hơn việc triển khai máy tính đơn đòi hỏi người sử dụng phải cài đặt phần mềm cài đặt công cụ hỗ trợ gây trở ngại cho người sử dụng Chính phải triển khai tồn hệ thống chạy Webform thực môi trường Intranet Internet Cùng với kho ngữ liệu thu thập nhờ xây dựng công cụ dịch từ hệ thống dịch Google Từ kho ngữ liệu tiếng Anh gốc thông qua công cụ dịch dịch thêm kho ngữ liệu tiếng Pháp tiếng Việt, ngữ liệu đầu vào cho môi trường hợp tác Tuy nhiên chất lượng dịch hệ thống thấp [2], [10], [15] Vì ta phải hiệu chỉnh kho ngữ liệu để có chất lượng sử dụng tốt Có thể hiệu chỉnh nhiều phương pháp khác trình bày Tuy nhiên nhiều thời gian cơng sức kinh phí, đặc biệt kho ngữ liệu lớn Chúng tiến hành xây dựng môi trường hợp tác để tiến hành hiệu chỉnh kho ngữ liệu Qua môi trường hợp tác người dùng tham gia dịch tự động nội dung câu dịch tồn kho; không tồn câu cần dịch đưa đề nghị nhờ Google Translate dịch Hoặc chọn câu danh sách kho ngữ liệu có sẵn có dịch tiếng Pháp tiếng Việt Nếu câu dịch chưa đầy đủ ý nghĩa chưa xác người dùng chọn hiệu chỉnh nhằm tăng độ tin cậy tính kiểm chứng kết Do mơi trường hợp tác thiết kế dạng hệ thống Website có cấu trúc đơn giản cho phép người truy cập vào cách dễ dàng Môi trường hợp tác cho phép người truy cập chọn chỉnh sửa câu dịch nghĩa chưa xác theo ý người dùng; cho phép xóa câu sửa khơng bình chọn câu hay người dùng khác theo ý mình; cho phép ghi lại câu mà vừa chỉnh sửa, cách ta tích hợp câu dịch xác nghĩa nhiều làm phong phú kho ngữ liệu Sau có nhiều dịch ta nhờ chuyên gia lĩnh vực chọn câu dịch hay xác nghĩa để lưu vào kho ngữ liệu ta vừa xây dựng Để giải vấn đề đặt cho hệ thống lớn với nhiều giao diện người dùng với nhiều chức thực hệ thống, nên phần giao diện chọn giải pháp xây dựng trang làm trang chủ (aspx), chức tổ chức thực user control nhúng vào aspx Các trang gọi thực menu động trang chủ Trong hệ thống xây dựng trang giao diện như: trang chủ; trang hiển thị câu dịch; trang cho người dùng chỉnh sửa; … Các đối tượng người dùng lưu trữ toàn thông tin vào ghi sở liệu Mơ hình kiến trúc mơi trường hợp tác Hình 32 Mơ hình kiến trúc mơi trường hiệu chỉnh kho ngữ liệu Cơ sở liệu XML đầu vào: Đó kho ngữ liệu lưu trữ dạng kho sở liệu XML thông qua hệ thống dịch thu thập với kho ngữ liệu tiếng Anh (kho ngữ liệu gốc), tiếng Pháp tiếng Việt (2 kho ngữ liệu dịch nhờ hệ thống Google) Trong sở liệu XML, kho ngữ liệu lưu trữ câu dịch ngôn ngữ khác Cùng với hệ sở liệu SQL Server 2008 ta tiến hành lưu kho ngữ liệu sửa người dùng đề xuất với số mục tương ứng, thông tin sửa câu dịch, đánh giá người sử dụng tham gia vào hệ thống ASP.NET ngôn ngữ C#: Là phần mềm, công nghệ, thư viện ngôn ngữ nhằm xây dựng hệ thống môi trường hợp tác phục vụ cho việc hiệu chỉnh kho ngữ liệu Giao diện môi trường hợp tác: Là cầu nối thông tin người dùng chung với hệ thống xử lý liệu Là phần giao diện tương tác trực tiếp với người dùng chung, người dùng chung chọn câu hay dịch ngơn ngữ mà quan tâm sau tiến hành hiệu chỉnh câu dịch yêu cầu hệ thống cập nhật vào kho ngữ Người dùng chung: Là tất người truy cập vào Website để chỉnh sửa nội dung câu dịch mà quan tâm, học ngoại ngữ trực tuyến… Tổ chức lưu trữ liệu Với ưu điểm sở liệu XML hệ sở liệu SQL Server 2008 trình bày việc tổ chức lưu trữ liệu người dùng chung yêu cầu hệ thống ghi lại câu dịch hiệu chỉnh bình chọn dịch hay vấn đề mà đề tài quan tâm Cách lưu trữ liệu dịch mà người dùng chỉnh sửa sau: Môi trường hợp tác cho hiển thị list (danh sách) câu kho ngữ liệu tạm gọi câu gốc Khi tiến hành tìm kiếm dịch tự động kho gốc, tồn câu dịch ngơn ngữ lại tự động lên, khơng có hệ thống hiển thị dịch đề nghị Google Sau người dùng tiến hành chỉnh sửa lưu lại câu chỉnh sửa câu đề nghị hay Chúng tiến hành lưu sửa theo nguyên tắc đánh số mục Cụ thể hệ thống Website sở liệu lưu sau: Hình 33 Cấu trúc quy ước lưu liệu Trong đó: - ID dùng để lưu số mục dịch người dùng sửa - IDE dùng để lưu số mục câu dịch lấy từ sở liệu hệ thống Changer dùng để lưu nội dung câu người dùng chỉnh sửa - Rate dùng để lưu phần đánh giá câu hay người dùng bình chọn thông qua đánh điểm MailChanger dùng để lưu địa mail NameChanger lưu tên người sửa Ví dụ, Câu gốc kho tiếng Pháp có số mục 18 gồm có câu sửa người dùng sửa để nghị ta tiến hành lưu ID 1, 2, 3, nằm số mục IDE 18 (đó câu sửa đánh mục tử đến Tương tự có câu số mục 19 có câu chỉnh sửa ta tiến hành lưu ID 1, 2, nằm số mục IDE 19 Hình 34 Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp 10.2 Xây dựng giao diện hệ thống Chương trình phát triển nền.Net, với ngơn ngữ C# ASP.Net Công cụ ta dùng để triển khai cài đặt code cho website Microsoft Visual Studio 2010 Trang hệ thống: Đây trang chứa menu với chức thực hiển thị liệu từ kho ngữ liệu làm hướng tiếp cận liệu cần hiệu chỉnh Tất trang khác sử dụng trang làm giao diện hiển thị nội dung khác Như phân tích chương 2, trang giao diện gồm có menu trang chủ để giới thiệu mơi trường hợp tác, chức dịch câu, Game tiếng Anh vừa học vừa chơi, chức hội thảo nhóm phần đăng ký đăng nhập, trang cá nhân thành viên tham gia vào môi trường Dưới giao diện hệ thống: Hình 35 Giao diện hệ thống Trang dịch câu: Hình 36 Giao diện tìm kiếm, dịch câu, xem sửa Đối với trang đối tượng người dùng tham gia dịch tự động, xem kho ngữ liệu gốc chọn câu gốc để hiển thị câu dịch phục vụ mục đích học ngoại ngữ, xem câu dịch theo ý thích, … Trong trang liên kết để chỉnh sửa ngữ liệu dịch theo ý người dùng cho hiển thị chỉnh sửa trước bình chọn câu dịch hay Đối với người dùng muốn chỉnh sửa đề xuất câu dịch tiến hành chọn “Đề xuất” đánh nội dung câu sửa vào phần dành cho câu chỉnh sửa, sau tiến hành lưu lại câu chỉnh sửa Trước lưu chỉnh sửa hệ thống yêu cầu người dùng nhập tên địa E-mail để hệ thống lưu lại thông tin người chỉnh sửa Trang cho phép người dùng xem lại kết câu hiệu chỉnh dịch hiệu chỉnh khác cách hệ thống hiển thị câu dịch ô định sẵn chỉnh sửa ô câu dịch đề xuất Hình 37 Giao diện hiệu chỉnh câu dịch Nếu câu đề xuất người dùng bị trùng hệ thống báo câu dịch tồn Hình 38 Giao diện câu đóng góp bị trùng Khi đăng nhập hệ thống có nhiều mơđun nhỏ dành cho NSD NSD xem dịch chuyên gia, xuất câu dịch chuyên gia, tạo lập nhóm, tạo diễn đàn trao đổi học tập, … môđun dành cho chuyên gia theo phân quyền hệ thống Câu chuyên gia sửa thay đổi kết kho ngữ liệu cuối mà chúng tơi cần hướng tới Hình 39 Giao diện thay đổi câu dịch dành cho chuyên gia Sau đó, hệ thống tiến hành thống kê dịch chuyên gia sửa tác động người dùng chuyên gia Một số trang ứng dụng kho ngữ liệu: Để ứng dụng kho ngữ liệu đa ngữ Anh – Pháp - Việt vào việc dạy học tiếng Anh, thực chương trình trò chơi “ Học tiếng Anh qua mẫu câu Anh – Pháp - Việt” để khai thác kho ngữ liệu đa ngữ Anh – Pháp - Việt mà chúng tơi xây dựng Chương trình cho phép người dùng rèn luyện khả dịch qua mẫu câu Anh – Pháp - Việt có sẵn, giao diện trò chơi sau: Hình 40 Giao diện Game điền khuyết Hình 41 Giao diện Game xếp thứ tự từ Hình 42 Giao diện Game dịch Anh – Việt Kết thúc trò chơi, hệ thống hiển thị thống kê số điểm mà người chơi đạt đáp án người chơi đáp án hệ thống tiến hành chấm điểm cho đáp án 11 Thử nghiệm đánh giá chương trình Chúng tơi xây dựng xong Website hiệu chỉnh ngữ liệu với số lượng ngữ liệu đầu vào tương ứng với kho ngữ liệu: kho tiếng Anh với 106.434 câu, kho tiếng Pháp với 106.434 câu kho tiếng Việt với 106.434 câu Xây dựng hệ thống Website hiệu chỉnh kho ngữ liệu tiếng Pháp tiếng Việt dựa kho ngữ liệu gốc Từ làm tăng độ tin cậy tính xác kho ngữ liệu đa ngữ Qua q trình triển khai mơi trường hợp tác, hệ thống giúp sinh viên – học sinh tiếp thu kiến thức môn học thông qua môi trường hợp tác, kiến thức ngoại ngữ tin học hoá để giúp cho em học tập cách chủ động KẾT LUẬN Trong trình thực đề tài nghiên cứu ứng dụng nhiều phương pháp công cụ phục vụ xử lý ngôn ngữ tự nhiên, kho ngữ liệu song ngữ vấn đề liên quan đến xử lý liệu Báo cáo tổng kết trình bày chi tiết bước để xây dựng kho ngữ liệu đa ngữ Đề tài đạt mục đích ban đầu đặt xây dựng kho ngữ liệu Anh, Pháp Việt Tuy nhiên đề tài không tránh khỏi hạn chế bao gồm: Nguồn liệu song ngữ Việt Nam có chất lượng dịch không cao Đặc biệt, việc sửu dụng công cụ dịch tự động để mở rộng kho ngữ liệu sang ngôn ngữ khác cách làm tối ưu chất lượng phần mềm dịch chưa đảm bảo Vì vậy, cơng tác hậu kiểm nhằm hiệu đính dịch vơ quan trọng Trong thời gian đến, tiếp tục bổ sung vào nguồn liệu trên, ngôn ngữ Anh, Pháp Việt mà thêm nhiều ngơn ngữ khác Pháp, Trung, Nhật, Hàn,… đặc biệt cho tiếng dân toccj thiểu số Việt Nam Chăm, Khơ-me,… TÀI LIỆU THAM KHẢO Tiếng Việt: [1] TS Đinh Điền (2006), Giáo trình xử lý ngơn ngữ tự nhiên, Nhà xuất Đại học quốc gia TP.HCM [2] Nguyễn Chí Hiếu, Ứng dụng xử lý ngôn ngữ tự nhiên dịch máy, Đại học Cơng nghiệp TP Hồ Chí Minh [3] Hoàng Đức Hải (2006), XML Nền Tảng & Ứng Dụng, Nhà xuất Lao động Xã hội [4] Phan Huy Khánh (2005), “Sử dụng cơng cụ lập trình macro VBA xây dựng tiện ích xử lý văn bản”, Tạp chí Khoa học & Cơng nghệ - ĐHĐN, số 10, tr 47 - 53 [5] Võ Trung Hùng, Phan Huy Khánh (2002), “Xây dựng sở liệu đa ngữ ngữ pháp tiếng Việt”, Tạp chí Khoa học Công nghệ trường Kỹ thuật, số 34 – 35, tr 19 – 23 Tiếng Anh: [6] Chen, S F (1993), "Aligning Sentences in Bilingual Corpora Using Lexical Information," In Proceedings of the 31s tAnnual Meeting of Association for Computational Linguistics [7] Dinh Dien, Hoang Kiem(2004) “Building an Annotated Parallel Corpus of English – Vietnamses”, In the Proc of International Conference on Natural Language Process, ICON’04, India [8] Jisong Chen, Rowena Chau, Chung-Hsing Yeh (2004) “Discovering Parallel Text from the World Wide Web”, ACSW Frontiers 2004,pp 157-161 [9] Resnik and N A Smith, (2003) “The Web as a Parallel Corpus,” Computational Linguistics, 29(3),pp 349–380 [10]Véronis J (2000), Parallel Text Processing, Klwer Academic [11] William A Gale and Kenneth W Church, (1991), "A Program for Aligning Sentences in Bilingual Corpora", Computational Linguistics Trang web [12]Anthony McEnery, Richard Xiao, Yukio Tono, “Corpora Survey” http://cw.routledge.com/textbooks/0415286239/resources/corpa3.htm, ngày truy cập 16/02/2011 [13]British National Corpus, “What is the BNC?”, http://www.natcorp.ox.ac.uk/, ngày truy cập 15/12/2010 [14]British National Corpus, “About the British National Corpus”, http://www.gloriacappelli.it/wp-content/uploads/2007/05/bnc.pdf, ngày truy cập 15/12/2010 [15]European Parliament Proceedings Parallel Corpus http://www.statmt.org/europarl/, ngày truy cập 05/04/2011 1996-2009, [16]Glottopedia, “Parallel corpus”, http://www.glottopedia.de/index.php/Parallel_corpus, ngày truy cập 20/01/2011 [17]Hồ Quốc Bảo, Đinh Điền, Đặng Bác Văn, Lương Vỹ Minh (2008), Báo cáo kỹ thuật đề tài nhánh SP.74, http://www.jaist.ac.jp/~bao/VLSPtext-/March2008/SP7.4_Baocaokythuat20 08thang3.pdf, ngày truy cập 05/02/2011

Ngày đăng: 24/03/2019, 00:59

Từ khóa liên quan

Mục lục

  • CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN

    • 1. Kho ngữ liệu song ngữ

      • 1.1. Khái niệm

      • 1.2. Ứng dụng của kho ngữ liệu song ngữ

      • 1.3. Nghiên cứu một số kho ngữ liệu song ngữ trên thế giới

      • 2. Một số nguồn có thể trích rút ngữ liệu

        • 2.1. Nguồn từ điển

        • 2.2. Ngữ liệu SUSANNE

        • 2.3. Nguồn Internet

        • 2.4. Nguồn sách

        • 3. Dịch tự động

          • 3.1. Lịch sử phát triển

          • 3.2. Khái niệm

          • 3.3. Cấu trúc của một chương trình dịch tự động

          • 3.4. Một số hệ thống dịch tự động

          • 4. Môi trường hợp tác

            • 4.1. Khái niệm

            • 4.2. Các công cụ dùng để giao tiếp và hợp tác

            • 4.3. Các tính năng cơ bản của môi trường hợp tác

            • 4.4. Các công nghệ hỗ trợ môi trường hợp tác

            • 4.5. Một số môi trường hợp tác trên mạng

            • CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU

              • 5. Giới thiệu

              • 6. Mô hình tổng thể

              • 7. Đề xuất giải pháp để xây dựng kho ngữ liệu song ngữ

                • 7.1. Các tiêu chí chọn mẫu ngữ liệu

                • 7.2. Chọn nguồn dữ liệu và chuẩn hóa

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan