RÚT TRÍCH KHO NGỮ LIỆU SONG NGỮ HOA VIỆT TRÊN NHIỀU DOMAIN

7 266 2
RÚT TRÍCH KHO NGỮ LIỆU SONG NGỮ HOA VIỆT TRÊN NHIỀU DOMAIN

Đang tải... (xem toàn văn)

Thông tin tài liệu

Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM VII-O-12 RÚT TRÍCH KHO NGỮ LIỆU SONG NGỮ HOA-VIỆT TRÊN NHIỀU DOMAIN Trần Thanh Phƣớc1, Trịnh Thanh Duy2, Đinh Điền3, Trần Thị Bích Vân1 1 Khoa Công nghệ Thông tin, Trường Đại học Công Nghiệp Thực Phẩm TPHCM 2 Trung tâm ngữ liệu đa ngữ Kim Từ Điển 3 Khoa Công nghệ Thông tin, Trường Đại học Khoa Học Tự Nhiên, ĐHQG-HCM TÓM TẮT Một kho ngữ liệu song ngữ lớn và chất lượng là điều kiện thiết yếu cho rất nhiều bài toán xử lý ngôn ngữ tự nhiên, đặc biệt là trong dịch máy thống kê.Trong bài báo này, chúng tôi trình bày một phương pháp rút trích ngữ liệu song ngữ Hoa-Việt trên nhiều domain khác nhau.Mục đích của bài báo là bước đầu tìm hiểu, khai phá nguồn tài nguyên song ngữ Hoa-Việt mới vốn không có nhiều trên các web song ngữ hiện nay.Phương pháp của chúng tôi được tiến hành qua hai bước: đầu tiên là nhận diện các trang web tiếng Việt có khả năng có xuất xứ từ tiếng Hoa, kế đến là xác định trang tiếng Hoa nguồn của nó. Chúng tôi đã tiến hành thử nghiệm trên một số trang mạng Việt Nam, bước đầu cho thấy phương pháp của chúng tôi đã nhận diện khá chính xác các trang tiếng Việt có nguồn gốc tiếng Hoa; tuy nhiên, các trang tiếng Hoa nguồn tương ứng thì chưa thực sự tương đồng với trang tiếng Việt. Từ khóa: Ngữ liệu song ngữ, rút trích ngữ liệu, Hoa-Việt, nhiều domain. GIỚI THIỆU Kho ngữ liệu song ngữ là nguồn tài nguyên rất quan trọng trong các hệ thống rút trích từ, phân loại văn bản, dịch máy, … Riêng đối với dịch máy thống kê (statistical machine translation: SMT), kho ngữ liệu song ngữ của hệ dịch càng lớn và càng chất lượng thì hệ dịch sẽ cho kết quả càng cao. Để có được kho ngữ liệu cho hệ dịch, các nhà nghiên cứu thường sử dụng một trong hai phương pháp, đó làthu thập thủ công hoặc rút trích tự động song ngữ từ web. Phương pháp thu thập thủ công đòi hỏi phải có một đội ngũ am hiểu cặp song ngữ cần thu thập, nhập liệu và chỉnh sửa thủ công cho cặp song ngữ. Phương pháp này cho ra kết quả với chất lượng song ngữ rất cao nhưng lại tốn nhiều thời gian và chi phí. Với sự phát triển vượt bậc của hệ thống các trang web đa ngữ hiện nay, phương pháp thu thập ngữ liệu tự động từ web ngày càng khả thi và hiệu quả. Đặc biệt, đối với các cặp ngôn ngữ phổ biến như tiếng Anh, Pháp, Hoa, … thì số lượng các trang web song ngữ của các ngôn ngữ này vô cùng lớn. Riêng đối với tiếng Việt thì số lượng trang web đa ngữ hạn chế hơn, đặc biệt các trang web song ngữ Hoa-Việt, Việt-Hoa thì càng ít hơn nữa. Hiện tại, đã có một số công trình nghiên cứu và cài đặt thử nghiệm việc rút trích ngữ liệu song ngữ từ web.Tuy nhiên, phần lớn các công trình đều tập trung vào việc rút trích các trang web song ngữ trong cùng một domain và các tác giả chỉ tìm kiếm các trang web là bản dịch của nhau trong cùng domain này.Đối với cặp song ngữ Hoa-Việt, số lượng các trang web cho cặp song ngữ này là hạn chế. Hiện tại, ở Việt Nam đã có một số website song ngữ Hoa-Việt như: dongnai.gov.vn, chinhphu.vn, vietnamtourism.com, baobinhduong.org.vn, vietnamplus.vn. Điểm hạn chế của các trang này là các bản dịch Hoa-Việt thường không thật sự song song, các bản dịch của nhau thường là dịch thoát ‎ý. Qua khảo sát các trang web đơn ngữ tiếng Việt hiện nay, chúng tôi nhận thấy có rất nhiều trang web có xuất xứ từ tiếng nước ngoài, trong đó có khá nhiều bài viết xuất xứ từ tiếng Hoa, điển hình như các trang vov.vn, giaoduc.net.vn, … Phần đầu hoặc cuối của các bài viết này thường xuất hiện từ khóa cho biết xuất xứ của trang web từ Trung Quốc như: ―Theo Tân Hoa Xã‖, ―Theo Xinhua‖, ―Theo Nhân dân nhật báo‖, … Điều này chứng minh rằng bài viết này là bản dịch hoặc bản chỉnh sửa của một bài viết tiếng Hoa nào đó ở các trang từ khóa.Đây là điểm vô cùng quan trọng cho hướng tiếp cận của chúng tôi trong nghiên cứu rút trích song ngữ từ web song ngữ Hoa-Việt, một cặp song ngữ hạn chế tài nguyên. Trong bài báo này, chúng tôi sẽ rút trích ngữ liệu song ngữ Hoa-Việt từ nhiều domain khác nhau.Đầu tiên, chúng tôi sẽ rút trích các văn bản tiếngViệt; kế tiếp, dựa vào một số đặc trưng trong bản dịch tiếng Việt chúng tôi sẽ tìm bản dịch tiếng Hoa tương ứng của nó ở một domain khác. Bài bài báo này bao gồm một số nội dung sau: phần 2 sẽ trình bàymột số các công trình liên quan đến việc rút trích tự động song ngữ. Một số lý thuyết nền tảng sẽ được trình bày ở phần 3.Trong khi đó, ở phần 4 chúng tôi sẽ trình bày mô hình rút trích ngữ liệu song ngữ Hoa-Việt của hệ thống chúng tôi.Phần 5 sẽ trình bày các thử nghiệm và một số thảo luận.Phần kết luận và hướng phát triển sẽ được trình bày ở phần 6. CÔNG TRÌNH LIÊN QUAN Đã có một số công trình nghiên cứu, thực nghiệm để tạo ra kho ngữ liệu song ngữ, đa ngữ cho các cặp ngôn ngữ như: Anh-Pháp, Anh-Hoa, Anh-Nhật, Anh-Ả rập, Pháp-Việt, Anh-Việt, … Trong đó, tất cả các hệ ISBN: 978-604-82-1375-6 74 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM thống đều có ba bước chính: (1) lấy dữ liệu từ Web (web crawling); (2) gióng hàng văn bản (text alignment); (3) gióng hàng câu (sentence alignment). Các công trình này khai thác dữ liệu từ Web để tạo kho ngữ liệu song ngữ, đa ngữ, và đều giống nhau ở bước 1 (Web Crawling) nhưng bước 2 -gióng hàng văn bản lại rất khác nhau. Qua khảo sát dựa vào cách gióng hàng văn bản, ta có thể tạm chia các hệ thống này thành hai nhóm chính như sau: Nhóm thứ nhất dựa trên sự tương đồng về địa chỉ trang Web (url), tên tập tin (filename), cấu trúc html: hệ thống STRAND [1] tìm kiếm tự động ngữ liệu song song Anh-Pháp từ Web; hệ thống PTMiner [2] tìm kiếm và gióng hàng các văn bản Anh-Hoa song song từ Web; hệ thống BITS [3] tìm kiếm tự động các văn bản song song Đức-Anh trên Web. Nhóm thứ hai dựa trên độ tương đồng nội dung và các đặc trưng trong văn bản chứ không dựa trên tên tập tin, cấu trúc html như nhóm thứ nhất. Các công trình nổi bật như: hệ thống xây dựng kho ngữ liệu đa ngữ AnhHoa, Anh-Ả rập của hai tác giả Munteanu và Marcu 2005 [4], xây dựng kho ngữ liệu song song đa ngữ cho dịch máy thống kê của tác giả Philipp Koehn 2005 [5]; hay hệ thống khai thác ngữ liệu không thật sự song song từ tập hợp các bản tin (news) Anh-Hoa của nhóm tác giả Degen. Huang cùng cộng sự [6] hay công trình của hai tác giả Utiyama and Isahara 2003 [7] khai thác các cặp câu song song Anh-Nhật từ các bài báo tin tức. Bên cạnh đó là các công trình xây dựng kho ngữ liệu song song cho cặp ngôn ngữ Anh-Việt: hệ thống tạo kho ngữ liệu song ngữ Anh-Việt của hai tác giả Đặng Bác Văn, Hồ Bảo Quốc [8]; hệ thống xây dựng kho ngữ liệu song ngữ Anh-Việt từ các website song ngữ của tác giả Phạm Đào Minh Vũ [9], hệ thống tìm kiếm tự động văn bản Anh-Việt từ Internet của tác giả Ngô Quốc Hưng [10]. Đối với cặp ngôn ngữ Pháp-Việt, có công trình khai thác kho ngữ liệu không thật sự song song cho hệ thống dịch máy thống kê Pháp-Việt của nhóm tác giả Thi-Ngoc-Diep Do cùng cộng sự [11]. Đến thời điểm hiện tại vẫn chưa có công bố nào chính thức cho nghiên cứu rút trích song ngữ Hoa-Việt từ các web song ngữ trên cùng hoặc khác domain. CƠ SỞ LÝ THUYẾT Độ tƣơng đồng văn bản Độ tương đồng về tập tin, cấu trúc HTML Cặp văn bản được xem là tương đồng về tập tin, cấu trúc khi chúng thuộc một trong các trường hợp sau: Có cùng địa chỉ URL (ví dụ google.com và google.de) Có cùng kích thước (size) Có cùng cấu trúc HTML Tập ký tự của mỗi trang. Độ tương đồng về nội dung văn bản Cho văn bản A trong ngôn ngữ L1 và văn bản B trong ngôn ngữ L2, tách các văn bản A và văn bản B thành các token. Độ tương đồng giữa văn bản A và văn bản B theo công thức sau: 𝑠𝑖𝑚 𝐴, 𝐵 = 𝑠ố 𝑐ặ𝑝 𝑡𝑜𝑘𝑒𝑛 đượ𝑐 𝑑ị𝑐𝑕 𝑙ẫ𝑛 𝑛𝑕𝑎𝑢 𝑡ổ𝑛𝑔 𝑠ố 𝑡𝑜𝑘𝑒𝑛 𝑡𝑟𝑜𝑛𝑔 𝑡𝑟𝑜𝑛𝑔 𝑣ă𝑛 𝑏ả𝑛 𝐴 Nếu Sim (A, B) lớn hơn ngưỡng cho trước thì xem như A, B là cặp dịch của nhau. Để tìm các cặp token dịch thật sự giữa các ứng viên, các nhà nghiên cứu thường sử dụng độ đo khoảng cách, nếu vị trí của token trong văn bản A quá xa so với vị trí của token trong văn bản B thì đó không phải là cặp token dịch lẫn nhau. Và để nâng cao hiệu quả của giải thuật tìm kiếm, các nhà nghiên cứu thường sử dụng thêm các bô lọc như kích thước tập tin, thực thể có tên của hai văn bản, số đoạn trong văn bản để lọc ra các cặp không chính xác. Đặc điểm ngôn ngữ Hoa-Việt Về mặt loại hình ngôn ngữ (language typology), tiếng Hoa và tiếng Việt cùng thuộc loại hình đơn lập, nên có những điểm tương đồng như: Trong hoạt động ngôn ngữ, từ không biến hình Phương thức ngữ pháp chủ yếu là trật tự từ và từ hư Ranh giới từ không được xác định bằng khoảng trắng Có từ chỉ loại trước danh từ Dùng hư từ để thể hiện thể phủ định, nghi vấn Dùng phụ tố để thể hiện chủ thể ở số nhiều Tuy nhiên, trong một số cấu trúc, giữa tiếng Hoa và tiếng Việt có một số khác biệt như: ISBN: 978-604-82-1375-6 75 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Tiếng Hoa không phân biệt chữ hoa chữ thường như tiếng Việt. Ví dụ: Tiếng Việt là ―Hà Nội‖ hay ―hà nội‖ thì tiếng Hoa chỉ có một từ tương ứng duy nhất là ―河内‖. Trong tiếng Hoa, tính từ (hình dung từ) đứng trước danh từ. Trật tự các giới từ: cú pháp tiếng Hoa có dạng: + + . Khi dịch sang tiếng Việt, trật tự thay đổi như sau: + + . Trạng ngữ chỉ thời gian. Các cấu trúc dị biệt. Sự lặp lại của từ KHAI THÁC NGỮ LIỆU SONG NGỮ HOA-VIỆT TRÊN NHIỀU DOMAIN Chúng tôi sử dụng độ tương đồng về nội dung văn bản để rút trích các cặp tài liệu song ngữ Hoa-Việt tương đồng. Chúng tôi không sử dụng độ tương đồng về tập tin hay cấu trúc HTML. Ngữ liệu song ngữ HoaViệt hiện nay chưa thật sự song song, bản dịch tiếng Việt hoặc Hoa thường là bản dịch thoát ý, trong đó một số đoạn văn không quan trọng đã được lược bỏ. Do đó, nếu dựa vào độ tương đồng của tập tin hoặc cấu trúc HTML chúng ta có thể sẽ bị mất các cặp tài liệu tương đồng hữu ích. Mô hình khai thác của chúng tôi như sau (hình 1): Từ một domain chứa tiếng Việt không chứa tiếng Hoa, hệ thống thực hiện download các tài liệu tiếng Việt. Tiếp đến, dựa vào ―các tiêu chí nhận dạng web có nguồn gốc tiếng Hoa‖, hệ thống sẽ lọc ra các trang web tiếng Việt được cho là có nguồn gốc từ web tiếng Hoa. Trong bài báo này, tiêu chí được sử dụng đó là ở đầu hoặc cuối trang web có trích dẫn nguồn gốc trang web tiếng Hoa như ―Theo Tân Hoa Xã‖, ―Theo xinhua‖, … Tập hợp các trang web tiếng Việt sẽ được loại bỏ các thẻ HTML cũng như các nội dung rác. Tiêu đề của tài liệu cũng được đánh dấu trong bước này. Dựa vào ―trích dẫn nguồn gốc‖ của tài liệu tiếng Việt hệ thống sẽ tìm domain chứa trang web tiếng Hoa. Dựa vào tiêu đề của tài liệu tiếng Việt, hệ thống sẽ dịch tiêu đề tiếng Việt thành tiếng Hoa. Chúng tôi sử dụng Google Search để tìm kiếm tiêu đề tiếng Hoa trên domain vừa tìm được. Để hạn chế số lượng kết quả các trang web trả về từ Google Seacrh, chúng tôi chỉ lấy 3 kết quả đầu tiên. Các kết quả này cũng được rút trích nội dung, loại bỏ các thẻ HTML và các nội dung rác. Hình 1. Mô hình khai thác song ngữ Hoa-Việt không cùng domain THỬ NGHIỆM Chúng tôi chọn trang web của đài tiếng nói Việt Nam với chuyên mục có nhiều tin được coi là có nguồn gốc từ tiếng Hoa (http://vov.vn/Tags/Theo-T%C3%A2n-Hoa-x%C3%A3.vov).Bước đầu thử nghiệm, chúng tôi chỉ chọn tiêu chí sự giống nhau của ―tiêu đề của hai tài liệu‖ để làm cơ sở cho việc tìm cặp trang web Hoa-Việt tương đồng.Cụ thể như sau: Download các trang web tiếng Việt có nguồn gốc tiếng Hoa từ trang http://vov.vn/Tags/TheoT%C3%A2n-Hoa-x%C3%A3.vov. Loại bỏ các thẻ HTML, trích lọc tiêu đề và nội dung trang web tiếng Việt. Sử dụng Google Translator để dịch tiêu đề tiếng Việt thành tiếng Hoa. Sử dụng Google Search để tìm kiếm trang web tiếng Hoa dựa vào tiêu đề tiếng Hoa vừa dịch. ISBN: 978-604-82-1375-6 76 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Chúng tôi lấy 3 trang web tiếng Hoa kết quả đầu tiên từ Google Search, rút trích nội dung văn bản. Chúng tôi xem 3 kết quả này là bản dịch tiếng Hoa tương ứng với văn bản tiếng Việt (độ ưu tiên giảm dần). Qua thử ngiệm, chúng tôi thu được các kết quả tiếng Hoa không như mong muốn. Hai kết quả phổ biến nhất, đó là: nội dung hai văn bản Hoa-Việt bị sai do Google Translator đã dịch sai tiêu đề tiếng Việt sang tiếng Hoa; trường hợp thứ hai khả quan hơn, tiêu đề tiếng Việt đã được dịch đúng nhưng nội dung văn bản tiếng Hoa không tương đồng với văn bản tiếng Việt. Ví dụ sau sẽ minh họa kết quả phổ biến trong quá trình thử nghiệm. Hình 2. Trang web tiếng Việt có nguồn gốc tiếng Hoa Hình 3. Download trang HTML của web tiếng Việt ISBN: 978-604-82-1375-6 77 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Hình 4. Rút trích tiêu đề và nội dung trang web tiếng Việt. Hình 5. Dịch tiêu đề tiếng Việt sang tiếng Hoa bằng Google Translator Hình 6. Kết quả 3 trang web tiếng Hoa đầu tiên của Google Search Hình 7. Trang web tiếng Hoa của địa chỉ http://chanye.hinews.cn/page-8159.html ISBN: 978-604-82-1375-6 78 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Hình 8. Trang web tiếng Hoa của địa chỉ http://chanye.hinews.cn/page-8159.html Hình 9. Trang web tiếng Hoa của địa chỉ http://news.ifeng.com/history/zhongguojindaishi/.../30714907_0.shtml Trong 3 trang web tiếng Hoa trên, trang web đầu tiên (hình 7) cùng diễn tả nội dung có liên quan đến vấn đề kỷ luật quan chức tham nhũng (副市长刘仲虎因严重违纪被开除党籍, tạm dịch: ―Phó thị trưởng Lưu Trọng Hổ bị khai trừ khỏi Đảng vì vi phạm kỷ luật nghiêm trọng‖). Tuy nhiên, kết quả này không đúng so với bản tiếng Việt ban đầu. Trong khi đó, trang web tiếng Hoa thứ 2 (hình 8) không liên quan gì đến trang tiếng Việt.Trang thứ 3 (hình 9) thì hiện tại không còn tồn tại. KẾT LUẬN Trong bài báo này, chúng tôi đã thực hiện việc rút trích song ngữ Hoa-Việt trên nhiều domain khác nhau.Kết quả bước đầu cho thấy phương pháp của chúng tôi đã nhận dạng và rút trích được tương đối chính xác các trang web tiếng Việt có nguồn gốc tiếng Hoa.Hiện tại, chúng tôi chỉ mới áp dụng tiêu chí ―tiêu đề tài liệu‖ để truy tìm các trang web tiếng Hoa nguồn nên kết quả tìm được vẫn còn hạn chế. Hơn nữa, việc dịch tiêu đề từ tiếng Việt sang tiếng Hoa, rồi đến kết quả tìm kiếm 3 trang đầu tiên của hệ thống cũng phụ thuộc vào chất lượng dịch và tìm kiếm của Google. Tất nhiên sẽ có một số trường hợp Google sẽ dịch và tìm kiếm bị sai, đặc biệt là trường hợp dịch; điều này đã ảnh hưởng đáng kể đến hệ thống của chúng tôi. Trong tương lai, chúng tôi sẽ bổ sung thêm các đặc trưng khác như tên riêng, biểu thức số, độ tương đồng về kích thước 2 văn bản, ... để nâng cao chất lượng nhận dạng và rút trích các trang tiếng Hoa nguồn. ISBN: 978-604-82-1375-6 79 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM EXTRACTING CHINESE-VIETNAMESE BILINGUAL CORPUS IN MULTI-DOMAINS ABSTRACT A large quality bilingual corpus is essential for many problems of natural language processing, especially in statistical machine translation. In this paper, we present a method for extracting ChineseVietnamese bilingual corpus in multi-domains. The purpose of the paper is to learn and explore the new Chinese-Vietnamesebilingual resources which do not have much in the bilingual websites today. Our method is carried out in two steps: the first is to identify Vietnamesewebsites whichare capable of having Chinese origin;next is to identify their Chinese source websites. We conducted our experiments on a number of Vietnamese websites, the initial result showed that our system identified quite accuaratelyVietnamese websites having Chinese origin; however, the corresponding Chinese source websites are not similar to the Vietnamese ones. Keywords: bilingual corpus, corpus extracting, Chinese-Vietnamese, multi-domains. TÀI LIỆU THAM KHẢO [1] P. Resnik and N. A. Smith. The Web as a Parallel Corpus, Computational Linguistics, 2003, 29(3):349–380. [2] Jisong CHEN, Rowena CHAU, Chung-Hsing YEH, 2003. Discovering Parallel Text from the World Wide Web. The Australasian Workshop on Data Mining and Web Intelligence (DMWI-2004), Dunedin, New Zealand. [3] Ma Xiaoyi, Mark Liberman. BITS: A method for bilingual text search over the web, Machine Translation Summit VII, September, 1999. [4] Dragos S. Munteanu and Daniel Marcu. 2005. Improving Machine Translation Performance by Exploiting Non-Parallel Corpora. CL, 31(4):477–504. [5] Philipp Koehn, 2005. Europarl: A Parallel Corpus for Statistical Machine Translation, MT Summit, 2005. [6] Degen Huang, Lian Zhao, Lishuang Li, Haitao Yu, 2010. Mining Large-scale Comparable Corpora from Chinese-English News Collections. Coling 2010: Poster Volume, pages 472–480, Beijing, August 2010. [7] Utiyama, Masao and Hitoshi Isahara. 2003. Reliable measures for aligning Japanese-English news articles and sentences. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, pages 72–79, Sapporo, Japan. [8] Dang Bac Van, Ho Bao Quoc, 2007. Automatic Construction of EnglishVietnamese Parallel Corpus through Web Mining, RIVF07. [9] Phạm Đào Minh Vũ, 2007. Xây dựng kho ngữ liệu song ngữ từ dữ liệu khai thác được từ Internet, Luận văn Thạc sĩ Công nghệ thông tin, ĐH KHTN. [10] Ngô Quốc Hưng, 2009. Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet. Luận văn thạc sĩ Công nghệ thông tin ĐH KHTN. [11] Thi-Ngoc-Diep Do,Viet-Bac Le, Brigitte Bigi, Laurent Besacier, Eric Castelli, 2009. Mining a comparable text corpus for a Vietnamese - French statistical machine translation system. Proceedings of the Fourth Workshop on Statistical Machine Translation , pages 165–172, Athens, Greece, 30 March – 31 March 2009. ISBN: 978-604-82-1375-6 80 ... xây dựng kho ngữ liệu song song cho cặp ngôn ngữ Anh-Việt: hệ thống tạo kho ngữ liệu song ngữ Anh-Việt hai tác giả Đặng Bác Văn, Hồ Bảo Quốc [8]; hệ thống xây dựng kho ngữ liệu song ngữ Anh-Việt... Trạng ngữ thời gian Các cấu trúc dị biệt Sự lặp lại từ KHAI THÁC NGỮ LIỆU SONG NGỮ HOA-VIỆT TRÊN NHIỀU DOMAIN Chúng sử dụng độ tương đồng nội dung văn để rút trích cặp tài liệu song ngữ Hoa-Việt. .. song song cho hệ thống dịch máy thống kê Pháp-Việt nhóm tác giả Thi-Ngoc-Diep Do cộng [11] Đến thời điểm chưa có công bố thức cho nghiên cứu rút trích song ngữ Hoa-Việt từ web song ngữ khác domain

Ngày đăng: 09/10/2015, 06:40

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan