ỨNG DỤNG CÁC CÔNG CỤ UNL CHO TIẾNG VIỆT

11 272 0
ỨNG DỤNG CÁC CÔNG CỤ UNL CHO TIẾNG VIỆT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ỨNG DỤNG CÁC CÔNG CỤ UNL CHO TIẾNG VIỆT Phan Thị Lệ Thuyền, Võ Trung Hùng Trường Đại học Bách khoa, Đại học Đà Nẵng Email: thuyenptl@gmail.com, vthung@dut.udn.vn Tóm tắt: Trong năm qua, UNL (Universal Networking Language) nhà khoa học lĩnh vực xử lý ngôn ngữ tự nhiên quan tâm nghiên cứu đạt số kết định UNL ngôn ngữ nhân tạo sử dụng để biểu diễn thông tin độc lập với ngôn ngữ tự nhiên Mục đích UNL cho phép người giới truy cập thông tin Internet mà không bị rào cản mặt ngôn ngữ Hiện nay, có nhiều dự án nghiên cứu UNL triển khai để xử lý nhiều ngôn ngữ khác tiếng Việt chưa có hệ thống phát triển Trong báo này, giới thiệu UNL số công cụ hỗ trợ UNL sử dụng cho trình mã hóa câu tiếng Việt sang biểu thức UNL giải mã biểu thức UNL sang tiếng Việt Việc thử nghiệm công cụ cho xử lý tiếng Việt thực thông qua số thực nghiệm khác Từ khóa: hệ thống UNL, ngôn ngữ UNL, IAN, EnCo, EUGENE, DeCo Giới thiệu Internet kho liệu lớn tài liệu thông tin, làm để khai thác mà không bị rào cản ngôn ngữ Theo thống kê http://www.internetworldstats.com, tiếng Anh ngôn ngữ sử dụng nhiều trang web Tuy nhiên, tất người dùng Internet biết tiếng Anh nên rào cản ngôn ngữ trở ngại lớn khai thác nội dung Internet Hơn nữa, ngày có nhiều nội dung Internet viết thứ tiếng khác tiếng Hoa, tiếng Nhật, tiếng Tây Ban Nha,… tỉ lệ biết thứ tiếng tiếng Anh nhiều Để hạn chế rào cản ngôn ngữ, giải pháp thường sử dụng đa ngữ hóa hệ thống phần mềm Website kèm theo chi phí tăng Một giải pháp hiệu để khai thác nội dung Internet dịch tự động chúng sang ngôn ngữ mà người sử dụng đọc, hiểu Tuy nhiên, giới sử dụng 5000 ngôn ngữ có chữ viết nên việc phát triển phần mềm dịch tự động cho cặp ngôn ngữ vô khó khăn, ngôn ngữ có số lượng người dùng [2] Vì vậy, giải pháp để dịch từ văn từ ngôn ngữ nguồn sang ngôn ngữ đích sử dụng ngôn ngữ trung gian cần phát triển phần mềm dịch tự động từ ngôn ngữ với ngôn ngữ trung gian Như vậy, với n ngôn ngữ, thay phải có n*(n-1) dịch ta cần 2*n dịch [6] UNL (Universal Networking Language) ngôn ngữ trung gian người ta triển khai dịch qua UNL cho gần 50 ngôn ngữ khác [3] Ví dụ, kết nghiên cứu cho tiếng Nga tiếng Anh địa http://www.unl.ru; công cụ UNL Platform với 48 ngôn ngữ địa www.undl.org/unlpf địa http://www.unl.ru, www.undl.org/unlexp, http://www.eolss.net/, Ngoài ra, công cụ hỗ trợ trình mã hóa giải mã độc lập ngôn ngữ cung cấp UNDL địa http://www.undl.org/ http://www.unlweb.net/wiki/Tools Tuy UNL có tiềm phát triển ứng dụng lớn Việt Nam nghiên cứu UNL hạn chế Nhóm nghiên cứu triển khai nghiên cứu UNL từ năm 2005 đạt số kết như: khả ứng dụng UNL cho tiếng Việt [6], xây dựng từ điển UNL-tiếng Việt [3][4], thử nghiệm công cụ sẵn có UNL để ứng dụng cho tiếng Việt Trong báo này, trước hết giới thiệu sơ lược ngôn ngữ hệ thống UNL Tiếp theo, giới thiệu số công cụ mà người ta phát triển dự án nghiên cứu liên quan đến UNL Phần cuối trình bày việc thử nghiệm công cụ trình bày cho tiếng Việt, đặc biệt để dịch câu từ ngôn ngữ UNL sang tiếng Việt ngược lại Từ kết thử nghiệm đó, hướng nghiên cứu để ứng dụng UNL việc phát triển phần mềm dịch tự động cho tiếng Việt tiếng dân tộc người Việt Nam Chăm, Khmer, Cơ-tu,… Ngôn ngữ hệ thống UNL Ý tưởng việc phát triển hệ thống dịch đa ngữ sử dụng ngôn ngữ làm ngôn ngữ trục ngôn ngữ truyền đạt đầy đủ nội dung thông tin ngôn ngữ tự nhiên Năm 1996, UNL đề xuất TS Hiroshi Uchida Viện nghiên cứu cao cấp, Đại học United Nations, Tokyo, Nhật Bản [1] UNL có tất thành phần tương ứng ngôn ngữ tự nhiên Nó bao gồm biểu diễn khái niệm từ gọi từ vựng (Universal Words – UWs) Các UWs liên kết với để tạo thành biểu thức UNL câu Các liên kết gọi quan hệ (Relations), định rõ vai trò từ câu Thể nghĩa quan điểm người nói thể thông qua thuộc tính (Attributes) - Từ vựng: Từ vựng sử dụng chủ yếu từ tiếng Anh, có bổ sung số từ ngôn ngữ khác thông tin ngữ nghĩa để định nghĩa khái niệm ngôn ngữ tự nhiên Bằng cách cho phép hạn chế mơ hồ vốn có từ vựng ngôn ngữ tự nhiên Ví dụ: từ tiếng Anh “state” có hai từ vựng khác nhau: state(icl>country) để biểu thị quốc gia; state(icl>region) để biểu thị khu vực quốc gia - Quan hệ: Có 46 quan hệ UNL, sử dụng để kết nối hai từ vựng để xây dựng mạng ngữ nghĩa biểu thức UNL Các mối quan hệ cạnh đồ thị UNL mối quan hệ nhị phân trực tiếp tạo thành biểu thức UNL - Thuộc tính: Thuộc tính với mục đích mô tả thông tin chủ quan câu Chúng diễn đạt quan điểm người nói Có 87 thuộc tính để làm rõ ngữ nghĩa câu Ngoài ra, hệ thống UNL sử dụng sở tri thức (knowledge base) nhằm cung cấp định nghĩa ngữ nghĩa khái niệm khẳng định mức độ quan hệ chắn tránh nhập nhằng Ví dụ: câu “I can hear a dog barking outside”được biểu diễn ngôn ngữ UNL sau: {unl} agt(hear(icl>perceive(agt>person,obj>thing)).@entry, I) obj(hear(icl>perceive(agt>person,obj>thing)).@entry, :01) agt:01(bark(agt>dog).@entry, dog(icl>canine)) plc:01(bark(agt>dog).@entry, outside(icl>place)) {/unl} Hình Biểu diễn câu dạng đồ thị Để tích hợp vào hệ thống chung UNL, ngôn ngữ tự nhiên cần xây dựng máy chủ ngôn ngữ mạng Internet với hai chức mã hóa (Enconverter) giải mã (Deconverter) Chức mã hóa có nhiệm vụ chuyển đổi văn từ ngôn ngữ tự nhiên (Natural Language – NL) sang viết ngôn ngữ UNL giải mã có chức dịch văn từ ngôn ngữ UNL sang ngôn ngữ tự nhiên Để trình mã hóa giải mã diễn ra, việc xây dựng tập luật mã hóa giải mã cần từ điển song ngữ UNL – NL Hình Hệ thống dịch đa ngữ UNL Một số công cụ hỗ trợ UNL 3.1 Công cụ để mã hóa Để thực trình mã hóa, sử dụng số công cụ có sẵn như: 1) Công cụ IAN IAN (Interactive ANalyzer) phần mềm phát triển môi trường Web để thực việc mã hóa [7] Mỗi ngôn ngữ tự nhiên tích hợp lưu trữ máy chủ Do đó, nguồn liệu khai thác lúc, nơi mà không bị phụ thuộc vào khoảng cách địa lý IAN xử lý câu đầu vào với trợ giúp T-Rules từ điển IAN có thẻ: Welcome, NL Input, Dictionaries, N-Rules, T-Rules, D-Rules, IAN Compare Thẻ “NL Input” cho phép người sử dụng cung cấp tài liệu ngôn ngữ tự nhiên Thẻ “Dictionaries” cho phép người sử dụng cung cấp từ điển NL – UNL theo đặc tả UNL [9] Thẻ “T-Rules” cho phép người dùng cung cấp qui tắc ngữ pháp chuyển đổi từ ngôn ngữ tự nhiên sang UNL Thẻ “D-Rules” cung cấp định hướng ngữ pháp từ ngôn ngữ tự nhiên sang UNL, thẻ dùng để điều khiển token cải thiện kết chuyển đổi ngữ pháp Thẻ “IAN” cho kết mã hóa theo qui định UNL Thẻ “Compare” thẻ so sánh kết với kết khác 2) Công cụ EnCo EnCo công cụ sử dụng máy đơn [7] Mỗi chuỗi câu đầu vào quét từ trái sang phải kết hợp lấy từ điển từ trở thành ứng cử viên Những ứng cử viên xếp theo thứ tự ưu tiên Lựa chọn ứng cử viên thực cách áp dụng luật ngữ pháp Việc phân tích cú pháp ngữ nghĩa thực cách áp dụng luật để lựa chọn từ để xây dựng cú pháp mạng ngữ nghĩa cho câu đầu vào Quá trình tiếp tục tất từ câu đưa vào mạng lưới ngữ nghĩa đầy đủ câu đầu vào thực Đầu toàn trình mạng lưới ngữ nghĩa trình bày định dạng UNL 3.2 Công cụ để giải mã Để thực việc giải mã, sử dụng số công cụ có sẵn như: 1) Công cụ EUGENE EUGENE (dEp-to-sUrface GENErator) ứng dụng phát triển môi trường Web để tạo câu ngôn ngữ tự nhiên từ biểu thức UNL dựa từ điển UNL-NL tập luật chuyển đổi [8] EUGENE có thẻ: Welcome, NL Input, Dictionaries, T-Rules, D-Rules, EUGENE Compare Thẻ “NL Input” cho phép người sử dụng cung cấp tài liệu dạng biểu thức UNL Thẻ “Dictionaries” người sử dụng cung cấp từ điển UNL-NL theo đặc tả UNL [10] Thẻ “T-Rules” cung cấp ngữ pháp chuyển đổi từ UNL sang ngôn ngữ tự nhiên Thẻ “D-Rules” cung cấp định hướng ngữ pháp để chuyển đổi từ UNL sang ngôn ngữ tự nhiên, thẻ dùng để điều khiển token cải thiện kết chuyển đổi ngữ pháp Thẻ “EUGENE” cho kết mã hóa câu hoàn chỉnh ngôn ngữ tự nhiên Thẻ “Compare” thẻ so sánh kết với kết khác 2) Công cụ DeCo Công cụ DeCo [10] hoạt động sau: biến đổi tập hợp quan hệ nhị phân biểu thức UNL đầu vào thành cấu trúc đồ có hướng với siêu nút (hypernodes) gọi node-net Nút gốc node-net gọi nút vào (entry node) đầu câu Sau áp dụng luật giải mã đến nút node-net Nó nút “entry node” để tìm từ thích hợp cho nút tạo chuỗi từ theo thứ tự ngữ pháp ngôn ngữ tự nhiên Quá trình giải mã kết thúc tất từ cho tất nút tìm thấy chuỗi từ câu đích hoàn thành Thử nghiệm cho tiếng Việt 4.1 Mã hóa - Công cụ IAN (Interactive Analyzer) + Câu đầu vào: “Quyển sách viết Sài gòn” + Sau phân tích câu trên, ta có câu sau: [Quyển sách] [ ] [viết] [ ] [về] [ ] [Sài gòn] + Từ điển tiếng Việt – UNL cần thiết cho câu sau [quyển sách]{}"book(icl>publication>thing)"(LEX=N,POS=NOU,NUM=SNG) ; [viết]{}"write(icl>communicate>do,agt>person,obj>information,cao>thing ,ins>thing,re c>person)"(LEX=V,POS=VER,PER=3PS); [về]{}"about" (LEX=P,POS=PRE,rel=PLC); [sài gòn] {}"saigon(iof>city>thing,equ>ho_chi_minh_city)" (LEX=N,POS=PPN,NUM=SNGT); + Sử dụng luật sau để mã hóa câu trên: Luật 1: Xóa bỏ khoảng cách trắng “[ ]” (%a,BLK):=; Luật : Xóa %b đưa thuộc tính vào nút %a (P,PRE,att=@about,%b)(N,PPN,%a):=(%a,+att=%b); Luật 3: Gán thuộc tính @entry @present vào nút động từ (V,VER,3PS,^@entry,%a):=(%a,+@entry,+@present); Luật 4: Gán thuộc tính @def vào nút danh từ (N,NOU,^@def,%a):=(%a,+@def); Luật : Tạo nút “NA” có thuộc tính (N, AGT) NB có thuộc tính (N,CAO) (N,NOU,%a)(V,VER,%b)(N,PPN,%c):=(NA(%b;%a),+N,+AGT) (NB(%b;%c), +N, + CAO); Luật 6: Thay đổi quan hệ “NA” thành “agt” giữ nguyên nội dung nút gốc (NA(%a;%b),AGT):=agt(%a;%b); Hình Biểu thức UNL tạo tương ứng - Công cụ EnCo + Câu đầu vào: Tôi ăn cơm + Từ điển tiếng Việt – UNL cần thiết cho câu sau [tôi]{} "I(icl>person)"(PRON,HPRON,1SG,SUBJ); [cơm]{} "rice(icl>food)"(N,SUBJ); [ăn]{} "eat(icl>consume>do,agt>living_thing,obj>concrete_thing)" (VT, S, 3SG.S,AGT.S,BA, BAE, OBJ.S,V,VDO,OBJ.S); + Sử dụng luật sau để mã hóa câu trên: Luật 1: Dịch phải cửa sổ R {}{^mor,^STAIL:mor}P200; Luật 2: Thay đổi thuộc tính “mor” cho STAIL ({PRON,SUBJ,^prep:&@topic:agt}{V,VT,AGT.S,^>agt,^psv,^subj:subj} P100; Luật 10: Có mối quan hệ ngữ nghĩa “obj” “cơm” “ăn” Áp dụng luật > {N,SUBJ,^prep:&@topic:obj}{V,VT,OBJ.S,^>obj,^psv,^subj:subj}P100; Luật 11: Thêm EOR vào cuối bên phải : {^EOR:EOR}{STAIL}P200; Hình Biểu thức UNL tạo tương ứng 4.2 Giải mã - Công cụ EUGENE + Chúng ta có câu tiếng Anh: the beautiful car + Mã hóa câu tiếng Anh sang biểu thức UNL sau: {unl} mod(car(icl>motor_vehicle>thing).@entry.@def,beautiful(icl>adj,ant>ugl y)) {/unl} + Từ điển tiếng Việt – UNL cần thiết cho câu sau [xe ô tô] {} "car(icl>motor-vehicle>thing)" (LEX=N, POS=NOU, NUM=SNGT) ; [đẹp] {}"beautiful(icl>adj,ant>ugly)"(LEX=J,POS=ADJ); + Ta cần sử dụng luật: Luật 1: Loại bỏ quan hệ “mod”, tạo quan hệ “NA” mod(%x,N;%y,J):=NA(%x;%y,DIS=BEF); Luật 2: Bỏ thuộc tính @def, tạo quan hệ “NS” với hai Uws “%x” “chiếc” với thuộc tính (LEX=D,+POS=ART) (%x,N,@def):=(NS(%x,-@def;%y,[chiếc],+LEX=D,+POS=ART)); Luật 3: Tạo khoảng trống Uws quan hệ “NA” NA(%x;%y):=(%x,+>BLK)(%y,+>BLK); Luật 4: Tạo khoảng trống Uws quan hệ “NS” NS(%x;%y):=(%y,+>BLK)(%x,+>BLK); Luật 5: Tạo khoảng trống từ câu (%x,>BLK)(%y,^BLK,^PUT,^STAIL):=(%x,->BLK)("",+BLK)(%y); Hình Biểu thức UNL tạo tương ứng - Công cụ DeCo + Biểu thức UNL đầu vào: [S:1] {org} I ate rice {/org} {unl} agt(eat(icl>consume>do,agt>living_thing,obj>concrete_thing).@entry.@pa st,I(icl>person)) obj(eat(icl>consume>do,agt>living_thing,obj>concrete_thing).@entry.@pa st,rice(icl>food)) {/unl} [/S] + Từ điển tiếng Việt – UNL cần thiết cho câu sau [tôi]{} "I(icl>person)"(PRON,HPRON,1SG,SUBJ); [cơm]{} "rice(icl>food)"(N,SUBJ); [đã ăn]{} "eat(icl>consume>do,agt>living_thing,obj>concrete_thing)" (VT, S, 3SG.S,AGT.S,BA, BAE, OBJ.S,V,VDO,OBJ.S) ; + Xây dựng tập luật giải mã Luật 1: Điều khiển dịch chuyển cửa sổ R {}{} P1; Luật 2: Luật chèn đối tượng quan hệ “agt” vào Node List : "HPRON,SUBJ,1SG:subj:agt" {V,^IRG,^pred:pred,1sg} P120; Luật 3: Luật chèn đối tượng quan hệ “obj” vào Node List : {V,VDO,pred,^OBJ_inserted:OBJ_inserted}":obje:obj" P100; Luật 4: Chèn nút trống cho đại từ : {PRON,^blk:blk} "[ ]:blk" P80; Luật 5: Chèn nút trống cho động từ : {V,^blk:blk} "[ ]:blk" P80; Hình Biểu thức UNL tạo tương ứng 4.3 Đánh giá EnCo DeCo giao diện kết mã hóa không thân thiện với người dùng phần mềm sử dụng máy cá nhân nên khó thể chia sẻ liệu cho người sử dụng khác IAN EUGENE xây dựng tảng web giao diện thân thiện Đặc biệt nguồn tài nguyên như: từ điển, luật chia sẻ cho người dùng khác cộng đồng mạng Chúng thử nghiệm công cụ với số câu tiếng Việt: Mã hóa từ câu tiếng Việt  UNL từ UNL  tiếng Việt công cụ với kết đầu khả quan chất lượng dịch Chúng tiếp tục mở rộng tập từ điển UNL – tiếng Việt, tập luật chia sẻ cộng đồng mạng Kết luận Qua kết thử nghiệm, ta thấy công cụ chuyển đổi từ ngôn ngữ tự nhiên sang UNL ngược lại hiệu Chất lượng câu dịch khó tốt chấp nhận Tuy nhiên để sử dụng công cụ này, người dùng phải tuân thủ theo cấu trúc định dạng liệu quy định Nhưng có số ngôn ngữ phát triển theo trúc mới, công cụ phải hiệu chỉnh để thích ứng Trong thời gian đến, triển khai máy chủ dịch tự động cho tiếng Việt, có đầy đủ hai chức mã hóa giải mã Ngoài ra, sau thực cho tiếng Việt tiếp tục triển khai cho ngôn ngữ dân tộc người Việt Nam Chăm, Khmer, Cơ-tu,… để có hệ thống dịch tự động đa ngữ hoàn chỉnh cho ngôn ngữ sử dụng Việt Nam Tài liệu tham khảo H Uchida (1996), “UNL: Universal Networking Language – An Electronic Language for Communication, Understanding, and Collaboration”, UNU/IAS/UNL Center, Tokyo, Japan S Tripathi and J K Sarkhel (2010), “Approaches to machine translation”, Annals of Library and Information Studies, vol 57, pages 388-393 Phan Thị Lệ Thuyền, Võ Trung Hùng (2014), “Bổ sung liệu vào từ điển UNL – tiếng Việt công cụ UNL Explorer”, Tạp chí Khoa học Công nghệ ĐHĐN, Số 11(84).2014, Quyển V T Hung, G Fafiotte (2011), “UVDict – a machine translation dictionary for Vietnamese language in UNL system”, Proceeding CISIS 2011, Korean Bible University (KBU), Seoul, Korea, Pages: 1020-1028 V T Hung (2004), “Reuse of Free Online MT Engines to Develop a Meta-system of Multilingual Machine Translation”, EsTAL 2004, 2004 V T Hùng (2007), “Phương pháp công cụ đánh giá tự động hệ thống dịch tự động mạng”, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, số (18), tr 37-42 P Kumar, R.K Sharma (2012),“Punjabi to UNL EnConversion System”, Springer: Sadhna, Academy Proceedings in Engineering Sciences, volume 37:(2), pp 299–318 Shi X, Chen Y, (2005), “A UNL DeConverter for Chinese Universal Network Language”, Universal Network Language: Advances in Theory and Applications, Ed(s) Cardenas J, Gelbukh A, Tovar E, México, Research on Computing Science: 167-174 UNL centre (2002), Enconverter Specifications, Version 3.3, http://www.undl.org/ 10 UNL centre (2002), Deconverter Specifications, Version 2.7, http://www.undl.org/ 10 APPLICATIONS UNL TOOLS FOR VIETNAMESE Phan Thi Le Thuyen, Vo Trung Hung University of Science and Technology – The Unniversity of Danang Abstract Last couple of years, UNL is interested by researchers in the field of natural language processing Universal Networking Language (UNL) is an artificial Language used to represent an independent information between natural languages The main purpose of UNL is to allow people in the world can access information on the Internet in their own language Currently, many project research into the UNL with different languages but for Vietnamese, no system has been developed In this paper, we introduce the tools of applications UNL for process encoding a Vietnamese sentences into UNL expression and decoding UNL expression into Vietnamese The testing tools are implemented through a number of different examples Keywords: UNL system, Universal Networking Language (UNL), IAN, EnCo, EUGENE, DeCo 11

Ngày đăng: 17/09/2016, 20:07

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan