9 machinetranslation

19 9 0
  • Loading ...
1/19 trang

Thông tin tài liệu

Ngày đăng: 31/12/2018, 14:51

Ví dụ Au sortir de la saison 97/98 et surtout au debut de cette saison 98/99… Dịch máy Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt@soict.hust.edu.vn With leaving season 97/98 and especially at the beginning of this season 98/99… Các vấn đề Các vấn đề Cú pháp: trật tự từ câu Các nét riêng biệt Xử lý giống khác ngôn ngữ Hình vị: # số âm tiết/từ: Ngơn ngữ đơn âm tiết ( tiếng Việt, Trung Quốc) – tiếng/từ Ngôn ngữ đa âm tiết (Siberian Yupik), từ = câu Mức độ phân chia âm tiết To Yukio; Yukio ne Tiếng Anh – tiếng Việt: The (affix1) red (affix2) flag (head) Lá cờ (head) đỏ (affix2) (affix1) English brother Vietnamese English wall German German berg English anh em wand (inside) mauer(outside) hill mountain Khơng gian khái niệm Ba khối dịch máy ngôn ngữ nguồn S hiểu ngôn ngữ dịch ngôn ngữ ngơn ngữ đích T thơng tin ánh xạ ngơn ngữ nguồn - đích Khoảng trống từ vựng: tiếng Nhật khơng có từ nghĩa privacy; tiếng Anh khơng có từ ứng với yakoko (lòng hiếu thảo) Hiểu ngơn ngữ Các phương pháp dịch máy Nhập nhằng từ vựng: English: book - Spanish libro, reservar  Sử dụng thông tin cú pháp cao Nhập nhằng cú pháp: I saw the guy on the hill with the telescope mức trừu tượng siêu ngôn ngữ ngữ nghĩa a Nhập nhằng ngữ nghĩa: E: While driving, John swerved & hit a tree thấp s siêu ngôn ngữ g cú pháp t từ-từ dịch chuyển đổi dịch trực tiếp a = a(s) g = f(a(s)); f – hàm chuyển đổi t=g(f(a(s))) John’s car S: Minetras que John estaba manejando, se desvio y golpeop un arbo Luật chuyển đổi Sơ đồ chuyển đổi 10 Sơ đồ chuyển đổi Cách tiếp cận siêu ngôn ngữ: sử dụng nghĩa Chuyển đổi: luật chuyển đổi từ ngôn ngữ sang ngôn ngữ khác Đối tượng/sự kiện (ontology) 11 12 Các kiểu dịch máy cao mức độ trừu tượng Dịch máy thống kê thấp siêu ngôn ngữ a s ngữ nghĩa cú pháp g t 13 } chuyển đổi từ-từ 14 Dịch máy thống kê ý tưởng Coi việc dịch tốn kênh có nhiễu Input (Nguồn) “Noisy” Output (đích) The channel E: English words (adds “noise”) F: Les mots Anglais Mơ hình dịch: P(E|F) = P(F|E) P(E) / P(F) Khôi phục lại E biết F: Sau đơn giản hóa (P(F) khơng đổi): argmaxE P(E|F) = argmaxE P(F|E) P(E) 15 16 Các yếu tố Ý tưởng gióng hàng Mơ hình ngơn ngữ - Language Model (LM): xác suất thấy câu tiếng Anh (E) (xác suất tiền nghiệm): P(E) Mơ hình dịch - Translation Model (TM): câu đích tiếng Pháp (F) có câu tiếng Anh: P(F|E) Thủ tục tìm kiếm: Cho F, tìm E tốt sử dụng mơ hình ngơn ngữ LM mơ hình dịch TM Vấn đề: thiếu liệu! Ta tạo từ điển câu E F Thậm thí bình thường ta khơng thấy câu lặp lại lần Mơ hình dịch TM khơng quan tâm đến chuỗi từ tiếng Anh Sử dụng cách tiếp cận gán nhãn: • từ tiếng Anh(“tag”) ~ từ tiếng Pháp (“word”)  không thực tế: chí số từ câu khơng  sử dụng “gióng hàng” Gióng hàng câu: tìm nhóm câu ngơn ngữ tương ứng với nhóm câu khác ngơn ngữ khác 17 Gióng hàng câu The old man is happy He has fished many times His wife talks to him The fish are jumping The sharks await 18 Gióng hàng câu The old man is happy He has fished many times His wife talks to him The fish are jumping The sharks await El viejo está feliz porque pescado muchos veces Su mujer habla él Los tiburones esperan 19 El viejo está feliz porque pescado muchos veces Su mujer habla él Los tiburones esperan 20 Gióng hàng câu The old man is happy He has fished many times His wife talks to him The fish are jumping The sharks await Gióng hàng từ - Mức dễ El viejo está feliz porque pescado muchos veces Su mujer habla él Los tiburones esperan Khó khăn: Sự liên quan chéo: trật tự câu thay đổi dịch 22 21 Gióng hàng từ - Khó Gióng hàng từ - Khó 23 24 Gióng hàng từ - Mã hóa Gióng hàng từ - Khó e0 And the program has been implemented f0 Le programme a été mis en application Gán thơng tin tuyến tính: • f0(1) Le(2) programme(3) a(4) été(5) mis(6) en(6) application(6) • e0 And(0) the(1) program(2) has(3) been(4) implemented(5,6,7) 25 Học việc gióng hàng từ sử dụng EM 27 26 Học việc gióng hàng từ sử dụng EM 28 Học việc gióng hàng từ sử dụng EM Kênh nhiễu Mơ hình ngơn ngữ P(e) e Mơ hình dịch P(f|e) f Giải mã Argmax e =P(e|f) e 29 30 Các thành phần mơ hình dịch Giả thiết Ví dụ Việc dịch liệu độc lập với từ tiếng Anh – n từ tiếng Pháp từ tiếng Pháp - (0-1) từ tiếng Anh P ( f | e)  Z l  a1 l  am0 m  P( f j 1 j | ea j ) fj - từ j f; aj - vị trí e gióng hàng với fj eaj - từ e gióng hàng với fj Z số chuẩn hóa aj = 0: từ j câu tiếng Pháp gióng hàng với từ rỗng (khơng dịch sang) m – độ dài f 31 P(Jean aime Marie| John loves Mary) Gióng hàng(Jean, John), (aime, loves), (Marie, Mary), ta có xác suất P(Jean|John) x P(aime|loves) xP(Marie|Mary) 32 Giải mã Học mơ hình dịch e  arg max e P(e | f ) P (e) P ( f | e) P( f )  arg max e P(e) P( f | e) Ta muốn đánh giá xác suất dịch p(f|e) từ tập liệu song ngữ khơng có thơng tin gióng hàng Bài tốn gà trứng  arg max e Vấn đề: không gian tìm kiếm vơ hạn Mẹo: tìm kiếm dùng ngăn xếp: xây dựng dần, lưu stack phần dịch sử dụng số độ đo độ phù hợp, vd., chamber/house, (nhưng sai đường từ thường xuất với từ khác, commune/house, có Chambre de Communes (hạ nghị viện) ta có gióng hàng > đánh giá tham số mơ hình ta có tham số mơ hình > đánh giá gióng hàng 34 33 Thuật tốn EM Thuật tốn EM Expectation-Step: áp dụng mơ hình vào liệu Dữ liệu khơng đầy đủ Nếu có liệu đầy đủ > đánh giá mơ hình Nếu có mơ hình > lấp lỗ hổng liệu EM: khởi tạo tham số mơ hình gán xác suất cho phần liệu thiếu đánh giá tham số mơ hình từ phần liệu đủ Lặp lại q trình 35 thiếu thơng tin phần liệu (gióng hàng) sử dụng mơ hình, gán xác suất với giá trị Maximization-Step: đánh giá mơ hình từ liệu dùng giá trị gán giá trị đếm xuất tham số mơ hình (với trọng số xác suất) đánh giá mơ hình từ phép đếm Lặp đến hội tụ 36 Thuật toán EM Đánh giá Đánh giá dựa tập ngữ liệu Hansard: 48% câu tiếng Pháp dịch loại lỗi: Expectation-step Khởi tạo giá trị P(wf|we) ngẫu nhiên Tính số lần tìm thấy wf tiếng Pháp có we tiếng Anh zw f , we   Dịch sai nghĩa: • Permettez que je donne un example chambre • Let me give an example in the House (incorrect decoding) • (Let me give the House an example) P( w f | we ) ( e , f ) s t we  e , w f  f Maximization-step Đánh giá lại xác suất dịch P từ giá trị z trên: P( w f | we )  Dịch sai ngữ pháp: • Vous avez besoin de toute l’aide disponsible • You need all of the benefits available (ungrammatical decoding) • (You need all the help you can get) z w f , we  v z v,w e tổng tính tất từ tiếng Pháp v 37 Lý Lý Các giả thiết độc lập: câu ngắn ưu tiên có xác suất (khi nhân)  nhân kết với số tỉ lệ thuận với độ dài câu Phụ thuộc liệu luyện: thay đổi nhỏ liệu luyện gây thay đổi lớn giá trị ước lượng tham số Vd, P(le|the) thay đổi từ 0.610 xuống 0.497 TÍnh hiệu Bỏ câu > 30 từ, làm khơng gian tìm kiếm tăng theo cấp số mũ Thiếu tri thức ngôn ngữ Hiện tượng méo: từ tiếng Anh đầu câu gióng hàng với từ tiếng Pháp cuối câu – tượng giảm xác suất gióng hàng Hiện tượng sinh (fertility): tương ứng từ tiếng Anh tiếng Pháp (1-to-1, 1-to-2, 1-to-0, …), Vd, fertility(farmers) tập ngữ liệu = 2, từ dịch sang tiếng Anh thường gồm từ : les argiculteurs To go  aller 38 39 40 10 Các hệ thống gióng hàng khác Thiếu tri thức ngôn ngữ Các tập ngữ liệu sử dụng giả thiết: Khơng lưu thơng tin ngữ: ví dụ khơng gióng hàng “to go” “aller” Khơng có ràng buộc cục bộ: Eg, is she a mathematician Âm vị Các từ tạo âm vị khác coi ký hiệu riêng biệt Dữ liệu thưa Các đánh giá cho từ gặp khơng xác • Dữ liệu song song (dịch E F) Gióng hàng câu • Phát câu • Gióng hàng câu Gióng hàng từ • Tách từ • Gióng hàng từ (với số ràng buộc) 41 Gióng hàng câu Phát biên câu Sử dụng luật, danh sách liệt kê: Vấn đề với phát biên câu: Dấu kết thúc câu: E: F: • Dấu ngắt đoạn (nếu đánh dấu) • số ký tự: ?, !, ; • Vấn đề: dấu chấm ‘.’ – – – – – – – Đầu mong đợi: Các phân mảnh với số lượng mảnh liên tiếp Gióng hàng: Kết thúc câu ( left yesterday He was heading to ) Dấu chấm thập phân : 3.6 (three-point-six) Dấu chấm hàng nghìn: 3.200 Viết tắt: cf., e.g., Calif., Mt., Mr Vân vân: số ngôn ngữ: 2nd ~ Ký hiệu đầu: A B Smith Phương pháp thống kê: vd Maximum Entropy 42 E: F: Kết quả: 2-1, 1-1, 1-1, 2-2, 2-1, 0-1 43 44 11 Các phương pháp gióng hàng Gióng hàng dựa độ dài Nhiều phương pháp (xác suất không) Định nghĩa tốn việc tính xác suất: Dựa độ dài ký tự Dựa độ dài từ “cùng gốc” (sử dụng nghĩa từ) argmaxA P(A|E,F) = argmaxA P(A,E,F) (E,F cố định) • Sử dụng từ điển (F: prendre ~ E: make, take) • Sử dụng khoảng cách từ (độ tương tự): tên, số, từ vay mượn, từ gốc Latin Kết tốt nhất: Định nghĩa “bead”: E: F: “bead” (2:2) Lấy xấp xỉ: Thống kê, dựa từ dựa ký tự P(A,E,F) ≅ Πi=1 nP(Bi), Trong Bi bead; P(Bi) khơng phụ thuộc vào phần lại E,F 45 Nhiệm vụ gióng hàng 46 Định nghĩa đệ qui Định nghĩa: Cho P(A,E,F) ≅ Πi=1 nP(Bi), tìm cách chia (E,F) thành n bead B i=1 n, cho tối đa xác suất P(A,E,F) tập luyện Khởi tạo: Pref(0,0) = Pref(i,j) = max ( Pref(i,j-1) P(0:1αk), Pref(i-1,j) P(1:0αk), Pref(i-1,j-1) P(1:1αk), Pref(i-1,j-2) P(1:2αk), Pref(i-2,j-1) P(2:1αk), Pref(i-2,j-2) P(2:2αk) ) Bi = p:qαi, với p:q  {0:1,1:0,1:1,1:2,2:1,2:2} mơ tả phép gióng hàng Pref(i,j) – xác suất cách gióng hàng tốt từ điểm đầu (i,j) 47 E: F: i Pref(i-2,j-2) Pref(i-2,j-1) Pref(i-1,j-2) Pref(i-1,j-1) Pref(i-1,j) Pref(i,j-1) P(2:2 P(α2:1 P( )α k)α 1:2kα P( P( αk))) P(1:0αk) 0:1 1:1 kk j 48 12 Gióng hàng từ Xác suất Bead Nếu dựa độ dài, không thực được: Định nghĩa P(p:qαk): k đề cập đến “bead” kế tiếp, với đoạn câu p q, độ dài lk,e lk,f Sử dụng phân bố chuẩn cho độ dài khác nhau: từ bị đảo trật tự, phép dịch thường có độ dài khác Ý tưởng: P(p:qαk) = P(δ l(k,e,lk,f,µ,σ2),p:q) ≅ P(δ l(k,e,lk,f,µ,σ2))P(p:q) δ l(k,e,lk,f,µ,σ2) = (lk,f - µlk,e)/lk,eσ2 Đánh giá P(p:q) từ tập liệu nhỏ, đốn đánh gía lại sau gióng hàng Từ dùng dấu hiệu tốt để định nghĩa P(p:qαk) Đưa vài mơ hình dịch đơn giản Tìm tham số cách xét tất cách gióng hàng Sau có tham số, tìm cách gióng hàng tốt có tham số 49 50 Cách gióng hàng tốt Thuật tốn gióng hàng từ Khởi tạo với tập ngữ liệu gióng hàng câu Cho (E,F) cặp câu (là bead) Khởi tạo ngẫu nhiên p(f|e), fF, eE Đếm tập ngữ liệu: c(f,e) = Σ(E,F);eE,fF p(f|e) với ∀ cặp gióng hàng (E,F), kiểm tra xem e có E f có F khơng Nếu đúng, bổ sung p(f|e) Đánh giá lại: p(f|e) = c(f,e) / c(e) [c(e) = Σf c(f,e)] Lặp đến p(f|e) thay đổi 51 Với cặp (E,F), tìm A = argmaxA P(A|F,E) = argmaxA P(F,A|E)/P(F) = argmaxA P(F,A|E) = argmaxA (ε / (l+1)m Πj=1 m p(fj|eaj)) = argmaxA Πj=1 mp(fj|eaj) Sử dụng thuật tốn lập trình động theo kiểu Viterbi Tính lại p(f|e) 52 13 Ví dụ Cuộc_sống tươi đẹp Life is beautiful Dịch máy sử dụng cú pháp It is my life Đây cuộc_sống 54 53 Yamada and Knight (2001): Lý cần cú pháp Tại dùng cú pháp Cần thông tin ngữ pháp Cần ràng buộc lại câu Khi chèn từ chức vào câu, cần đặt vị trí xác Khi dịch từ cần sử dụng từ có từ loại với 55 56 14 Cây cú pháp (Anh)  câu (Nhật) Mơ hình dựa cú pháp Cây cú pháp (tiếng Anh) Mơ hình dịch Câu (tiếng Nhật) Tiền xử lý câu tiếng Anh PTCP Thực phép tính xác suất cú pháp Sắp lại trật tự nút Chèn nút vào Dịch từ 58 57 Sắp lại trật tự Bảng tham số: lại Trật tự gôc Sắp lại P(Sắp lại| Trật tự gốc) Đặc trưng điều kiện = dãy nhãn 59 60 15 Bảng tham số: chèn Chèn Đặc trưng điều kiện = nhãn cha & nhãn nút (vị trí) & none (là từ) 61 Dịch 62 Bảng tham số: Dịch Ghi chú: Dịch thành NULL  xóa Đặc trưng điều kiện = từ (tiếng Anh) 63 64 16 Thử nghiệm Kết Dữ liệu luyện: 2000 cặp câu J-E J: tách từ sử dụng Chasen E: PTCP sử dụng PTCP Collins Y/K model Điểm trung bình #câu 0.582 10 IBM model 0.431 Luyện 40000 câu từ Treebank, độ cx ~90% Điểm trung bình tính người với 50 câu ok(1.0), khơng (0.5), sai (0.0) tính độ xác E: từ cú pháp, xác định trật tự từ chuyển đổi (SVO SOV) Luyện sử dụng EM: 20 vòng lặp 65 Kết quả: gióng hàng 66 Kết quả: gióng hàng 67 68 17 Một số hệ thống dịch máy Internet Một số mã nguồn mở Xem http://fosmt.org/ http://www.google.com/language_tools?hl=en http://www.systransoft.com/index.html http://babelfish.altavista.digital.com/ Moses Giza++ 69 70 71 72 18 74 75 19 ... http://www.systransoft.com/index.html http://babelfish.altavista.digital.com/ Moses Giza++ 69 70 71 72 18 74 75 19 ... sử dụng EM Kênh nhiễu Mơ hình ngơn ngữ P(e) e Mơ hình dịch P(f|e) f Giải mã Argmax e =P(e|f) e 29 30 Các thành phần mơ hình dịch Giả thiết Ví dụ Việc dịch liệu độc lập với từ tiếng Anh – n từ... liệu luyện gây thay đổi lớn giá trị ước lượng tham số Vd, P(le|the) thay đổi từ 0.610 xuống 0. 497 TÍnh hiệu Bỏ câu > 30 từ, làm khơng gian tìm kiếm tăng theo cấp số mũ Thiếu tri thức ngôn ngữ
- Xem thêm -

Xem thêm: 9 machinetranslation , 9 machinetranslation

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay