Thông tin tài liệu
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
NGUYỄN THỊ NGỌC MAI
TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO
HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Thành phố Hồ Chí Minh - 2010
MỤC LỤC
MỤC LỤC............................................................................................................................1
DANH SÁCH CÁC BẢNG...............................................................................................4
DANH SÁCH CÁC HÌNH................................................................................................5
CHƯƠNG 1: GIỚI THIỆU................................................................................................6
1.1. Đặt vấn đề...............................................................................................................6
1.2. Hướng tiếp cận của đề tài......................................................................................8
1.3. Nội dung của luận văn...........................................................................................9
CHƯƠNG 2: TỔNG QUAN...........................................................................................11
2.1. Dịch máy thống kê...............................................................................................11
2.1.1. Dịch máy thống kê dựa trên từ....................................................................11
2.1.2. Mô hình dịch máy thống kê dựa trên ngữ..................................................19
2.1.3. Mô hình dịch thống kê factored (Factored SMT).....................................26
2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp...........................................29
2.2. Các tiêu chuẩn đánh giá chất lượng dịch..........................................................31
2.2.1. BLEU (Bilingual Evaluation Understudy)................................................32
2.2.2. NIST............................................................................................................... 32
2.2.3. TER (Translation Error Rate)......................................................................32
CHƯƠNG 3:......................................................................................................................33
CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG
KÊ....................................................................................................................................... 33
3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý...........................................................33
3.1.1. Dùng thông tin cú pháp................................................................................34
Trang 1
3.1.2. Sử dụng thông tin từ loại............................................................................. 36
3.1.3. Sử dụng luật biến đổi hình thái từ...............................................................37
3.2. Tích hợp tri thức vào hệ thống dịch máy..........................................................39
3.2.1. Tích hợp thông tin hình thái vào mô hình dịch.........................................39
3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch...........................................40
3.2.3. Tích hợp vào mô hình ngôn ngữ.................................................................41
CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI.........................................................................42
4.1. Tích hợp thông tin hình thái từ tiếng Anh........................................................ 43
4.1.1. Thông tin từ loại............................................................................................43
4.1.2. Thông tin biến cách của từ...........................................................................44
4.1.3. Sử dụng luật chuyển đổi trật tự...................................................................45
4.2. Thêm thông tin hình thái từ tiếng Việt..............................................................50
4.2.1. Thông tin ranh giới từ.................................................................................. 50
4.2.2. Thông tin từ loại............................................................................................51
4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt...............................52
CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ.........................................................54
5.1. Ngữ liệu.................................................................................................................54
5.2. Các công cụ.......................................................................................................... 55
5.3. Thí nghiệm............................................................................................................55
5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh................................55
4.4. Tóm tắt kết quả thí nghiệm.................................................................................74
CHƯƠNG 6: KẾT LUẬN............................................................................................... 76
TÀI LIỆU THAM KHẢO................................................................................................78
PHỤ LỤC...........................................................................................................................82
Trang 2
A.
Đối chiếu hình thái từ
B.
Kết quả dịch của một
Anh – Việt (biến cách)................................................... 82
số mô hình.........................................................................82
Trang 3
DANH SÁCH CÁC BẢNG
Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng..................................................... 15
Bảng 5.1 Thông tin về ngữ liệu....................................................................................... 59
Bảng 5.2. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh
60
Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ..............................................63
Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt
64
Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình................................................65
Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt....................................68
Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh
và tiếng Việt.......................................................................................................................71
Trang 4
DANH SÁCH CÁC HÌNH
Hình 2.1. Mô hình dịch máy thống kê............................................................................ 12
Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết...........................................................14
Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ...........................................19
Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ............................................................. 20
Hình 2.5. Mô hình dịch factored SMT............................................................................27
Hình 4.1. Mô hình chung của luận văn...........................................................................43
Hình 4.2. Mô hình ngôn ngữ từ vựng.............................................................................49
Hình 4.3. Mô hình ngôn ngữ từ loại................................................................................49
Hình 4.4. Mô hình factored SMT tích hợp từ loại.........................................................50
Hình 4.5. Mô hình factored SMT tích hợp nguyên mẫu và từ loại.............................51
Hình 4.5. Mô hình factored SMT tích hợp các thông tin hình thái từ........................51
Trang 5
CHƯƠNG 1: GIỚI THIỆU
1.1.
Đặt vấn đề
Dịch máy hay còn gọi là dịch tự động đã và đang được con người quan tâm hiện
nay. Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán của
máy tính và tạo ra ứng dụng phục vụ con người trong thời đại công nghệ thông tin
phát triển. Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên
nhiều cơ hội cho con người đi đến thành công, chương trình dịch tự động sẽ là công
cụ giúp họ vượt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết
kiệm công sức. Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất
nhiều nhóm nghiên cứu trên thế giới. Tuy nhiên, bản thân từng ngôn ngữ đã rất
phức tạp, thường hay có nhập nhằng. Mặc khác, giữa các ngôn ngữ luôn có sự khác
biệt, từ từ vựng đến các cấu trúc để tạo thành câu. Việc xây dựng một hệ dịch máy
có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch được gần với con người vẫn
đang là một thách thức lớn.
Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tư vào các hệ dịch theo nhiều
hướng tiếp cận khác nhau:
-
Nhóm nghiên cứu của PGS. TS. Đinh Điền (Đại học Khoa học Tự nhiên- Đại
học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu của nhóm dựa trên việc
học luật chuyển đổi từ ngữ liệu song ngữ.
-
Nhóm nghiên cứu của PGS. TS. Phan Thị Tươi (Đại học Bách Khoa Thành
phố Hồ Chí Minh): Nhóm sử dụng phương pháp phân tích cú pháp có xác suất để
dịch văn bản Anh-Việt và Việt-Anh.
-
Nhóm nghiên cứu của TS. Lê Khánh Hùng Softex (Phòng Công nghệ Phần
Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học và Công nghệ Việt Nam): hệ dịch
đã được đưa vào sử dụng trong thực tế và thương mại hoá sản phẩm
(http://vdict.com). EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sử
Trang 6
dụng các luật được xây dựng bằng tay để dịch văn bản từ Anh sang Việt. Từ
năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) có thể dịch được văn
bản hai chiều Anh-Việt và Việt-Anh. Do hệ dịch dựa trên luật nên kết quả
của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã được
thiết lập hay không.
-
Nhóm dự án ERIM của Đại học Bách Khoa Đà Nẵng kết hợp với GETA –
ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên
Hải (http://www.latl.unige.ch/vietnamese/) tại LATL.
-
Google Transle (www.translate.google.com): Hỗ trợ hơn 50 ngôn ngữ bao
gồm cả tiếng Việt. Sử dụng phương pháp dịch máy thống kê dựa trên kho ngữ liệu
song ngữ. Tốc độ dịch nhanh và có tính năng tương tác với người dùng nhằm tăng
chất lượng dịch cho các lần sau.
-
Dịch máy trên Xalo.vn (www.dich.xalo.vn): đưa ra dịch vụ dịch trực tuyến
một chiều từ Anh sang Việt, do công ty Cổ phần Công nghệ Tinh Vân tự phát triển,
hỗ trợ dịch theo từng lĩnh vực, đồng thời cho phép người dùng chỉnh sửa, góp ý về
nội dung dịch nhằm nâng cao chất lượng dịch.
-
Lạc Việt (công ty từng phát triển và đưa ra bộ từ điển Lạc Việt
www.vietgle.vn/tratu/dich-tu-dong): chỉ hỗ trợ dịch từ Anh sang Việt có thêm phần
dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ dịch tốt hơn bởi
người dùng.
Do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lượng dịch khác
nhau, tuỳ thuộc vào dạng câu đầu vào.
Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ
nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp
chính xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật
cú pháp và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn, đòi
hỏi người thực hiện phải có kiến thức sâu về ngôn ngữ.
Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn
toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của
Trang 7
hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không
cần đến tri thức ngôn ngữ. Với phương pháp này, ngữ liệu càng lớn và có chất
lượng tốt thì hệ dịch sẽ càng hiệu quả.
Ưu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có
thể áp dụng được trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý
trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn
luyện và dịch. Ngoài ra, những người cũng có thể theo dõi hoặc can thiệp vào quá
trình dịch thông qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà
mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất
nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô
hình này.
Do đó, chúng tôi hướng đến phát triển một hệ dịch sử dụng đồng thời tri thức thống
kê từ kho ngữ liệu song ngữ và tri thức về phân tích ngôn ngữ. Luận văn sẽ tập
trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê và phát
triển một hệ thống dịch máy thống kê Anh - Việt sử dụng các tri thức ngôn ngữ này.
1.2.
Hướng tiếp cận của đề tài
Đề tài sẽ tập trung vào khảo sát các hướng tích hợp trực tiếp tri thức ngôn ngữ vào
trong hệ dịch máy thống kê dựa trên ngữ. Khảo sát các tri thức ngôn ngữ trong dịch
máy thống kê Anh - Việt. Các tri thức được tập trung khảo sát bao gồm hình thái từ,
từ loại và các cách kết hợp các thông tin này và tìm hiểu ảnh hưởng của các thông
tin này lên hệ dịch.
Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ. Tiếng Việt là ngôn ngữ
đơn lập, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và bằng
các hư từ. Trong tiếng Việt, từ không có hiện tượng biến hình, đơn vị cơ bản là hình
tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thường trùng với âm tiết, có khả năng
vừa dùng như từ vừa dùng như hình vị. Ở loại hình này, người ta thường hay nói
đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hư với yếu tố
thực cũng như vấn đề mặt cấu tạo từ ít phát triển. Trong khi tiếng Anh là
Trang 8
ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng trắng.
Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất. Biến cách là dạng mà
trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ
pháp như: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ mới được
hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những
ý nghĩa từ vựng, như: lặp lại (re-), chống (anti-), người/vật thực hiện (-er/-or), ...
Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố.
Nhiều nghiên cứu đã tiếp cận theo hướng tập trung vào giải quyết sự khác biệt về
trật tự từ giữa tiếng Anh và tiếng Việt như nghiên cứu của nhóm Nguyễn Phương
Thái [32], nhóm nghiên cứu của nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3]
và đạt được một số kết quả khả quan. Tuy nhiên, sự khác nhau về hình thái từ giữa
tiếng Anh và tiếng Việt vẫn chưa được quan tâm.
Do đó, đề tài sẽ tiếp cận theo hướng tích hợp tri thức ngôn ngữ vào hệ thống dịch
máy thống kê Anh - Việt ở mức độ hình thái từ. Từ tiếng Anh sẽ được đưa về
nguyên mẫu, tách các phụ tố và gán nhãn từ loại, từ tiếng Việt sẽ được phân đoạn từ
và gán nhãn từ loại. Đề tài cũng sẽ phân tích các từ loại có ảnh hưởng tích cực đến
chất lượng dịch của hệ thống.
1.3.
Nội dung của luận văn
Phần còn lại của luận văn sẽ bao gồm các chương sau:
Chương 2 – TỔNG QUAN: Chương này sẽ trình bày hướng tiếp cận dịch máy
thống kê dựa trên ngữ, các thành phần cấu thành hệ thống dịch máy thống kê này.
Chương 3 – CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH
MÁY THỐNG KÊ: Chương này sẽ khảo sát các hướng tiếp cận để đưa tri thức
ngôn ngữ vào trong hệ máy thống kê, phân tích ưu khuyết điểm của các hướng tiếp
cận này.
Trang 9
Chương 4 – MÔ HÌNH CỦA ĐỀ TÀI: Chương này sẽ mô tả mô hình được sử
dụng trong đề tài, các tri thức được đưa vào hệ thống dịch máy thống kê Anh - Việt
dựa trên ngữ và lí do lựa chọn các tri thức này.
Chương 5 – THỰC NGHIỆM VÀ ĐÁNH GIÁ: Chương này sẽ mô tả chi tiết
về các thí nghiệm đã thực hiện để đánh giá hiệu quả hướng tiếp cận của đề tài, đồng
thời so sánh các tri thức ngôn ngữ khác nhau ảnh hưởng như thế nào trong dịch máy
thống kê Anh - Việt.
Chương 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt được và
hướng phát triển trong tương lai.
TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày các thông tin khác có liên
quan và được sử dụng trong đề tài.
CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê các bài báo khoa học, các công trình đã
được công bố trong quá trình thực hiện đề tài.
Trang 10
CHƯƠNG 2: TỔNG QUAN
2.1. Dịch máy thống kê
Dịch máy thống kê (Statistical Machine Translation - SMT) được nghiên cứu từ
những năm 1980 trong dự án Candide của IBM. Phương pháp được IBM sử dụng là
dịch máy thống kê dựa trên từ (word based SMT), phương pháp này dịch từ một từ
thuộc ngôn ngữ nguồn sang một hoặc nhiều từ thuộc ngôn ngữ đích và cho phép
thêm, xoá các từ trên câu đích.
Sau này, nhiều nhóm nghiên cứu đã đạt được kết quả dịch tốt hơn nhờ phương pháp
dịch máy thông kê dựa trên ngữ (phrase based SMT). Phương pháp này được đặt
nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô
hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ.
Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ
thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ
trong mô hình dịch máy dựa trên cú pháp (syntax-based) của mình.
Hầu hết các hệ thống dịch máy thống kê hiện nay đều sử dụng cách dịch dựa trên
ngữ, một số hệ thống dịch máy nổi tiếng trong số này là CMU, IBM, ISI và Google.
Các hệ thống dịch máy dựa trên ngữ đạt được những kết quả vượt trội trong các hội
nghị đánh giá chất lượng dịch máy thời gian gần đây (DARPA TIDES Machine
Translation Evaluation).
Ngoài phương pháp thống kê còn nhiều phương pháp khác được sử dụng trong dịch
máy. Đa số các hệ thống dịch thương mại sử dụng các luật chuyển đổi và các bộ từ
vựng phong phú. Cho tới gần đây, các nghiên cứu về dịch máy thường tập trung vào
các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ
trung gian trong quá trình dịch.
2.1.1. Dịch máy thống kê dựa trên từ
Mô hình dịch máy thống kê dựa trên từ [25] được đưa ra bởi Brown vào năm 1990.
Mô hình này giả sử rằng câu ở ngôn ngữ nguồn có câu dịch là câu ở ngôn ngữ
Trang 11
đích. Một câu e có thể dịch sang được nhiều câu v. Trong dịch thống kê, ta chọn câu
v có khả năng là câu dịch của e là nhiều nhất. Với mỗi cặp câu ta gọi là xác suất mà
có thể dịch thành . Mục đích của dịch máy thống kê là tìm câu có xác suất là cao
nhất.
Tuy nhiên, việc tính xác suất
không khả thi vì câu đích được tạo ra bởi chuỗi
các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp.
Do đó, công thức Bayes được dùng để triển khai cho xác suất
=
.
:
(2.1)
Vì câu tiếng Anh e không đổi nên ( ) sẽ không ảnh hưởng đến việc chọn câu , ta có thể bỏ qua ( ). Khi đó, câu dịch được chọn sẽ là câu có . lớn
nhất.
=
=
.
(2.2)
Hệ dịch máy thống kê gồm 3 phần:
-
Mô hình ngôn ngữ ( ) (language model): Phản ánh độ trôi chảy của câu dịch. Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn
ngữ
đích sẽ có giá trị xác suất ( ) cao hơn. Mô hình này được huấn luyện dựa trên ngữ liệu đơn ngữ.
-
Mô hình dịch ( ) (translation model): Đưa ra sự tương ứng giữa các từ, ngữ trong các cặp ngôn ngữ. Với câu e cho
trước, câu dịch v nào có xác suất ( ) cao hơn thì sẽ là câu dịch hợp lý hơn. Mô hình này được huấn luyện dựa trên các
cặp câu song ngữ.
-
Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để
thực hiện quá trình dịch.
Trang 12
Ngữ liệu
song ngữ
Ngữ liệu
đơn ngữ
Thống kê
Thống kê
Mô hình dịch
Mô hình ngôn ngữ
Câu nguồn
Quá trình giải mã
Câu đích
Hình 2.1. Mô hình dịch máy thống kê
2.1.1.1. Mô hình ngôn ngữ
Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ
pháp) trong câu được phát sinh. Từ chuỗi từ được phát sinh ra, hệ dịch tính tần suất
dãy các từ này cùng xuất hiện trong ngôn ngữ đích. Thông tin này sẽ được dùng
trong quá trình giải mã để tìm ra câu dịch hay nhất. Các hệ thống hiện nay thường
tính toán sử dụng mô hình ngôn ngữ n-gram, cụ thể là trigram.
Mô hình ngôn ngữ n-gram tính xác suất xuất hiện của một từ dựa trên − 1 từ
đứng trước nó trong câu. Cho câu gồm chuỗi các từ 1, 2, … , ta tính các xác suất trong mô hình ngôn ngữ như sau:
Xác suất unigram:
ố ầ
=
1
ấ ệ ừ
ổ
1
ố ừ
(2.3)
Xác suất bigram:
1| 2 =
ốầấệụ
12ốầấệừ1
Trang 13
(2.4)
Xác suất trigram:
ố ầ
=
3| 1 2
ố ầ
ấ ệ ụ
ấ
ệ ụ
1 2 3
1
2
(2.5)
Xác suất xuất hiện của câu được tính bằng tích của tất cả các xác suất xuất hiện của
từng từ có trong câu . Dưới đây là ví dụ về cách tính xác suất xuất hiện của câu
“I like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram.
= < >< > × < > ×
××××
× ( |
) × ( |
)
Trong thực tế, ngữ liệu thường bị phân tán, nếu từ không tồn tại trong ngữ liệu thì
xác suất xuất hiện của nó sẽ bằng 0. Điều này dẫn đến xác suất của chuỗi từ được
tính bằng tích các xác suất của từng từ sẽ bằng 0. Để tránh xác suất 0, công thức
tính xác suất xuất hiện của từ được điều chỉnh như sau:
0.8 ×
3 1 2
+ 0.15 ×
3 2
+ 0.049 ×
3
+ 0.001
Ngoài mô hình ngôn ngữ n-gram, còn có một số mô hình ngôn ngữ khác như: mô
hình ngôn ngữ web n-gram và mô hình ngôn ngữ cú pháp.
2.1.1.2. Gióng hàng từ
Để ước lượng các tham số trong mô hình dịch, bảng dịch ngữ được tạo ra dựa trên
gióng hàng từ. Gióng hàng là tạo liên kết giữa các cặp từ (ngữ) tương ứng bằng cách
đánh dấu vị trí của những từ ở câu nguồn vào từ (ngữ) ở câu đích.
Ví dụ, gióng hàng từ giữa cặp câu song ngữ:
She takes a small green box.
Cô ấy lấy một chiếc hộp nhỏ màu xanh.
Trang 14
được biểu diễn như sau:
She
takes
Cô ấy
lấy
a
small
một
green
chiếc hộp
box
nhỏ
.
màu xanh
.
Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết
Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng như bảng 2.1.
Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng
She
takes
a
small greenbox
.
Cô
ấy
lấy
một
chiếc
hộp
nhỏ
màu
xanh
.
Mô hình gióng hàng từ IBM (Brown, 1993) mặc dù được đưa ra từ rất lâu nhưng
hiện nay vẫn được xem là mô hình tiên tiến nhất hiện nay. Mô hình này giả sử rằng
các liên kết từ giữa cặp câu luôn tồn tại, nhưng chưa xác định được vị trí của các
liên kết đó. Giả sử ta có cặp câu song ngữ, câu tiếng Anh có từ và câu tiếng Việt có
từ:
= 1, 2, …
=
1, 2,
…
Trang 15
Gọi gióng hàng từ : → liên kết từ tiếng Anh thứ sang từ tiếng Việt thứ và là tập các liên kết từ tất cả các từ trong câu e
=
1,
,…
Từ xác suất gióng hàng từ, ta có thể tính được xác suất dịch theo công thức:
=
,
Xác suất gióng hàng từ giữa các từ trong cặp câu,
,
Trong đó,
=
,
được tính như sau:
=1
(2.6)
(2.7)
được tính dựa trên các gióng hàng từ (ngữ) trong ngữ liệu song
ngữ. Tuy nhiên, để tạo ra ngữ liệu gióng hàng từ (ngữ) đòi hỏi rất nhiều công sức
cho việc gán nhãn. Do đó, thật toán Expectation Maximization (EM) đã được [24]
đề xuất để ước lượng các gióng hàng từ (ngữ) này.
Ý tưởng của thuật toán EM như sau:
Đầu tiên, với mọi cặp câu song ngữ có trong ngữ liệu, ta giả định tất cả các từ trong
câu nguồn đều có gióng hàng từ với tất cả các từ trong câu đích, các xác suất gióng
hàng từ được khởi tạo giá trị ban đầu như nhau.
…
…
my house … small house … my mobile …
nhà của tôi … nhà nhỏ … điện_thoại của tôi …
Sau đó, qua mỗi lần lặp, các cặp từ thường gióng hàng với nhau nhất sẽ được xác
định.
Trang 16
Liên kết giữa “my” và “của tôi” được xác định:
…
…
my house … small house … my mobile …
nhà của tôi … nhà nhỏ … điện_thoại của tôi …
Liên kết “house” và “nhà” được xác định:
…
…
my house … small house … my mobile …
nhà của tôi … nhà nhỏ … điện_thoại của tôi …
Các liên kết khác được xác định:
…
…
my house … small house … my mobile …
nhà của tôi … nhà nhỏ … điện_thoại của tôi …
Kết quả gióng hàng từ cuối cùng:
…
…
my house … small house … my mobile …
nhà của tôi … nhà nhỏ … điện_thoại của tôi …
Cuối cùng, các xác suất gióng hàng từ sẽ hội tụ, giá trị không thay đổi nhiều. Khi đó
ta được cả hai thông tin là thông tin về gióng hàng từ và giá trị xác suất tương ứng.
Sử dụng thuật toán EM, Stephan Vogel đề ra các mô hình IBM có tên gọi lần lượt là
IBM1, IBM2, IBM3, IBM4, IBM5 và Franz-Joseph Och đề ra mô hình 6 để tạo ra
gióng hàng từ trên các cặp câu song ngữ.
Trang 17
Hiện tại, công cụ phổ biến nhất để gióng hàng từ là GIZA++. Công cụ này được xây
dựng dựa trên các mô hình IBM. Tuy nhiên, công cụ này có hạn chế là chỉ cho phép
gióng hàng một từ thuộc ngôn ngữ nguồn với một hoặc nhiều từ thuộc ngôn ngữ
đích.
[10] đề xuất cách tiếp cận dựa trên heuristic để cải tiến kết quả gióng hàng từ có
được từ GIZA++. Tất cả các điểm nằm trong vùng giao của hai gióng hàng từ sẽ
được giữ lại và vùng gióng hàng từ được mở rộng tối đa không vượt quá vùng giao
của hai gióng hàng từ.
Đầu tiên, ngữ liệu song ngữ được gióng hàng từ cả hai phía, từ ngôn ngữ nguồn
sang ngôn ngữ đích và từ ngôn ngữ đích sang ngôn ngữ nguồn. Quá trình này tạo ra
hai gióng hàng từ. Nếu lấy phần giao hai gióng hàng từ này, chúng ta sẽ có gióng
hàng từ với độ chính xác cao (high-precision). Ngược lại, nếu lấy phần hợp của hai
gióng hàng từ, chúng ta sẽ có gióng hàng từ với độ bao phủ (high-recall) cao.
Hình 2.2 minh họa quá trình này. Trong hình, các điểm nằm trong vùng giao có màu
đen, các điểm mở rộng có màu xám.
Trang 18
Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ
2.1.1.3. Quá trình giải mã (decoding)
Nhiệm vụ của của quá trình này là tìm câu dịch thích hợp nhất khi biết câu nguồn.
- Chia câu nguồn thành nhiều từ hoặc cụm từ.
- Tra trong bảng ngữ để tìm các ngữ dịch tương ứng.
- Kết hợp các ngữ tìm được lại thành câu và chọn những câu có xác suất mô
hình dịch nhân với xác suất mô hình ngôn ngữ lớn nhất.
2.1.2. Mô hình dịch máy thống kê dựa trên ngữ
Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy được thông tin ngữ cảnh
mà chỉ dựa trên các phân tích thống kê về từ. Mô hình dịch máy thống kê dựa trên
ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ. Điều này cho phép hệ
thống có thể dịch các cụm từ tránh được dịch word-by-word.
Trang 19
Trong hệ dịch máy thống kê dựa trên ngữ [26], câu ở ngôn ngữ nguồn e được tách thành nhiều ngữ
(là một dãy nhiều từ, không nhất thiết phải là ngữ đúng ngữ pháp, dấu câu cũng được xem như là
một từ). Mỗi ngữ được dịch thành ngữ tương ứng dựa vào phân phối xác suất ( | ). Sau đó các ngữ
sẽ được chuyển đổi trật tự dựa trên mô hình chuyển đổi ( − −1), với là vị trí bắt đầu của ngữ và
−1 là vị trí kết thúc của ngữ . Do vậy, hệ dịch thống kê trên ngữ sẽ học được các cặp cụm từ song
ngữ, đặc biệt là các câu thành ngữ.
Như vậy, câu dịch tốt nhất thoả công thức (2.1) sẽ được viết lại thành:
=
( | )× ( −
)
−1
=1
(2.6)
Hình 2.4 minh hoạ quá trình dịch máy thống kê dựa trên ngữ. Câu đầu vào tiếng
Anh được tách thành nhiều cụm từ, hay còn gọi là ngữ. Các ngữ được dịch sang ngữ
tiếng Việt tương ứng, các ngữ tiếng Việt đầu ra có thể chuyển đổi trật tự trong câu
cho phù hợp với tiếng Việt.
She
Cô ấy
takes a
lấy một
small green box
chiếc hộp nhỏ màu xanh
.
.
Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ
Do thống kê trên các cặp ngữ, hệ dịch này có thể chuyển đổi trật tự giữa các từ
trong ngữ, nhưng vẫn chưa tự động chuyển đổi trật tự các cụm từ ở xa nhau trong
câu.
Có nhiều cách khác nhau để rút trích các cặp ngữ từ ngữ liệu song ngữ. [16] đã thử
nghiệm 3 phương pháp sau:
i.
Lấy ngữ dựa vào kết quả gióng hàng từ
Trang 20
Tác giả sử dụng công cụ GIZA++ để gióng hàng từ trong ngữ liệu song ngữ. Sau
đó, Koehn dùng một số heuristic để cải tiến thêm kết quả gióng hàng và lấy toàn bộ các cặp ngữ chứa những từ có liên kết. Khi đó, ( | ) được tính như sau:
=
(|)
(|)
(2.7)
ii.
Tách ngữ cú pháp
Trước tiên, tác giả gióng hàng từ cho cặp câu song ngữ, sau đó phân tích cặp câu ra
cây cú pháp. Tác giả rút trích các cặp ngữ song ngữ bằng cách lấy chuỗi từ nằm
trong cây con của cây cú pháp và có liên kết gióng hàng từ. Xác suất dịch của cặp
ngữ được tính tương tự như mô hình trên.
iii. Dùng mô hình kết hợp do Marcu, D. và Wong, W đề xuất: Hình thành ngữ
trực tiếp trên ngữ liệu song ngữ
Thông qua các thí nghiệm, tác giả kết luận rằng mô hình dựa trên gióng hàng từ cho
kết quả tốt nhất trong 3 mô hình.
Xét cặp câu song ngữ:
That girl is the highest pupil in the class.
Cô bé đó là học sinh cao nhất trong lớp.
Mô hình rút các cặp ngữ từ kết quả gióng hàng từ sau:
Từ kết quả gióng hàng từ của cặp câu:
Trang 21
Các cặp ngữ rút ra phải nhất quán như hình (a), những từ có liên kết với từ trong
ngữ nguồn thì cũng được đưa vào trong ngữ đích. Cách rút ngữ trong hình (b) là sai
vì từ “là” có liên kết với từ “is” nhưng không được đưa vào ngữ.
Ban đầu, ta có thể lấy các ngữ từ các liên kết gióng hàng từ
(That, ấy), (girl, cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .)
Trang 22
(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp)
(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .)
(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao
nhất trong), (in the class, trong lớp)
Trang 23
(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao
nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học
sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest
pupil in the class ., học sinh cao nhất trong lớp .)
(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class. , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao
Trang 24
nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học
sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil
in the class ., học sinh cao nhất trong lớp .), (That girl is the highest pupil in the, Cô
bé ấy là học sinh cao nhất trong), (is the highest pupil in the class ., là học sinh cao
nhất trong lớp .)
(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class. , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao
nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học
sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil
in the class., học sinh cao nhất trong lớp.), (That girl is the highest pupil in the, Cô
bé ấy là học sinh cao nhất trong), (is the highest pupil in the class., là học sinh cao
nhất trong lớp.) (That girl is the highest pupil in the class ., Cô bé đó là học sinh
cao nhất trong lớp .)
Từ các cặp ngữ rút ra được, mô hình dịch dựa trên ngữ sẽ lưu lại bảng ngữ (phrase-table) chứa các cặp ngữ rút ra từ các cặp câu song ngữ cùng với xác suất ( | ).
Trang 25
2.1.3. Mô hình dịch thống kê factored (Factored SMT)
Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chưa sử dụng thông tin ngôn
ngữ vào hệ dịch. Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng
biến cách như là những từ phân biệt, do hệ dịch chỉ nhận diện bề mặt chữ chứ không
có thông tin liên hệ nào giữa các dạng biến cách.
Ví dụ, trong tiếng Anh, houses (những ngôi nhà) là biến cách danh từ số nhiều của
house (ngôi nhà). Tuy nhiên, hệ dịch dựa trên ngữ sẽ xem đây là hai từ riêng biệt.
Nếu trong quá trình huấn luyện, hệ thống đã gặp từ house nhưng chưa gặp từ houses
thì sẽ không dịch được từ này.
Nhóm nghiên cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực
tiếp tri thức ngôn ngữ vào mô hình dịch. Mô hình này được phát triển dựa trên cách
tiếp cận dịch máy dựa trên ngữ. Cải tiến của mô hình này là các thông tin về tri thức
được tích hợp vào hệ thống ở mức độ từ. Một từ trong mô hình này được xem như
là một vector đại diện chứa nhiều thông tin khác nhau.
Ví dụ, mỗi từ trong câu nguồn và câu đích có thể thêm các factor: từ nguyên mẫu, từ
loại, biến cách
Câu nguồn
Câu đích
Từ
Từ
Nguyên mẫu
Nguyên mẫu
Từ loại
Từ loại
Hình thái
Hình thái
Hình 2.5. Mô hình dịch factored SMT
Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ.
Tuy nhiên, bước tạo mô hình dịch của hệ factored SMT sẽ được chia ra thành ba
bước nhỏ.
Ví dụ từ tiếng Đức häuse khi được dịch sang tiếng Anh sẽ được xử lý như sau:
Trang 26
Từ häuse được thêm các thông tin hình thái từ: Từ häuse | nguyên mẫu hause | từ
loại NN | số đếm Plural và được dịch theo các bước:
- Dịch từ nguyên mẫu của câu đích sang từ nguyên mẫu của câu đích
haus → house, home, building, shell
- Dịch các factor nguyên mẫu, từ loại, hình thái
NN|plural → NN|singular, NN|plural
- Phát sinh từ từ kết quả dịch từ nguyên mẫu và các factor
house + NN|singular → house|house|NN|singular
house + NN|plural → houses|house|NN|singular
home + NN|singular → home|home|NN|singular
home + NN|plural → homes|home|NN|singular
…
Quá trình dịch từ nguyên mẫu và các factor giống như dịch dựa trên ngữ. Hệ thống
sẽ rút các cặp ngữ từ kết quả gióng hàng từ và tính xác suất có điều kiện dựa bằng
cách thống kê tầng suất xuất hiện của các ngữ. Ứng với mỗi bước dịch, hệ thống sẽ
tạo ra một bảng dịch.
Bước phát sinh chỉ thực hiện trên mức độ từ và xử lý trên câu đích, không liên quan
đến kết quả gióng hàng từ.
Trong quá trình giải mã, tìm kiếm câu dịch thích hợp, thay vì chỉ sử dụng một bảng
dịch ngữ như mô hình dịch máy dựa trên ngữ, mô hình factored phải sử dụng nhiều
bảng, quá trình tính toán cũng phức tạp hơn. Công thức tính xác suất như sau:
1
=
,
=1
(2.8)
Trang 27
Trong đó, Z là hằng số chuẩn, có thể bỏ qua trong thí nghiệm. Như vậy, để tính xác
suất dịch từ câu sang câu , ta phải tính từng hàm đặc trưng bao gồm hàm đặc trưng
về mô hình ngôn ngữ, mô hình chuyển đổi trật tự, các bước dịch và phát sinh.
Hàm đặc trưng cho mô hình ngôn ngữ bigram sẽ là:
==
…
1
2 1
−1
(2.9)
Đối với các bước dịch, mỗi câu , sẽ được tách ra nhiều cặp ngữ
tính xác suất cặp ngữ
,
, . Cách
cũng tương tự cho mô hình dịch trong dịch máy
thống kê dựa trên ngữ. Hàm đặc trưng cho bước dịch được tính như sau:
, =
,
(2.10)
Hàm đặc trưng cho bước phát sinh như sau:
, =
(2.11)
là phân phối xác suất có điều kiện giữa factor đầu vào và factor đầu ra của từ
. Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural thành từ ở dạng đầy đủ houses sẽ học xác suất , , | và
| , , . Các giá trị phân phối này hệ thống thống kê từ ngữ liệu đơn ngữ của ngôn ngữ đích.
Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ
phụ thuộc vào các yếu tố hình thái như từ loại, số đếm, giới tính, thì (quá khứ, tương
lai…)
Trang 28
2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp
Mô hình dịch máy thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa
thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch.
Dịch thống kê dựa trên cú pháp có nhiều mô hình, sau đây là một số mô hình tiêu
biểu:
-
Dịch từ cây cú pháp sang câu (tree-to-string ) [34]
o
Quá trình học: Từ câu nguồn, tác giả phân tích thành cây cú pháp. Mô
hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong
cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu
đích.
o
Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp. Dựa vào
bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút. Từ
cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích dựa vào xác
suất chèn từ. Cuối cùng, hệ dịch các từ ở nút lá ra ngôn ngữ đích, nút lá
có thể dịch ra thành từ rỗng (NULL).
-
Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer)
[33]
Trang 29
o Câu nguồn và câu đích được phân tích ra thành cây cú pháp, thường là cây
nhị phân để giảm độ phức tạp khi chuyển đổi trật tự.
o Cây cú pháp của câu đích được đổi trật tự và kết hợp với cây cú pháp của câu
nguồn.
-
Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer)
Trong mô hình này, tác giả tập trung biến đổi trật tự cho các ngữ có chứa ngữ
con.
-
Dịch dựa trên mệnh đề (clause level restructuring)
Do cấu trúc câu của tiếng Đức khác các ngôn ngữ khác: không có trật tự, vị trí
của trạng từ, mệnh đề phụ. [7] phân tích câu ra thành các mệnh đề và áp dụng
sáu bước chuyển đổi trật tự trên cây cú pháp của câu nguồn nhằm tạo sự tương
đồng về trật từ từ giữa câu nguồn và câu đích.
Đánh giá mô hình dịch dựa trên cú pháp, [18] đã chỉ ra ưu điểm của phương pháp
này như sau:
Trang 30
-
Có thể chuyển đổi trật tự dựa trên thông tin cú pháp. Chẳng hạn như chuyển
tân ngữ của câu tiếng Anh sang cuối câu trước khi dịch sang tiếng Đức.
-
Dịch những từ chức năng (giới từ, mạo từ,...) tốt hơn.
-
Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong câu. Chẳng hạn như
chuyển đổi trật tự giữa chủ ngữ và tân ngữ.
-
Có thể khai thác mô hình ngôn ngữ cú pháp:
o
Cây cú pháp đúng sẽ tạo ra câu dịch đúng.
o Cho phép chuyển đổi trật tự ở xa. Chẳng hạn như chuyển động từ chính
về cuối câu.
Tuy nhiên, [18] cũng cho rằng những mô hình hiện tại vẫn chưa khai thác hết thông
tin cú pháp vì các mô hình về cơ bản vẫn là dịch dựa trên ngữ, nghĩa là xem các từ
trong câu là chuỗi token. Tác giả đưa ra lý do của thông tin cú pháp chưa thật sự có
ích vì: hệ dịch cần công cụ phân tích cú pháp tốt, có độ chính xác cao. Ngoài ra,
thông tin cú pháp khá là phức tạp, khó để con người theo dõi khi huấn luyện cũng
như khi dịch và ít có nhà nghiên cứu nào vừa nắm vững về các mô hình thống kê lại
hiểu rõ về lý thuyết ngôn ngữ.
2.2. Các tiêu chuẩn đánh giá chất lượng dịch
Việc đánh giá chất lượng dịch rất phức tạp vì mỗi câu nguồn thường có thể có nhiều
câu dịch khác nhau. Tuỳ theo cách chọn từ, văn phong mà ta có thể tạo ra câu dịch
khác nhau cho cùng một câu nguồn.
Phương pháp đáng tin cậy nhất là để con người đánh giá. Tuy nhiên, để người đánh
giá sẽ chậm và tốn nhiều chi phí. Mặc khác, mỗi người sẽ có cách nhìn nhận chủ
quan khác nhau. Do vậy, đánh giá bằng máy được sử dụng vì khách quan và nhanh
chóng, ít tốn chi phí.
Để ước lượng hiệu quả của hệ dịch, phương pháp đánh giá tự động thường đo độ
tương tự giữa câu máy dịch và câu dịch tham chiếu trong ngữ liệu.
Trong khuôn khổ của đề tài, luận văn sử dụng ba độ đo để khảo sát kết quả dịch:
BLEU, NIST và TER.
Trang 31
2.2.1. BLEU (Bilingual Evaluation Understudy)
Điểm BLEU [28] là một trong những tiêu chuẩn đo hiệu quả dịch được sử dụng
rộng rãi nhất hiện nay. Để đo BLEU, người ta tính dựa trên trung bình hình học
(geometric mean) số lần đồng xuất hiện của các gram ở câu dịch tự động và câu
dịch tham chiếu. Các n-gram gồm: 1-gram, 2-gram, 3-gram và 4-gram. Điểm BLEU
có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì sẽ có rất ít câu dịch đạt
được điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống
đánh giá tham chiếu tới. Với tiêu chuẩn BLEU thì điểm càng cao có nghĩa là hệ
thống dịch càng tốt.
2.2.2. NIST
NIST [8] là độ đo có cách đánh giá tương tự như BLEU nhưng sử dụng trung bình
số học (arithmetic mean) thay vì (geometric mean) nhằm tăng tính chính xác khi
đánh giá. Ngoài ra NIST còn đánh số điểm cao hơn cho các n-gram chứa nhiều
thông tin hơn trong khi đối với BLEU là như nhau nếu cùng số từ. Với tiêu chuẩn
này, số điểm cao thì hệ dịch được xem là tốt.
2.2.3. TER (Translation Error Rate)
TER [31] là tiêu chuẩn đánh giá dựa trên số lần chỉnh sửa để chuyển câu kết quả từ
máy dịch thành câu tham chiếu. Đây là độ đo được đánh giá là gần với con người
nhất. Tỉ lệ lỗi sẽ được tính theo công thức:
ố ướ ỉ ử
=
ốừìâế
Các bước chỉnh sửa bao gồm thêm, xoá hoặc thay thế từ trong câu. Với độ đo này, tỉ
lệ lỗi càng thấp đồng nghĩa với hệ dịch càng tốt.
Trang 32
CHƯƠNG 3: CÁC HƯỚNG TÍCH HỢP TRI
THỨC NGÔN NGỮ VÀO DỊCH MÁY
THỐNG KÊ
Hướng tiếp cận dịch máy dựa trên ngữ hiện được xem là state-of-the-art trong dịch
máy thống kê. Tuy nhiên, cách tiếp cận này bị hạn chế khi không trực tiếp tích hợp
các tri thức ngôn ngữ vào hệ thống, chẳng hạn như hình thái từ, ngữ pháp hoặc ngữ
nghĩa. Những tri thức này đã được nghiên cứu tích hợp vào các hệ thống dịch máy
dựa trên ngữ trong quá trình tiền xử lí hoặc hậu xử lí và đã đạt được một số kết quả
nhất định. Cách tích hợp tri thức ngôn ngữ vào hệ dịch máy thống kê có thể chia
làm hai hướng chính là sử dụng tri thức để tiền xử lý và đưa tri thức ngôn ngữ vào
hệ dịch.
3.1.
Sử dụng tri thức ngôn ngữ để tiền xử lý
Hướng tiếp cận thứ nhất được tập trung nghiên cứu rất nhiều và đạt được một số kết
quả khả quan. Hướng này chủ yếu tập trung vào chuyển đổi trật tự từ hoặc phân tích từ
pháp ở câu nguồn nhằm giảm bớt sự khác biệt giữa hai ngôn ngữ. Các tri thức để
chuyển đổi bao gồm tri thức về hình thái từ, phân tích cây cú pháp và các luật chuyển
đổi dựa trên sự khác biệt giữa hai ngôn ngữ. Thông thường, quá trình biến
đổi này được thực hiện ở bước tiền xử lý trên câu nguồn hay câu đích, hoặc cả hai
phía và kết quả thu được sẽ được đem làm đầu vào cho hệ dịch. Mặc dù áp dụng
theo nhiều cách khác nhau, nhưng hầu hết các mô hình theo hướng này đều hiệu quả
hơn so với mô hình baseline. Do mục tiêu chính của những phương pháp này là
hướng đến sự tương đồng giữa hai ngôn ngữ nên đã khắc phục được khá nhiều lỗi
khi thực thi hệ dịch thống kê, gồm những lỗi về gióng hàng từ, chọn từ dịch tương
ứng hay chuyển đổi trật tự. Ngoài ra, việc phân tích hình thái từ còn làm giảm được
số từ chưa có trong ngữ liệu huấn luyện.
Trang 33
3.1.1. Dùng thông tin cú pháp
Xia và McCord [11] sử dụng các luật đảo trật tự từ trong văn phạm phi ngữ cảnh.
Trong quá trình huấn luyện, hệ thống sẽ tự động rút luật từ cây cú pháp của câu
nguồn và câu đích cùng với kết quả gióng hàng từ. Khi thực thi, các luật này sẽ
được sử dụng để sắp xếp lại trật tự câu nguồn nhằm tạo sự tương tự giữa hai ngôn
ngữ. Mô hình này đã cải tiến được hệ dịch máy thống kê Anh – Pháp.
Nhóm nghiên cứu của Collins [7] đưa ra mô hình cũng áp dụng kết quả phân tích cú
pháp vào hệ dịch thống kê. Tuy nhiên, tác giả chỉ lấy thông tin cú pháp của câu
nguồn. Hệ thống sẽ tự động rút ra luật chuyển đổi từ cây cú pháp và câu đích, sau
đó áp dụng các luật chuyển đổi trật tự cho mệnh đề tiếng Đức để tạo sự tương tự về
mặt cú pháp với tiếng Anh, áp dụng ở giai đoạn tiền xử lý trong hệ dịch dựa trên
ngữ. Kết quả thử nghiệm cho thấy hệ đã cải tiến được đáng kể, điểm BLEU từ
25,2% tăng lên 26,8%.
Nhóm nghiên cứu của Zhang [35] đưa ra mô hình tương tự như Xia và McCord
[11]. Trước tiên, câu nguồn được gán nhãn từ loại, phân tích ranh giới ngữ. Sau đó
tác giả lấy kết quả gióng hàng và câu đã được phân tích để tự động rút luật chuyển
đổi trật tự trong dịch máy thống kê Hoa – Anh. Tuy nhiên, công trình này mới ở chỗ
họ chỉ phân tích cú pháp ở câu nguồn và sử dụng mọi khả năng đảo trật tự đã học
trong quá trình huấn luyện và biểu diễn ở dạng lưới. Kết quả tăng từ 0,5% đến 1,8%
điểm BLEU, tốt hơn so với hệ dịch chỉ lấy thông tin POS.
[12] sử dụng kết quả gióng hàng trong ngữ liệu song ngữ để rút ra các luật chuyển
đổi trật tự từ dựa trên cú pháp. Sau đó, các luật này được dùng để đảo cho ngôn ngữ
nguồn trong cả hai quá trình huấn luyện và kiểm tra đánh giá.
Khi có align giữa câu nguồn S và câu đích T, thêm vào cây cú pháp của câu nguồn
PS, với mỗi node N trong PS, Nizar Habash tìm những vị trí từ trên T mà N và tất
cả các con của N có liên kết đến. Sau đó, dựa vào cây PS, tìm điều kiện (C) để đổi
trật tự từ (R) tạo thành các luật chuyển đổi. Những luật có phân phối điều kiện cao
nhất sẽ được chọn. Nizar Habash dịch từ tiếng Ả-rập sang tiếng Anh sử dụng ngữ
Trang 34
liệu NIST MTEval, sử dụng GIZA++ cho liên kết từ, sử dụng BLEU và NIST để
đánh giá. Kết quả tốt nhất tăng 25% điểm BLEU.
Một hướng cải tiến gióng hàng từ do May và Knight [14] đề ra như sau: dùng những
ràng buộc về cú pháp để gióng hàng lại ngữ liệu song ngữ đã được gióng bởi công
cụ GIZA++. Từ cây cú pháp của câu đích và kết quả gióng hàng, họ rút ra luật biến
đổi giữa câu và cây (string-to-tree). Với mỗi cặp string/tree (câu nguồn và cây cú
pháp của câu đích) trong ngữ liệu, họ sử dụng các luật này để xây dựng rừng dẫn
xuất string-to-tree có thể có. Sau đó, tác giả sử dụng mô hình EM để chọn cây dẫn
xuất cho mỗi cặp. Kết quả là các cặp câu được align lại từ cây dẫn xuất Viterbi.
Sử dụng thuật toán trên, nhóm nghiên cứu của Victoria Fossum [33] đề xuất cải tiến
gióng hàng từ bằng cách sử dụng hai đặc trưng của các luật được rút ra là kích
thước của luật lớn nhất và số lượng luật để dò tìm tự động và xoá liên kết sai do
GIZA++ gióng hàng. Sau khi xoá liên kết này, kết quả gióng hàng và chất lượng
dịch đã được cải thiện rất nhiều trong dịch Hoa – Anh và Ả Rập – Anh. Điểm
BLEU tăng từ 0,5 đến 1,4 và độ đo f-measure của gióng hàng từ tăng từ 1 đến 3%.
Thuật toán của các tác giả trên khác với May và Knight [14] ở chỗ tập các liên kết
từ mới mà họ phát sinh ra được chỉ giới hạn trong các liên kết mà GIZA++ gán ban
đầu trong ngữ liệu huấn luyện. Trong khi đó, thuật toán của Victoria Fossum [33]
thì sẽ phát hiện được tất cả các gióng hàng bằng cách xoá đi một liên kết từ kết quả
của GIZA++ ban đầu. Ngoài ra, nếu sử dụng thuật toán của May và Knight sẽ tốn
nhiều thời gian trong quá trình huấn luyện vì phải tìm gióng hàng nào tốt nhất cho
mỗi cặp câu. Đối với thuật toán của [33], họ sử dụng phương pháp tìm kiếm Greedy
nên sẽ tìm ra liên kết cần xoá nhanh hơn, do đó thuật toán tiết kiệm được nhiều thời
gian hơn.
Phương pháp này không những cải thiện được kết quả gióng hàng mà còn làm tăng
độ chính xác của trật tự từ kết quả dịch. Việc sử dụng thông tin cây cú pháp giúp hệ
dịch xử lý trường hợp những từ ở xa có ràng buộc với nhau về mặt ngữ pháp. Tuy
nhiên, quá trình rút ra luật chuyển đổi phụ thuộc rất nhiều vào việc phân tích cây cú
Trang 35
pháp cho cả hai ngôn ngữ và kết quả gióng hàng từ. Nếu những thông tin này không
chính xác, dẫn đến luật học cũng sai và ảnh hưởng đến kết quả hệ dịch. Và đó cũng
là trở ngại khi đem mô hình này áp dụng cho những cặp ngôn ngữ khác.
3.1.2. Sử dụng thông tin từ loại
Bên cạnh đó, một số nhóm nghiên cứu khác tạo luật chuyển đổi trật tự dựa trên
thông tin từ loại. Tác giả khảo sát sự khác biệt về trật tự của các cặp ngôn ngữ và rút
ra các luật chuyển đổi.
Nhóm nghiên cứu của Hermann Ney [20] đưa ra hai cách chuyển đổi trật tự tuỳ
thuộc vào cặp ngôn ngữ và chiều dịch: đổi trật tự nội bộ trong các danh từ và tính từ
khi dịch từ Tây Ban Nha và dịch sang Tây Ban Nha, đổi trật tự cho động từ khi dịch
sang tiếng Đức. Kết quả giảm được 2% WER và tăng 7% BLEU.
-
Chuyển đổi cục bộ: Trong tiếng Tây Ban Nha, tính từ đặt sau danh từ, trong
khi tiếng Anh và hầu hết những ngôn ngữ không thuộc dòng Roman thì trật tự
ngược lại. Nếu dịch từ tiếng Tây Ban Nha thì danh từ sẽ được đảo ra sau. Nếu dịch
sang tiếng Tây Ban Nha thì ở câu nguồn, tính từ chuyển ra sau danh từ.
-
Chuyển đổi xa: Trong tiếng Đức, động từ thường được đặt ở cuối câu nếu ở
dạng nguyên mẫu (infinitive) hay quá khứ phân từ (past participle). Do đó, khi dịch
sang tiếng Đức, hệ dịch sẽ chuyển các động từ ở dạng nguyên mẫu hay quá khứ
phân từ về cuối câu.
Một nghiên cứu khác cũng sử dụng luật chuyển đổi dựa trên sự khác biệt về trật tự
từ giữa tiếng Hoa và tiếng Anh. Nhóm nghiên cứu của [6] đổi trật tự câu tiếng Hoa
trước khi đưa vào hệ dịch. Họ đưa ra hệ luật chuyển đổi bằng cách khảo sát thành
phần của các loại ngữ trong Penn Chinese Treebank guidelines. Những loại ngữ có
thứ tự thành phần tương tự tiếng Anh thì sẽ được giữ nguyên, chẳng hạn như ngữ
tính từ, ngữ trạng từ,… Tác giả rút luật chuyển đổi từ sự khác biệt trong các ngữ
danh từ, ngữ động từ, ngữ định vị (tương ứng với ngữ giới từ trong tiếng Anh). Kết
quả hệ được cải tiến từ 28,52 đến 30,86 điểm BLEU.
Trang 36
Ưu điểm của phương pháp này là có thể đưa ra luật chuyển đổi bằng tay dựa trên
khảo sát sự khác biệt của cặp ngôn ngữ, đặc biệt là những cặp khác nhau nhiều về
trật tự từ.
3.1.3. Sử dụng luật biến đổi hình thái từ
Ngoài thông tin từ loại, các nhà nghiên cứu còn sử dụng thông tin hình thái khác
như dạng nguyên mẫu, phụ tố của từ. Các tác giả dùng những tri thức này để biến
đổi từ sang dạng mới, nhằm tạo sự tương đương giữa hai ngôn ngữ, giảm bớt các
trường hợp gióng hàng không phải 1-1.
Nicola Ueffing và Hermann Ney [23] đưa ra mô hình dịch từ ngôn ngữ ít biến đổi
hình thái như tiếng Anh sang ngôn ngữ giàu hình thái. Các dạng từ trong tiếng Anh
thường không chứa đủ các thông tin cần thiết để hoàn chỉnh từ trong ngôn ngữ đích.
Tác giả đưa ra mô hình cải tiến chất lượng hệ dịch bằng cách sử dụng thông tin từ
loại và mô hình maximum entropy. Kết quả dịch từ tiếng Anh sang Tây Ban Nha và
Catalan trên ngữ liệu LC-STAR bao gồm thể loại đàm thoại về kế hoạch công việc
và du lịch.
Tác giả đưa ra cách dịch chuỗi tiếng Anh bao gồm cả thông tin từ loại.
- Động từ: Trong tiếng Catalan và Tây Ban Nha, đại từ đứng trước động từ
thường được bỏ qua và thay vào đó, người ta thể hiện thông qua đuôi của
động từ. Phần cuối này cho biết động từ đang ở thì tương lai hay là các
dạng trợ động từ như “should”, “would” trong tiếng Anh. Để giải quyết
vấn đề này, tác giả đề ra phương pháp tạo dạng từ mới của tiếng Anh
bằng cách nối động từ với đại từ và trợ động từ và thông tin từ loại sẽ hỗ
trợ cho hệ thống dò tìm ra đại từ và trợ động từ. Vd: “you will have”
được nối thành “you_will_have” tương ứng với “tendrás” tiếng Tây Ban
Nha và “tindràs” trong Catalan.
- Đảo câu nghi vấn: Trong tiếng Anh, ngữ nghi vấn có trật tự từ khác với câu
khẳng định: Trợ động từ được đảo ra trước đại từ và động từ chính
chuyển về nguyên mẫu. Trật từ này khác so với tiếng Catalan và Tây Ban
Trang 37
Nha, tác giả đưa ra trật tự mới trong tiếng Anh để tạo ra sự giống nhau
giữa các cặp ngôn ngữ này. Trong câu hỏi của tiếng Anh, thông tin trợ
động từ “do” không có ích nên tác giả bỏ trợ động từ này đi và không
gây ảnh hưởng đến kết quả dịch (như công bố của [27] khi dịch từ tiếng
Đức sang Anh). Nhưng tác giả không bỏ trợ động từ ở thì quá khứ. Khi
xử lý, hệ thống đảo trợ động từ ra sau đại từ. Vd: “how are you” được
chuyển thành “how_you_are”
Kết quả, tỉ lệ lỗi dịch Anh – Catalan giảm ~ 2% (WER), 3% (BLEU) và Anh – Tây
Ban Nha giảm ~0,5% (WER), ~0,7% (BLEU). Tuy nhiên, tỉ lệ lỗi của hệ dịch Anh
– Tây Ban Nha vẫn cao hơn Anh – Catalan. Nguyên nhân chính là do từ vựng của
tiếng Tây Ban Nha chứa nhiều nội dung hơn. Hệ dịch này có thể cải tiến thêm bằng
cách xử lý thêm các loại từ khác ngoài động từ.
Trong bài báo của Nguyễn Phương Thái và Akira Shimazu [32], tác giả sử dụng các
luật chuẩn đổi hình thái bằng tay, về cú pháp, họ sử dụng mô hình chuyển đổi dựa
trên công thức Bayes. Câu nguồn đã được chuyển đổi ở phần tiền xử lý. Kết quả thử
nghiệm trên ngữ liệu Anh – Việt, cải tiến được 3,28% so với phrase-base SMT bằng
Pharaoh.
Trong nghiên cứu này, tác giả đưa ra mô hình khác với [10] và [6] ở chỗ mô hình
chuyển đổi dựa trên quyết định thống kê. Mặt khác, tác giả chỉ phân tích cú pháp
cho một phía là ngôn ngữ nguồn. Một điểm khác nữa là tác giả ứng dụng trên cặp
ngôn ngữ Anh – Việt (khác về đặc trưng ngôn ngữ) và kết hợp chuyển đổi cú pháp
với chuyển đổi hình thái.
Tác giả đưa ra các luật chuyển đổi dựa trên những điểm khác biệt giữa hai ngôn
ngữ. Tiếng Việt khác tiếng Anh ở chỗ tiếng Việt là ngôn ngữ đơn lập, không thể
phân biệt ranh giới từ bằng khoảng trắng. Mặt khác, từ tiếng Việt không có biến tố
như tiếng Anh. Tác giả phân tích từ tiếng Anh về nguyên mẫu và lấy thông tin các
phụ tố và hình thái, từ đó chuyển thành chuỗi mới. Vd: “books” được chuyển thành
“book_s”, “booking” chuyển thành “book_ing”.
Trang 38
Về chuyển đổi cú pháp, tác giả phân tích cú pháp câu nguồn và lấy kết quả gióng
hàng từ đưa vào huấn luyện. Các luật chuyển đổi sẽ được rút ra khi cây cú pháp câu
nguồn và chuỗi câu đích bị chéo nhau. Sau đó, hệ thống tính xác suất của những luật
này. Khi thực thi, hệ thống sử dụng công thức Bayes để tìm luật chuyển đổi cú pháp
cho cây cú pháp của câu nguồn. Sau khi chuyển đổi cú pháp và phân tích hình thái
cho câu nguồn, chuỗi nhận được cùng với câu đích sẽ là đầu vào của hệ dịch.
Kết quả thử nghiệm trên ngữ liệu Anh – Việt, điểm BLEU tăng lên ~4% với chủ đề
máy tính và ~3% chủ đề đàm thoại. Phương pháp này có thể áp dụng cho các cặp
ngôn ngữ khác, đặc biệt là khi kích thước ngữ liệu nhỏ.
Do phân tích hình thái từ và chuyển về nguyên mẫu, mô hình này giảm được phần
nào trường hợp từ chưa gặp trong ngữ liệu huấn luyện. Đồng thời, khi tách phụ tố
và đảo trật tự theo tiếng Việt, mô hình tăng cường gióng hàng 1-1 nên kết quả gióng
hàng chính xác hơn. Mô hình này khá hiệu quả đối với những cặp khác biệt nhau về
mặt hình thái, mức độ biến hình của từ của hai ngôn ngữ.
Tích hợp tri thức vào hệ thống dịch máy
3.2.
Tương tự hướng tiếp cận thứ nhất, những mô hình trong hướng này cũng sử dụng
các thông tin ngôn ngữ như: từ loại, hình thái từ, cây cú pháp,... để cải tiến hệ dịch.
Chỉ khác ở chỗ, những tri thức này được đính kèm vào trong các cặp câu và đưa vào
mô hình dịch hoặc mô hình ngôn ngữ vào hệ factored SMT. Đây là mở rộng của hệ
dịch dựa trên ngữ, cho phép người dùng đưa những thông tin khác đi kèm với từ.
Những thông tin này có thể đưa vào mô hình dịch hoặc mô hình ngôn ngữ.
3.2.1. Tích hợp thông tin hình thái vào mô hình dịch
Đối với một số ngôn ngữ (Tây Ban Nha, Anh,…), động từ có thể chia ở nhiều dạng
khác nhau, dẫn đến khó có một ngữ liệu nào có thể chứa hết các dẫn xuất của các
động từ. [5] đưa ra mô hình phân lớp loại từ sẽ tạo một token tương ứng với tất cả
các dẫn xuất của một động từ. Làm cách này, các dạng động từ sẽ xuất hiện nhiều
hơn và dễ ước lượng hơn. Ngoài ra, có một mô hình tương tự đối với động từ của
ngôn ngữ đích.
Trang 39
Trong bài báo [29], Sonja NieBen and Hermann Ney dùng tri thức ngôn ngữ để biến
đổi câu nguồn trong dịch từ tiếng Đức sang tiếng Anh. Dựa trên sự khác biệt giữa 2
ngôn ngữ, tác giả tách động từ về dạng nguyên mẫu và phụ tố và tách từ ghép ra
theo từng thành phần của nó. Chẳng hạn, từ Fruchtetee được tách thành Fruchte và
tee, trong đó từ được đánh nhãn từ loại để khử nhập nhằng nghĩa của từ. Ngoài ra,
tác giả còn nối ngữ, nghĩa là các từ tạo thành một ngữ có vai trò cú pháp và ý nghĩa
riêng biệt được nối với nhau.
Về vấn đề từ chưa gặp trong ngữ liệu huấn luyện, chẳng hạn như tên riêng, tác giả
không đổi khi dịch, và những từ khác thì tách từ ghép và tách phụ tố của động từ
làm giảm lượng từ chưa gặp. Giảm được 8,9% số từ chưa gặp. Các bước xử lý này
cải tiến hệ dịch so với hệ cơ sở, tách từ ghép tỉ lệ lỗi giảm 4,5%, tách động từ và
phụ tố cải tiến nhiều nhất, giảm tới 7,1% tỉ lệ lỗi. Tác giả không đưa ra kết quả của
hệ dịch với ngữ liệu được gán nhãn từ loại, ngoài ra, theo tác giả, vì ngữ liệu huấn
luyện nhỏ (~27000 cặp câu) và thiếu đồng nhất dẫn đến một số lỗi khi dịch.
[21] dùng thông tin hình thái và cú pháp vào factored translation model: kết hợp
kiểm tra tích hợp nguyên mẫu, tách danh từ ghép tiếng Đức (decompounding
German nominal compounds), chuyển đổi trật tự dựa trên hình thái và nhãn từ loại
từ. Họ sử dụng những thông tin sau làm factor cho hệ dịch: từ, nguyên mẫu, từ loại,
hậu tố. Kết quả thử nghiệm cho thấy hệ dịch dùng thông tin nguyên mẫu tốt hơn là
từ loại. Tuy nhiên tác giả không đưa kết luận cuối cùng và không lý giải kết quả
này.
3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch
Nhóm nghiên cứu của [5] đề xuất mô hình phrase-based SMT tích hợp thông tin cú
pháp nhằm kết hợp thế mạnh của cả mô hình phrase-based và cấu trúc cú pháp bằng
cách sử dụng thông tin cú pháp nhãn văn phạm CCG (Combinatiorial Categorial
Grammar) vào hệ dịch. Tác giả đưa supertag (nhãn thông tin cú pháp) như là một
factor ở câu nguồn hoặc câu đích. Chất lượng dịch được cải tiến nhờ chuyển đổi trật
tự từ.
Trang 40
Trong đó, văn phạm CCG chứa hầu hết các cấu trúc ngữ pháp. Vì vậy, thông tin
supertag ở câu nguồn cho phép bộ giải mã quyết định chọn lựa dựa trên cấu trúc của
đầu vào. Kết quả dịch từ tiếng Hà Lan – tiếng Anh: thêm POS tăng 0,14; supertag
0,45; cả POS và supertag tăng 0,46 BLEU. Supertag chứa nhiều thông tin hơn POS
vì chứa cả ngữ cảnh cú pháp chứ không chỉ riêng thông tin của từ đó.
3.2.3. Tích hợp vào mô hình ngôn ngữ
Nhóm nghiên cứu của [9] đưa ra phương pháp mới về sử dụng thông tin cú pháp
cho dịch máy thống kê. Họ sử dụng mô hình phân tích cú pháp thống kê như là mô
hình ngôn ngữ trong SMT. Kết quả thử nghiệm cho thấy hệ này cải tiến điểm BLEU
tăng thêm 25% so với hệ base-line syntax-based SMT.
Hướng tiếp cận này khai thác được tri thức ngôn ngữ khá hiệu quả, nhất là đối với
các ngôn ngữ đích là ngôn ngữ giàu hình thái, cần nhiều thông tin để phát sinh ra
dạng đúng của từ.
Trang 41
CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI
Trong các hướng tiếp cận tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống
kê, luận văn khảo sát ảnh hưởng của các tri thức hình thái và từ loại vào hệ thống
dịch máy thống kê Anh - Việt dựa trên ngữ. Cách tích hợp bao gồm tiền xử lí câu
đầu vào và chọn mô hình dịch. Chương này trình bày chi tiết về các cách tích hợp tri
thức ngôn ngữ được đưa vào trong luận văn.
Hình 4.1 mô tả hệ dịch máy thống kê Anh - Việt dựa trên ngữ và công đoạn can
thiệp để tích hợp tri thức ngôn ngữ vào hệ thống này của luận văn.
Mô hình dịch thống kê Anh – Việt
Tích hợp thông
tin:
- Từ loại
- Hình thái từ
Ngữ liệu song ngữ
Tiếng Anh
Mô hình dịch
Tiếng Việt
Tích hợp thông
tin:
- Ranh giới từ
Mô hình ngôn ngữ
Bộ giải mã
- Từ loại
Câu tiếng Anh
Câu dịch tiếng Việt
Hình 4.1. Mô hình chung của luận văn
Luận văn sẽ tích hợp tri thức ngôn ngữ gồm hình thái từ và từ loại. Ngoài ra luận
văn còn khảo sát, đánh giá mức độ ảnh hưởng của các thông tin này vào hệ dịch
thống kê Anh – Việt.
Trang 42
Phần thí nghiệm của đề tài thực hiện các hướng tiếp cận như sau:
- Tích hợp thông tin từ loại, tách từ tiếng Anh ra thành từ nguyên mẫu và phụ
tố.
o Gán nhãn từ loại vào mỗi từ tiếng Anh o
Phân tích từ thành nguyên mẫu và phụ tố
o
Sử dụng luật chuyển đổi trật tự dựa trên thông tin hình thái từ.
- Tích hợp thông tin ranh giới từ, từ loại tiếng Việt
o
Tách từ tiếng Việt
o
Gán nhãn từ loại tiếng Việt
- Sử dụng mô hình factored SMT cho hệ Anh – Việt
o
Gán nhãn từ loại cho cả tiếng Anh và tiếng Việt
o
Phân tích từ tiếng Anh thành nguyên mẫu và phụ tố, thêm từ loại
cho tiếng Anh và tiếng Việt
4.1.
Tích hợp thông tin hình thái từ tiếng Anh
4.1.1. Thông tin từ loại
Khi phân tích lỗi của hệ dịch thống kê dựa trên ngữ, ta nhận thấy, hệ thường mắc
phải một số lỗi sau: dịch sai nghĩa hoặc không dịch được từ tiếng Anh sang tiếng
Việt. Trường hợp dịch sai nghĩa nguyên nhân chính là do một từ thường có nhiều
nghĩa, đôi khi do quá trình gióng hàng từ bị sai, dẫn đến các ngữ chứa trong bảng
ngữ bị sai. Ngoài ra, nhiễu trong ngữ liệu cũng gây nên tình trạng này. Việc không
dịch được từ tiếng Anh sang tiếng Việt xảy ra khi ngữ liệu không bao phủ được các
câu kiểm tra.
Trường hợp từ bị dịch sai nghĩa do từ có nhiều nghĩa có thể xét ví dụ sau:
*
I like reading book. + Tôi thích đọc
sách.
* Book early if you want good seats.
+ Đặt chỗ sớm nếu bạn muốn có chỗ ngồi tốt.
Trang 43
Từ “book” trong câu đầu tiên được dịch đúng là “sách”. Tuy nhiên, từ “book” trong
câu thứ hai bị dịch sai, hệ thống cho kết quả câu đầu ra là “Sách sớm nếu bạn muốn
có chỗ ngồi tốt.”
Khi so sánh sự khác biệt về từ loại của tiếng Anh và tiếng Việt, [1, tr. 46] phân tích
và kết luận rằng từ loại thực từ và mang tính phổ quát như danh từ, động từ, tính từ
và đại từ của hai ngôn ngữ có tính tương đồng.
Xét trường hợp dịch sai ở trên, ta thấy đây là lỗi khi một từ có nhiều nghĩa. Để khắc
phục lỗi này, luận văn sử dụng nhãn từ loại để khử nhập nhằng. Trong câu “I like
reading book.” thì chữ “book” được gán nhãn là danh từ, khi dịch danh từ “book” ra
tiếng Việt, chúng ta sẽ có được nghĩa đúng là “sách”. Trong câu “Book early if you
want good seats.” thì chữ “book” được gán nhãn là động từ, khi dịch “book” động
từ ra tiếng Việt, chúng ta sẽ có được nghĩa đúng là “đặt chỗ”.
Vì vậy, trong phần thí nghiệm, luận văn khảo sát sự ảnh hưởng của nhãn từ loại
tiếng Anh vào hệ dịch thống kê.
4.1.2. Thông tin biến cách của từ
Do tiếng Anh thuộc ngôn ngữ biến hình và tiếng Việt thuộc ngôn ngữ đơn lập nên
phương thức ngữ pháp dùng để biểu thị ý nghĩa ngữ pháp của hai ngôn ngữ cũng
khác nhau [1, tr. 46]. Tiếng Anh dùng hình vị phụ tố, tiếng Việt dùng từ hư. Tuy
nhiên hầu hết các trường hợp dẫn xuất và biến cách trong tiếng Anh đều có ánh xạ
tương ứng sang tiếng Việt. [1] đưa ra danh sách đối chiếu hình thái từ cho các tiền
tố, hậu tố của tiếng Anh và nghĩa tiếng Việt tương ứng.
Dựa vào đặc điểm trên, luận văn khai thác thông tin phụ tố để cải tiến hệ dịch.
Trường hợp từ không dịch được do từ không có trong ngữ liệu có thể chia làm hai
dạng, dạng một là từ hoàn toàn không có trong ngữ liệu, cách khắc phục dạng này là
mở rộng ngữ liệu huấn luyện. Dạng thứ hai là từ không có trong ngữ liệu nhưng
biến cách của nó lại nằm trong ngữ liệu, ví dụ như hệ thống có thể dịch được từ
“house” thành “ngôi nhà” nhưng lại không thể dịch được từ “houses” thành “những
ngôi nhà”. Vì từ “house” và “houses” được hệ thống xem như là hai từ khác biệt,
Trang 44
không có mối liên hệ nào với nhau. Để khắc phục khuyết điểm này, trong quá trình
cài đặt, luận văn xem từ “houses” như là hai từ “house” và “s”. Như vậy, hệ thống
có thể dịch được các từ dạng này mà không cần phải bổ sung mở rộng ngữ liệu song
ngữ huấn luyện.
Trong khuôn khổ của đề tài, luận văn khảo sát sự biến đổi kết quả dịch khi chuyển
từ tiếng Anh về dạng nguyên mẫu và thêm thông tin phụ tố biến cách.
Ngoài ra, luận văn còn thực thi thêm mô hình kết hợp chuyển về từ nguyên mẫu,
thêm phụ tố và tích hợp nhãn từ loại vào câu tiếng Anh.
4.1.3. Sử dụng luật chuyển đổi trật tự
Sử dụng kết quả nghiên cứu của ngành ngôn ngữ học so sánh, đối chiếu điểm tương
đồng và khác biệt giữa tiếng Anh và tiếng Việt về hình thái từ [1], trật tự từ [2], luận
văn áp dụng tập luật thủ công nhằm tạo sự tương đồng cho cặp câu song ngữ.
Tiếng Anh có 5 loại ngữ chính là: danh ngữ (noun phrase), động ngữ (verb phrase),
tính ngữ (adjective phrase), trạng ngữ (adverbial phrase) và ngữ giới từ (preposition
phrase). Khi so sánh đối chiếu giữa hai ngôn ngữ, [2] chỉ ra các điểm khác biệt về
trật tự từ giữa những từ trong ngữ.
4.1.3.1.
Danh ngữ
Định từ (determiner)
Trong danh ngữ, một số định từ đứng trước danh từ khi dịch sang tiếng Việt sẽ
chuyển về cuối.
Xét định từ “the”, thông thường từ này sẽ không được dịch. Ví dụ:
the book
cuốn sách
the phone
điện thoại
Với các định từ “this”, “that”, “these”, “those”, khi đứng trước danh từ khi dịch
sang tiếng Việt sẽ được chuyển về cuối. Ví dụ:
This table
cái bàn này
Trang 45
Those white rabbits
những con thỏ trắng kia
Dựa vào đặc điểm này, chúng tôi rút luật như sau: Trong danh ngữ, nếu định từ
“this”, “that”, “these”, “those” đứng đầu thì sẽ được chuyển về cuối.
Áp dụng luật chuyển đổi cho 2 ví dụ trên ta được:
This table
table this
Those white rabbits
white rabbits those
Tính từ bổ nghĩa trước danh từ chính (pre-modifier)
Trong tiếng Anh, tính từ bổ nghĩa luôn đứng trước danh từ, trong khi đối với tiếng
Việt, tính từ đứng sau danh từ. Xét các ví dụ sau:
An interesting film
Một bộ phim hay
The small blue house
Căn nhà nhỏ màu xanh
Như vậy, luật được rút như sau: Trong danh ngữ, nếu tính từ hoặc tính ngữ đứng
trước danh từ thì chuyển ra sau danh từ.
Áp dụng luật cho 2 ví dụ trên, ta được:
An interesting film
The small blue house
An film interesting
The house small blue
Tính từ sở hữu (possessive adjective)
Trong danh ngữ tiếng Anh, tính từ sở hữu đứng trước danh từ nhưng trong tiếng
Việt, tính từ sở hữu đứng sau danh từ.
Xét 2 ví dụ:
My computer
Máy tính của tôi
Their children
Con của họ
Luật được rút ra là: Nếu trong danh ngữ có chứa tính từ sở hữu thì chuyển từ này về
cuối.
Áp dụng luật trên cho 2 ví dụ:
Trang 46
My computer
Their children
1.1.1.1.
computer my
children their
Sở hữu cách (possessive case)
Trong tiếng Anh, thứ tự của danh từ và sở hữu cách bị đảo ngược so với tiếng Việt:
Mary’s box
Chiếc hộp của Mary
book’s cover Bìa của quyển sách
Trong trường hợp, luật được rút ra là: Trong danh ngữ, nếu có sở hữu cách giữa
hai danh từ thì sẽ đảo vị trí của hai danh từ.
Áp dụng luật trên, ta được:
Mary’s box
Book ‟s cover
box „s Mary
cover „s book
Danh từ phụ (sub noun)
Trong tiếng Anh, danh từ phụ đứng trước bổ nghĩa cho danh từ chính. Trong khi thứ
tự trong tiếng Việt thì ngược lại.
Nuclear weapons
vũ khí hạt nhân
Computer science
khoa học máy tính
Luật được rút ra là: Trong danh ngữ, nếu hai danh từ đứng liền nhau thì sẽ được đảo
vị trí.
Nếu áp dụng luật cho 2 ví dụ trên, ta được:
Nuclear weapons
Computer science
wepons nuclear
science computer
4.1.3.2. Động ngữ
So sánh động ngữ của tiếng Anh và tiếng Việt, vị trí của các thành phần đa số là như
nhau, trừ trường hợp phủ định của trợ động từ (modal verb) và một số trạng từ.
Trang 47
Phủ định của trợ động từ
Trong câu tiếng Anh có trợ động từ ở thể phủ định, trạng từ “not” đứng sau trợ động
từ. Khi dịch sang tiếng Việt câu sẽ dịch trạng từ phủ định trước trợ động từ.
Xét ví dụ sau:
Could not
không thể
Should not
không nên
Từ nhận xét trên, chúng tôi rút ra luật: Trong động ngữ, nếu trợ động từ ở dạng phủ
định thì sẽ đảo trạng từ phủ định lên trước trợ động từ.
Cụm từ ở trên sẽ thay đổi sau khi áp dụng luật:
Could not
Should not
not could
not should
Trạng từ/ngữ
Trạng từ/ngữ của động ngữ tiếng Anh nếu đứng trước động từ thì khi dịch sang
tiếng Việt sẽ được đảo ra sau.
Ví dụ:
greatly influence
ảnh hưởng lớn
carefully design
thiết kế một cách cẩn thận
Do đó, chúng tôi rút ra luật như sau: Trong động ngữ, nếu trạng từ/ ngữ đứng trước
động từ thì sẽ được chuyển ra sau động từ.
Kết quả áp dụng luật cho ví dụ trên:
greatly influence
carefully design
influence greatly
design carefully
Trang 48
4.1.3.2.
Tính ngữ
Trạng từ so sánh (comparative adverb, superlative adverb)
Trong tiếng Anh có trạng từ so sánh hơn và trạng từ so sánh cực cấp. Khi có trạng
từ này trong tính ngữ, câu được dịch sang tiếng Việt sẽ biểu thị mức so sánh sau
cùng. Ví dụ:
The most expensive
đắt nhất
More complex
phức tạp hơn
Luật được rút trích như sau: Nếu trong tính ngữ chứa trạng từ so sánh và tính từ thì
trạng từ so sánh sẽ được chuyển ra sau cùng.
Sau khi áp dụng luật cho ví dụ trên, ta được:
The most expensive
More complex
the expensive most
complex more
Động từ/ ngữ
Tương tự như trong động ngữ, nếu tính ngữ chứa trạng từ và động từ/ngữ thì tính
trạng từ sẽ được đảo ra sau động từ/ngữ.
Danh ngữ
Nếu tính ngữ chứa danh ngữ bổ nghĩa cho tính từ thì sẽ được chuyển danh ngữ ra
sau tính từ. Xét ví dụ sau:
(6 metters) long
Cụm tính ngữ sẽ được đảo như sau:
(6 metters) long
4.1.3.3.
dài 6 mét
long (6 metters)
Trạng ngữ
Tương tự với tính ngữ, nếu trạng ngữ chứa trạng từ so sánh và trạng từ thì trạng từ
so sánh sẽ được chuyển ra sau.
Ví dụ:
Trang 49
More importantly
The most specially
4.1.3.4.
importantly more
the specially most
Trật tự của các ngữ trong câu
Trật tự của các ngữ trong câu tiếng Anh và tiếng Việt phần lớn là tương đồng với
nhau. Câu ở dạng khẳng định thường có cấu trúc: S-V-O: Chủ ngữ - động từ - tân
ngữ. Tuy nhiên tiếng Anh có dạng câu hỏi wh-question là những câu hỏi bắt đầu
bằng đại từ nghi vấn: what, where, when, how, who, whom, which, whose. Trong
khi câu nghi vấn tiếng Việt sẽ để những trợ từ này sau cùng. Dựa trên điểm khác
biệt này, chúng tôi rút ra luật: Nếu có một trong những từ trên đứng đầu câu, tiếp
theo sau là trợ động từ thì sẽ đảo vị trí trợ động từ và đại từ nghi vấn, sau đó chuyển
nguyên cụm này ra cuối câu.
Xét ví dụ sau:
Câu input:
Where are his friend „s
books ? Câu sau khi được phân tích:
[Where] [are] [his friend „s books] ?
Sau khi áp dụng luật chuyển đổi trật tự các ngữ, câu trở thành:
[his friend „s books] [are] [Where] ?
Tương ứng với câu dịch tiếng Việt là:
Mấy quyển sách của bạn anh ấy ở đâu ?
4.2.
Thêm thông tin hình thái từ tiếng Việt
4.2.1. Thông tin ranh giới từ
Tiếng Việt là ngôn ngữ đơn lập, việc xác định ranh giới từ không chỉ đơn thuần dựa
trên khoảng trắng mà phải dựa vào ngữ cảnh và nghĩa của từ.
Một ví dụ điển hình cho thấy nhập nhằng trong bài toán tách từ tiếng Việt:
Học sinh học sinh học.
Câu trên có thể được gán nhãn ranh giới từ như sau:
Trang 50
Học_sinh học_sinh học.
Hoặc là:
Học_sinh học sinh_học.
Trong mô hình máy thống kê dựa trên ngữ, hệ dịch thống kê tần suất xuất hiện của
các cặp ngữ trong mô hình dịch và tính xác suất chuỗi từ trong mô hình ngôn ngữ.
Việc rút ngữ không dựa vào tri thức ngôn ngữ mà chỉ đơn thuần là một dãy các
token. Thiếu thông tin ranh giới từ có thể khiến từ bị gián đoạn trong các ngữ được
rút ra.
Do đó, chúng tôi khảo sát sự ảnh hưởng của thông tin ranh giới từ đến hệ dịch thống
kê Anh – Việt. Câu tiếng Việt trong cặp câu song ngữ và câu tiếng Việt trong ngữ
liệu đơn ngữ sẽ được tách từ.
Xét cặp câu sau:
* Conservation efforts to save the saola have faced numerous difficulties .
+
Những nỗ lực bảo tồn để cứu Sao la đã phải đối mặt với nhiều khó khăn .
Câu tiếng Việt trong cặp câu đầu vào này sẽ được tách từ:
* Conservation efforts to save the saola have faced numerous difficulties .
+ Những nỗ_lực bảo_tồn để cứu Sao_la đã phải đối_mặt với nhiều khó_khăn .
4.2.2. Thông tin từ loại
Một trong những thành phần quan trọng trong hệ dịch thống kê là mô hình ngôn
ngữ. Mô hình này có vai trò xác định câu dịch tự nhiên trong ngôn ngữ đích. Mô
hình ngôn ngữ sử dụng phương pháp thống kê n-gram, sử dụng xác suất để dự đoán
từ tiếp theo trong chuỗi từ cho trước và không quan tâm đến yếu tố ngôn ngữ.
Mặc khác, mô hình dịch Factored SMT cho phép tích hợp thông tin khác trong mô
hình ngôn ngữ được gọi là Factored language model (FLM). Một ưu điểm của FLM
là có thể ước lượng xác suất của chuỗi từ chưa gặp trước đó.
Trang 51
Để khảo sát ảnh hưởng của thông tin từ loại tiếng Việt, chúng tôi gán nhãn từ loại
cho ngữ liệu đơn ngữ. Ngữ liệu này sẽ được thống kê để tạo thành mô hình ngôn
ngữ.
Xét ví dụ ở phần trên, câu tiếng Việt sẽ được gán nhãn như sau:
* Conservation efforts to save the saola have faced numerous difficulties .
+ Những|Nq nỗ_lực|Nn bảo_tồn|Vv để|Cm cứu|Vv Sao_la|Nn đã|R phải|Vv
đối_mặt|Vv với|Cp nhiều|Aa khó_khăn|Nn .|PU
Khi đưa cặp câu này làm đầu vào cho hệ dịch Factored SMT, hệ thống sẽ học mô
hình dịch từ từ tiếng Anh sang từ tiếng Việt cùng với nhãn từ loại của tiếng Việt.
Ngoài ra, hệ thống sẽ học hai mô hình ngôn ngữ: mô hình ngôn ngữ thống kê chuỗi
từ và mô hình ngôn ngữ thống kê chuỗi từ loại.
-0.4073871 đối_mặt với nhiều
-0.1396443 đối_mặt với
Hình 4.2. Mô hình ngôn ngữ từ vựng
-0.2439401
Vv Cp Aa
-0.5738485
Vv Cp Nn
Hình 4.3. Mô hình ngôn ngữ từ loại
Trong mô hình thứ hai, hệ thống học xác suất để dự đoán nhãn từ loại tiếp theo với
chuỗi nhãn cho trước. Với các tham số này, hệ dịch có thể ước lượng cho các chuỗi
từ mới chưa gặp trong ngữ liệu.
4.3.
Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt
Trong mô hình này, chúng tôi đưa thông tin từ loại cho cả hai phía tiếng Anh và
tiếng Việt và đưa vào hệ dịch Factored SMT.
Trang 52
Tiếng Anh
Từ
Từ loại
Tiếng Việt
Từ
Từ loại
Hình
4.4. Mô
hình
factored
SMT
tích hợp
từ loại
Trong quá trình huấn
luyện, hệ thống học mô
hình dịch từ sang từ
(word-word), sau
đó học mô hình dịch từ
loại sang từ loại (POSPOS). Sau đó là quá trình
kiểm tra chuỗi nhãn từ
loại ở phía kết quả.
Như vậy, ngoài xác suất dịch chuỗi từ
dịch chuỗi từ loại
luật cú pháp đơn giản
trong dịch Anh – Việt.
. Thông qua các tham
Trang 53
CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ
5.1.
Ngữ liệu
Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi
là ngữ liệu song ngữ Anh-Việt của nhóm VCL (Vietnamese Computation
Linguistic). Ngữ liệu này thuộc nhiều chủ đề, bao gồm hơn 20.000 cặp câu và đã
được chỉnh sửa bằng tay theo một số tiêu chuẩn sau:
- Đồng bộ về mặt nội dung.
- Đồng bộ về mặt hình thức (dấu câu, số liệu, tên riêng…).
- Kiểm lỗi chính tả.
- Giữ lại các dấu kí hiệu trong từ viết tắt.
- Loại bỏ câu trùng.
- Loại bỏ câu ngắn dưới 10 từ.
Bảng sau mô tả các thông tin chi tiết về ngữ liệu.
Bảng 5.1 Thông tin về ngữ liệu
Số cặp câu
Số token
Chiều dài
câu trung
bình
Số token
phân biệt
Tiếng Anh
542.328
23,58461
50.281
Tiếng Việt
745.449
32,41787
24.953
1.287.777
28,00124
Tổng cộng
22.996
Để đánh giá các mô hình, chúng tôi chia ngẫu nhiên ngữ liệu thành 10 phần, 9 phần
dùng để huấn luyện hệ dịch, 0,5 phần dùng để điều chỉnh tham số và 0,5 dùng để
kiểm chứng.
Trang 54
5.2.
Các công cụ
Để huấn luyện các hệ dịch, chúng tôi sử dụng công cụ Moses [21] huấn luyện mô
hình dịch thống kê dựa trên ngữ, dùng GIZA++ để huấn luyện cho mô hình gióng
hàng từ và SRILM [4] để tạo mô hình ngôn ngữ.
Để phân tích hình thái (phụ tố) từ tiếng Anh, chúng tôi sử dụng công cụ Morph.
Và sử dụng công cụ SVMTool [13] để gán nhãn từ loại tiếng Anh (độ chính xác
~97%). Công cụ này dựa trên mô hình SVM (support vector machines) và được
huấn luyện trên tập ngữ liệu Wall Street Journal.
5.3.
Thí nghiệm
Để so sánh hiệu quả của các mô hình, chúng tôi thực thi hệ dịch thống kê dựa trên
ngữ làm cơ sở.
Kết quả thực nghiệm của các mô hình tích hợp thông tin hình thái từ vào hệ dịch
như sau:
5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh
5.3.1.1.
Thêm thông tin hình thái từ
Trong phần thí nghiệm, luận văn khảo sát thông tin hình thái từ của tiếng Anh bao
gồm: từ loại, nguyên mẫu và phụ tố. Bảng 5.2 mô tả kết quả dịch của hệ Anh – Việt
khi thêm các thông tin này vào câu nguồn.
Bảng 5.2. Kết quả dịch khi tích hợp thông tin hình thái từ vào câu nguồn
BLEU
NIST
TER
Hệ cơ sở
43,31
9,8269
37,914
Thêm từ loại
42,68
9,7634
38,335
Tách thành nguyên mẫu
và phụ tố
41,72
9,5169
39,754
Tách thành nguyên mẫu
và phụ tố + Thêm từ loại
42,48
9,6482
38,855
Trang 55
Từ bảng kết quả trên, ta có thể nhận thấy hệ dịch khi tích hợp thêm thông tin từ loại
và biến đổi từ thành nguyên mẫu và phụ tố làm giảm hiệu quả của hệ dịch.
i.
Ảnh hưởng của thông tin từ loại trong câu tiếng Anh:
Kết quả thực nghiệm cho thấy thông tin từ loại cải thiện một số kết quả dịch. Ta có
thể xét một số ví dụ sau:
Ví dụ 1:
A project to build Ha Long into a smoke - free tourist city started
Tiếng Anh
in Ha Long city , northern coastal Quang Ninh province on Sept .
Một dự án xây dựng Hạ Long thành một thành phố du lịch không
Tiếng Việt khói thuốc đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh
Quảng Ninh vào tháng chín .
Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố
Baseline
du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh
Quảng Ninh vào tháng 9 .
A|a|DT project|project|NN to|to|TO build|build|VB Ha|ha|NNP
Long|long|NNP into|into|IN a|a|DT smoke|smoke|NN -|-|:
Tiếng Anh
POS
free|free|JJ tourist|tourist|NN city|city|NN started|start|VBD
in|in|IN Ha|ha|NNP Long|long|NNP city|city|NN ,|,|,
northern|northern|JJ coastal|coastal|JJ Quang|Quang|NNP Ninh|
Ninh|NNP province|province|NN on|on|IN Sept|Sept|NNP
.|.|.
Một dự án để xây dựng Hạ Long vào một không khói thuốc
POS
thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển
phía bắc tỉnh Quảng Ninh vào tháng 9 .
Ví dụ 2:
Ngữ liệu
However , it ' s unclear if Hoang will play today because Calisto
Trang 56
has stated that he will not risk his player .
Tuy nhiên , không rõ liệu Hoàng sẽ chơi ngày hôm nay không vì
Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối với cầu thủ
của ông .
Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì
Baseline
Calisto đã nói rằng ông sẽ không có nguy cơ đối thủ .
However|however|RB ,|,|, it|it|PRP '|'|'' s|s|VBZ unclear|unclear|JJ
if|if|IN Hoang|Hoang|NNP will|will|MD play|play|VB
today|today|NN because|because|IN Calisto|Calisto|NNP
Thêm từ loại
has|have|VBZ stated|state|VBN that|that|IN he|he|PRP
tiếng Anh
will|will|MD not|not|RB risk|risk|VB his|his|PRP$
player|player|NN .|.|.
Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì
Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối thủ .
Tuy nhiên, thông tin từ loại đã dẫn đến kết quả dịch tệ hơn hệ cơ sở do các lý do
sau:
o Mỗi từ tiếng Anh có thể có nhiều hơn một nhãn từ loại. Nhưng ngữ liệu
không thể bao quát được hết mọi trường hợp. Do đó, với cùng một từ đã
xuất hiện trong ngữ liệu huấn luyện nhưng được đánh nhãn từ loại chưa
gặp, hệ dịch xem như là một từ mới và không dịch được.
Ví dụ:
The Control Board may use independent consultants to perform
assigned duties .
Ngữ liệu
Ban kiểm soát có thể sử dụng các nhà tư vấn tự do để thực
hiện các nhiệm vụ được giao .
Baseline
Ban kiểm soát có thể sử dụng độc lập consultants để thực hiện
Trang 57
các nhiệm vụ được giao .
The|the|DT Control|control|NNP Board|board|NNP may|may|MD
use|use|VB independent|independent|JJ
Thêm từ loại
consultants|consultant|NNS to|to|TO perform|perform|VB
tiếng Anh
assigned|assign|JJ duties|duty|NNS .|.|.
Ban kiểm soát có thể sử dụng độc lập consultants để thực hiện
assigned nhiệm vụ .
Từ “assigned” trong ngữ liệu huấn luyện được đánh nhãn VBN, động từ ở dạng quá
khứ phân từ nhưng chưa gặp trường hợp từ “assigned” được đánh nhãn JJ, tính từ.
o Trường hợp công cụ gán nhãn sai cũng tạo nên câu dịch tệ hơn. Vì khi kết
hợp với nhãn sai, từ tiếng Anh cũng tạo nên từ chưa gặp trong ngữ liệu.
Xét ví dụ sau:
Hitler also has a devastating new weapon to unveil - the magnetic
mine , dropped into the sea from the air to cling to a passing
vessel and explode .
Ngữ liệu
Hitler cũng có một loại vũ khí tàn phá mới để công bố - mỏ từ
trường , bị bỏ vào trong biển từ trên không để bám víu vào
một con tàu đi qua và nổ .
Hitler cũng đã tàn phá vũ khí mới để công bố - magnetic mỏ ,
Baseline
giảm xuống vào biển từ không khí để cling đến một thông qua
các tàu và explode .
Hitler|hitler|NNP also|conjurer|RB has|have|VBZ a|a|DT
devastating|devastate|VBG new|new|JJ weapon|weapon|NN
Thêm từ loại to|to|TO unveil|unveil|VB -|-|: the|the|DT magnetic|magnetic|JJ
tiếng Anh mine|mine|NN ,|,|, dropped|drop|VBD into|into|IN the|the|DT
sea|sea|NN from|from|IN the|the|DT air|air|NN to|to|TO cling|cling|
VB to|to|TO a|a|DT passing|pass|NN vessel|vessel|NN
Trang 58
and|and|CC explode|explode|VB .|.|.
Hitler cũng có một tàn phá vũ khí mới để công bố - magnetic mỏ
, giảm xuống vào biển từ không khí để cling đến một passing
tàu và explode .
o Ngoài ra, do hệ dịch chọn lựa ngữ dịch tương ứng dựa trên nhãn từ loại nên
nhãn từ loại sai dẫn đến câu dịch cũng sai. Ví dụ:
When Spring comes , Sa Dec bonsai village also starts its
Ngữ liệu
festival .
Khi mùa xuân đến , làng cây cảnh Sa Đéc cũng bắt đầu lễ hội
của nó .
Baseline
Khi mùa xuân đến , Sa Đéc cây cảnh làng cũng bắt đầu của nó lễ
hội .
When|when|WRB Spring|spring|NNP comes|come|VBZ ,|,|,
Sa|Sa|NNP Dec|Dec|NNP bonsai|bonsai|NN village|village|NN
Thêm từ loại
also|conjurer|RB starts|start|VBZ its|its|PRP$ festival|festival|NN
tiếng Anh
.|.|.
Khi Lương đến , Sa Đéc cây cảnh làng cũng bắt đầu của nó lễ
hội .
Từ được đánh nhãn sai làm ảnh hưởng kết quả gióng hàng từ. Nếu từ không được
gióng hàng sẽ không được thống kê, do đó khi dịch hệ thống không gặp khi tra
phrase-table dẫn đến từ không được dịch.
ii.
Ảnh hưởng của biến đổi từ thành nguyên mẫu và phụ tố
Mặc dù việc phân tích từ tiếng Anh sang nguyên mẫu và phụ tố có cải thiện kết quả
dịch so với hệ dịch cơ sở. Nhưng kết quả phân tích cũng tạo nên từ/ngữ chưa gặp
trong ngữ liệu huấn luyện nên kết quả dịch nhìn chung bị giảm.
Trang 59
Sau đây là hai ví dụ cho thấy ảnh hưởng tích cực của phép phân tích.
Ví dụ 1:
No matter what happens , we ' ll be as well prepared as we can be
given the enormous potential for crowds .
Ngữ liệu
Dù bất kỳ vấn đề nào xảy ra , chúng tôi sẽ chuẩn bị tốt khi chúng
tôi có thể được đưa ra tiềm năng to lớn cho đám đông .
Không có vấn đề về những gì sẽ xảy ra , chúng tôi sẽ là cũng
Baseline
được chuẩn bị vì chúng tôi có thể được đưa ra các rất lớn tiềm
năng cho các crowds .
No matter what happen s , we 'll be as well prepare ed as we can
Tách từ tiếng
be give en the enormous potential for crowd s .
Anh thành
nguyên mẫu
và phụ tố
Không có vấn đề những gì xảy ra , chúng tôi sẽ là cũng như được
chuẩn bị như chúng tôi có thể được đưa ra những lớn tiềm năng
cho đám đông .
Ví dụ 2:
The boat cruises down the canal making stops at points of
interest along the way .
Ngữ liệu
Các chuyến đi tàu xuống kênh dừng tại các điểm thú vị trên
đường đi .
Các thuyền cruises xuống kênh làm dừng tại điểm của sự quan
Baseline
tâm dọc theo đường .
Tách từ tiếng
The boat cruise s down the canal make ing stop s at point s of
Anh thành
interest along the way .
nguyên mẫu
Các thuyền đi xuống các kênh làm việc dừng tại điểm quan tâm
và phụ tố
dọc theo đường .
o
Tuy nhiên, kết quả dịch tệ hơn so với hệ cơ sở trong các trường hợp sau:
Trang 60
Ngữ liệu
Tasmania has long been a location for cloud seeding programs ,
following apparent success with the programs in the 1960 's and
1970 's when significant rainfall increases of more than 30
percent were measured and reported by CSIRO scientists .
Tasmania từ lâu đã là nơi cho các chương trình tạo mưa nhân
tạo , sau thành công rực rỡ với các chương trình trong những
năm 1960 và 1970 khi lượng mưa tăng lên đáng kể với hơn 30
phần trăm được đo và báo cáo bởi các nhà khoa học CSIRO .
Baseline
Tasmania từ lâu đã được một địa điểm cho các đám mây chương
trình tạo mưa nhân tạo , sau đây rõ ràng thành công với các
chương trình trong những năm 1960 của và 1970 của khi quan
trọng lượng mưa tăng hơn 30 phần trăm đã được đo và báo cáo
của cây trồng các nhà khoa học .
Tasmanium s have s long be en a location for cloud seed ing
program s , follow ing apparent success with the program s in
the 1960 ' s and 1970 ' s when significant rainfall increase s of
Tách từ tiếng
more than 30 percent be ed measure ed and report ed by CSIRO
Anh thành
scientist s .
nguyên mẫu
Tasmania đã lâu dài được một địa điểm cho đám mây hạt giống
và phụ tố
các chương trình , đi theo rõ ràng thành công với các chương
trình trong thập niên 1960 của và 1970 của khi quan trọng lượng
mưa tăng của hơn 30 phần trăm đã được đo và báo cáo của
CSIRO các nhà khoa học .
o Do công cụ phân tích từ về nguyên mẫu dựa trên kết quả gán nhãn từ loại
nên nhãn từ loại sai sẽ dẫn đến kết quả phân tích sai.
Professor Johnson was not involved in the study but wrote an
Ngữ liệu
accompanying article in the same issue of Science , outlining its
Trang 61
significance .
Giáo sư Johnson đã không tham gia vào nghiên cứu này , nhưng
đã viết một bài báo đi kèm trong cùng một ấn bản Khoa học ,
phác thảo ra ý nghĩa của nó .
Giáo sư Johnson đã không tham gia vào việc nghiên cứu , nhưng
Baseline
đã viết một đi kèm bài viết trong cùng một vấn đề về Khoa học ,
phác thảo của nó có ý nghĩa .
Professor Johnson be ed not involve ed in the study but write ed
Tách từ tiếng
an accompanying article in the same issue of Science , outline
Anh thành
ing its significance .
nguyên mẫu
Giáo sư Johnson là không liên quan đến việc nghiên cứu , nhưng
và phụ tố
đã viết một accompanying bài viết trong cùng một vấn đề của
Khoa học , phác thảo của nó có ý nghĩa .
Như vậy, việc tích hợp thông tin từ loại và hình thái của tiếng Anh đã có cải thiện
kết quả dịch trong một số trường hợp. Tuy nhiên, kết quả dịch vẫn phụ thuộc rất
nhiều vào hiệu quả của các công cụ đánh nhãn từ loại và phân tích hình thái. Do đó,
từ trong câu tiếng Anh bị phân tích sai dẫn đến nhiều trường hợp câu dịch tệ hơn hệ
cơ sở. Mặc khác, ngữ liệu không bao phủ hết các nhãn từ loại của từ cũng dẫn đến
hệ dịch không hiệu quả.
5.3.1.2.
Chuyển đổi trật tự từ
Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ
BLEU
Hệ cơ sở
Chuyển đổi trật tự
NIST
TER
43,31
9,8269
37,914
45,88
9,9461
36,429
Trang 62
Bảng 5.3 hiển thị kết quả dịch của hệ dịch áp dụng luật chuyển đổi trật tự. Kết quả
cho thấy khi dùng luật chuyển đổi, hiệu quả dịch cao hơn so với hệ cơ sở.
Kết quả gióng hàng từ cho thấy, sau khi áp dụng luật chuyển đổi trật tự cho câu
nguồn, số lượng gióng hàng chéo giảm đáng kể. Do câu tiếng Anh đã được thay đổi
vị trí sao cho gần giống với tiếng Việt nhất. Nhờ vậy, hệ thống dịch hiệu quả hơn.
Our training time is too long and could limit the doctors '
motivation and waste our medical talent .
Ngữ liệu
Thời gian đào tạo của chúng tôi là quá dài và có thể giới hạn
động cơ của các bác sĩ và lãng phí tài năng y học của chúng ta .
của chúng tôi đào tạo thời gian là quá lâu dài và có thể giới hạn
Baseline
sự bác sĩ của động lực và chất thải của chúng tôi y tế tài năng .
time training Our is too long and could limit the motivation '
doctors and waste talent medical our .
Chuyển
đổi
thời gian đào tạo của chúng tôi là quá lâu dài và có thể giới hạn
trật tự
sự động lực của các bác sĩ và chất thải tài năng y tế của chúng
tôi .
But his real interest remains in the distant provinces of the
empire .
Ngữ liệu
Nhưng sự quan tâm thực sự của ông vẫn còn ở các tỉnh xa xôi
của đế quốc .
Baseline
Nhưng ông thực sự quan tâm vẫn còn ở xa xôi tỉnh của đế quốc .
But interest real his remains in the provinces distant of the
Chuyển
đổi
empire .
trật tự
Nhưng sự quan tâm thực sự của ông vẫn còn ở các tỉnh xa xôi
Trang 63
của đế quốc .
Tuy nhiên, không phải trường hợp áp dụng luật nào cũng cải thiện được hệ dịch. Vì
không phải luật nào cũng bao quát được mọi trường hợp. Luật được áp dụng sai dẫn
đến lượng gióng hàng chéo trong câu lại tăng lên, kéo theo kết quả dịch tệ hơn so
với hệ dịch cơ sở.
In the plan toward the year 2010 , Vietnam National
Administration of Tourism declares Van Phong as " the most
important region for tourism development " .
Ngữ liệu
Trong kế hoạch hướng tới năm 2010 , Tổng cục Du lịch Việt
Nam công bố Văn Phong là khu phát triển du lịch quan trọng
nhất .
Baseline
Trong các kế hoạch hướng đến năm 2010 , Việt Nam Tổng cục
Du lịch tuyên bố Vân Phong là " quan trọng nhất của khu vực
cho phát triển du lịch " .
In the plan toward the year 2010 , Vietnam National
Administration of Tourism declares Van Phong as " the most
Chuyển đổi
trật tự
region important for tourism development " .
Trong các kế hoạch đến năm 2010 , Việt Nam Tổng cục Du lịch tuyên bố
Vân Phong là " hầu hết các khu vực quan trọng cho phát triển
du lịch " .
5.1.1.1.
Thêm thông tin hình thái từ trong câu tiếng Việt
Thông tin hình thái từ của tiếng Việt được khảo sát bao gồm ranh giới từ và từ loại.
i.
Phân đoạn từ trong câu tiếng Việt
Kết quả dịch của các mô hình tách từ cho tiếng Việt như sau:
Trang 64
Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt
BLEU
Hệ cơ sở
Tách từ tiếng Việt
Đổi trật tự từ tiếng Anh
Đổi trật tự từ tiếng Anh + Tách
từ tiếng Việt
NIST
TER
43,31
9,8269
37,914
44,19
9,9079
37,103
45,88
9,9461
36,429
46,49
10,0107
35,850
Kết quả cho thấy hệ dịch được cải thiện nếu khi gán nhãn ranh giới từ cho câu
tiếng Việt. Khi kết hợp chuyển đổi trật tự từ ở câu tiếng Anh và phân đoạn từ tiếng
Việt, kết quả được cải tiến đáng kể.
Hiệu quả dịch được nâng cao do số liên kết gióng hàng từ 1 − (liên kết giữa 1 token với nhiều token) giảm đáng kể và từ trong các ngữ được rút ra không
bị gián
đoạn. Nhờ vậy, hệ dịch có thể thống kê các cặp ngữ chính xác hơn và tìm kiếm câu
dịch tốt hơn.
Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình
Tổng số liên kết
Cơ sở
Số liên kết trung
bình trong câu
771.492
37,74
Tách từ tiếng Việt
616.846
30,18
Đổi trật tự tiếng Anh
770.424
37,69
616.589
30,16
Đổi trật tự tiếng Anh +
Tách từ tiếng Việt
Sau đây là một số ví dụ cho kết quả gióng hàng từ của hệ cơ sở và hệ dịch có câu
tiếng Việt được tách từ:
Ví dụ 1:
Trang 65
All industrial and processing zones must have waste treatment
systems .
Tất_cả các khu công_nghiệp
hệ_thống xử_lý chất_thải .
và
khu
chế_xuất
phải
có
các
Kết quả gióng hàng từ hệ baseline:
0-0 0-1 4-2 4-3 1-4 1-5 2-6 3-7 4-7 3-8 3-9 5-10 6-11 9-13 9-14 8-15 8-16 7-17 7-18 10-19
All industrial and processing zones must have waste treatment systems .
Tất cả các khu công nghiệp và khu chế xuất phải có các hệ thống xử lý chất thải .
Kết quả gióng hàng từ của hệ dịch khi tách từ:
0-0 4-2 1-3 2-4 4-5 3-6 5-7 6-8 9-10 8-11 7-12 10-13
All industrial and processing zones must have waste treatment systems .
Tất_cả các khu công_nghiệp và khu chế_xuất phải có các hệ_thống xử_lý chất_thải .
Ví dụ 2:
On the way to the central provinces of Binh Thuan and Ninh
Thuan , tourists can catch a view of deserted sand dunes and
peaceful villages.
Trên
đường đến
Ninh
Thuận ,
các tỉnh
các
du khách
miền trung
có thể
của
bắt
tỉnh
gặp
Bình
cảnh
Thuận và
một
cồn cát
hoang vu và những ngôi làng yên bình .
Kết quả gióng hàng từ của hệ cơ sở:
0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 6-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15 14-16 14-17 15-18 15-19 16-20 16-21 18-22 1723 22-24 21-25 20-26 20-27 23-28 22-29 25-30 25-31 24-32 24-33 26-34
Trang 66
On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists
Trên đường đến các tỉnh miền trung của tỉnh Bình Thuận và Ninh Thuận , các du khách
can catch a view of deserted sand dunes and peaceful villages .
có thể bắt gặp cảnh một cồn cát hoang vu và những ngôi làng yên bình .
Kết quả gióng hàng từ của hệ có tách từ tiếng Việt:
0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 8-8 10-10 11-11 12-11 13-12 14-13 14-14 15-15 16-16 18-17 17-18 22-19 21-20 20-21 23-22 25-24 2525 24-26 26-27
On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists
Trên đường đến các tỉnh miền trung của tỉnh Bình_Thuận và Ninh_Thuận , các du_khách
can catch a view of deserted sand dunes and peaceful villages .
có_thể bắt_gặp cảnh một cồn cát hoang_vu và những ngôi làng yên_bình .
Sau đây là một số kết quả dịch của hệ dịch cơ sở và hệ dịch có tách từ tiếng Việt:
Each member of the Management Board shall have a single vote .
Ngữ liệu
Mỗi thành viên của Hội đồng quản trị sẽ có một phiếu bầu duy
nhất .
Cơ sở
Tách từ
Mỗi một thành viên của Hội đồng quản trị sẽ có duy nhất có một
phiếu biểu quyết .
Mỗi thành_viên của Hội_đồng_quản_trị sẽ có một phiếu bầu
duy_nhất .
Trang 67
Tasmania has long been a location for cloud seeding programs ,
following apparent success with the programs in the 1960 's and
1970 's when significant rainfall increases of more than 30
percent were measured and reported by CSIRO scientists .
Ngữ liệu
Tasmania từ lâu đã là nơi cho các chương trình tạo mưa nhân tạo
, sau thành công rực rỡ với các chương trình trong những năm
1960 và 1970 khi lượng mưa tăng lên đáng kể với hơn 30 phần
trăm được đo và báo cáo bởi các nhà khoa học CSIRO .
Tasmania từ lâu đã được một địa điểm cho các đám mây chương
trình tạo mưa nhân tạo , sau đây rõ ràng thành công với các
Cơ sở chương trình trong những năm 1960 của và 1970 của khi quan trọng lượng
mưa tăng hơn 30 phần trăm đã được đo và báo cáo của cây trồng
các nhà khoa học .
Tasmania từ lâu đã được một địa_điểm cho chương_trình tạo mưa nhân_tạo ,
sau đây rõ_ràng thành_công với các Tách từ
chương_trình trong những
năm 1960 của và 1970 của khi
đáng_kể lượng mưa tăng hơn 30 phần_trăm đã được đo và
báo_cáo của CSIRO các nhà khoa_học .
ii. Tích hợp thông tin từ loại trong câu tiếng Việt Bảng
5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt
BLEU
Hệ cơ sở
Thêm từ loại tiếng Việt
Đổi trật tự từ tiếng Anh
Đổi trật tự từ tiếng Anh +
Thêm từ loại tiếng Việt
NIST
TER
43,31
9,8269
37,914
42,58
9,7837
38,072
45,88
9,9461
36,429
44,99
Trang 68
9,8972
36,864
Kết quả cho thấy hệ dịch khi thêm thông tin từ loại vào phía tiếng Việt làm giảm
hiệu quả so với hệ cơ sở.
Tiếng Anh
Tiếng Việt
Từ
Từ
Từ loại
Đối với mô hình này, hệ thống học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt.
Sau đó, hệ sẽ phát sinh từ loại cho từ tiếng Việt này. Bộ giải mã chọn câu tiếng Việt
đã được gán nhãn từ loại có xác suất cao nhất dựa vào mô hình dịch, mô hình ngôn
ngữ của từ và mô hình ngôn ngữ của từ loại.
Như vậy, hệ dịch này khác với hệ dịch cơ sở ở chỗ là chịu ảnh hưởng của mô
hình ngôn ngữ của từ loại.
Khi khảo sát kết quả, chúng tôi nhận thấy kết quả phát sinh từ loại cho câu tiếng
Việt không chính xác, dẫn đến kết quả dịch cũng tệ hơn so với hệ cơ sở.
Ví dụ:
From Belgium we got to know that : " it might be interesting for
you to know that currently an application for a field trial with
GM poplar trees is [ being ] considered .
Ngữ liệu
Từ Bỉ , chúng_tôi đã cho_biết rằng : " có_thể rất thú_vị khi bạn
biết rằng hiện_nay một ứng_dụng cho thử_nghiệm bên ngoài
với GM cây dương là [ đang ] được xem_xét .
Từ Bỉ , chúng_tôi nhận được biết rằng : " nó có_thể được thú_vị
Tách từ tiếng
Việt
cho bạn biết rằng hiện đơn xin cho một thử_nghiệm bên ngoài
với biến_đổi gen cây dương là [ được coi là ] .
Thêm từ loại Từ|Cm Bỉ|Nr ,|PU chúng_tôi|Pp đã|R nhận|Vv được|M biết|Vv
tiếng Việt rằng|Cp :|PU "|PU nó|Pp có_thể|Aa được|Vv thú_vị|Aa cho|Cp
Trang 69
bạn|Pp biết|Vv rằng|Cp hiện|Vv đơn|Nn xin|Vv cho|Cp một|Nq
thử_nghiệm|Nn bên|Nn ngoài|Nn với|Cp biến_đổi|Nn gen|Nn
cây|Nn dương|Aa là|Vc [|PU được|Vv ]|PU xem_xét|Vv .|PU
Mặc khác, kết quả dịch bị chi phối rất nhiều bởi mô hình nhãn từ loại. Do xác suất
n-gram của từ loại thường lớn hơn xác suất của chuỗi từ.
Xét câu dịch sau:
Earlier , Hung signed a decision to take legal action over the
illegal transport and purchase of wild animals and handed over
both of the suspects and the evidence to the Lac Duong district
Ngữ liệu
police for investigation .
Trước đó , Hưng đã ký một quyết_định để thực_hiện hành_động
pháp_lý đối_với việc vận_tải và mua_bán bất_hợp_pháp
động_vật hoang_dã và giao_nộp cả hai nghi_phạm và
chứng_cứ cho công_an huyện Lạc_Dương để điều_tra .
Trước đó , Hưng đã ký một quyết_định để thực_hiện hành_động
pháp_lý trong việc vận_chuyển và mua các động_vật hoang_dã
Cơ sở
và bàn_giao cả các nghi_phạm và bằng_chứng đến
Lạc_Dương huyện cảnh_sát để điều_tra .
Trước|Nn đó|Pd ,|PU ông|Nn Hùng|Nr đã|R ký|Vv một|Nq
quyết_định|Nn để|Cm thực_hiện|Vv các|Nq hành_động|Nn
pháp_lý|Nn trong|Cm việc|Nc vận_chuyển|Vv và|Cp mua|Vv
Thêm từ loại
tiếng Việt
của|Cm các|Nq loài|Nn động_vật|Nn hoang_dã|Aa và|Cp
bàn_giao|Vv cả|Pp của|Cm các|Nq nghi_phạm|Nn và|Cp
bằng_chứng|Nn đến|Cm Lạc_Dương|Nr huyện|Nu cảnh_sát|
Nn cho|Cp điều_tra|Vv .|PU
Xác suất chuỗi nhãn từ loại trong mô hình ngôn ngữ:
Trang 70
-0.8658289 Vv Nq Nn Nn Aa
-0.5041147 Vv Cm Nq Nn Nn
Rõ ràng xác suất 5-gram của chuỗi từ loại sau cao hơn, dẫn đến hệ dịch chọn câu
dịch tệ hơn. Sau đây là ví dụ khác cho thấy ảnh hưởng của mô hình ngôn ngữ từ
loại.
Under the monoculture plantation approach , the rubber
farmers must obey and follow the instructions given to them .
Ngữ liệu
Theo phương_pháp đồn_điền độc_canh , nông_dân trồng cây
cao_su phải tuân theo những hướng_dẫn được giao cho họ .
Theo các đồn_điền độc_canh tiếp_cận , những người nông_dân
Cơ sở
trồng cây cao_su phải tuân theo và làm theo hướng_dẫn được
trao cho họ .
Theo|Vv các|Nq đồn_điền|Nn độc_canh|Vv tiếp_cận|Vv ,|PU
Thêm từ loại
tiếng Việt
cao_su|Nn nông_dân|Nn phải|Vv tuân|Nn theo|Vv và|Cp
làm|Vv theo|Vv hướng_dẫn|Nn được|Vv trao|Vv cho|Cp họ|Pp
.|PU
5.1.1.2.
Thêm thông tin hình thái từ cho cả tiếng Anh và tiếng Việt
Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh và
tiếng Việt
Hệ cơ sở
Từ loại tiếng Anh, từ loại tiếng
Việt
Từ loại, tách nguyên mẫu tiếng
Anh, từ loại tiếng Việt
Trang 71
BLEU
43,31
40,08
42,12
NIST
9,8269
9,781
9,8169
TER
37,914
38,728
38,254
Tiếng Anh
Tiếng Việt
Từ
Từ
Từ loại
Từ loại
Trong mô hình này, hệ thống dịch từ sang từ và từ loại sang từ loại bằng hai mô
hình dịch độc lập. Hiệu quả dịch của mô hình này giảm đáng kể so với hệ cơ sở.
Nguyên nhân làm giảm hiệu quả dịch là do ảnh hưởng của mô hình ngôn ngữ từ
loại, nếu chuỗi từ loại phát sinh sai dẫn đến kết quả dịch cũng sai.
Từ loại của câu đích sai do 2 nguyên nhân:
o
Từ loại trong câu nguồn sai, dẫn đến hệ thống dịch sang câu đích cũng sai.
Ví dụ:
"|"|NN Even|even|RB with|with|IN a|a|DT strong|strong|JJ
monsoon|monsoon|NN
system|system|NN
circulation|circulation|NN
enough|enough|RB
,|,|,
changes|change|NNS
to|to|TO
change|change|VB
where|where|WRB and|and|CC when|when|WRB
Tiếng Anh
if|if|IN
rain|rain|NN
is|be|VBZ delivered|deliver|VBN ,|,|, then|then|RB that|that|WDT
could|could|MD
that|that|WDT
have|have|VB
has|have|VBZ
an|a|DT
impact|impact|NN
not|not|RB
been|be|VBN
captured|capture|VBN in|in|IN the|the|DT large|large|JJ -|-|:
scale|scale|NN
evaluations|evaluation|NNS
,|,|,
"|"|NN
Ashfaq|Ashfaq|NNP said|say|VBD .|.|.
"|Nn Ngay_cả|Aa với|Cm một|Nq mạnh_mẽ|Nn
gió_mùa|Nn
hệ_thống|Nn ,|PU nếu|Cm lưu_thông|Nn thay_đổi|Nn đủ|Aa
Tiếng Việt
để|Cm thay_đổi|Vv nơi|Nt và|Cp khi|Nt mưa|Nn được|Vv giao|Vv
,|PU sau|Aa đó|Vc có_thể|R có|Vv một|Nq tác_động|Nn mà|Cp
đã|R không|R được|Vv giữ|Vv trong|Cm quy_mô|Aa lớn|Nn
đánh_giá|Nn ,|PU "|Nn Ashfaq|Ashfaq|NNP|UNK nói|Vv .|PU
Trang 72
o
Mô hình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt không chính
xác. Do hai ngôn ngữ này khác biệt nhiều về đặc điểm hình thái từ.
Matthew|matthew|NNP Huber|Huber|NNP ,|,|, assistant|assistant|
JJ professor|professor|NN of|of|IN earth|earth|NN and|and|CC
atmospheric|atmospheric|JJ
Tiếng Anh
sciences|science|NNS
at|at|IN
Purdue|Purdue|NNP
University|university|NNP ,|,|, says|say|VBZ no|no|DT evidence|
evidence|NN of|of|IN global|global|JJ cooling|cool|NN during|
during|IN the|the|DT period|period|NN had|have|VBD been|be|
VBN found|find|VBN .|.|.
Matthew|matthew|NNP|UNK
Huber|Nr
,|PU
trợ_lý|Nn giáo_sư|Aa
Cm trái_đất|Nn và|Cp khí_quyển|Nn Tiếng Việt
của|
khoa_học|Nn tại|Cm
Đại_học|Nn Purdue|Nr ,|PU nói|Vc không|Nq bằng_chứng|Nn của|Cm
toàn_cầu|Aa mát|Nn
trong|Cm thời_kỳ|Nn này|Pd đã|R được|Vv tìm|Vv thấy|Vv .|PU
Several|several|JJ other|other|JJ areas|area|NNS along|along|IN
Phu|Phu|NNP
Tiếng Anh
Quoc|Quoc|NNP
Park|park|NNP
's|'s|POS
Ham|Ham|NNP
Ninh|Ninh|NNP
National|national|NNP
border|border|NN
with|with|IN
Commune|Commune|NNP
were|be|VBD found|find|VBN with|with|IN newly|newly|RB -|-|:
cut|cut|NN stumps|stump|NNS
and|and|CC cleared|clear|VBD
hillsides|hillside|NNS .|.|.
Một_số|Aa
các|Nq
khu_vực|Nn
khác|Aa
dọc|Cm
Vườn_quốc_gia|Nn Phú_Quốc|Nr của|Cm biên_giới|Nn với|Cm Tiếng Việt
xã|
Nn Hàm_Ninh|Nr được|R tìm|Vv thấy|Vv với|Cm vừa|Aa - |PU cắt_giảm|Nn gốc|
Nn và|Cp khai_hoang|Vv sườn|Nq đồi|Nn
.|PU
Trang 73
Once|once|RB the|the|DT team|team|NN identified|identify|VBD
the|the|DT global|global|JJ cooling|cool|NN ,|,|, the|the|DT
Tiếng Anh
next|next|JJ step|step|NN was|be|VBD to|to|TO find|find|VB
what|what|WP caused|cause|VBD it|it|PRP .|.|.
Một_khi|R các|Nq nhóm|Nn xác_định|Vv toàn_cầu|Aa mát|Nn
,|PU tiếp_theo|Aa bước|Vv là|Vv để|Cm tìm|Vv những|Nq gì|Nn
Tiếng Việt
đã|R gây|Vv ra|R nó|Pp .|PU
4.4.
Tóm tắt kết quả thí nghiệm
Như vậy, kết quả khảo sát ảnh hưởng của thông tin hình thái từ vào hệ dịch thống kê
Anh – Việt có thể tóm tắt lại như sau:
-
Thông tin hình thái từ của tiếng Anh:
o
Tích hợp trực tiếp từ loại và biến đổi hình thái từ: Hệ dịch có thể khử
nhập nhằng nhờ thông tin từ loại và giảm số từ chưa gặp khi biến đổi
về dạng nguyên mẫu. Tuy nhiên, do kết quả phụ thuộc vào độ chính
xác của công cụ và độ bao phủ của ngữ liệu nên kết quả dịch vẫn chưa
cải tiến được so với hệ cơ sở.
Chuyển đổi trật tự từ dựa trên từ loại: Kết quả dịch được cải thiện
o
đáng kể do câu nguồn được chuyển đổi trật tự nhằm tạo sự tương
đương với câu đích.
-
Thông tin hình thái từ của tiếng Việt:
Gán nhãn ranh giới từ: Chất lượng dịch tăng lên so với hệ cơ sở do khi
o
nối các tiếng trong từ của câu tiếng Việt, số liên kết gióng hàng từ 1 – nhiều giảm
đáng kể và kết quả thống kê trong mô hình dịch cũng như mô hình ngôn ngữ chính
xác hơn do từ không bị gián đoạn trong
quá trình rút trích ngữ.
o
Gán nhãn từ loại: Kết quả dịch giảm do hệ dịch phụ thuộc vào kết quả
gán nhãn và mô hình ngôn ngữ của từ loại tiếng Việt.
Trang 74
-
Thông tin hình thái từ cho cả tiếng Anh và tiếng Việt:
o
Chất lượng dịch của mô hình factored SMT giảm đáng kể so với hệ cơ
sở do quá trình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt thiếu
chính xác. Điều này dẫn đến hệ thống chọn ra câu dịch tệ hơn so với
hệ cơ sở.
Ngoài ra, khảo sát kết quả của các mô hình khi tích hợp các thông tin hình thái từ,
mô hình chuyển đổi trật tự cho câu tiếng Anh và gán nhãn từ loại cho tiếng Việt đạt
kết quả dịch cao nhất, điểm BLEU tăng từ 43,31 lên 46,49.
Trang 75
CHƯƠNG 6: KẾT LUẬN
Trong đề tài này chúng tôi đã tích hợp các tri thức ngôn ngữ về hình thái từ vào
trong dịch máy thống kê Anh - Việt.
Hệ thống đạt chất lượng dịch tốt nhất khi áp dụng luật chuyển đổi trật tự dựa trên
thông tin từ loại cho câu tiếng Anh và gán nhãn từ loại cho câu tiếng Việt. Điểm
BLUE từ 43,31 đến 45,88, điểm NIST tăng từ 9,8269 đến 10,01 và tỉ lệ lỗi TER
giảm từ 37,914 xuống 35,850.
Tuy nhiên, khi các tri thức về từ loại lại không làm tăng chất lượng dịch. Điều này
có thể lí giải do chất lượng của công cụ gán nhãn từ loại. Một phần nữa là do khi kết
hợp với nhãn từ loại, độ phân tán của các từ sẽ tăng, dẫn đến việc hệ thống không
dịch được các từ này.
Ngoài ra, việc áp dụng luật chuyển đổi trật tự cho câu nguồn đã có ảnh hưởng tốt
đến chất lượng dịch, nhờ cải thiện kết quả gióng hàng từ. Luật chuyển đổi cũng cải
tiến hệ dịch khi kết hợp với các thông tin hình thái từ. Như vậy, không chỉ trong hệ
dịch thống kê của các cặp ngôn ngữ khác, đối với cặp tiếng Anh và tiếng Việt, việc
biến đổi để tạo sự tương đồng giữa hai ngôn ngữ đã phát huy thế mạnh của hệ dịch
máy thống kê, vừa học tự động trên ngữ liệu, vừa xử lý dựa trên những tri thức ngôn
ngữ.
Tóm lại có hai điểm quan trọng được rút ra sau khi thực hiện đề tài:
- Các tri thức ngôn ngữ khác nhau đóng góp khác nhau vào chất lượng hệ dịch.
Việc kết hợp các tri thức này hợp lí sẽ làm tăng đáng kể chất lượng dịch
của hệ thống.
- Cách sử dụng khác nhau một tri thức ngôn ngữ để tích hợp vào hệ dịch máy
thống kê cũng tạo ra các hiệu quả khác nhau đối với hệ dịch.
Trang 76
Trong tương lai, đề tài có thể mở rộng theo các hướng sau nâng cao hiệu quả của hệ
dịch bằng cách tích hợp thêm một số tri thức khác vào hệ dịch như thông tin cú
pháp để chuyển đổi trật tự từ hoặc thông tin ngữ nghĩa để chọn từ dịch chính xác.
Trang 77
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]
Đinh Điền (2001), So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng
Việt. Tạp chí Khoa học Xã hội và Nhân văn, Trường Đại học Khoa học Xã hội
và Nhân văn Tp. Hồ Chí Minh.
[2]
Hoàng Công Duy Vũ, Văn Chí Nam, Đinh Điền (2006), Dịch máy thống kê
Anh – Việt, Việt – Anh kết hợp thông tin ngôn ngữ tiếng Việt. Hội nghị kỷ
niệm 30 năm thành lập Viện CNTT, Hà Nội.
[3]
Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt trên một số cấu
trúc cú pháp cơ bản, Luận án phó tiến sĩ khoa học ngữ văn.
Tiếng Anh
[4]
A. Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, In
Proceedings of Intl. Conf. Spoken Language Processing, Denver, Colorado,
September 2002.
[5]
Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in
factored statistical machine translation. In Proceedings of the Second
Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic,
page 9-16.
[6]
Chao Wang, Michael Collins, and Phillip Koehn, 2007. Chinese Syntactic
Reordering for Statistical Machine Translation, in Proceeding of EMNLP,
2007.
[7]
Collins, M., Koehn, P. and Kucerova, I. (2005), Clause restructuring for
statistical machine translation, Proceedings of the 43rd Annual Meeting of
the Assoc. for Computational Linguistics (ACL), pp. 531-540.
[8] Doddington, G.
Quality Using
(2002), Automatic Evaluation of Machine
N-gram Co-Occurrence Statistics,
Translation
Proceedings of the
second international conference on Human Language Technology Research,
pp. 138 – 145.
Trang 78
[9]
Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003. Syntax-based
Language Models for Statistical Machine Translation. In Proceedings of the
Ninth Machine Translation Summit of the International Association for
Machine Translation, New Orleans, Louisiana, September 2003.
[10] F. J. Och and H. Ney, 2000, Improved statistical alignment models, In
Proceedings of ACL 2000.
[11] F. Xia and M. McCord. 2004. Improving a statistical MT system with
automatically learned rewrite pat-terns. In Proceedings of COLING 2004.
[12] Habash, Nizar. Syntactic Preprocessing for Statistical Machine Translation, In
Proceedings of the Machine Translation Summit (MT-Summit), Copenhagen,
Denmark, 2007.
[13] J. Giménez and L. Márquez, 2004, SVMTool: A general POS tagger generator
based on Support Vector Machines, In Proceedings of the 4th International
Conference on Language Resources and Evaluation, Lisbon, Portugal, 2004
[14] J. May and K. Knight, 2007. Syntactic Re-Alignment Models for Machine
Translation. In Proceeding EMNLP-CoNLL.
[15] K. Rottmann and S. Vogel, 2008, Word reordering in statistical machine
translation with a POS-based distortion model, In Proceedings of the 11th
International Conference on Theoretical and Methodological Issues in
Machine Translation, Skovde (Sweden), pp.171-180, 7-9 September 2007
[16] K. Toutanova, H.T. Ilhan, and C.D. Manning, 2002, Extensions to HMM-
based statistical word alignment models, In Proceedings of Conf. on
Empirical Methods for Natural Language Processing, pages 87-94,
Philadelphia, PA, July 2002
[17] Koehn, P., Och, F. J., and Marcu, D. (2003), Statistical phrase-based
translation, Proceedings of the HLT-NAACL 2003 conference, pp. 127–133.
[18] Koehn, P. (2003), Lecture of Statistical Machine Translation.
[19]Libin Shen, Jinxi Xu, Bing Zhang, Spyros Matsoukas, Ralph Weischedel
(2009). Effective Use of Linguistic and Contextual Information for Statistical
Trang 79
Machine Translation. In Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing (August 2009), pp. 72-80.
[20] M. Popovic, H. Ney, 2006, POS-based Word Reorderings for Statistical
Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May
2006
[21] Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007). Getting to know
Moses: initial experiments on German--English factored translation. In
Proceedings of the Second Workshop on Statistical Machine Translation
(ACL), Prague, Czech Republic, page 181-184
[22] Minnen, G., J. Carroll and D. Pearce, 2001, Applied morphological processing
of English, Natural Language Engineering, 7(3), pages 207-223.
[23] N. Ueffing, and H. Ney, 2003, Using POS Information for Statistical Machine
Translation into Morphologically Rich Languages, In Conference of the
European Chapter of the Association for Computational Linguistics (EACL),
pages 347-354, Budapest, Hungary, April 2003
[24] Nhung N., Dien D., 2008. A syntactic-based Word Re-ordering for English-
Vietnamese Statistical machine translation system. In Proceeding of PRICAL
2008, LNAI 5351, pp 809 – 818, 2008.
[25] P. F. Brown, S. A. D. Pietra, V. J. D. Pietra, and R. L. Mercer, 1993, The
mathematics of statistical machine translation, Computational Linguistics.
22(1): 39-69.
[26] P. Koehn, F. J. Och, and D. Marcu, 2003, Statistical phrase-based translation,
In Proceedings of HLT-NAACL 2003.
[27] P. Koehn, H. Hoang, 2007. Factored Translation Models. In Proceedings of
the 2007 Joint Conference on Empirical Methods in Natural Language
Processing and Computational Natural Language Learning (ACL), pp. 868–
876, Prague, June 2007.
[28] Papineni K. A., Roukos S., Ward T., and Zhu W.J (2002), Bleu: a method for
automatic evaluation of machine translation, Proceedings of the 40th
Trang 80
Annual Meeting of the Association for Computational Linguistics, pp. 311–
318.
[29] S. NieBen and H. Ney, 2001, Morpho-syntactic analysis for reordering in
statistical machine translation, In Proceedings of MT Summit VIII, pages 247252, Santiago de Compostela, Galicia, Spain, September 2001.
[30] Sonja Nießen, Hermann Ney, 2000, Improving SMT quality with morpho-
syntactic analysis. In Proceedings of the 18th conference on Computational
linguistics - Volume 2 (ACL), Saarbrücken, Germany, page 1081-1085.
[31] Snover M., Dorr B., Schwartz R., Micciulla L. and Makhoul J (2006), A
study
of translation edit rate with targeted human annotation,
Proceedings of Association for Machine Translation in the Americas, pp. 223
– 231.
[32] Thai Phuong Nguyen and Akira Shimazu, 2006, Improving Phrase-Based
SMT with Morpho-Syntactic Analysis and Transformation, In Proceedings of
the 7th Conference of the Association for Machine Translation in the
Americas, pages 138-147, Cambridge, 2006
[33] Victoria Fossum, Kevin Knight and Steven Abney, 2008. Using Syntax to
Improve Word Alignment Precision for Syntax-Based Machine Translation. In
Proceedings of ACL MT Workshop, 2008.
[34] Yamada,K. and Knight, K. (2001), A syntax-based statistical machine
translation, Proceedings of ACL.
[35] Yuqi Zhang, Richard Zens and Hermann Ney. 2007. Chunk-level reordering
of source language sentence with automatically learned rules for statistical
machine translation. In Proceedings of SSST, NAACL-HLT 2007/AMTA
Workshop on Syntax and Structure in Statistical Translation.
Trang 81
PHỤ LỤC
A. Đối chiếu hình thái từ Anh – Việt (biến cách)
Stt
Ý nghĩa ngữ pháp
Biến cách Nghĩa
Từ loại
1
Danh từ số nhiều
s
NNS
2
Ngôi thứ 3 số ít
s
3
Sở hữu cách
„s
của
POS
4
Hiện phân từ
ing
đang
VBG
5
Quá khứ
ed
đã
VBD
6
Quá phân từ
en
đã
VBN
7
So sánh hơn
er
hơn
JJR,RBR
8
So sánh nhất
est
nhất
JJS,RBS
những, các
VBZ
B. Kết quả dịch của một số mô hình
Văn bản tiếng Anh
In addition , Viet Nam now hosts a great variety of industries and many use
dirty technology and waste natural resources .
An estimated VND 124 trillion ( US $ 7.4 billion ) is needed to eliminate
industrial pollution , a new Industrial Policy and Strategy Institute ( IPSI )
study shows .
The quantity of HCFCs , particularly R22 , used in the refrigerating and air conditioning industries is on the increase , Thanh said , adding that finding an
ideal alterative refrigerant is a major challenge facing the industry .
It is situated about 20 kilometers from Cao Lanh Town along National
Highway 30 .
" We still had coffee and food and they organised stuff so we could get out ,
" she said .
Trang 82
Dust in the air is 113 - 230 - times above the permitted level , the content of
some metals in waste water ten times thicker than the acceptable level .
A project to build Ha Long into a smoke - free tourist city started in Ha Long
city , northern coastal Quang Ninh province on Sept .
As the driest province in the country with annual rainfall between 700 and
1,100 millimeters , Ninh Thuan is endowed with a coastline , deltas ,
mountains , rivers , and sand dunes .
It , however , warned that rising sea - level would cost the habitats of such
rare , endangered and endemic species like the leopard gecko , which lives
only in the lowland area of the region .
The Minister for Natural Resources and the Environment , Pham Khoi
Nguyen , will then chair a workshop on what Vietnam has been doing to
cope with the problems brought on by global warming and rising sea levels .
Sanctuary established for under threat snub - nosed monkeys in Ha Giang .
Heavy rain and strong winds pounded Italy on Monday , claiming the lives of
four people , ANSA news agency reported .
A hole with the length of two metres is on the blocked road Phainam - the
road nearby Chao Anuvong Stadium .
Running the club is very difficult for me because we lack money , but with
supports from members , we still manage the club effectively .
When not working as an architect he dedicates much of his time to running
the Viet Nam Amateur Club of Astronomy .
Vietnam has begun an initiative to raise its capacity in coping with A / H1N1
flu , a Red Cross official said in Hanoi September 16 .
According to him , the country has met almost all of its health care targets set
for the 2006 - 2010 period .
Vietnam has continued to receive messages of sympathy from leaders of
other countries over the losses of human life and poverty caused by typhoon
Ketsana .
Trang 83
Russian President Dmitri Medvedev on Oct . 2 cabled a message to his
Vietnamese counterpart Nguyen Minh Triet , saying , " Russia is willing to
help Vietnam overcome the natural disaster ' s consequences " .
Kết quả dịch hệ cơ sở
In bổ sung , Việt Nam hiện vật chủ rất nhiều loại của các ngành công nghiệp
và nhiều sử dụng bẩn công nghệ và chất thải các nguồn tài nguyên thiên
nhiên .
Ước tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) là cần thiết để loại bỏ ô
nhiễm công nghiệp , một mới , công nghiệp và chính sách chiến lược Viện
( IPSI ) nghiên cứu cho thấy .
Các số lượng HCFCs , đặc biệt là R22 , được sử dụng trong điện lạnh và
không khí - điều hoà ngành công nghiệp đang tăng lên , Thành cho biết , nói
thêm rằng việc tìm kiếm một lý tưởng alterative refrigerant là một lớn thách
thức đối mặt với ngành công nghiệp .
Nó nằm khoảng 20 km từ Cao Lãnh thị trấn theo Quốc lộ 30 .
" Chúng tôi vẫn còn có cà phê và thực phẩm và họ đã tổ chức thứ như vậy ,
chúng tôi có thể thoát khỏi " , Cô nói .
Bụi trong không khí là 113 - 230 - lần trên mức cho phép , nội dung của một
số các kim loại trong nước thải mười lần dày hơn so với các mức độ chấp
nhận được .
Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố du lịch đã
bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng
9.
Do khô nhất tỉnh ở các quốc gia với hàng năm lượng mưa giữa 700 và số
1.100 mm , Ninh Thuận được ưu đãi với một bờ biển , đồng bằng , núi , các
con sông , và cồn cát .
Trang 84
Nó , tuy nhiên , đã cảnh báo rằng sự gia tăng mực nước biển sẽ chi phí môi
trường sống như vậy quý hiếm , đang bị đe dọa và đặc hữu loài như lượng
con báo hoa mai tắc kè , mà còn chỉ tại các khu vực đất thấp của khu vực .
Các Bộ trưởng Bộ Tài nguyên và Môi trường Phạm Khôi Nguyên , sau đó sẽ
chủ trì một hội thảo về những gì mà Việt Nam đã đang làm để đối phó với
các vấn đề đưa vào bởi sự nóng lên toàn cầu và mực nước biển tăng lên .
Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt trên Hà Giang .
Hôm mưa và gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống của bốn
người , ANSA Hãng tin .
Một lỗ với chiều dài của hai mét trên các chặn đường Phainam - đường gần
Sân vận động Chao Anuvong .
Hoạt động câu lạc bộ là rất khó khăn cho tôi bởi vì chúng tôi thiếu tiền ,
nhưng với sự hỗ trợ từ các thành viên , chúng tôi vẫn quản lý các câu lạc bộ
có hiệu quả .
Khi không làm việc như một kiến trúc sư ông dedicates nhiều thời gian của
mình để chạy Việt Nam Amateur Câu lạc bộ của nền thiên văn học .
Việt Nam đã bắt đầu một sáng kiến để nâng cao của nó có khả năng trong
việc đối phó với các bệnh cúm A / H1N1 , một Hội chữ thập đỏ chức nói tại
Hà Nội ngày 16 tháng 9 .
Theo ông , quốc gia đã đáp ứng gần như tất cả các của nó chăm sóc sức khỏe
mục tiêu thiết lập cho năm 2006 - 2010 kỳ .
Việt Nam đã tiếp tục nhận được thông điệp của đồng cảm từ các nhà lãnh
đạo của các nước khác trên những thiệt hại của cuộc sống con người và
nghèo gây ra bởi bão Ketsana .
Nga , Tổng thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một thông
điệp của ông đối tác Việt Nam Nguyễn Minh Triet , nói , " Nga sẵn sàng để
giúp Việt Nam khắc phục những thảm họa thiên nhiên của những hậu quả " .
Kết quả dịch sau khi thêm từ loại vào tiếng Anh
Trang 85
In bổ sung , Việt Nam hiện có rất nhiều loại của các ngành công nghiệp và
nhiều sử dụng bẩn công nghệ và chất thải các nguồn tài nguyên thiên nhiên .
Ước tính đồng 124 nghìn tỷ đồng ( Hoa Kỳ $ 7.4 tỷ đôla ) là cần thiết để loại
bỏ ô nhiễm công nghiệp , một mới , công nghiệp và chính sách chiến lược
Viện ( IPSI ) nghiên cứu cho thấy .
Các số lượng HCFCs , đặc biệt là R22 , được sử dụng trong các refrigerating
và không khí - điều hoà ngành công nghiệp đang gia tăng , Thành cho biết ,
nói thêm rằng việc tìm kiếm một lý tưởng alterative refrigerant là một lớn
thách thức đối mặt với ngành công nghiệp .
Nó nằm khoảng 20 km từ Cao Lãnh thị trấn dọc theo Quốc lộ 30 .
" Chúng tôi vẫn còn có cà phê và thực phẩm và họ đã tổ chức thứ để chúng tôi
có thể làm ra " , Cô nói .
Bụi trong không khí là 113 - 230 - lần trên mức cho phép , nội dung của một số
các kim loại trong nước thải mười lần dày hơn so với các mức độ chấp nhận
được .
Một dự án để xây dựng Hạ Long vào một không khói thuốc thành phố du lịch
đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào
tháng 9 .
Do khô nhất tỉnh ở trong nước với hàng năm lượng mưa giữa 700 và số 1.100
mm , Ninh Thuận được ưu đãi với một bờ biển , đồng bằng , núi , các con
sông , và cồn cát .
Nó , tuy nhiên , đã cảnh báo rằng tăng mực nước biển sẽ có chi phí môi trường
sống như vậy quý hiếm , đang bị đe dọa và đặc hữu loài như những con báo
hoa mai phục kè , mà sống chỉ tại các khu vực đất thấp của khu vực .
Các Bộ trưởng cho Tài nguyên và Môi trường Phạm Khôi Nguyên , sau đó sẽ
chủ trì một hội thảo về những gì mà Việt Nam đã đang làm để đối phó với các
vấn đề đưa tiếp tục bởi sự nóng lên toàn cầu và mực nước biển tăng lên .
Sanctuary phát hiện cho bị đe dọa khỉ mũi tẹt trên Hà Giang .
Trang 86
Hôm mưa và gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống của bốn
người , ANSA Hãng tin báo cáo .
Một lỗ với chiều dài của hai mét trên các chặn đường Phainam - đường gần
Sân vận động Chao Anuvong .
Running câu lạc bộ là rất khó khăn cho tôi bởi vì chúng tôi thiếu tiền , nhưng
với sự hỗ trợ từ các thành viên , chúng tôi vẫn quản lý các câu lạc bộ có hiệu
quả .
Khi không làm việc như một kiến trúc sư ông dedicates nhiều thời gian của
ông để chạy Việt Nam Amateur câu lạc bộ của Thiên văn học .
Việt Nam đã bắt đầu một sáng kiến để nâng cao của nó có khả năng trong việc
đối phó với các bệnh cúm A / H1N1 , một Hội Chữ thập đỏ quan chức nói tại
Hà Nội ngày 16 tháng 9 .
Theo ông , quốc gia đã đáp ứng gần như tất cả các của nó chăm sóc sức khỏe
mục tiêu thiết lập cho năm 2006 - 2010 kỳ .
Việt Nam đã liên tục để nhận thông điệp của đồng cảm từ các nhà lãnh đạo
của các nước khác trên những thiệt hại của cuộc sống con người và nghèo gây
ra bởi bão Ketsana .
Nga , Tổng thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một thông
điệp của ông đối tác Việt Nam Nguyễn Minh Triet , nói , " Nga sẵn sàng để
giúp Việt Nam khắc phục những thảm họa thiên nhiên của những hậu quả " .
Kết quả dịch sau khi áp dụng luật chuyển đổi trật tự
In bổ sung , Việt Nam chủ nhà bây giờ là một loại lớn của các ngành công
nghiệp và nhiều sử dụng công nghệ bẩn và chất thải các nguồn tài nguyên
thiên nhiên .
Ước tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ đôla ) là cần thiết để loại bỏ ô
nhiễm công nghiệp , một mới công nghiệp và chính sách chiến lược Viện
( IPSI ) nghiên cứu cho thấy .
Trang 87
Các số lượng HCFCs , đặc biệt là R22 , được sử dụng trong điện lạnh và
không khí - điều hoà ngành công nghiệp đang gia tăng , Thành cho biết , nói
thêm rằng việc tìm kiếm một lý tưởng refrigerant alterative là một thách thức
lớn đối với ngành công nghiệp .
Nó nằm khoảng 20 km từ Cao Lãnh Town theo Quốc lộ 30 .
" Chúng tôi đã vẫn còn cà phê và thực phẩm và họ đã tổ chức chất liệu để
chúng tôi có thể thoát khỏi " , cô nói .
Bụi trong không khí là 113 - 230 - lần so với mức cho phép , nội dung của một số
các kim loại trong nước thải mười lần dày hơn so với các mức độ chấp nhận
được .
Một dự án để xây dựng Hạ Long vào một khói - thành phố du lịch không bắt
đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 .
Khi các tỉnh khô nhất trong nước với lượng mưa hàng năm khoảng 700 và
1.100 mm , Ninh Thuận được ưu đãi với một bờ biển , đồng , núi , các con
sông , và cồn cát .
Nó , tuy nhiên , đã cảnh báo rằng sự gia tăng mực nước biển sẽ chi phí môi
trường sống của quý hiếm , đang bị đe dọa và đặc hữu loài như vậy như con
tắc kè những con báo hoa mai , mà sống chỉ tại các khu vực đất thấp của khu
vực .
Các Bộ trưởng Bộ Tài nguyên và Môi trường Phạm Khôi Nguyên , sẽ sau đó
chủ trì một hội thảo về những gì mà Việt Nam đã đang làm để đối phó với các
vấn đề đưa vào bởi sự nóng lên toàn cầu và mực nước biển tăng lên .
Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt trong Hà Giang .
mưa Heavy và gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống của bốn
người , hãng tin ANSA báo cáo .
Một lỗ với chiều dài của hai mét trên chặn đường Phainam - đường gần Sân
vận động Chao Anuvong .
Trang 88
Hoạt động câu lạc bộ là rất khó khăn cho tôi bởi vì chúng tôi thiếu tiền , nhưng
với sự hỗ trợ từ các thành viên , chúng tôi quản lý vẫn còn câu lạc bộ có hiệu
quả .
Khi làm việc không phải là một kiến trúc ông dedicates nhiều thời gian của
ông để chạy Việt Nam Amateur Câu lạc bộ Thiên văn học .
Việt Nam đã bắt đầu một sáng kiến để nâng cao năng lực của nó trong việc đối
phó với các bệnh cúm A / H1N1 , một đồng bằng của Hội chữ thập đỏ cho biết
tại Hà Nội ngày 16 tháng 9 .
Theo ông , quốc gia đã đáp ứng gần như tất cả các chăm sóc sức khỏe mục
tiêu của nó được đặt ra cho năm 2006 - 2010 thời gian .
Việt Nam đã liên tục để nhận thông điệp cảm thông từ các nhà lãnh đạo của
các quốc gia khác về thiệt hại của cuộc sống con người và nghèo gây ra bởi
bão Ketsana .
Nga , Tổng thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một thông
điệp đến đối tác Việt Nam của ông Nguyễn Minh Triet , nói , " Nga sẵn sàng
để giúp Việt Nam khắc phục những thiên tai tự nhiên của những hậu quả " .
Hệ dịch gán nhãn ranh giới từ tiếng Việt
In bổ_sung , Việt_Nam hiện chủ_nhà rất nhiều loại của các ngành
công_nghiệp và nhiều sử_dụng công_nghệ chất_thải bẩn và các nguồn
tài_nguyên thiên_nhiên .
Ước_tính 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) là cần_thiết để loại_bỏ ô_nhiễm
công_nghiệp , một công_nghiệp mới và chính_sách Viện Chiến_lược ( IPSI )
nghiên_cứu cho_thấy .
Các số_lượng HCFCs , đặc_biệt là R22 , được sử_dụng trong refrigerating và
điều_hoà không_khí - các ngành công_nghiệp đang gia_tăng , Thành
cho_biết , nói thêm rằng việc tìm_kiếm một lý_tưởng alterative refrigerant là
một thách_thức lớn phải đối_mặt với các ngành công_nghiệp .
Nó nằm khoảng 20 km từ Cao Lanh Thị_xã dọc theo Quốc_lộ 30 .
Trang 89
" Chúng_tôi vẫn còn có cà_phê và thực_phẩm và chúng được tổ_chức stuff
vì_vậy chúng_tôi có_thể nhận ra , cô ấy nói , " .
bụi trong không_khí là 113 - 230 - lần trên các mức cho_phép , nội_dung của
một_số các kim_loại trong nước_thải mười lần dày hơn so với mức_độ
chấp_nhận được .
Một dự_án để xây_dựng Hạ_Long thành một không khói thuốc thành_phố
du_lịch đã bắt_đầu tại thành_phố Hạ_Long , ven biển phía bắc tỉnh
Quảng_Ninh vào tháng 9 .
Do khô nhất tỉnh trong nước với lượng mưa hàng năm khoảng 700 và 1.100
mm , Ninh_Thuận được ưu_đãi với một bờ biển , đồng_bằng , núi , các con
sông , và cồn cát .
Nó , tuy_nhiên , đã cảnh_báo rằng việc tăng mực nước biển sẽ tốn môi_trường
sống như vậy quý_hiếm , đang bị đe_doạ và đặc_hữu loài như leopard tắc_kè ,
mà chỉ sống trong các khu_vực đất thấp của khu_vực .
Các Bộ_trưởng Bộ Tài_nguyên và Môi_trường Phạm_Khôi_Nguyên , sau đó
sẽ chủ_trì một hội_thảo về những gì Việt_Nam đã được làm để đối_phó với
các vấn_đề đưa vào do sự nóng lên toàn_cầu và mực nước biển dâng cao .
Tam_Nông thành_lập cho bị đe_doạ khỉ mũi tẹt trong Hà_Giang .
Giao_thông mưa và gió mạnh pounded Ý vào ngày thứ hai , làm thiệt_mạng
cuộc_sống của bốn người , ANSA tin_tức cơ_quan báo_cáo .
Một lỗ với chiều dài của hai mét là trên chặn đường Phainam - đường gần
Sân_vận_động Chao_Anuvong .
Hoạt_động câu_lạc_bộ là rất khó_khăn cho tôi bởi_vì chúng_tôi thiếu tiền ,
nhưng với sự hỗ_trợ từ các thành_viên , chúng_tôi vẫn quản_lý câu_lạc_bộ có
hiệu_quả .
Khi không làm_việc như một architect ông dedicates nhiều thời_gian của ông
để chạy Việt_Nam Lễ_hội Carlton của nền thiên_văn_học .
Trang 90
Việt_Nam đã bắt_đầu một sáng_kiến để nâng_cao năng_lực của nó trong việc
đối_phó với các bệnh cúm A / H1N1 , một Hội Chữ_thập_đỏ quan_chức nói
tại Hà_Nội ngày 16 tháng 9 .
Theo ông , quốc_gia đã đáp_ứng gần như tất_cả các chăm_sóc y_tế đặt ra
mục_tiêu cho năm 2006 - 2010 thời_gian .
Việt_Nam đã tiếp_tục nhận được những thông_điệp cảm_thông từ các nhà
lãnh_đạo của các nước khác trên những thiệt_hại của cuộc_sống con_người và
nghèo gây ra bởi bão Ketsana .
Nga Tổng_thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một
thông_điệp của ông đối_tác Việt_Nam Nguyễn đã Triet , nói rằng : " Nga
sẵn_sàng để giúp Việt_Nam khắc_phục những thảm_hoạ thiên_nhiên của
những hậu_quả " .
Trang 91
[...]... nhiều từ hoặc cụm từ - Tra trong bảng ngữ để tìm các ngữ dịch tương ứng - Kết hợp các ngữ tìm được lại thành câu và chọn những câu có xác suất mô hình dịch nhân với xác suất mô hình ngôn ngữ lớn nhất 2.1.2 Mô hình dịch máy thống kê dựa trên ngữ Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy được thông tin ngữ cảnh mà chỉ dựa trên các phân tích thống kê về từ Mô hình dịch máy thống kê dựa... (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để thực hiện quá trình dịch Trang 12 Ngữ liệu song ngữ Ngữ liệu đơn ngữ Thống kê Thống kê Mô hình dịch Mô hình ngôn ngữ Câu nguồn Quá trình giải mã Câu đích Hình 2.1 Mô hình dịch máy thống kê 2.1.1.1 Mô hình ngôn ngữ Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ pháp) trong câu được phát sinh Từ chuỗi từ được... Trang 28 2.1.4 Mô hình dịch máy thống kê dựa trên cú pháp Mô hình dịch máy thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch Dịch thống kê dựa trên cú pháp có nhiều mô hình, sau đây là một số mô hình tiêu biểu: - Dịch từ cây cú pháp sang câu (tree-to-string ) [34] o Quá trình học: Từ câu nguồn, tác giả phân tích thành cây... cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực tiếp tri thức ngôn ngữ vào mô hình dịch Mô hình này được phát triển dựa trên cách tiếp cận dịch máy dựa trên ngữ Cải tiến của mô hình này là các thông tin về tri thức được tích hợp vào hệ thống ở mức độ từ Một từ trong mô hình này được xem như là một vector đại diện chứa nhiều thông tin khác nhau Ví dụ, mỗi từ trong câu nguồn và câu... pháp thống kê còn nhiều phương pháp khác được sử dụng trong dịch máy Đa số các hệ thống dịch thương mại sử dụng các luật chuyển đổi và các bộ từ vựng phong phú Cho tới gần đây, các nghiên cứu về dịch máy thường tập trung vào các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ trung gian trong quá trình dịch 2.1.1 Dịch máy thống kê dựa trên từ Mô hình dịch máy thống kê dựa... thay thế từ trong câu Với độ đo này, tỉ lệ lỗi càng thấp đồng nghĩa với hệ dịch càng tốt Trang 32 CHƯƠNG 3: CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ Hướng tiếp cận dịch máy dựa trên ngữ hiện được xem là state-of-the-art trong dịch máy thống kê Tuy nhiên, cách tiếp cận này bị hạn chế khi không trực tiếp tích hợp các tri thức ngôn ngữ vào hệ thống, chẳng hạn như hình thái từ, ngữ pháp... thêm các factor: từ nguyên mẫu, từ loại, biến cách Câu nguồn Câu đích Từ Từ Nguyên mẫu Nguyên mẫu Từ loại Từ loại Hình thái Hình thái Hình 2.5 Mô hình dịch factored SMT Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ Tuy nhiên, bước tạo mô hình dịch của hệ factored SMT sẽ được chia ra thành ba bước nhỏ Ví dụ từ tiếng Đức häuse khi được dịch sang tiếng Anh sẽ được xử lý... giữa factor đầu vào và factor đầu ra của từ Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural thành từ ở dạng đầy đủ houses sẽ học xác suất , , | và | , , Các giá trị phân phối này hệ thống thống kê từ ngữ liệu đơn ngữ của ngôn ngữ đích Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ phụ thuộc vào các yếu tố hình thái như từ loại, số đếm,... dịch máy thông kê dựa trên ngữ (phrase based SMT) Phương pháp này được đặt nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ trong mô hình dịch. .. cao nhất trong lớp ) Từ các cặp ngữ rút ra được, mô hình dịch dựa trên ngữ sẽ lưu lại bảng ngữ (phrase-table) chứa các cặp ngữ rút ra từ các cặp câu song ngữ cùng với xác suất ( | ) Trang 25 2.1.3 Mô hình dịch thống kê factored (Factored SMT) Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chưa sử dụng thông tin ngôn ngữ vào hệ dịch Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng biến ... 5.2 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Anh 60 Bảng 5.3 Kết dịch hệ chuyển đổi trật tự từ 63 Bảng 5.4 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Việt 64... đưa vào luận văn Hình 4.1 mô tả hệ dịch máy thống kê Anh - Việt dựa ngữ công đoạn can thiệp để tích hợp tri thức ngôn ngữ vào hệ thống luận văn Mô hình dịch thống kê Anh – Việt Tích hợp thông tin: ... hàng từ mô hình 65 Bảng 5.6 Kết dịch hệ dịch tích hợp từ loại tiếng Việt 68 Bảng 5.7 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Anh tiếng Việt .71 Trang DANH
Ngày đăng: 16/10/2015, 16:16
Xem thêm: tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt, tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt