Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

113 1.2K 4
Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNKHOA CÔNG NGHỆ THÔNG TINBỘ MÔN CÔNG NGHỆ TRI THỨCBÙI THANH HUY - 9912567LÊ PHƯƠNG QUANG - 9912653NGHIÊN CỨU CÀI ĐẶTBỘ GÁN NHÃN TỪ LOẠICHO SONG NGỮ ANH-VIỆTLUẬN VĂN CỬ NHÂN TIN HỌCGIÁO VIÊN HƯỚNG DẪNGS.TSKH HOÀNG KIẾMNIÊN KHÓA 1999 - 2003 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Nhận xét của giáo viên hướng dẫn….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………TP. Hồ Chí Minh, ngày…. tháng ….năm 2003Giáo viên hướng dẫnGS.TSKH Hoàng Kiếm Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Nhận xét của giáo viên phảnbiện….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………TP. Hồ Chí Minh, ngày…. tháng ….năm 2003Giáo viên phản biện Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Đầu tiên, chúng em xin chân thành cảm ơn thầy giáohướng dẫn, GS.TSKH Hoàng Kiếm, người đã tận tìnhhướng dẫn bọn em trong suốt quá trình làm luận văn. Đồngthời, chúng em xin gửi lời cảm ơn đến các thầy cô trongkhoa Công Nghệ Thông Tin trường Đại họcKhoaHọcTựNhiên đã truyền đạt rất nhiều kiến thức quý báu cho chúngem.Chúng em cũng muốn cảm ơn những người thântrong gia đình đã động viên, giúp đỡ tạo điều kiện đểchúng em có thể hoàn thành tốt luận văn này.Cuối cùng, chúng em xin gửi lời cảm ơn thầy ĐinhĐiền các bạn trong nhóm VCL đã giúp đỡ hỗ trợchúng em rất nhiều để hoàn thành luận văn này.Tp. Hồ Chí Minh, 7-2003Bùi Thanh Huy - Lê Phương Quang.Lời cảm ơn. Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Mục lụcMục lục iiDanh sách các hình viLời nói đầu viiChương 1: Tổng quan 11.1 Giới thiệu . 21.2 Tổng quan về gán nhãn từ loại 31.2.1 Gán nhãn từ loại là gì? . 31.2.2 Vai trò của gán nhãn từ loại . 41.3 Các vấn đề gặp phải hướng giải quyết trong bài toán gán nhãntừ loại 61.3.1 Các vấn đề gặp phải khi giải quyết bài toán 61.3.2 Hướng giải quyết 71.4 Bố cục . 8Chương 2: Cơ sở lý thuyết . 92.1 Máy học xử lý ngôn ngữ tự nhiên . 102.1.1 Hướng tiếp cận thống kê 112.1.2 Hướng tiếp cận theo biểu trưng . 122.1.2.1 Cây quyết định: .122.1.2.2 Danh sách quyết định 132.1.2.3 Phương pháp học hướng lỗi dựa trên các luật biến đổi trạng thái(TBL) 132.1.3 Hướng tiếp cận thay thế biểu trưng . 142.1.3.1 Mạng Neural .142.1.3.2 Thuật toán di truyền ( Genetic Algorithm : GA) 142.2 Một số giải thuật áp dụng cho bài toán gán nhãn từ loại . 152.2.1 Giải thuật học chuyển đổi dựa trên luật cải biến (TBL) 152.2.1.1 Sơ đồ của giải thuật TBL 172.2.1.2 Mô tả hoạt động của giải thuật 172.2.1.3 Trình bày giải thuật .20 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`2.2.1.4 Kết luận: 212.2.2 Mô hình mạng neural .222.2.2.1 Giới thiệu: .222.2.2.2 Mạng neural: .222.2.2.3 Giải thuật gán nhãn từ loại dựa trên mạng neural .252.2.2.4 Từ điển: .272.2.3 Mô hình Maximum Entropy (ME): . 282.2.3.1 Giới thiệu: .282.2.3.2 Các đặc trưng của gán nhãn từ loại: 292.2.3.3 Mô hình kiểm tra: 332.2.4 Mô hình TBL nhanh (FnTBL) . 342.2.4.1 Giới thiệu giải thuật FnTBL: 342.2.4.2 Tính điểm phát sinh luật: 362.2.4.3 Giải thuật FnTBL: .39Chương 3: Mô hình 413.1 Một số khái niệm sử dụng trong mô hình: . 423.1.1 Ngữ liệu(Corpus): 423.1.2 Ngữ liệu vàng(Golden Corpus) 443.1.3 Ngữ liệu huấn luyện(Training corpus): .453.2 Một số mô hình kết hợp hiện nay: . 463.2.1 Mô hình kết hợp sử dụng nhiều mô hình liên kết 473.2.2 Phương pháp kết hợp dựa trên tính điểm cho các nhãn ứng viên 483.2.3 Phương pháp kết hợp dựa trên gợi ý của ngữ cảnh. 503.2.4 Phương pháp kết hợp dựa trên tính kế thừa kết quả của giải thuậtTBL 513.3 Mô hình gán nhãn từ loại dựa trên song ngữ Anh-Việt 523.3.1 Sơ đồ hoạt động của mô hình: . 553.3.1.1 Ngữ liệu huấn luyện: .563.3.1.2 Quá trình khởi tạo: 583.3.1.3 Quá trình huấn luyện: 583.3.1.4 Quá trình gán nhãn từ loại trên cặp câu song ngữ 613.3.2 Thuật giải . 633.3.3 Khung luật (Template): 643.3.4 Cải tiến . 663.3.5 Chiếu sang tiếng Việt . 67Chương 4: Cài đặtthử nghiệmvàđánh giá kếtquả . 70 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`4.1 Cài đặt 714.1.1 Cài đặt bộ gán nhãn từ loại dựa trên mô hình kết hợp FnTBL vàME. 714.1.2 Cài đặt bộ gán nhãn từ loại có sử dụng thông tin tiếng Việt. 724.1.3 Cài đặt mô hình chiếu từ loại từ tiếng Anh sang tiếng Việt 734.2 Thử nghiệm 744.2.1 Thử nghiệm với các mô hình khởi tạo khác nhau. .744.2.1.1 Kết quả thử nghiệm dùng Unigram là giải thuật gán nhãn cơ sở. 754.2.1.2 Kết quả thử nghiệm với nhãn khởi tạo của mô hình Markov ẩn .784.2.1.3 Kết quả thử nghiệm dùng Maximum Entropy làm giải thuật gán nhãncơ sở.814.2.2 Thử nghiệm với các khung luật khác nhau cho giải thuật TBLnhanh 844.2.3 Kết quả gán nhãn từ loại khi dùng thông tin tiếng Việt . 854.3 Nhận xét . 85Chương 5: Tổng kết . 865.1 Kết quả đạt được . 875.2 Hạn chế 885.3 Hướng phát triển: . 89Phụ lục A:Các tập nhãn của Penn Tree Bank . 90Phụ lục B: Bộ nhãn từ loại tiếng Việt. 92Phụ lục C: Bảng ánh xạ từ loại từ tiếng Anh sang tiếng Việt . 93Phụ lục D: Một số luật chuyển đổi 95Phụ lục E: Kết quả gán nhãn từ loại trong mô hình kết hợpkhông dùng thông tin tiếng Việt 97Phụ lục F: Kết quả gán nhãn từ loại trong mô hình kết hợp códùng thông tin tiếng Việt . 99 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`TTààiilliiệệuutthhaammkkhhảảoo 102 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Danh sách các hìnhHình 1-1: Các giai đoạn của dịch máy 2Hình 2-1: Sơ đồ hoạt động của giải thuật TBL. .17Hình 2-2: Mô tả quá trình huấn luyện của giải thuật TBL .19Hình 2-3:Mạng lan truyền 2 lớp 23Hình 2-4: Cấu trúc của mô hình gán nhãn .25Hinh 2-5: Cây từ điển trong mô hình mạng. .27Hình 3-1: Cây cú pháp trong ngữ liệu .43Hình 3-2: Sơ đồ hoạt động của mô hình gán nhãn từ loại trên ngữ liệu songngữ Anh-Việt. 55Hình 3-4: Mô hình huấn luyện cho nhãn tiếng Anh 60Hình 3-5: Mô hình gán nhãn cho tiếng Anh trong ngữ liệu song ngữ Anh-Việt .61Hình 4-1: Sơ gán nhãn cho mô hình kết hợp 71Hình 4-2: Sơ đồ mô hình gán nhãn sử dụng thông tin tiếng Việt .72Hình 4-3: Sơ đồ mô hình chiếu từ loại sang tiếng Việt 73 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`LờinóiđầuNgày nay, khi khoa học công nghệ phát triển hếtsức mạnh mẽ, yêucầu nắm bắt thông tin về khoa học, kỹ thuật, công nghệ nhanh chóng vàchính xác là hếtsức cầnthiết. Hiệnnay,đa số các tài liệu đều đượcviếtbằngtiếng Anh. Do đó, việc chuyển các tài liệunàyvề tiếng Việtlàđiềurấtcầnthiết. Nếulàmđược điều này, mọingười sẽ có được nhiềucơ hộitiếpcậnvớicác thông tin tri thứcmới. Nhưng công việcnàytương đối khó khăn mặcdùhiện nay có khá nhiềuhệ dịch tựđộng ( như dịch trựctiếp, dịch qua ngônngữ trung gian, dịch dựatrên luật hoặcdịch dựatrên thống kê…) nhưng đasố các các hệ dịch này đều chưa đạtkếtquả cao. Do đó, việccảitiếnchấtlượng các hệ dịch máy luôn được quan tâm. Hiện nay, hệ dịch máy dựa trênchuyển đổi cú pháp được đánh giá khá cao. Hệ dịch máy này bao gồm khánhiềugiaiđoạnnhư tiềnxử lý, gán nhãn từ loại, phân tích hình thái, phântích cú pháp, chuyển đổitrật tự từ, xử lý ngữ nghĩa,…Dịch máy là một qui trình tương đốiphứctạp, do vậy, trong luận vănnày chúng tôi chỉ tập trung giải quyếtmột bài toán trong hệ dịch máy này, đólà giai đoạn gán nhãn từ loại. Đây là một bướccơ sở, làm nềntảng cho cácgiai đoạnsau.Kếtquả củaviệcgánnhãntừ loạisẽảnh hưởng tới các giaiđoạn khác. Trong luậnvăn này, ngoài việccố gắng cảitiếnkếtquả của gánnhãn từ loại, chúng tôi còn sử dụng các thông tin có được sau khi gán nhãntừ loại để xây dựng mộtngữ liệuvề từ loạicho tiếng Việt. Nó sẽ giúp tiếtkiệmrấtnhiềuthời gian chi phí trong việcxây dựng ngữ liệutiếng Việt,và ngữ liệu đượctạora sẽ là nguồndữ liệu vô cùng quý giá phụcvụ cho cácmục đích nghiên cứuvề tiếng Việt khác. [...]... về gán nhãn từ loại 1.2.1 Gán nhãn từ loại là gì? Để hiểu rõ hơn về gán nhãn từ loại là gì thì trước tiên, chúng ta cần phải biết một số khái niệm về nhãn từ loại Vậy nhãn từ loại là gì? Trong một câu, mỗi từ đóng một vai trò nhất định Để thể hiện chức M năng ngữ pháp của mỗi từ, người ta sử dụng nhãn từ loại Ví dụ như trong I want to book a book Từ “book” có hai nhãn từ loại là động từ danh từ. .. mỗi từ đóng một vai trò ngữ pháp khác nhau, do đó tuỳ theo ngữ cảnh trong câu mà mỗi từ có một loại nhãn thích hợp Nhưng để 3 Chương 1: Tổng quan xác định được nhãn từ loại của các từ trong một câu không đơn giản, do đa số các từ đều có nhiều từ loại khác nhau, tuỳ vào ngữ cảnh mà chúng ta có thể chọn nhãn từ loại thích hợp cho từ Đây chính là công việc chủ yếu của gán nhãn từ loại, tìm nhãn từ loại. .. Đầu vào của mạng sẽ bao gồm tất cả các thông tin mà hệ thống có về từ loại của từ hiện tại, p từ trước f từ sau Để chính xác hơn, với mỗi nhãn từ loại posj mỗi p+f+1 từ trong ngữ cảnh, có các đơn vị nhập mà sự hoạt động inij đại diện cho xác suất của từ wordi có nhãn là posi Đối với mỗi từ đang được gán nhãn các từ theo sau, xác suất từ loại từ vựng P(posj|wordi) là tất cả chúng ta biết về từ. .. trên, mặc dù hai từ “book” giống nhau nhưng chúng có vai trò ngữ pháp ngữ nghĩa khác nhau Do đó, muốn chọn nghĩa chính xác cho từng từ thì ta phải biết từ loại của từ đó Nếu nhãn từ loại bị đánh sai thì sẽ dẫn đến việc chọn nghĩa cho từ sai hoàn toàn 4 Chương 1: Tổng quan Ngoài ra, một ứng dụng khác của gán nhãn từ loại là sử dụng các thông tin đã có bên tiếng Anh để gán nhãn từ loại cho câu tiếng... gian có hạn nên chúng tôi chỉ tập trung vào việc gán nhãn từ loại cho các câu tiếng Anh Sau đó, dựa trên H mối liên kết từ giữa tiếng Anh tiếng Việt để ánh xạ từ loại của từ tiếng K Anh sang cho từ tiếng Việt Từ đó, chúng ta có thể xây dụng một ngữ liệu về -Ð H từ loại cho tiếng Việt 1.3 Các vấn đề gặp phải hướng giải quyết trong bài TT toán gán nhãn từ loại C N 1.3.1 Các vấn đề gặp phải khi giải... thì nhãn từ loại của từ “tôi” là đại từ, “đi học” là động từ H Trong luận văn này, chúng tôi chỉ tập trung vào việc gán nhãn cho câu K tiếng Anh Do đó, trong phần này chúng tôi sẽ chỉ đề cập các nhãn từ loại cho tiếng Anh -Ð H Hiện nay trên thế giới có khá nhiều bộ nhãn từ loại Trong luận văn này, chúng tôi sử dụng bộ nhãn của Pen Tree Bank, môt bộ nhãn khá phổ biến hiện nay Dưới đây là một số nhãn. .. nhằng về từ loại rất hay xảy ra Như trong tiếng Anh từ “store” vừa có thể vừa là danh từ vừa là động từ Thông thường các sự nhập nhằng này được giải quyết bằng cách dựa vào ngữ cảnh của từ M Ví dụ như câu sau: H C Today, hard drive can store a large information Trong câu trên, từ “store” chỉ có một từ loại là động từ nguyên thể TP Gán nhãn từ loại là một hệ thống tự động gán nhãn cho các từ sử dụng... phát triển các công trình nghiên cứu về ngôn ngữ, đặc biệt là tiếng Việt, ngày càng phát triển thì việc xây dựng một kho ngữ liệu bao gồm các thông tin về tiếng Việt hết sức cần thiết M Với mục đích đó, chương trình gán nhãn ngoài việc gán nhãn từ loại cho H C tiếng Anh còn sử dụng các thông tin về nhãn từ loại tiếng Anh đã có được kết hợp với các thông tin của tiếng Việt để gán nhãn từ loại cho câu... từ loại chính xác cho các từ trong một câu 1.2.2 Vai trò của gán nhãn từ loại H C của gán nhãn từ loại sẽ ảnh hưởng rất lớn đến các giai đoạn khác M Gán nhãn từ loại là một giai đoạn trong quá trình dịch máy Kết quả Chẳng hạn như đối với việc chuyển đổi trật tự từ từ tiếng Anh sang TP tiếng Việt ( đây là một công việc hết sức quan trọng trong quá trình dịch máy), nếu từ loại của các từ trong câu được... bài toán gán nhãn từ loại, ta gặp phải một số khó khăn ho a Khó khăn này chủ yếu là do các từ thường có nhiều hơn một từ loại Ta hãy xét câu sau: K I can can a can Trong câu này, ta thấy để xác định chính xác nhãn của từ “can” là một việc khá khó khăn Từ “can” ở đây có ba từ loại là trợ động từ (MD), động từ (VB), danh từ (NN) tương ứng với các vị trí trong câu Do đó, câu được gán nhãn từ loại đúng . hợp cho từ. Đây chính là công việc chủ yếu củagán nhãn từ loại, tìm nhãn từ loại chính xác cho các từ trong một câu.1.2.2 Vai trò của gán nhãn từ loạiGánnhãntừ. .................................................................................................. 714.1.1 Cài đặt bộ gán nhãn từ loại dựa trên mô hình kết hợp FnTBL vàME. 714.1.2 Cài đặt bộ gán nhãn từ loại có sử dụng thông tin tiếng

Ngày đăng: 10/11/2012, 08:11

Hình ảnh liên quan

Hình 1-1: Các giai đoạn của dịch máy - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Hình 1.

1: Các giai đoạn của dịch máy Xem tại trang 12 của tài liệu.
Hình 2-1: Sơ đồ hoạt động của giải thuật TBL. 2.2.1.2 Mơ tả hoạt động của giải thuật - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Hình 2.

1: Sơ đồ hoạt động của giải thuật TBL. 2.2.1.2 Mơ tả hoạt động của giải thuật Xem tại trang 27 của tài liệu.
Hình 2-2: Sơ đồ quá trình huấn luyện của giải thuật TBL. - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Hình 2.

2: Sơ đồ quá trình huấn luyện của giải thuật TBL Xem tại trang 29 của tài liệu.
Hình 2-3:Mạng lan truyề n2 lớp - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Hình 2.

3:Mạng lan truyề n2 lớp Xem tại trang 33 của tài liệu.
Hình 2-4: Cấu trúc của mơ hình gán nhãn - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Hình 2.

4: Cấu trúc của mơ hình gán nhãn Xem tại trang 35 của tài liệu.
Trong đĩ các đặc trưng kỳ vọng của mơ hình là: - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

rong.

đĩ các đặc trưng kỳ vọng của mơ hình là: Xem tại trang 39 của tài liệu.
Bảng 1: Các đặc trưng của history hi hiệnt ại. - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Bảng 1.

Các đặc trưng của history hi hiệnt ại Xem tại trang 41 của tài liệu.
Bảng 2: Dữ liệu mẫu. - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Bảng 2.

Dữ liệu mẫu Xem tại trang 42 của tài liệu.
Trong mơ hình của bài tốn gán nhãn từ loại mà luận văn này đề cập đến, ngữliệu vàng chính là một tập hợp các câu tiếng Anhđãđượ c gán nhãn t ừ loại hồn tồn chính xác. - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

rong.

mơ hình của bài tốn gán nhãn từ loại mà luận văn này đề cập đến, ngữliệu vàng chính là một tập hợp các câu tiếng Anhđãđượ c gán nhãn t ừ loại hồn tồn chính xác Xem tại trang 54 của tài liệu.
Trong luận văn, ngữ liệu huấn luyện dùng trong mơ hình kết hợp (được trình bày trong phần sau) cĩđịnh dạng nhưsau : - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

rong.

luận văn, ngữ liệu huấn luyện dùng trong mơ hình kết hợp (được trình bày trong phần sau) cĩđịnh dạng nhưsau : Xem tại trang 55 của tài liệu.
3.2 Một số mơ hình kết hợp hiện nay: - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

3.2.

Một số mơ hình kết hợp hiện nay: Xem tại trang 56 của tài liệu.
3.3.1 Sơ đồ hoạt động của mơ hình: - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

3.3.1.

Sơ đồ hoạt động của mơ hình: Xem tại trang 65 của tài liệu.
Hình 3-3: Sơ đồ liên kết từ. - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Hình 3.

3: Sơ đồ liên kết từ Xem tại trang 67 của tài liệu.
Đối với mơ hình FnTBL thì quá trình khởi tạo nhãn ban đầu khá quan trọng và sẽảnh hưởng phần nào đến kết quả của chươ ng trình gán nhãn - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

i.

với mơ hình FnTBL thì quá trình khởi tạo nhãn ban đầu khá quan trọng và sẽảnh hưởng phần nào đến kết quả của chươ ng trình gán nhãn Xem tại trang 68 của tài liệu.
Mơ hình huấn luyện cho bộ gán nhãn từ loại tiếng Anh - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

h.

ình huấn luyện cho bộ gán nhãn từ loại tiếng Anh Xem tại trang 69 của tài liệu.
Hình 3-4: Mơ hình huấn luyện cho nhãn tiếng Anh - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

Hình 3.

4: Mơ hình huấn luyện cho nhãn tiếng Anh Xem tại trang 70 của tài liệu.
Khác với các mơ hình khác, trong mơ hình này cĩ sử dụng thêm thơng tin tiếng Việt. Các câu tiếng Anh đãđược liên kết với tiếng Việ t trong song ngữ Anh-Việt - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

h.

ác với các mơ hình khác, trong mơ hình này cĩ sử dụng thêm thơng tin tiếng Việt. Các câu tiếng Anh đãđược liên kết với tiếng Việ t trong song ngữ Anh-Việt Xem tại trang 71 của tài liệu.
Từ bảng trên chúng ta cĩ thể tạo nên những ánh xạ cĩ dạng từ loại tiếng Anh là PRP ( Pronuon ) thì từloại tiếng Việ t là P (Pronoun), t ừ lo ạ i tiếng Anh là VB (Verb) thì từloại tiếng việt là V (Verb) - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

b.

ảng trên chúng ta cĩ thể tạo nên những ánh xạ cĩ dạng từ loại tiếng Anh là PRP ( Pronuon ) thì từloại tiếng Việ t là P (Pronoun), t ừ lo ạ i tiếng Anh là VB (Verb) thì từloại tiếng việt là V (Verb) Xem tại trang 78 của tài liệu.
4.1.1 Cài đặt bộ gán nhãn từ loại dựa trên mơ hình kết hợp FnTBL và ME. - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

4.1.1.

Cài đặt bộ gán nhãn từ loại dựa trên mơ hình kết hợp FnTBL và ME Xem tại trang 81 của tài liệu.
Lặp, với luật ri trong tập luật huân luyện trên mơ hình kết hợp Lặp, với từ w jtrong câu cần gán nhãn từ loại. - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

p.

với luật ri trong tập luật huân luyện trên mơ hình kết hợp Lặp, với từ w jtrong câu cần gán nhãn từ loại Xem tại trang 82 của tài liệu.
Bước 3: gán nhãn từ loại cho câu tiếng Anh bằng mơ hình kết hợp. - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

c.

3: gán nhãn từ loại cho câu tiếng Anh bằng mơ hình kết hợp Xem tại trang 83 của tài liệu.
4.2.1.2 Kết quả thử nghiệm với nhãn khởi tạo của mơ hình Markov ẩn - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

4.2.1.2.

Kết quả thử nghiệm với nhãn khởi tạo của mơ hình Markov ẩn Xem tại trang 88 của tài liệu.
Trong mơ hình này, chúng tơi đã tận dụng ưu điểm của mơ hình FnTBL là cĩ thểsửa nhãn trên một bộdữliệuđãđược gán nhãn bở i m ộ t mơ hình khácđểcải tiến chất lượng mơ hình - Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt

rong.

mơ hình này, chúng tơi đã tận dụng ưu điểm của mơ hình FnTBL là cĩ thểsửa nhãn trên một bộdữliệuđãđược gán nhãn bở i m ộ t mơ hình khácđểcải tiến chất lượng mơ hình Xem tại trang 97 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan