Đang tải... (xem toàn văn)
Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh-Việt
Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNKHOA CÔNG NGHỆ THÔNG TINBỘ MÔN CÔNG NGHỆ TRI THỨCBÙI THANH HUY - 9912567LÊ PHƯƠNG QUANG - 9912653NGHIÊN CỨU VÀ CÀI ĐẶTBỘ GÁN NHÃN TỪ LOẠICHO SONG NGỮ ANH-VIỆTLUẬN VĂN CỬ NHÂN TIN HỌCGIÁO VIÊN HƯỚNG DẪNGS.TSKH HOÀNG KIẾMNIÊN KHÓA 1999 - 2003 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Nhận xét của giáo viên hướng dẫn….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………TP. Hồ Chí Minh, ngày…. tháng ….năm 2003Giáo viên hướng dẫnGS.TSKH Hoàng Kiếm Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Nhận xét của giáo viên phảnbiện….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………….…………………………………………………………………………………………………………TP. Hồ Chí Minh, ngày…. tháng ….năm 2003Giáo viên phản biện Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Đầu tiên, chúng em xin chân thành cảm ơn thầy giáohướng dẫn, GS.TSKH Hoàng Kiếm, người đã tận tìnhhướng dẫn bọn em trong suốt quá trình làm luận văn. Đồngthời, chúng em xin gửi lời cảm ơn đến các thầy cô trongkhoa Công Nghệ Thông Tin trường Đại họcKhoaHọcTựNhiên đã truyền đạt rất nhiều kiến thức quý báu cho chúngem.Chúng em cũng muốn cảm ơn những người thântrong gia đình đã động viên, giúp đỡ và tạo điều kiện đểchúng em có thể hoàn thành tốt luận văn này.Cuối cùng, chúng em xin gửi lời cảm ơn thầy ĐinhĐiền và các bạn trong nhóm VCL đã giúp đỡ và hỗ trợchúng em rất nhiều để hoàn thành luận văn này.Tp. Hồ Chí Minh, 7-2003Bùi Thanh Huy - Lê Phương Quang.Lời cảm ơn. Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Mục lụcMục lục iiDanh sách các hình viLời nói đầu viiChương 1: Tổng quan 11.1 Giới thiệu . 21.2 Tổng quan về gán nhãn từ loại 31.2.1 Gán nhãn từ loại là gì? . 31.2.2 Vai trò của gán nhãn từ loại . 41.3 Các vấn đề gặp phải và hướng giải quyết trong bài toán gán nhãntừ loại 61.3.1 Các vấn đề gặp phải khi giải quyết bài toán 61.3.2 Hướng giải quyết 71.4 Bố cục . 8Chương 2: Cơ sở lý thuyết . 92.1 Máy học và xử lý ngôn ngữ tự nhiên . 102.1.1 Hướng tiếp cận thống kê 112.1.2 Hướng tiếp cận theo biểu trưng . 122.1.2.1 Cây quyết định: .122.1.2.2 Danh sách quyết định 132.1.2.3 Phương pháp học hướng lỗi dựa trên các luật biến đổi trạng thái(TBL) 132.1.3 Hướng tiếp cận thay thế biểu trưng . 142.1.3.1 Mạng Neural .142.1.3.2 Thuật toán di truyền ( Genetic Algorithm : GA) 142.2 Một số giải thuật áp dụng cho bài toán gán nhãn từ loại . 152.2.1 Giải thuật học chuyển đổi dựa trên luật cải biến (TBL) 152.2.1.1 Sơ đồ của giải thuật TBL 172.2.1.2 Mô tả hoạt động của giải thuật 172.2.1.3 Trình bày giải thuật .20 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`2.2.1.4 Kết luận: 212.2.2 Mô hình mạng neural .222.2.2.1 Giới thiệu: .222.2.2.2 Mạng neural: .222.2.2.3 Giải thuật gán nhãn từ loại dựa trên mạng neural .252.2.2.4 Từ điển: .272.2.3 Mô hình Maximum Entropy (ME): . 282.2.3.1 Giới thiệu: .282.2.3.2 Các đặc trưng của gán nhãn từ loại: 292.2.3.3 Mô hình kiểm tra: 332.2.4 Mô hình TBL nhanh (FnTBL) . 342.2.4.1 Giới thiệu giải thuật FnTBL: 342.2.4.2 Tính điểm và phát sinh luật: 362.2.4.3 Giải thuật FnTBL: .39Chương 3: Mô hình 413.1 Một số khái niệm sử dụng trong mô hình: . 423.1.1 Ngữ liệu(Corpus): 423.1.2 Ngữ liệu vàng(Golden Corpus) 443.1.3 Ngữ liệu huấn luyện(Training corpus): .453.2 Một số mô hình kết hợp hiện nay: . 463.2.1 Mô hình kết hợp sử dụng nhiều mô hình liên kết 473.2.2 Phương pháp kết hợp dựa trên tính điểm cho các nhãn ứng viên 483.2.3 Phương pháp kết hợp dựa trên gợi ý của ngữ cảnh. 503.2.4 Phương pháp kết hợp dựa trên tính kế thừa kết quả của giải thuậtTBL 513.3 Mô hình gán nhãn từ loại dựa trên song ngữ Anh-Việt 523.3.1 Sơ đồ hoạt động của mô hình: . 553.3.1.1 Ngữ liệu huấn luyện: .563.3.1.2 Quá trình khởi tạo: 583.3.1.3 Quá trình huấn luyện: 583.3.1.4 Quá trình gán nhãn từ loại trên cặp câu song ngữ 613.3.2 Thuật giải . 633.3.3 Khung luật (Template): 643.3.4 Cải tiến . 663.3.5 Chiếu sang tiếng Việt . 67Chương 4: Cài đặtthử nghiệmvàđánh giá kếtquả . 70 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`4.1 Cài đặt 714.1.1 Cài đặt bộ gán nhãn từ loại dựa trên mô hình kết hợp FnTBL vàME. 714.1.2 Cài đặt bộ gán nhãn từ loại có sử dụng thông tin tiếng Việt. 724.1.3 Cài đặt mô hình chiếu từ loại từ tiếng Anh sang tiếng Việt 734.2 Thử nghiệm 744.2.1 Thử nghiệm với các mô hình khởi tạo khác nhau. .744.2.1.1 Kết quả thử nghiệm dùng Unigram là giải thuật gán nhãn cơ sở. 754.2.1.2 Kết quả thử nghiệm với nhãn khởi tạo của mô hình Markov ẩn .784.2.1.3 Kết quả thử nghiệm dùng Maximum Entropy làm giải thuật gán nhãncơ sở.814.2.2 Thử nghiệm với các khung luật khác nhau cho giải thuật TBLnhanh 844.2.3 Kết quả gán nhãn từ loại khi dùng thông tin tiếng Việt . 854.3 Nhận xét . 85Chương 5: Tổng kết . 865.1 Kết quả đạt được . 875.2 Hạn chế 885.3 Hướng phát triển: . 89Phụ lục A:Các tập nhãn của Penn Tree Bank . 90Phụ lục B: Bộ nhãn từ loại tiếng Việt. 92Phụ lục C: Bảng ánh xạ từ loại từ tiếng Anh sang tiếng Việt . 93Phụ lục D: Một số luật chuyển đổi 95Phụ lục E: Kết quả gán nhãn từ loại trong mô hình kết hợpkhông dùng thông tin tiếng Việt 97Phụ lục F: Kết quả gán nhãn từ loại trong mô hình kết hợp códùng thông tin tiếng Việt . 99 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`TTààiilliiệệuutthhaammkkhhảảoo 102 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`Danh sách các hìnhHình 1-1: Các giai đoạn của dịch máy 2Hình 2-1: Sơ đồ hoạt động của giải thuật TBL. .17Hình 2-2: Mô tả quá trình huấn luyện của giải thuật TBL .19Hình 2-3:Mạng lan truyền 2 lớp 23Hình 2-4: Cấu trúc của mô hình gán nhãn .25Hinh 2-5: Cây từ điển trong mô hình mạng. .27Hình 3-1: Cây cú pháp trong ngữ liệu .43Hình 3-2: Sơ đồ hoạt động của mô hình gán nhãn từ loại trên ngữ liệu songngữ Anh-Việt. 55Hình 3-4: Mô hình huấn luyện cho nhãn tiếng Anh 60Hình 3-5: Mô hình gán nhãn cho tiếng Anh trong ngữ liệu song ngữ Anh-Việt .61Hình 4-1: Sơ gán nhãn cho mô hình kết hợp 71Hình 4-2: Sơ đồ mô hình gán nhãn sử dụng thông tin tiếng Việt .72Hình 4-3: Sơ đồ mô hình chiếu từ loại sang tiếng Việt 73 Khoa CNTT - ÐH KHTN TP.HCMKhoa CNTT - ÐH KHTN TP.HCM`LờinóiđầuNgày nay, khi khoa học công nghệ phát triển hếtsức mạnh mẽ, yêucầu nắm bắt thông tin về khoa học, kỹ thuật, công nghệ nhanh chóng vàchính xác là hếtsức cầnthiết. Hiệnnay,đa số các tài liệu đều đượcviếtbằngtiếng Anh. Do đó, việc chuyển các tài liệunàyvề tiếng Việtlàđiềurấtcầnthiết. Nếulàmđược điều này, mọingười sẽ có được nhiềucơ hộitiếpcậnvớicác thông tin tri thứcmới. Nhưng công việcnàytương đối khó khăn mặcdùhiện nay có khá nhiềuhệ dịch tựđộng ( như dịch trựctiếp, dịch qua ngônngữ trung gian, dịch dựatrên luật hoặcdịch dựatrên thống kê…) nhưng đasố các các hệ dịch này đều chưa đạtkếtquả cao. Do đó, việccảitiếnchấtlượng các hệ dịch máy luôn được quan tâm. Hiện nay, hệ dịch máy dựa trênchuyển đổi cú pháp được đánh giá khá cao. Hệ dịch máy này bao gồm khánhiềugiaiđoạnnhư tiềnxử lý, gán nhãn từ loại, phân tích hình thái, phântích cú pháp, chuyển đổitrật tự từ, xử lý ngữ nghĩa,…Dịch máy là một qui trình tương đốiphứctạp, do vậy, trong luận vănnày chúng tôi chỉ tập trung giải quyếtmột bài toán trong hệ dịch máy này, đólà giai đoạn gán nhãn từ loại. Đây là một bướccơ sở, làm nềntảng cho cácgiai đoạnsau.Kếtquả củaviệcgánnhãntừ loạisẽảnh hưởng tới các giaiđoạn khác. Trong luậnvăn này, ngoài việccố gắng cảitiếnkếtquả của gánnhãn từ loại, chúng tôi còn sử dụng các thông tin có được sau khi gán nhãntừ loại để xây dựng mộtngữ liệuvề từ loạicho tiếng Việt. Nó sẽ giúp tiếtkiệmrấtnhiềuthời gian và chi phí trong việcxây dựng ngữ liệutiếng Việt,và ngữ liệu đượctạora sẽ là nguồndữ liệu vô cùng quý giá phụcvụ cho cácmục đích nghiên cứuvề tiếng Việt khác. [...]... về gán nhãn từ loại 1.2.1 Gán nhãn từ loại là gì? Để hiểu rõ hơn về gán nhãn từ loại là gì thì trước tiên, chúng ta cần phải biết một số khái niệm về nhãn từ loại Vậy nhãn từ loại là gì? Trong một câu, mỗi từ đóng một vai trò nhất định Để thể hiện chức M năng ngữ pháp của mỗi từ, người ta sử dụng nhãn từ loại Ví dụ như trong I want to book a book Từ “book” có hai nhãn từ loại là động từ và danh từ. .. mỗi từ đóng một vai trò ngữ pháp khác nhau, do đó tuỳ theo ngữ cảnh trong câu mà mỗi từ có một loại nhãn thích hợp Nhưng để 3 Chương 1: Tổng quan xác định được nhãn từ loại của các từ trong một câu không đơn giản, do đa số các từ đều có nhiều từ loại khác nhau, tuỳ vào ngữ cảnh mà chúng ta có thể chọn nhãn từ loại thích hợp cho từ Đây chính là công việc chủ yếu của gán nhãn từ loại, tìm nhãn từ loại. .. Đầu vào của mạng sẽ bao gồm tất cả các thông tin mà hệ thống có về từ loại của từ hiện tại, p từ trước và f từ sau Để chính xác hơn, với mỗi nhãn từ loại posj và mỗi p+f+1 từ trong ngữ cảnh, có các đơn vị nhập mà sự hoạt động inij đại diện cho xác suất của từ wordi có nhãn là posi Đối với mỗi từ đang được gán nhãn và các từ theo sau, xác suất từ loại từ vựng P(posj|wordi) là tất cả chúng ta biết về từ. .. trên, mặc dù hai từ “book” giống nhau nhưng chúng có vai trò ngữ pháp và ngữ nghĩa khác nhau Do đó, muốn chọn nghĩa chính xác cho từng từ thì ta phải biết từ loại của từ đó Nếu nhãn từ loại bị đánh sai thì sẽ dẫn đến việc chọn nghĩa cho từ sai hoàn toàn 4 Chương 1: Tổng quan Ngoài ra, một ứng dụng khác của gán nhãn từ loại là sử dụng các thông tin đã có bên tiếng Anh để gán nhãn từ loại cho câu tiếng... gian có hạn nên chúng tôi chỉ tập trung vào việc gán nhãn từ loại cho các câu tiếng Anh Sau đó, dựa trên H mối liên kết từ giữa tiếng Anh và tiếng Việt để ánh xạ từ loại của từ tiếng K Anh sang cho từ tiếng Việt Từ đó, chúng ta có thể xây dụng một ngữ liệu về -Ð H từ loại cho tiếng Việt 1.3 Các vấn đề gặp phải và hướng giải quyết trong bài TT toán gán nhãn từ loại C N 1.3.1 Các vấn đề gặp phải khi giải... thì nhãn từ loại của từ “tôi” là đại từ, “đi học” là động từ H Trong luận văn này, chúng tôi chỉ tập trung vào việc gán nhãn cho câu K tiếng Anh Do đó, trong phần này chúng tôi sẽ chỉ đề cập các nhãn từ loại cho tiếng Anh -Ð H Hiện nay trên thế giới có khá nhiều bộ nhãn từ loại Trong luận văn này, chúng tôi sử dụng bộ nhãn của Pen Tree Bank, môt bộ nhãn khá phổ biến hiện nay Dưới đây là một số nhãn. .. nhằng về từ loại rất hay xảy ra Như trong tiếng Anh từ “store” vừa có thể vừa là danh từ vừa là động từ Thông thường các sự nhập nhằng này được giải quyết bằng cách dựa vào ngữ cảnh của từ M Ví dụ như câu sau: H C Today, hard drive can store a large information Trong câu trên, từ “store” chỉ có một từ loại là động từ nguyên thể TP Gán nhãn từ loại là một hệ thống tự động gán nhãn cho các từ sử dụng... phát triển và các công trình nghiên cứu về ngôn ngữ, đặc biệt là tiếng Việt, ngày càng phát triển thì việc xây dựng một kho ngữ liệu bao gồm các thông tin về tiếng Việt hết sức cần thiết M Với mục đích đó, chương trình gán nhãn ngoài việc gán nhãn từ loại cho H C tiếng Anh còn sử dụng các thông tin về nhãn từ loại tiếng Anh đã có được kết hợp với các thông tin của tiếng Việt để gán nhãn từ loại cho câu... từ loại chính xác cho các từ trong một câu 1.2.2 Vai trò của gán nhãn từ loại H C của gán nhãn từ loại sẽ ảnh hưởng rất lớn đến các giai đoạn khác M Gán nhãn từ loại là một giai đoạn trong quá trình dịch máy Kết quả Chẳng hạn như đối với việc chuyển đổi trật tự từ từ tiếng Anh sang TP tiếng Việt ( đây là một công việc hết sức quan trọng trong quá trình dịch máy), nếu từ loại của các từ trong câu được... bài toán gán nhãn từ loại, ta gặp phải một số khó khăn ho a Khó khăn này chủ yếu là do các từ thường có nhiều hơn một từ loại Ta hãy xét câu sau: K I can can a can Trong câu này, ta thấy để xác định chính xác nhãn của từ “can” là một việc khá khó khăn Từ “can” ở đây có ba từ loại là trợ động từ (MD), động từ (VB), danh từ (NN) tương ứng với các vị trí trong câu Do đó, câu được gán nhãn từ loại đúng . hợp cho từ. Đây chính là công việc chủ yếu củagán nhãn từ loại, tìm nhãn từ loại chính xác cho các từ trong một câu.1.2.2 Vai trò của gán nhãn từ loạiGánnhãntừ. .................................................................................................. 714.1.1 Cài đặt bộ gán nhãn từ loại dựa trên mô hình kết hợp FnTBL vàME. 714.1.2 Cài đặt bộ gán nhãn từ loại có sử dụng thông tin tiếng