Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Thị Oanh PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ Thông tin Hà Nội – 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Thị Oanh PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ Thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS Phạm Quang Nhật Minh Hà Nội – 2012 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Ha Thi Oanh RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON LEXICAL AND SYNONYM DICTIONARY Major: Information Technology Supervisor: Assoc. Prof. Ha Quang Thuy Co-Supervisor: Masters. Pham Quang Nhat Minh HA NOI – 2012 i LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS. Hà Quang Thụy, ThS Phạm Quang Nhật Minh đã tận tình chỉ bảo và hướng dẫn em thực hiện khóa luận tốt nghiệp. Em xin cảm ơn các thầy, cô trong trường Đại học Công nghệ đã giảng dạy và cho em những kiến thức quý báu, làm nền tảng để em hoàn thành khóa luận, cũng như trong công việc tương lai. Em xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong phòng thí nghiệm KTLab: TS. Phan Xuân Hiếu, CN Lê Đức Trọng, CN Trần Xuân Tứ, Nguyễn Thị Thùy Linh, … đã hỗ trợ em rất nhiều trong suốt quá trình làm khóa luận. Em cũng xin được gửi lời tri ân tới các bạn trong lớp K53CLC, K53CC đã luôn bên cạnh và ủng hộ em trong suốt quá trình học tập tại trường. Cuối cùng, em muốn gửi lời cảm ơn sâu sắc tới gia đình và bạn bè - những người thân yêu luôn ở bên yêu thương che chở em để em vượt qua những khó khăn trong cuộc sống cũng như trong học tập. Em xin chân thành cảm ơn! Hà Nội, tháng 5 năm 2012 Sinh viên Hà Thị Oanh ii PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA Hà Thị Oanh Khóa QH-2008-I/CQ, Ngành Công nghệ thông tin Tóm tắt Khóa luận tốt nghiệp Phát hiện quan hệ ngữ nghĩa (semantic relation) là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên và khai phá dữ liệu văn bản. Phát hiện kế thừa văn bản (Recognizing Textual Entailment: RTE) là bài toán tìm mối quan hệ “kế thừa ngữ nghĩa” của một văn bản T từ một văn bản giả thuyết H, là một bài toán có ý nghĩa khoa học – công nghệ thời sự thu hút sự quan tâm của nhiều nhóm nghiên cứu trên thế giới. Nhiều công trình nghiên cứu về RTE được công bố trên các tạp chí, tại các hội nghị khoa học quốc tế mà điển hình là nhánh hội nghị khoa học về RTE trong dãy hội nghị thường niên về phân tích văn bản (Text Analysis Conference: TAC) do Viện Tiêu chuNn và Công nghệ quốc gia Mỹ chủ trì. Khóa luận tập trung nghiên cứu bài toán và các phương pháp phát hiện kế thừa văn bản ti tại các hội nghị khoa học quốc tế RTE. Trên cơ sở tìm hiểu và so sánh các hướng tiếp cận, khóa luận tập trung vào hướng tiếp cận xác định kế thừa văn bản dựa trên từ vựng và tri thức miền. Các nghiên cứu theo hướng tiếp cận này (Valentin Jijkoun và Maarten de Rijke, 2006 [20], Ken-ichi Yokote và cộng sự, 2012 [22]) cho thấy giá trị ngưỡng phán quyết kế thừa có ý nghĩa quan trọng. Khóa luận đề xuất giải pháp xác định và tinh chỉnh ngưỡng phán quyết kế thừa trong tiếp cận phát hiện kế thừa văn bản dựa trên từ vựng và đề nghị một mô hình phát hiện kế thừa văn bản có tích hợp giải pháp xác định và tinh chỉnh ngưỡng phán quyết nói trên. Thực nghiệm mô hình đề xuất trên dữ liệu tiếng Việt chứng tỏ giải pháp đề xuất có tính hiệu quả: độ đo F1 của phán quyết sau khi tinh chỉnh trung bình tăng 3% so với chưa tinh chỉnh Từ khóa: Kế thừa ngữ nghĩa, RTE, từ điển đồng nghĩa iii RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON LEXICAL AND SYNONYM DICTIONARY Oanh Ha Thi QH-2008-I/CQ course, information technology faculty. Abtract: Recognizing semantic relation is an important task in the field of natural language processing and data mining. Recoginzing textual entailment (RTE) is the task which finds the “semantic inference” relationship of the text (T) from the hypothesis (H). RTE has the science – technology meaning and attracts the attension of many research groups. Many research projects in RTE were published in magazines in the international scientific conference which has the typical branch about RTE in annual Text Analysis Conference. TAC was held by the America national Institue of Standardization and Technology. The thesis focused on researching and clarifying the RTE task and some methods to recognize textual entailment on the conferences. On the basic of studying and comparing some appoaches, the thesis proposed a model to RTE based on lexical combined domain knowledge. This appoach (Valentin Jijkoun and Maarten de Rijke, 2006 [20], Ken-ichi Yokote et al [22]) showed the significant meaning of the thresold value of recognizing textual entailment. The thesis proposed a solution and model to identify and refine the thresold in recognizing textual entailment based on lexical. Empirical by Vietnamese data shows that the proposed solution is effective: F1-measure of recognization before and after refining threshold increases 3%. Keywords: semantic inference, RTE, synonym dictionary. iv LỜI CAM ĐOAN Em xin cam đoan mô hình phát hiện kế thừa văn bản dựa trên sự tương đồng tự vựng với giải pháp xác định và chỉnh sửa ngưỡng phán quyết cũng như thực nghiệm được trình bày trong khóa luận này là do em thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang Thụy và ThS. Phạm Quang Nhật Minh. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà Nội, ngày 17 tháng 05 năm 2012 Sinh viên Hà Thị Oanh v Nội dung LỜI CẢM ƠN ………………………………………………………………………………………………………………………………i PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN …………………………………………………………… ii LỜI CAM ĐOAN ………………………………………………………………………………………………………………………iv Danh sách các từ viết tắt ………………………………………………………………………………………………………….vii Danh sách bảng biểu ……………………………………………………………………………………………………………… viii MỞ ĐẦU ………………………………………………………………………………………………………………………………………1 Chương 1 : Giới thiệu chung ……………………………………………………………………………………………………1 1.1. Động lực và mục tiêu nghiên cứu 2 1.2. Khái niệm kế thừa văn bản 4 1.3. Bài toán phát hiện kế thừa văn bản 5 1.4. Mối quan hệ giữa dịch máy và kế thừa văn bản 6 1.5. Dãy hội nghị RTE 7 1.6. Bộ dữ liệu trong hội nghị RTE và ứng dụng của phát hiện kế thừa văn bản 9 1.7. Tóm tắt chương 1 11 Chương 2: Một số hướng tiếp cận giải quyết bài toán ………………………………………………………12 2.1. Một số hướng tiếp cận giải quyết bài toán 12 2.2. Hướng tiếp cận dựa trên từ vựng 13 2.2.1. Một số công trình nghiên cứu liên quan 14 2.3. Hướng tiếp cận dựa trên tri thức 16 2.4. Kết luận 17 Chương 3: Mô hình phát hiện kế thừa văn bản tiếng Việt ……………………………………………….19 3.1. Cơ sở lý thuyết 19 3.1.1. Thuật toán độ tương đồng từ vựng 19 3.1.2. Ngưỡng phán quyết kế thừa 20 3.1.3. Trọng số của từ 20 3.2. Độ đo độ tương đồng từ vựng (wordsim) 21 3.3. Tri thức miền từ điển đồng nghĩa tiếng Việt 22 3.4. Tinh chỉnh ngưỡng phán quyết kế thừa 23 3.4.1. Ngưỡng phán quyết 23 3.5. Phát biểu bài toán 25 vi 3.6. Tóm tắt chương 3 28 Chương 4: Thực nghiệm…………………………………………………………… 29 4.1. Môi trường thực nghiệm 29 4.1.1. Cấu hình phần cứng 29 4.1.2. Công cụ phần mềm 29 4.2. Dữ liệu thực nghiệm 30 4.3. Thử nghiệm chương trình 31 4.4. Đánh giá hệ thống 31 4.6. Đánh giá 35 Kết luận và định hướng nghiên cứu tiếp theo …………………………………………………………………….36 Tài liệu tham khảo ……………………………………………………………………………………………………………………37 vii Danh sách các từ viết tắt Viết tắt Tiếng Anh Tiếng Việt H Hypothesis Giả thuyết IE Information Extraction Trích xuất thông tin IR Information Retrieval Thu thập thông tin MT Machine Translation Dịch máy NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên QA Question Answering Hệ hỏi đáp RTE Recognizing Textual Entailment Phát hiện kế thừa văn bản SUM Summarization Tóm tắt T Text Văn bản TE Textual Entailment Kế thừa văn bản CD Comparison Documents Tài liệu so sánh RC Reading Comprehension Đọc hiểu PP Paraphrase Acquisition Thu thập diễn giải [...]... Jones Bảng 1: Một số ví dụ kế thừa văn bản trong hội nghị RTE-3 1.3 Bài toán phát hiện kế thừa văn bản Bài toán phát hiện kế thừa văn bản là bài toán xác định quan hệ kế thừa giữa văn bản T và giả thuyết H Việc phân loại mối quan hệ kế thừa giữa văn bản và giả thuyết có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp văn bản giả thuyết Phân loại kế thừa 3 lớp bao gồm các nhãn : • Kế. .. Chương 3: Giới thiệu và trình bày một thuật toán phát hiện quan hệ kế thừa dựa trên từ vựng theo đề xuất của Valentin Jijkoun và cộng sự [20], khảo sát một số đặc trưng tiêu biểu của miền dữ liệu thực nghiệm tiếng Việt Em đề xuất một mô hình giải quyết bài toán phát hiện quan hệ kế thừa văn bản tiếng Việt dựa trên từ vựng kết hợp với tri thức miền từ điển đồng nghĩa tiếng Việt và giải pháp tinh chỉnh... chuyện, Nn dụ và thậm chí là giao tiếp người máy [18] 1.2 Khái niệm kế thừa văn bản Kế thừa văn bản bắt nguồn từ kế thừa trong logic học Kế thừa văn bản (TE) là mối quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một biểu diễn có thể suy luận được từ một biểu diễn khác của văn bản Nói một cách chính xác hơn, kế thừa văn bản có thể được hiểu là “một mối quan hệ giữa một văn bản nhất quán... tạo ra kết luận về mối quan hệ kế thừa trong văn bản tiếng Việt Sau đây khóa luận sẽ đi sâu vào phân tích hai hướng tiếp cận: dựa trên từ vựng và tri thức 2.2 Hướng tiếp cận dựa trên từ vựng Bài toán phát hiện kế thừa văn bản (RTE) đã được đưa ra lần đầu tiên vào năm 2005 Trong các hướng tiếp cận giải quyết bài toán như trên thì hướng tiếp cận dựa trên thuật ngữ (từ vựng) là hướng nghiên cứu phổ biến... dụng tập hợp cơ sở dữ liệu tri thức (knowledge base population: KBP) cho phát hiện kế thừa văn bản Cơ sở dữ liệu tri thức sẽ nâng cao kết quả cho bài toán phát hiện kế thừa văn bản Bài toán đặt ra là tập trung kế thừa dựa vào ngữ cảnh Trong đó, việc quyết định kế thừa dựa trên ngữ cảnh rộng hơn RTE-7 tập trung vào kế thừa văn bản trong hai thiết 1 http://www.nist.gov/tac/ http://www.pascal-network.org/Challenges/RTE2... hướng tiếp cận giải quyết bài toán dựa trên sự kết hợp giữa hai phương pháp dựa trên từ vựng và tri thức miền Chương 3 của khóa luận trình bày về hướng giải quyết và đề xuất mô hình hệ thống với tiếng Việt 18 Chương 3: Mô hình phát hiện kế thừa văn bản tiếng Việt 3.1 Cơ sở lý thuyết Như đã trình bày trong chương 2, việc phát hiện quan hệ kế thừa trong văn bản tiếng Việt là một bài toán mới, chưa nhận... những điểm khác so với bài toán RTE trên miền dữ liệu tiếng Anh Đặc trưng của tiếng Việt là sự nhập nhằng, đa nghĩa Bên cạnh đó, tiếng Việt còn có nhiều biến thể như: đồng âm khác nghĩa, từ đồng nghĩa, từ nhiều nghĩa, từ Hán Việt, từ địa phương, từ mượn Tiếng Việt có sự nhập nhằng ranh giới từ Do tiếng Việt là ngôn ngữ đơn lập nên từ vựng chủ yếu là các từ ghép vì thế khoảng trắng không phải luôn luôn là... giới từ tiếng Việt là rất quan trọng Hệ thống RTE tiếng Việt cần tách câu, tách từ thật chính xác Đặc trưng lớn nhất của tiếng Việt là vấn đề giải quyết nhập nhằng từ đồng nghĩa Từ đồng nghĩa là từ có nghĩa giống nhau, nhưng cấu tạo nên chữ đó có thể khác nhau Đồng nghĩa thực ra là hiện tượng có mức độ khác nhau, về sự sở hữu những nét cơ bản giống nhau về mặt nghĩa Trong tiếng Việt, chỉ những từ có nghĩa. .. quan hệ giữa hai văn bản trên là mối quan hệ kế thừa (Textual Entailment - TE) Hệ thống nhận dạng kế thừa văn bản (Recognizing Textual Entailment - RTE) đòi hỏi phải xác định được mối quan hệ kế thừa giữa hai văn bản được đưa ra, thường được khai báo như là văn bản (T) và giả thuyết (H) Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phát hiện kế thừa văn bản được xem như một modun xử lý ngữ nghĩa chung, phục... lượng từ đồng âm, đồng nghĩa trong tiếng Việt là rất lớn Vì vậy việc áp dụng thuật toán trên từ vựng trong nhiều trường hợp đã đưa ra phán quyết kế thừa không chính xác Do đó, trong quá trình xử lý dữ liệu, em đã tích hợp thêm những cơ sở dữ liệu tri thức như từ điển đồng nghĩa và giải pháp tinh chỉnh ngưỡng kế thừa Thực nghiệm cho thấy thu được kết quả khá tốt 3.1.1 Thuật toán độ tương đồng từ vựng . thực kết luận hay mối quan hệ giả thi t giữa hai bên. Hình 1: Tam giác dịch máy 7 Hình 2: Hình chữ nhật RTE Bên cạnh những điểm giống nhau thì MT và RTE có những điểm khác nhau như: •. Major: Information Technology Supervisor: Assoc. Prof. Ha Quang Thuy Co-Supervisor: Masters. Pham Quang Nhat Minh HA NOI – 2012 i LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời. thi u chung Trong cuộc sống thường nhật, con người sử dụng rất nhiều cách diễn đạt khác nhau đối với cùng một nội dung. Cơ sở để xác định các diễn đạt khác nhau cùng nói về một nội dung hay

Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan