Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt

69 343 0
Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Việt Cường, Thạc sĩ Trần Mai Vũ đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn các thầy, cô đã tạo điều kiện thuật lợi nhất cho tôi để tôi học tập và nghiên cứu tại trường Đại học Công nghệ. Tôi xin gửi lời cảm ơn tới các anh chị: CN. Vũ Tiến Thành, CN. Lê Hoàng Quỳnh, CN. Nguyễn Tiến Thanh, CN. Nguyễn Thanh Sơn, các bạn và các em sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn cũng như việc thu thập và xử lý dữ liệu để hoàn thành tốt khóa luận. Khóa luận “Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt” cũng đã nhận được sự hỗ trợ từ đề tài QG.10.38. Tôi cũng xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường. Tôi muốn gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Nguyễn Tiến Tùng ii Tóm tắt Trích rút quan hệ gần nghĩa (near-synonym) tiến hành việc trích rút các khái niệm được coi là “gần nhau” hoặc về mặt ngữ nghĩa hoặc dựa vào ngữ cảnh xung quanh chúng. Trích rút quan hệ gần nghĩa ứng dụng nhiều cho các bài toán như: xây dựng từ vựng, mở rộng truy vấn,… Theo Inkpen và cộng sự năm 2010 [6], W.Wang và cộng sự năm 2010 [30], trích rút quan hệ gần nghĩa là một nội dung nghiên cứu thời sự. Khóa luận tập trung nghiên cứu các phương pháp trích rút quan hệ gần nghĩa nhằm đề ra giải pháp phù hợp trong việc trích rút các động từ để mở rộng ngữ nghĩa truy vấn trong hệ thống hỏi đáp thực thể tên người tiếng Việt [29]. Chúng tôi lựa chọn giải pháp học bán giám sát dựa vào mẫu ngôn ngữ [30] để trích rút động từ gần nghĩa trong miền ngữ cảnh, ngữ nghĩa của các động từ từ CSDL câu của hệ thống và từ dữ liệu trên Internet. Thực nghiệm ban đầu trên CSDL câu và trên dữ liệu Web, với động từ đầu vào (“phát minh”), hệ thống cho ra các động từ gần nghĩa với động từ đầu vào (“Khám phá, sáng chế, phát hiện”), (trong đó, độ gần nghĩa của mỗi động từ được tính bằng tần suất xuất hiện của các động từ trong cùng một cụm). Kết quả này cho thấy giải pháp đề xuất của chúng tôi có tính khả thi. iii Lời cam đoan Tôi xin cam đoan giải pháp học bán giám sát dựa vào mẫu ngôn ngữ để trích rút động từ gần nghĩa dựa trên ngữ cảnh miền ứng dụng của hệ thống hỏi đáp thực thể tên người tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS.TS. Hà Quang Thụy và TS. Nguyễn Việt Cường. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Sinh viên Nguyễn Tiến Tùng iv Mục lục Lời cảm ơn i Tóm tắt ii Lời cam đoan iii Mục lục iv Danh sách các bảng vi Danh sách các hình vẽ vii Danh sách các chữ viết tắt viii Mở đầu 1 Chương 1: Khái quát về trích rút quan hệ gần nghĩa 3 1.1. Quan hệ gần nghĩa 3 1.1.1. Quan hệ ngữ nghĩa 3 1.1.2. Quan hệ gần nghĩa 4 1.2. Trích rút quan hệ gần nghĩa 6 Tóm tắt chương 1 8 Chương 2: Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa 9 2.1. Một số nghiên cứu liên quan trên thế giới 9 2.1.1. Phương pháp DIPRE 9 2.1.2. Phương pháp Snowball 9 2.1.3. Trích rút mẫu tự động sử dụng máy tìm kiếm 11 2.1.4. Phương pháp KnowItAll 11 2.1.5. Phương pháp TextRunner 12 2.2. Một số nghiên cứu liên quan trong nước 13 2.2.1. Phát hiện quan hệ ngữ nghĩa Nguyên nhân – Kết quả từ các văn bản 13 2.2.3. Mở rộng thực thể 13 2.2.2. Nghiên cứu thực nghiệm với hệ thống hỏi đáp tiếng Việt 14 Tóm tắt chương 2 15 Chương 3: Mô hình trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 16 v 3.1. Mô hình trích rút quan hệ gần nghĩa 16 3.2. Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 24 3.2.1. Hệ thống hỏi đáp thực thể tên người tiếng Việt 24 3.2.2. Mở rộng truy vấn 25 3.2.3. Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 26 Tóm tắt chương ba 27 Chương 4: Thực nghiệm và đánh giá 28 4.1. Môi trường và công cụ sử dụng cho thực nghiệm 28 4.2. Thực nghiệm và đánh giá trích rút quan hệ gần nghĩa 29 Kết luận 33 Phụ lục 34 Tài liệu tham khảo 35 vi Danh sách các bảng Bảng 1: Ví dụ về sự khác nhau giữa các từ gần nghĩa (biến thể của các từ gần nghĩa) 5 Bảng 2. Cấu hình phần cứng sử dụng trong thực nghiệm 28 Bảng 3: Các công cụ phần mềm sử dụng 28 Bảng 4: Ví dụ về trích câu và tách từ, gán nhãn 29 Bảng 5: Ví dụ về trích bộ <N/Np i , N/Np j > 30 Bảng 6. Bảng kết quả trên top 3 cụm chứa động từ đang xét 32 vii Danh sách các hình vẽ Hình 1: Mô hình Snowball 10 Hình 2 : Mô hình trích rút quan hệ gần nghĩa 17 Hình 3: Trích chọn tập câu chứa bộ <N/Np i , V, N/Np j > 18 Hình 4:Trích xuất tập câu đồng dạng với từng câu trong bước 1 19 Hình 5: Lựa chọn V mới 20 Hình 6: Phân cụm 21 viii Danh sách các chữ viết tắt Ký hiệu Diễn giải tiếng Anh Diễn giải tiếng Việt CTRW Choose the Right Word Chọn từ đúng PMI Pointwise Mutual Information Thông tin tương hỗ trên từng điểm HAC Hierarchical agglomerative clustering Phân cụm phân cấp từ dưới lên CRF Conditional Random Field Mô hình trường điều kiện ngẫu nhiên 1 Mở đầu Trích rút quan hệ ngữ nghĩa nói chung và trích rút quan hệ gần nghĩa nói riêng đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên. Quan hệ gần nghĩa (near- synonym) là mối quan hệ ngữ nghĩa giữa các khái niệm, về mặt ngữ nghĩa hoặc ngữ cảnh xung quanh khái niệm, gần nghĩa với nhau. Trích rút quan hệ gần nghĩa ứng dụng nhiều cho các bài toán như: xây dựng từ vựng [11]; mở rộng truy vấn cho hệ thống hỏi đáp [3, 21] - Mở rộng truy vấn là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm tạo ra các truy vấn mới tương đồng ngữ nghĩa, để từ đó giúp hệ thống có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn,… Trong dịch máy và các hệ thống sinh ngôn ngữ tự nhiên, nhu cầu trích rút các quan hệ gần nghĩa phải được làm một cách cNn thận [17]. Bài toán trích rút quan hệ gần nghĩa là rất khó khăn bởi vì những từ gần nghĩa có nghĩa rất gần nhau [11], do đó chúng cũng xuất hiện trong những ngữ cảnh tương tự, vì vậy chúng ta cần nắm bắt được sự khác biệt tinh tế, cụ thể của từng từ gần nghĩa. Mục tiêu của khóa luận này là khảo sát, nghiên cứu để đưa ra một phương pháp trích rút quan hệ gần nghĩa tối ưu hơn cho ngôn ngữ tiếng Việt. Để tiếp cận mục tiêu này, khóa luận nghiên cứu và giới thiệu một số phương pháp trích rút quan hệ gần nghĩa đang được quan tâm hiện nay. Từ đó, đưa ra một phương pháp phù hợp nhất để trích rút quan hệ gần nghĩa cho ngôn ngữ tiếng Việt, đó là sử dụng học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa. Bên cạnh đó, khóa luận cũng áp dụng phương pháp trích rút quan hệ gần nghĩa để giải quyết cho bài toán mà cũng đang nhận được sự quan tâm không kém – đó là mở rộng truy vấn cho hệ thống hỏi đáp, cụ thể là hệ thống hỏi đáp thực thể tên người cho tiếng Việt. Nội dung của khóa luận được chia thành các chương như sau: Chương 1: Chương này đề cập tới khái niệm quan hệ ngữ nghĩa nói chung, quan hệ gần nghĩa nói riêng, một số đặc trưng của quan hệ gần nghĩa, phân biệt đôi chút về gần nghĩa và đồng nghĩa, một số phương pháp trích rút quan hệ gần nghĩa. Chương 2: Đây là chương trình bày một số phương pháp trích rút quan hệ ngữ nghĩa sử dụng kỹ thuật bootstrapping. Đồng thời đưa ra phương pháp trích rút quan hệ gần nghĩa phù hợp đối với tiếng Việt. 2 Chương 3: Chương này trình bày mô hình trích rút quan hệ gần nghĩa và áp dụng trích rút quan hệ gần nghĩa để mở rộng truy vấn trong hệ thống hỏi đáp thực thể tên người cho tiếng Việt. Chương 4: Khóa luận trình bày một số thực nghiệm việc trích rút động từ gần nghĩa trong miền ngữ cảnh, ngữ nghĩa của các động từ từ CSDL câu của hệ thống hỏi đáp thực thể tên người cho tiếng Việt và từ dữ liệu trên Internet. Kết quả thực nghiệm, lựa chọn top 3 động từ trong mỗi cụm. Độ gần nghĩa của mỗi động từ được tính bằng tần suất xuất hiện của các động từ trong cụm. Phần kết luận và hướng phát triển khóa luận: Tóm lược những điểm chính của khóa luận. Chỉ ra những điểm cần khắc phục, đồng thời đưa ra hướng nghiên cứu trong thời gian tiếp theo. [...]... biến thể của từ gần nghĩa; Bài toán trích rút quan hệ gần nghĩa và một số phương pháp trích rút quan hệ gần nghĩa Trong chương tiếp theo, khóa luận nêu rõ một số phương pháp học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa và đưa ra phương pháp trích rút quan hệ gần nghĩa phù hợp với ngôn ngữ tiếng Việt 8 Chương 2: Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa. .. thời dựa vào điều kiện thực tế về ngôn ngữ tiếng Việt (phương pháp xử lý, tài nguyên ngôn ngữ học, kỹ thuật học máy), chúng tôi đề xuất mô hình học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa phù hợp với ngôn ngữ tiếng Việt được trình bày trong chương tiếp theo 15 Chương 3: Mô hình trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi áp thực thể tên người tiếng. .. phương pháp học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa, cùng một số kiến thức liên quan làm tiền đề cho việc đề xuất mô hình học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa 2.1 Một số nghiên cứu liên quan trên thế giới 2.1.1 Phương pháp DIPRE Năm 1998, Brin đề xuất phương pháp học bán giám sát cho việc trích rút mẫu quan hệ ngữ nghĩa [27] Phương pháp được... trích rút quan hệ gần nghĩa Để hiểu và giải quyết được bài toán trích rút quan hệ gần nghĩa, đòi hỏi chúng ta cần phải nắm vững được khái niệm quan hệ gần nghĩa, các đặc trưng của quan hệ gần nghĩa, … Vì thế, khóa luận trong chương này giới thiệu các vấn đề liên quan tới trích rút quan hệ gần nghĩa, làm tiền đề cho việc giải quyết bài toán 1.1 Quan hệ gần nghĩa 1.1.1 Quan hệ ngữ nghĩa Quan hệ ngữ nghĩa. .. một số quan hệ được định nghĩa thêm như chú giải (gloss), chủ đề và miền (domain) Trong khuôn khổ khóa luận này, chúng tôi đề xuất việc trích rút quan hệ gần nghĩa để mở rộng câu truy vấn trong hệ thống hỏi áp thực thể tên người cho tiếng Việt Từ một truy vấn ban đầu của người dùng, mở rộng truy vấn sẽ bổ sung vào đó một số từ, cụm từ hay thuật ngữ gần nghĩa và tạo ra dạng truy vấn mới có thể bao... tiết mô hình trích rút quan hệ gần nghĩa Đồng thời, áp dụng trích rút quan hệ gần nghĩa để mở rộng truy vấn cho hệ thống hỏi áp thực thể tên người tiếng Việt Trong chương tiếp theo, khóa luận sẽ tiến hành thực nghiệm dựa trên mô hình đã xây dựng 27 Chương 4: Thực nghiệm và đánh giá 4.1 Môi trường và công cụ sử dụng cho thực nghiệm • Cấu hình phần cứng Bảng 2 Cấu hình phần cứng sử dụng trong thực nghiệm... người tiếng Việt 3.1 Mô hình trích rút quan hệ gần nghĩa Qua quá trình khảo sát các phương pháp trích rút quan hệ ngữ nghĩa nói chung và các phương pháp liên quan đến trích rút quan hệ gần nghĩa nói riêng, đồng thời dựa trên điều kiện thực tế về kỹ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học cũng như các kỹ thuật học máy phục vụ cho quá trình xử lý ngôn ngữ tiếng Việt, thêm vào đó là việc khảo sát dữ... trái nghĩa và một số quan hệ khác Bài toán học mối quan hệ giữa các động từ có thể được coi là một dạng trong bài toán trích rút thông tin ( chẳng hạn như trích rút vị trí tên [22] và trích rút quan hệ thượng hạ vị [18]) Điều này có nghĩa rằng tồn tại hướng tiếp cận trích rút dựa vào mẫu ngôn ngữ và đã được áp dụng vào bài toán trích rút quan hệ đồng nghĩa và trái nghĩa của W.Wang và cộng sự, trong bài... ngữ nghĩa, cụ thể là mối quan hệ tương đương, để mở rộng thực thể Luật này sẽ được kết hợp với lần lượt các thực thể được cho trong tập mồi để xây dựng truy vấn đưa vào máy tìm kiếm, từ đó nhận được các thực thể mới để đưa vào tập thực thể “tiềm năng” Phương pháp này bao gồm 7 bước chính: 13 Tạo truy vấn: Dựa vào thực thể mồi và các mẫu Ví dụ tập thực thể mồi: {“nokia”, “samsung”, “sony”} và tập mẫu. .. liên quan tới người – Kho CSDL câu đã được chúng tôi tạo ra trong quá trình thực nghiệm mô hình hệ thống hỏi áp thực thể tên người tiếng Việt [2], chúng tôi nhận thấy rằng tồn tại nhiều câu được biểu diễn dưới dạng: Từ các kiến thức cơ sở về quan hệ gần nghĩa, các bài toán về trích rút quan hệ gần nghĩa, một số phương pháp về học bán giám sát dựa vào mẫu ngôn ngữ để trích . nhận được sự hỗ trợ từ đề tài QG.10.38. Tôi cũng xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường. Tôi muốn gửi

Ngày đăng: 20/08/2014, 09:48

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan