PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT

ĐẠI HỌC QUỐC GIA HÀ NỘI Figure TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: ThS Trần Thị Oanh Cán đồng hướng dẫn: ThS Nguyễn Cẩm Tú HÀ NỘI - 2009 Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Thị Oanh, Thạc sĩ Nguyễn Cẩm Tú Cử nhân Trần Mai Vũ – người tận tình bảo hướng dẫn trình thực khoá luận tốt nghiệp Tôi chân thành cảm ơn thầy, cô cán trường Đại Học Công Nghệ tạo cho điều kiện thuận lợi để học tập nghiên cứu Tôi xin gửi lời cảm ơn chân thành tới cử nhân Nguyễn Minh Tuấn tận tình hỗ trợ kiến thức chuyên môn, giúp đỡ hoàn thành khóa luận Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên phòng thí nghiệm Sislab giúp nhiều việc thu thập xử lý liệu Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, động viên suốt trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Đức Vinh i Tóm tắt Trong mười năm gần đây, hệ thống hỏi đáp tự động nhận quan tâm đặc biệt nhà nghiên cứu, công ty (Yahoo, Google, Microsoft, IBM…), hội nghị lớn trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) đạt kết định Tuy nhiên nghiên cứu hệ thống hỏi đáp cho tiếng Việt nhiều hạn chế Khóa luận Phân tích câu hỏi hệ thống hỏi đáp tiếng Việt tập trung vào khảo sát phương pháp áp dụng cho xây dựng hệ thống hỏi đáp giới, đặc biệt tập trung nghiên cứu pha phân tích câu hỏi – pha hệ thống hỏi đáp, có ý nghĩa đặc biệt quan trọng với hoạt động hệ thống Trên sở nghiên cứu điều kiện thực tế công cụ xử lý ngôn ngữ tiếng Việt, khóa luận tiến hành thực nghiệm việc phân tích câu hỏi tiếng Việt sử dụng phương pháp học máy thống kê trích rút mẫu quan hệ Các kết ban đầu đạt khả quan Bộ phân lớp câu hỏi cho hệ thống hỏi đáp miền mở đạt độ xác 81.49% sử dụng thuật toán SVM, 81.14 % với mô hình Entropy cực đại Module phân tích câu hỏi sử dụng mẫu quan hệ cho hệ thống hỏi đáp miền du lịch đạt độ xác 89.7 % ii Mục lục Tóm tắt i Mục lục iii Danh sách bảng v Danh sách hình vi Lời mở đầu Chương Giới thiệu hệ thống hỏi đáp tự động 1.1 Hệ thống hỏi đáp tự động 1.2 Phân loại hệ thống hỏi đáp tự động 1.2.1 Phân loại theo miền ứng dụng (domain) 1.2.2 Phân loại theo khả trả lời câu hỏi .6 1.2.3 Phân loại theo hướng tiếp cận: 1.3 Các bước chung hệ thống hỏi đáp tự động Chương Phân tích câu hỏi 10 2.1 Nội dung phân tích câu hỏi .10 2.2 Khó khăn phân tích câu hỏi .10 2.3 Một số nội dung xử lý ngôn ngữ tự nhiên phân tích câu hỏi 11 2.4 Taxonomy câu hỏi 14 2.4.1 Khái niệm taxonomy 14 2.4.2 Taxonomy câu hỏi 15 2.5 Khảo sát phương pháp phân tích câu hỏi cho loại câu hỏi khác 19 2.5.1 Câu hỏi đơn giản (factual-base) 19 2.5.2 Câu hỏi định nghĩa (definition question) 21 2.5.3 Câu hỏi phức tạp, có ràng buộc thời gian 22 iii Chương Các phương pháp xác định loại câu hỏi 24 3.1 Phương pháp phân lớp sử dụng học máy thống kê 24 3.1.2 Các thuật toán học máy thống kê cho việc phân lớp 28 3.1.3 Xây dựng phân lớp câu hỏi theo học máy thống kê 37 3.2 Phương pháp xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên .42 3.3 Phương pháp xác định loại câu hỏi sử dụng mẫu quan hệ 45 Chương Thực nghiệm phân tích câu hỏi tiếng Việt 47 4.1 Thực nghiệm với phân lớp câu hỏi sử dụng học máy thống kê .47 4.1.1 Dữ liệu công cụ cho thực nghiệm 47 4.1.2 Kết phân lớp sử dụng SVM MEM 49 4.2 Thực nghiệm với xác định loại câu hỏi sử dụng mẫu quan hệ 51 4.2.1 Mô hình thực nghiệm phân tích câu hỏi sử dụng mẫu quan hệ 51 4.2.2 Kết phân tích câu hỏi sử dụng mẫu quan hệ 55 Kết luận .58 Tài liệu tham khảo 60 iv Danh sách bảng Bảng Taxonomy câu hỏi Li Roth đưa 17 Bảng Biểu diễn TP, TN, FP, FN đánh giá phân lớp .27 Bảng Số lượng câu hỏi theo lớp cha 48 Bảng Kết phân lớp MEM sử dụng unigram 49 Bảng Kết phân lớp MEM sử dụng tách từ 49 Bảng Kết phân lớp SVM sử dụng đặc trưng khác .50 Bảng Danh sách từ hỏi .50 Bảng Tập seed tìm với mối quan hệ tương ứng 53 Bảng Tập quan hệ mẫu tương ứng 54 Bảng 10 Các quan hệ thực nghiệm hệ thống 55 Bảng 11 Các công cụ sử dụng 55 Bảng 12 Các thành phần hệ thống Q&A miền du lịch 56 Bảng 13 Kết phân tích câu hỏi hệ thống hỏi đáp miền du lịch 56 v Danh sách hình Hình Xu hướng nghiên cứu Q&A Hình Các bước chung hệ thống Q&A Hình Kiến trúc cho xử lý câu hỏi factual-base .19 Hình Mối quan hệ siêu phẳng phân cách 30 Hình Siêu phẳng tối ưu biên 31 Hình Biến nới lỏng cho soft margin .33 Hình Mô hình phân lớp đa cấp Li Roth 39 Hình Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 43 Hình Ánh xạ từ trọng tâm vào Wordnet .44 Hình 10 Mô hình Snowball .46 Hình 11 Mô hình hệ thống hỏi đáp tiếng Việt sử dụng trích xuất mẫu quan hệ .52 Hình 12 Mô hình xử lý cho pha phân tích câu hỏi trích xuất câu trả lời 53 vi Lời mở đầu Nghiên cứu hệ thống hỏi đáp tự động (Q&A) quan tâm từ lâu giới Ngay từ năm 1960, hệ thống hỏi đáp sử dụng sở liệu đời Đến năm 1970-1980, nhiều dự án lớn hướng đến việc “hiểu văn bản” xây dựng hệ thống hỏi đáp dựa mô hình ngôn ngữ thống kê Cuối năm 1990, World Wide Web đời phát triển nhanh chóng trở thành kho ngữ liệu khổng lồ Các nhà nghiên cứu hệ thống hỏi đáp bắt đầu khai thác web nguồn liệu cho việc tìm kiếm câu trả lời Các kĩ thuật đòi hỏi tốc độ cao, khả xử lý lượng liệu web lớn quan tâm Tuy nhiên nghiên cứu xây dựng hệ thống hỏi đáp cho tiếng Việt nhiều hạn chế Một lý thiếu công cụ xử lý tiếng Việt, tài nguyên ngôn ngữ học (Wordnet [28], ontology [30]…) Phân tích câu hỏi pha kiến trúc chung hệ thống hỏi đáp, có nhiệm vụ tìm thông tin cần thiết làm đầu vào cho trình xử lý pha sau (trích chọn tài liệu, trích xuất câu trả lời, …) Vì phân tích câu hỏi có vai trò quan trọng, ảnh hưởng trực tiếp đến hoạt động toàn hệ thống Nếu phân tích câu hỏi không tốt tìm câu trả lời Khóa luận Phân tích câu hỏi hệ thống hỏi đáp tiếng Việt thực khảo sát, nghiên cứu phương pháp xây dựng hệ thống hỏi đáp phân tích câu hỏi quan tâm nay, từ đưa phương pháp phân tích câu hỏi phù hợp (trên sở nguồn tài nguyên ngôn ngữ sẵn có) cho hệ thống hỏi đáp tiếng Việt Những nghiên cứu khóa luận coi tiền đề cho nghiên cứu để xây dựng hệ thống hỏi đáp hoàn thiện cho tiếng Việt Khóa luận trình bày thành bốn chương, nội dung trình bày sơ dây: Chương Giới thiệu hệ thống hỏi đáp tự động trình bày nội dụng hệ thống hỏi đáp đặt vấn đề cho phân tích câu hỏi Chương Phân tích câu hỏi trình bày cách tổng quan vấn đề xung quanh việc phân tích câu hỏi như: nội dung phân tích câu hỏi, khó khăn phân tích câu hỏi, nội dung xử lý ngôn ngữ tự nhiên phân tích câu hỏi, đồng thời khảo sát phương pháp phân tích câu hỏi cho số loại câu hỏi khác Trong chương tầm quan trọng xác định loại câu hỏi phân tích câu hỏi Chương Các phương pháp xác định loại câu hỏi trình bày ba phương pháp để xác định loại câu hỏi, phân tích chọn lựa hai phương pháp sử dụng cho phân tích câu hỏi tiếng Việt Chương Thực nghiệm phân tích câu hỏi tiếng Việt áp dụng nghiên cứu chương để phân tích câu hỏi hệ thống hỏi đáp tiếng Việt Phần kết luận tổng kết, tóm lược nội dung kết đạt khóa luận 4.1.2 Kết phân lớp sử dụng SVM MEM Do số lượng câu hỏi gán nhãn hạn chế nên ban đầu tiến hành thực nghiệm xây dựng phân lớp cho lớp cha 4.1.2.1 Với MEM Kết thu khả quan, đạt độ xác cao 81.14 % sử dụng đặc trưng bag-of-word có sử dụng tách từ Kết chi tiết cho lớp liệt kê Bảng Bảng Bảng Kết phân lớp MEM sử dụng unigram Class human model match Pre Rec F1 ENTY 112 104 71 68.27 63.39 65.74 DESC 127 133 107 80.45 84.25 82.31 ABBR 10 11 72.73 80.00 76.19 HUM 131 132 112 84.85 85.50 85.17 NUM 97 101 90 89.11 92.78 90.91 LOC 85 81 66 81.48 77.65 79.52 79.48 80.60 80.03 80.78 80.78 80.78 Avg.1 Avg.2 562 562 454 Bảng Kết phân lớp MEM sử dụng tách từ class human model match Pre Rec F1 ENTY 112 109 72 66.06 64.29 65.16 DESC 127 137 107 78.10 84.25 81.06 ABBR 10 87.50 70.00 77.78 HUM 131 116 104 89.66 79.39 84.21 NUM 97 104 92 88.46 94.85 91.54 LOC 85 88 74 84.09 87.06 85.55 82.31 79.97 81.12 81.14 81.14 81.14 Avg.1 Avg.2 562 562 456 49 4.1.2.2 Với SVM Thiết lập tham số: Sau thử nghiệm với nhiều giá trị khác nhau, đặt giá trị c = 10000 (c tham số trade off tỉ lệ sai liệu học kích thước biên phân lớp SVM).Kết tốt với SVM sử dụng đặc trưng unigram kết hợp từ để hỏi với độ xác 81.49% Kết chi tiết liệt kê Bảng Bảng Kết phân lớp SVM sử dụng đặc trưng khác Đặc trưng Độ xác Tỉ lệ lỗi Unigram 80.78% 108/562 = 19.22% Tách từ 79.72% 121/562 = 20.28% Unigram + từ hỏi 81.49% 104/562 = 18.51% Tách từ + từ hỏi 80.60% 109/562 = 19.40% Bảng Danh sách từ hỏi định nghĩa có cách cách chỗ nghĩ nơi đâu lúc đâu thấy lý nơi đâu nguyên nhân từ đâu đâu thời gian có phải bao người có nguyên nhân thật không lý phải không 50 Nhận xét: - Hai thuật toán SVM MEM có kết xấp xỉ phân lớp câu hỏi tiếng Việt Kết tốt với SVM 81.49% với MEM 81.14% - Đặc trưng từ để hỏi có tác dụng nâng cao độ xác phân lớp câu hỏi Khi áp dụng với SVM, đặc trưng từ để hỏi giúp tăng độ xác 0.71% 0.88% tương ứng kết hợp với đặc trưng unigram tách từ Độ tăng không lớn giải thích sau: Trong đặc trưng bag-of-unigram bag-of-word xét đến từ hỏi với vai trò giống với từ khác câu hỏi Việc xuất từ hỏi với tần suất lớn theo loại câu hỏi khác giúp SVM ngầm nhận diện từ từ quan trọng phân lớp - Ảnh hưởng tách từ phân lớp câu hỏi: Với MEM, tách từ giúp tăng độ xác phân lớp, với SVM đặc trưng tách từ lại không tốt việc dùng unigram Có thể giải thích sau: theo nguyên lý cực đại Entropy, mô hình tự tìm liệu (tập câu hỏi mẫu) ràng buộc đặc trưng riêng cho phân lớp Với SVM, liệu biểu diễn dạng điểm không gian đặc trưng, SVM cố gắng tìm siêu phẳng ngăn cách liệu lớp câu hỏi Việc tách từ ảnh hưởng tích cực với việc tìm ràng buộc mô hình MEM, lại ảnh hưởng tiêu cực đến phân bố liệu không gian, dẫn đến siêu phẳng phân cách lớp không tốt siêu phẳng tìm dùng unigram 4.2 Thực nghiệm với xác định loại câu hỏi sử dụng mẫu quan hệ 4.2.1 Mô hình thực nghiệm phân tích câu hỏi sử dụng mẫu quan hệ Trong [6], xây dựng hệ thống hỏi đáp dựa việc trích rút mẫu quan hệ ngữ nghĩa, áp dụng cho lĩnh vực du lịch Mục tiêu hệ thống trả lời câu hỏi dạng đơn giản, liên quan đến quan hệ ngữ nghĩa hai ngôi, ví dụ “Hội lim tổ chức đâu?” (quan hệ LỄ HỘI – tổ chức - ĐỊA ĐIỂM), “Hà tây có chùa ?” (quan hệ CHÙA- - ĐỊA ĐIỂM),… Dựa vào việc khảo sát liệu thực tế, liệt kê 85 mối quan hệ quan tâm nhiều ngành du lịch, ví dụ: lễ hội – địa điểm, bãi biển – địa điểm, đặc sản – địa điểm, núi – chiều cao,… Bước đầu tiến hành thực nghiệm 10 mối quan hệ Mô hình hệ thống mô tả hình 11 51 Câu hỏi Phân tích câu hỏi trích xuất câu trả lời Câu trả lời Data Trích xuất mẫu tổng quát seed Hình 11 Mô hình hệ thống hỏi đáp tiếng Việt sử dụng trích xuất mẫu quan hệ Hệ thống gồm hai pha chính: Trích rút mẫu tổng quát sinh seed mới: Pha tiến hành offline, mục đích tạo sở liệu mẫu seed phục vụ cho pha phân tích câu hỏi trích xuất câu trả lời sau Phương pháp sử dụng Snowball kết hợp với việc sử dụng máy tìm kiếm Google để khai thác thông tin sẵn có Internet (xem chi tiết [6]) Pha phân tích câu hỏi trích xuất câu trả lời (Hình 12): Pha sử dụng sở liệu mẫu seed sinh pha trước để phân tích câu hỏi trích xuất câu trả lời Bước phân tích câu hỏi có nhiệm vụ xác định tên thực thể quan hệ mà câu hỏi hướng tới Bước trích xuất câu trả lời đơn giản truy vấn sở liệu (dựa đầu bước phân tích câu hỏi) 52 Cơ sở liệu mẫu seed Câu hỏi Phân tích câu hỏi Tên thực thể quan hệ Trích rút câu trả lời Câu trả lời Hình 12 Mô hình xử lý cho pha phân tích câu hỏi trích xuất câu trả lời Pha phân tích câu hỏi bao gồm bước sau đây: Ví dụ với câu hỏi: Nam Định có bãi biển gì? Bước 1: Nhận dạng thực thể câu hỏi dựa sở liệu Sử dụng phương pháp so khớp tất chuỗi câu hỏi với thành phần tập seed (tập liệu quan hệ) để tìm tập S seed có chứa thực thể câu hỏi Dựa vào seed này, xác định tập R quan hệ tương ứng tập P mẫu trả lời tiềm Ví dụ với câu hỏi trên, thực thể nhận dạng Nam Định với nhãn TỈNHTHANH PHỐ Từ hệ thống xác định tập seed S có chứa thành phần Nam Định (Bảng 8) Bảng Tập seed tìm với mối quan hệ tương ứng Mối quan hệ Thành phần thứ seed Thành phần thứ hai seed Bãi biển – Địa điểm Quất Lâm Nam Định Bãi biển – Địa điểm Hải Thịnh Nam Định Lễ hội – Địa điểm Hội phủ giầy Nam Định 53 Tập mối quan hệ {Bãi biển-Địa điểm, Lễ hội-Địa điểm} (Bảng 9) Bảng Tập quan hệ mẫu tương ứng Mối quan hệ Mẫu tổng quát Bãi biển – Địa điểm bãi_biển thuộc Bãi biển – Địa điểm có bãi_biển Bãi biển – Địa điểm … Lễ hội – Địa điểm khai_mạc Lễ hội – Địa điểm Hằng năm tổ_chức lễ_hội Lễ hội – Địa điểm … … … Bước 2: Biểu diễn câu hỏi (đã loại bỏ từ dừng tách từ công cụ JVnTextPro) dạng vector từ có trọng số Vector câu hỏi có dạng: Bước 3: Tính độ tương đồng vector câu hỏi với mẫu tiềm P sử dụng độ đo Cosin Chọn mẫu p có độ tương đồng Simp cao với câu hỏi Hệ thống sử dụng ngưỡng µ- độ tương đồng thấp câu hỏi mẫu Nếu Simp < µ hệ thống không đưa câu trả lời (do độ tin cậy thấp) Nếu Simp > µ quan hệ r mà mẫu p thuộc vào quan hệ mà câu hỏi hướng tới Độ đo cosin hai vector s1và s2 là: Ss = s1 s2 || s1 || || s2 || Trong ví dụ mẫu có độ tương đồng cao với vector câu hỏi là: có bãi_biển Như vậy, qua ba bước trên, pha phân tích câu hỏi tìm tên thực thể TỈNH-THÀNH PHỐ Nam Định mối quan hệ Lễ hội-Địa điểm Từ hai thông tin biết câu hỏi hỏi Lễ hội Việc lại pha trích xuất câu trả lời truy vấn sở liệu để đưa Lễ hội Nam Định 54 4.2.2 Kết phân tích câu hỏi sử dụng mẫu quan hệ Tập liệu test: Chúng xây dựng câu hỏi gồm 1000 câu hỏi đơn giản liên quan đến 10 mối quan hệ chọn (Bảng 10) Bảng 10 Các quan hệ thực nghiệm hệ thống Lễ hội-địa điểm Nhà hàng – địa điểm Bãi biển – địa điểm Khách sạn – địa điểm Chùa chiền – địa điểm Siêu thị - địa điểm Sông – địa điểm Công viên – địa điểm Quán cafe – địa điểm Chợ - địa điểm Công cụ phần mềm (Bảng 11): Bảng 11 Các công cụ sử dụng Java SE JDK http://java.sun.com/ eclipse-SDK-3.4.1-win32 http://www.eclipse.org/downloads/ MySql 5.0 http://www.mysql.com/ JvnTextPro [37] 55 Các thành phần hệ thống (Bảng 12): Bảng 12 Các thành phần hệ thống Q&A miền du lịch Tên package, class Chức package vqa.Datalayer.dao Kết nối với sở liệu MySql package vqa.Datalayer.data Cài đặt lớp RefinedPattern, RoughPattern, Seed,… thành phần việc trích rút mẫu seed package vqa.util Các hàm tiện ích package vqa SearchEngineIE Thu thập liệu cho việc tạo mẫu seed thông qua Google package vqa CharsetDetector Phát sửa lỗi font chữ tài liệu lấy từ Google class PatternGenerator SeedGenerator Thực trình sinh mẫu seed class QuestionProcessor Phân tích câu hỏi đưa câu trả lời Lựa chọn ngưỡng µ-độ tương đồng thấp nhất: Hệ thống sử dụng ngưỡng µ độ tương đồng thấp câu hỏi mẫu Hệ thống đưa câu trả lời độ tương đồng câu hỏi mẫu vượt qua ngưỡng µ Khi lựa chọn giá trị µ cần cân nhắc đến cân khả trả lời câu hỏi xác khả trả lời nhiều câu hỏi Nếu µ lớn, độ tương đồng câu hỏi mẫu cao độ xác tăng, số lượng câu trả hỏi trả lời giảm Bảng 13 thể độ tương quan độ xác khả trả lời phụ thuộc vào ngưỡng µ Bảng 13 Kết phân tích câu hỏi hệ thống hỏi đáp miền du lịch µ Độ xác Khả đưa câu trả lời 0.4 85.5% 95,3% 0.5 89,7 % 91,4% 0.6 92,6% 80,3% 56 Kết đạt tốt chọn µ = 0.5, độ xác 89.7% khả trả lời 91,4% Nhận xét: Một hệ thống hỏi đáp tốt hệ thống có khả đưa câu trả lời xác trả lời nhiều câu hỏi Theo thực nghiệm nhận thấy, độ xác (số lượng câu trả lời số câu trả lời hệ thống đưa ra) khả đưa câu trả lời (số lượng câu trả lời tổng số câu hỏi đưa vào) hệ thống có quan hệ tỉ lệ nghịch với Chúng chọn giá trị µ = 0.5 để đảm bảo độ cân tính chất hệ thống Hệ thống hoạt động tốt với câu hỏi đơn giản hỏi quan hệ ngữ nghĩa hai xung quanh quan hệ quan tâm, đưa câu trả lời có độ tin cậy cao Việc học mẫu tốt, xác, thể đặc trưng quan hệ quan trọng, ảnh hưởng lớn đến độ xác hệ thống Chúng đánh giá hệ thống có khả mở rộng dễ dàng Chỉ cần làm tay số seed ban đầu cho quan hệ quan tâm hệ thống tự học mẫu để trả lời cho câu hỏi liên quan Tuy nhiên hạn chế hệ thống trả lời câu hỏi liên quan đến quan hệ có hệ thống Để đáp ứng nhu cầu thực người dùng, hệ thống cần phải mở rộng thêm nhiều quan hệ khác 57 Kết luận Hệ thống hỏi đáp tự động nhận quan tâm đặc biệt nhà nghiên cứu doanh nghiệp ngành công nghệ thông tin Nhu cầu hệ thống hỏi đáp tiếng Việt lớn Phân tích câu hỏi có vai trò đặc biệt quan trọng hệ thống hỏi đáp tự động Khóa luận khảo sát phương pháp phân tích câu hỏi quan tâm, phân tích tìm phương pháp phù hợp cho phân tích câu hỏi tiếng Việt Khóa luận đạt kết sau: • Trình bày cách khái quát hệ thống hỏi đáp tự động nêu lên ý nghĩa, vai trò pha phân tích câu hỏi hệ thống hỏi đáp • Khảo sát, nghiên cứu vấn đề xung quanh việc phân tích câu hỏi trình bày phương pháp quan tâm phân tích câu hỏi Khóa luận việc phân lớp câu hỏi theo loại ngữ nghĩa câu trả lời đặc biệt quan trọng với hệ thống hỏi đáp tự động • Xây dựng phân lớp câu hỏi cho hệ thống hỏi đáp tiếng Việt miền mở sử dụng hai thuật toán SVM MEM đạt độ xác cao • Xây dựng module phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt miền du lịch dựa vào trích rút mẫu quan hệ Bên cạnh đó, khóa luận số hạn chế: • Khóa luận mong muốn xây dựng phân lớp hai cấp với lớp cha 50 lớp con, nhiên số lượng câu hỏi gán nhãn nên phân lớp cho lớp cha Độ xác phân lớp chưa thực cao • Hệ thống hỏi đáp tiếng Việt cho miền du lịch hạn chế số lượng quan hệ Các hướng nghiên cứu phát triển là: Với phần phân tích câu hỏi cho hệ thống hỏi đáp miền mở • Thu thập gán nhãn thêm liệu câu hỏi Mỗi lớp câu hỏi cần trung bình 100 câu hỏi mẫu, để tiến hành phân lớp cho 50 lớp khóa luận cần tiếp tục thu thập liệu (cần khoảng 5000 câu hỏi) 58 • Đưa thêm đặc trưng ngữ nghĩa nhằm nâng cao độ xác cho phân lớp câu hỏi • Tiến hành thực nghiệm với nhiều thuật toán học khác để tìm thuật toán phù hợp với phân lớp câu hỏi tiếng Việt Có thể áp dụng phương pháp học bán giám sát để tận dụng nguồn câu hỏi chưa gán nhãn • Thực nghiệm phần tạo truy vấn mở rộng cho hệ thống trích chọn thông tin Với phần phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt cho miền du lịch • Tiến hành sinh mẫu seed cho nhiều quan hệ khác tích hợp vào hệ thống để đánh giá độ xác phân tích câu hỏi số quan hệ tăng lên Đồng thời hoàn thiện hệ thống để đáp ứng nhu cầu thực tế người dùng 59 Tài liệu tham khảo Tài liệu tiếng Việt [1] Hồ Tú Bảo, Lương Chi Mai Về xử lý tiếng Việt công nghệ thông tin Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Tiên tiến Nhật [2] Nguyễn Thị Hương Thảo Phân lớp phân cấp Taxonomy văn Web ứng dụng Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2006 [3] Hà Quang Thụy & nhóm khai phá liệu ứng dụng Bài giảng khai phá liệu 2007 [4] Nguyễn Minh Tuấn Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt lĩnh vực y tế Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2008 [5] Nguyễn Cẩm Tú Máy Vector Hỗ trợ (SVMs) Phương pháp Nhân.2007 [6] Phạm Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái Hệ thống hỏi đáp tự động sử dụng trích rút quan hệ ngữ nghĩa kho văn tiếng Việt Nghiên cứu khoa học sinh viên cấp trường Đại học Công Nghệ, 2009 Tài liệu tiếng Anh [7] Eugene Agichtein, Luis Gravano Snowball: Extracting Relations from Large Plain-Text Collections In Proceedings of the Fifth ACM International Conference on Digital Libraries, 2000 [8] Michele Banko, Eric Brill, Susan Dumais, Jimmy Lin AskMSR: Question Answering Using the Worldwide Web Microsoft Research In Preceedings of 2002 AAAI Spring Symposium on Mining Answers from Texts and Knowledge bases, Palo Alto, California, March 2002 [9] Matthew W Bilotti, Boris Katz, and Jimmy Lin What Works Better for Question Answering: Stemming or Morphological Query Expansion? ACM SIGIR'04 Workshop Information Retrieval for QA, (Jul 2004) [10] John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano, 60 George Miller, Dan Moldovan , Bill Ogden, John Prager, Ellen Riloff, Amit Singhal, Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A) 2002 [11] Sergey Brin (Computer Science Department, Stanford University) Extracting Patterns and Relations from the World Wide Web In WebDB Workshop at 6th International Conference on Extending Database Technology, EDBT’98, 1998 [12] Eric Brill, Jimmy Lin, Michele Banko, Susan Dumais and Andrew Ng (Microsoft Research One Microsoft Way Redmond) Data-Intensive Question Answering In Proceedings of the Tenth Text REtrieval Conference (TREC 2001), 2001 [13] Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John Prange and Karen Sparck-Jones Vision Statement to Guide Research in Question & Answering (Q&A) and Text Summarization Final version 2000 [14] Kadri Hacioglu, Wayne Ward 2003 Question Classification with Support Vector Machines and Error Correcting Codes The Association for Computational Linguistics on Human Language Technology, vol 2, tr.28–30 [15] Sanda M Harabagiu, Marius A Paşca, Steven J Maiorano Experiments with open-domain textual Question Answering International Conference On Computational Linguistics Proceedings of the 18th conference on Computational linguistics - Volume 1, 2000, tr 292 - 298 [16] Phan Xuan Hieu JTextPro: A Java-based Text Processing Toolkit jtextpro.sourceforge.net/ [17] Wesley Hildebr, Boris Katz, Jimmy Lin Answering Definition Questions Using Web Knowledge Bases Book: Natural Language Processing – IJCNLP, 2005 [18] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y The Use of External Knowledge in Factoid QA Paper presented at the Tenth Text REtrieval Conference (TREC 10), Gaithersburg, MD, 2001, November 13-16 [19] Eduard Hovy, Ulf Hermjakob, and DeepakRavichandran A Question/Answer Typology with Surface Text Patterns In Proceedings of the second international conference on Human Language Technology Research 2002 61 [20] Zhiheng Huang, Marcus Thint, Zengchang Qin Question Classification using Head Words and their Hypernyms ACL 2008 [21] Thorsten Joachims Text Categorization with Support Vector Machines: Learning with Many Relevant Features Proceedings of ECML-98, the 10th European Conference on Machine Learning, 1998, tr 137-142 [22] Thorsten Joachims Learning to Classify Text using Support Vector Machines Kluwer 2002 [23] Thorsten Joachims SVM multiclass Multi-Class Support Vector Machine Cornell University Department of Computer Science [24] Vijay Krishnan and Sujatha Das and Soumen Chakrabarti Enhanced Answer Type Inference from Questions using Sequential Models The conference on Human Language Technology and Empirical Methods in Natural Language Processing, 2005 [25] Xin Li, Dan Roth Learning Question Classifiers COLING'02, Aug, 2002 [26] Xin Li, Dan Roth Learning question classifiers: the role of semantic information Natural Language Engineering, Volume 12 , Issue , September 2006, tr 229 – 249 [27] Bernardo Magnini Open Domain Question Answering: Techniques, Resources and Systems RANLP 2005 [28] George A Miller, Richard Beckwith, Christiane Fellbaum,Derek Gross, and Katherine Miller Introduction to WordNet: An On-line Lexical Database 1998 [29] Dan Moldovan, Sanda Harabagiu, Marius Pasca, Rada Mihalcea, Richard Goodrum, Roxana Girju and Vasile Rus The Structure and Performance of an OpenDomain Question Answering System In Proceedings of the 38th Annual Meeting of the Association for Comoutational Linguistics (ACL-2000), 2000 [30] N.F Noy and McGuinness, D.L Ontology Development 101: A Guide to Creating Your First Ontology SMI Technical report SMI-2001-0880 , Stanford University, 2001 [31] Robinson, W P., Rackstraw, S J A Question of Answers (Vol I) Boston: Routledge & Kegan Paul 1972 62 [32] Robinson, W P., Rackstraw, S J A Question of Answers (Vol II) Boston: Routledge & Kegan Paul, 1972 [33] E Saquete, P Martınez-Barco, R Mu˜noz, J.L Vicedo Splitting Complex Temporal Questions for Question Answering Systems ACL 2004 [34] Luís Sarmento, Jorge Filipe Teixeira, Eugénio Oliveira Experiments with Query Expansion in the RAPOSA (FOX) Question Answering System In The CrossLanguage Evaluation Forum (CLEF), 2008 [35] Mihai Surdeanu Question Answering Techniques and Systems TALP Research Center Dep Llenguatges i Sistemes Informàtics Universitat Politècnica de Catalunya [36] Nguyen Tri Thanh Study on Acquiring and Using Linguistic Semantic Information for Search System Doctor thesis, Japan Advanced Institute of Science anf Technology, 2008 [37] Nguyen Cam Tu JVnTextpro: A Java-based Vietnamese Text Processing Toolkit SISLab Software Utility College of Technology, Vietnam National University, Hanoi [38] Ellen M Voorhees The TREC-8 Question Answering Track Report Paper presented at the Eighth Text REtrieval Conference (TREC 8) Gaithersburg, MD, 1999 November 16-19 http://trec.nist.gov/pubs/trec8/papers/qa_report.pdf [39] Hui Yang and Tat-Seng Chua.The Integration of Lexical Knowledge and External Resources for Question Answering School of Computing, National University of Singapore [40] Liu Yi, Zheng Y F One-against-all multi-Class SVM classification using reliability measures Proceedings of the 2005 International Joint Conference on Neural Networks Montreal,Canada, 2005 [41] Dell Zhang, Wee Sun Lee Question Classification using Support Vector Machines The ACM SIGIR conference in informaion retrieval, 2003, tr 26–32 63

PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan