Thông tin tài liệu
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
KẾT QUẢ TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
KẾT QUẢ TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
HÀ NỘI - 2010
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ và Cử nhân Lê Hoàng Quỳnh – những
người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt
nghiệp.
Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã
tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí
nghiệm Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Nguyễn Thanh Sơn
Tóm tắt
Nhờ khả năng hỗ trợ người dùng trong việc khai thác các tài nguyên trên Internet
một cách hiệu quả và dễ dàng, hệ thống hỏi đáp nói chung đã được quan tâm nghiên
cứu từ khá lâu, tuy nhiên các dạng hệ thống hỏi đáp đặc biệt, trong đó có hệ thống hỏi
đáp danh sách vẫn còn đang ở bước đầu phát triển. Hệ thống hỏi đáp danh sách là hệ
thống hỏi đáp, nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả
lời dưới dạng một danh sách. Tại Việt Nam, các nghiên cứu về hệ thống hỏi đáp nói
chung, cũng như về hệ thống hỏi đáp danh sách nói riêng tập trung cho miền dữ liệu
tiếng Việt còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu
các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học, …
Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt tập trung nghiên cứu các phương pháp xây dựng hệ thống hỏi
đáp danh sách đã được áp dụng trên thế giới cũng như một số phương pháp nâng cao
chất lượng kết quả trả lời cho dạng hệ thống hỏi đáp này. Trên cơ sở các nghiên cứu
nói trên, kết hợp với việc khảo sát điều kiện thực tế của các công cụ xử lý ngôn ngữ
tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng kết quả trả lời cho hệ thống
hỏi đáp danh sách tiếng Việt sử dụng luật Wrapper và luật ngữ nghĩa. Thực nghiệm
mô hình cho kết quả khá khả quan, đạt độ chính xác cho câu trả lời chứa 5 kết quả là
93.87% so với độ chính xác 82.11% của pha hỏi đáp danh sách, đồng thời hứa hẹn
nhiều tiềm năng nghiên cứu mới.
Mục lục
Lời mở đầu 1
Chương 1. Giới thiệu hệ thống hỏi đáp danh sách 3
1.1. Hệ thống hỏi đáp 3
1.1.1. Giới thiệu chung 3
1.1.2. Một số vấn đề cần quan tâm 4
1.1.3. Các bước xử lý chung 5
1.1.4. Tiêu chuẩn đánh giá 6
1.1.5. Phân loại 7
1.2. Hệ thống hỏi đáp danh sách 10
1.2.1. Giới thiệu 10
1.2.2. Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách 10
1.2.3. Những vấn đề cần giải quyết khi xây dựng hệ hỏi đáp danh sách 11
Chương 2. Các nghiên cứu liên quan 13
2.1. Một số hệ thống hỏi đáp danh sách điển hình 13
2.1.1. Hệ thống hỏi đáp danh sách FADA 16
2.1.2. Hệ thống hỏi đáp Ephyra 20
2.2. Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách 23
Chương 3: Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh
sách tiếng Việt 28
3.1. Mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng
Việt 28
3.2. Pha 1: Hỏi đáp danh sách tiếng Việt 29
3.2.1. Tìm kiếm câu trả lời dựa vào các mẫu quan hệ thượng hạ danh 29
3.2.2. Mô hình pha 1: Hệ thống hỏi đáp danh sách 30
3.3. Pha 2: Mở rộng thực thể 32
3.3.1. Xây dựng các luật Wrapper 33
3.3.2. Các phương pháp xếp hạng được sử dụng 35
3.3.3. Mô hình pha 2: mở rộng thực thể 35
Chương 4. Thực nghiệm và đánh giá 39
4.1. Thực nghiệm pha hỏi đáp danh sách 39
4.1.1. Dữ liệu thực nghiệm 39
4.1.2. Kết quả thực nghiệm 40
4.2. Thực nghiệm đánh giá kết quả mô hình nâng cao chất lượng câu trả lời cho hệ
thống hỏi đáp danh sách tiếng việt 42
Kết luận 47
Phụ lục 49
Tài liệu tham khảo 51
Danh sách các bảng
Bảng 1. 5 kết quả cao nhất tại TREC-12 (Voorhees, 2003) 13
Bảng 2. Các lớp trang web 17
Bảng 3. Hiệu suất của tập kiểm thử trong TREC-12 20
Bảng 4. Cây kế thừa thực thể tên và các mẫu loại 22
Bảng 5. Kết quả thực thi SEAL với các thuật toán đánh giá và số lượng tập mồi khác
nhau 25
Bảng 6. Ví dụ các truy vấn và chất lượng văn bản thu thập tương ứng 26
Bảng 7. Độ chính xác trung bình của Ephyra 27
Bảng 8. Độ đo trung bình F
1
của Ephyra 27
Bảng 9. Một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt. 30
Bảng 10. Ví dụ về câu hỏi danh sách và từ khóa tương ứng 39
Bảng 11. Kết quả thực nghiệm pha hỏi đáp danh sách tiếng Việt 40
Bảng 12. Kết quả thực nghiệm mô hình nâng cao sử dụng 2 thực thể mồi 42
Bảng 13. Kết quả thực nghiệm mô hình nâng cao sử dụng 3 thực thể mồi 43
Bảng 14. Kết quả thực nghiệm mô hình nâng cao – 4 kết quả đầu vào 44
Danh sách các hình
Hình 1. Các bước chung của hệ thống hỏi đáp 5
Hình 2. Xu hướng trong nghiên cứu về hệ thống hỏi đáp 8
Hình 3. Ví dụ về một Snippet trả về từ máy tìm kiếm 22
Hình 4. Mô hình thực nghiệm nâng cao chất lượng kết quả trả lời trong 28
Hình 5. Ví dụ về quan hệ thượng hạ danh. 29
Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Việt 30
Hình 7. Ví dụ cấu trúc web 33
Hình 8.Ví dụ văn bản bán cấu trúc 34
Hình 9. Mô hình pha 2 - Mở rộng thực thể 36
Danh sách các biểu đồ
Biểu đồ 1. Kết quả của mỗi loại câu hỏi trong tập dữ liệu kiểm thử - TREC, 2007 15
Biểu đồ 2. Số lượng từ khóa được đáp ứng với số lượng khác nhau của tập kết quả 40
Biểu đồ 3. Độ chính xác của các kết quả trong thực nghiệm pha hỏi đáp danh sách
tiếng Việt 41
Biểu đồ 4. So sánh độ chính xác câu trả lời 44
Biểu đồ 5.Khả năng đáp ứng từ khóa của hệ thống trong các trường hợp 45
1
Lời mở đầu
Internet ngày nay, một mặt đã trở thành kho tài nguyên thông tin khổng lồ và
phong phú, nhưng mặt khác, việc thông tin được tổ chức dưới dạng không cấu trúc
hoặc bán cấu trúc cũng khiến cho việc nắm bắt thông tin trở nên khó khăn. Máy tìm
kiếm đã hỗ trợ khá đắc lực cho người dùng, tuy nhiên, để có thông tin mong muốn,
người dùng phải tự tìm trong các trang web mà máy tìm kiếm trả về. Đây là một công
việc tốn rất nhiều thời gian và công sức bởi số lượng các trang web được trả về bởi
máy tìm kiếm thường là rất lớn. Chính vì vậy hệ thống hỏi đáp đã ra đời, nhằm mục
đích tìm kiếm câu trả lời ngắn gọn và chính xác nhất cho người dùng thay vì trả về các
văn bản. Các câu hỏi của người dùng thường rất đa dạng và yêu cầu các loại câu trả lời
cũng khác nhau. Một trong những hướng nghiên cứu mới và đang được chú ý hiện nay
chính là về hệ thống hỏi đáp danh sách.
Thay vì chỉ có một kết quả trong câu trả lời, hệ thống hỏi đáp danh sách thường
phải trả về câu trả lời là một danh sách các kết quả. Đây chính là đặc điểm khác biệt
nhất giữa hệ thống hỏi đáp danh sách và các hệ thống hỏi đáp khác. Trả về câu trả lời
chứa đầy đủ và chính xác các kết quả chính là một trong những mục tiêu được chú
trọng nhất được hướng đến khi xây dựng hệ thống hỏi đáp danh sách. Tuy nhiên, đó
cũng chính thách thức lớn nhất mà các nhà nghiên cứu gặp phải.
Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt thực hiện việc khảo sát, nghiên cứu một số phương pháp đã
được sử dụng trong một số hệ thống hỏi đáp danh sách, cũng như tìm hiểu một vài
nghiên cứu về việc nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách, từ đó
đưa ra phương pháp phù hợp để giải quyết bài toán này cho miền dữ liệu tiếng Việt.
Khóa luận đề xuất một mô hình giải quyết bài toán gồm 2 pha chính:
(1) Pha hỏi đáp danh sách, tìm câu trả lời dựa vào các luật thượng hạ danh
(hyponym).
(2) Pha nâng cao chất lượng cho câu trả lời của pha hỏi đáp danh sách dựa vào
các phương pháp mở rộng thực thể.
Nội dung của khóa luận bao gồm các chương sau:
Chương 1. Giới thiệu hệ thống hỏi đáp danh sách. Chương 1 trình bày những
nội dung cơ bản về hệ thống hỏi đáp nói chung và hệ thống hỏi đáp danh sách nói
riêng.
Chương 2. Các nghiên cứu liên quan. Chương 2 điểm qua một số các nghiên
cứu liên quan trên thế giới cũng như tại Việt Nam về hệ thống hỏi đáp nói chung, cũng
[...]... đáp danh sách thuộc loại này Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời trong hệ hỏi đáp danh sách tiếng Việt tập trung vào phương pháp để nâng cao chất lượng cho hệ hỏi đáp danh sách Phần tiếp theo sẽ giới thiệu chi tiết hơn về hệ thống hỏi đáp danh sách 9 1.2 Hệ thống hỏi đáp danh sách 1.2.1 Giới thiệu Khái niệm: Hệ thống hỏi đáp danh sách là hệ thống hỏi đáp, nhận đầu vào là câu hỏi. .. tại Việt Nam về thống hỏi đáp danh sách, các phương pháp được áp dụng trong hai hệ thống hỏi đáp danh sách tiêu biểu là hệ thống hỏi đáp danh sách FADA và hệ thống hỏi đáp Ephyra Đồng thời giới thiệu về nghiên cứu liên quan đến việc nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách Phần tiếp theo, khóa luận trình bày mô hình nâng cao chất lượng kết quả câu trả lời cho hệ thống hỏi đáp danh. .. trong hệ thống hỏi đáp danh sách Cụ thể là các phương pháp được áp dụng để xây dựng hệ thống hỏi đáp danh sách FADA và hệ thống hỏi đáp Ephyra 15 2.1.1 Hệ thống hỏi đáp danh sách FADA Hệ thống hỏi đáp danh sách FADA (Find All Distinct Answers) là một trong những hệ thống hỏi đáp danh sách tiêu biểu sử dụng nguồn dữ liệu web để trích chọn ra các câu trả lời FADA hướng đến mục tiêu tìm kiếm câu trả lời. .. nội dung cơ bản về hệ thống hỏi đáp và giới thiệu về hệ thống hỏi đáp danh sách Sang chương 2, khóa luận trình bày về các nghiên cứu liên quan trên thế giới cũng như tại Việt Nam về hệ thống hỏi đáp danh sách, một số phương pháp tiêu biểu áp dụng cho hệ thống hỏi đáp danh sách và giới thiệu về nghiên cứu liên quan đến bài toán nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách 12 Chương 2... chính vì thế việc kết hợp các kĩ thuật giúp cho việc xây dựng một hệ thống bao quát rộng và hiệu quả 2.2 Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách Một trong những mục tiêu khi xây dựng hệ thống hỏi đáp danh sách đó chính là khả năng trả về cho người dùng câu trả lời đầy đủ Tuy nhiên với các phương pháp hiện nay, hầu hết chỉ trả về được danh sách chứa một số ít kết quả trả lời Chính vì thế... Chương 3 Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng Việt Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ thống hỏi đáp danh sách tiếng Việt mà khoá luận đề xuất Mô hình này gồm 2 pha chính là pha hỏi đáp danh sách và pha mở rộng thực thể Chương 4 Thực nghiệm và đánh giá Tiến hành thực nghiệm để kiểm tra chất lượng của phương pháp đã đề xuất bằng cách... lời của hệ thống hỏi đáp danh sách (làm đầy đủ hơn tập kết quả trả lời) bằng cách áp dụng phương pháp mở rộng thực thể đối với tập kết quả trả lời được trả về từ hệ thống hỏi đáp danh sách 1.2.3 Những vấn đề cần giải quyết khi xây dựng hệ hỏi đáp danh sách Ngoài những vấn đề, những yêu cầu, thách thức chung của hệ thống hỏi đáp, việc nghiên cứu và xây dựng hệ thống hỏi đáp danh sách còn gặp phải những... câu hỏi danh sách, hệ thống chuyển hóa câu hỏi thành dạng câu hỏi yêu cầu câu trả lời chỉ là một thực thể, sau đó áp dụng kĩ thuật để tìm câu hỏi đơn đó Nhiều lần như vậy, hệ thống tổng hợp lại các kết quả và trả về danh sách kết quả cho câu hỏi đó Các bước trả lời câu hỏi của hệ thống hỏi đáp Ephyra gồm: chuẩn hóa câu hỏi, tạo câu truy vấn, tìm kiếm tài liệu, trích chọn câu trả lời dựa vào loại câu trả. .. mà hệ thống thu thập về để xử lý không chứa đủ tất cả các kết quả trả lời, hoặc hệ thống không trích chọn được tất cả các kết quả trả lời có trong tập văn bản thu thập được Hiện nay, các nhà nghiên cứu và xây dựng hệ thống hỏi đáp danh sách cố gắng để có thể trả về tập kết quả đầy đủ nhất có thể R Wang và cộng sự [25][28] đã đề xuất ý tưởng nâng cao chất lượng cho tập câu trả lời của hệ thống hỏi đáp. .. các kết quả có trong tập tài liệu được xét Đây cũng là vấn đề quan trọng nhất trong việc xây dựng hệ thống hỏi đáp danh sách Rất nhiều các nghiên cứu tập trung vào việc bổ sung các kết quả cho tập trả lời trong hệ thống hỏi đáp danh sách như nghiên cứu của Wang [28], … Chính vì thế, khóa luận tập trung vào bài toán bổ sung tập kết quả trả lời cho hệ thống hỏi đáp danh sách trong miền dữ liệu tiếng Việt . hình nâng cao chất lượng câu trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt. Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ
thống hỏi đáp danh. nâng cao chất lượng kết quả trả lời trong hệ
hỏi đáp danh sách tiếng Việt tập trung vào phương pháp để nâng cao chất lượng cho
hệ hỏi đáp danh sách. Phần
Ngày đăng: 18/02/2014, 00:45
Xem thêm: phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt, phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt