Thông tin tài liệu
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Minh Hiền
ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ
ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2008
2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Minh Hiền
ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ
ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: Thạc Sỹ Đặng Thanh Hải
HÀ NỘI - 2008
3
Lời cảm ơn
Tôi xin gửi lời cảm ơn và biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Thạc sỹ Đặng Thanh Hải đã chỉ bảo và hướng dẫn tận tình cho tôi trong
suốt quá trình nghiên cứu Khoa học và quá trình thực hiện khoá luận này.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học
tập và nghiên cứu tại trường Đại họ
c Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong nhóm nghiên
cứu “Khai phá dữ liệu và khám phá tri thức” đã giúp đỡ, ủng hộ và động viên tôi trong
quá trình nghiên cứu và làm khoá luận. Đặc biệt, tôi xin cảm ơn Cử nhân Trần Mai Vũ,
Nghiên cứu sinh Nguyễn Cẩm Tú và Sinh viên Lê Diệu Thu, những người đã hỗ trợ tôi
rất nhiều về kiến thức chuyên môn, giúp tôi có thể hoàn thành khóa luận.
Cuối cùng, tôi muốn gửi lờ
i cảm ơn và biết ơn vô hạn tới bố, mẹ, anh trai, tất cả bạn
bè và những người thân yêu của tôi.
Xin chân thành cảm ơn!
Sinh viên
Hoàng Minh Hiền
4
Tóm tắt nội dung
Hiện nay, tóm tắt văn bản là một bài toán có tính ứng dụng thực tiễn cao. Tóm tắt
văn bản nhận được sự nhiều sự quan tâm nghiên cứu của nhiều nhà khoa học, của các hội
nghị quốc tế như hội nghị DUC (Document Understanding Conference), hội nghị
Coling/ACL
(Computational Linguistics/Association for Computational Linguistics), của
các trung tâm nghiên cứu như IBM, Microsoft…
Khóa luận với đề tài “Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong bài
toán tóm tắt văn bản” tập trung nghiên cứu vào các phương pháp tóm tắt văn bản; độ
tương đồng câu và các phương pháp để tính toán độ tương đồng câu. Từ đó, trên cơ sở về
một số kết quả nghiên cứu đã có về độ đo tương đồng câu và v
ề Hidden Topic, khóa luận
đề xuất một mô hình tóm tắt văn bản đơn có sử dụng Hidden Topic để tính toán độ tương
đồng ngữ nghĩa giữa hai câu.
5
Mục lục
Tóm tắt nội dung 4
Mục lục 5
Danh sách bảng 7
Danh sách hình vẽ 8
Bảng ký hiệu và từ viết tắt 9
Mở đầu 10
Chương 1. Tổng quan về tóm tắt văn bản và độ tương đồng câu 12
1.1. Đặt vấn đề 12
1.2. Nền tảng kiến thức 13
1.2.1. Data Mining 13
1.2.2. Text Mining 13
1.2.3. Web Mining 14
1.3. Tóm tắt văn bản 15
1.4. Độ tương đồng giữa hai câu 16
Chương 2. Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản 18
2.1. Bài toán tóm tắt văn bản 18
2.1.1. Định nghĩa tóm tắt 18
2.1.2. Phân loại tóm tắt văn bản 19
2.1.3. Tóm tắt văn bản đơn 21
2.2. Các phương pháp tóm tắt văn bản đơn 21
2.2.1. Phương pháp Word frequencies 22
2.2.2. Phương pháp của Edmundson 23
2.2.3. Tóm tắt văn bản tự động sử dụng trích chọn câu hai bước 26
6
Chương 3. Độ tương đồng câu và phương pháp tính độ tương đồng câu 32
3.1. Độ tương đồng 32
3.2. Độ tương đồng câu 32
3.3. Phương pháp để đo độ tương đồng câu 33
3.3.1. Phương pháp tính độ tương đồng câu sử dụng WordNet corpus 33
3.3.2. Phương pháp tính độ tương đồng câu sử dụng Hidden Topic 39
Chương 4. Đề xuất mô hình tóm tắt và kết quả thực nghiệm 46
4.1. Đề xuất mô hình tóm tắt 46
4.2. Thiết kế mô hình thử nghiệm 47
4.3. Kết quả thực nghiệm 47
Kết luận và hướng phát triển của khóa luận 50
Tài liệu tham khảo 51
7
Danh sách bảng
Bảng 1. Các kết quả so sánh các độ đo 37
Bảng 2. Trọng số của từng câu trong văn bản [không dùng Hidden Topic] 48
Bảng 3. Trọng số của từng câu trong văn bản [dùng Hidden Topic] 49
8
Danh sách hình vẽ
Hình 1. Mô hình chung của một hệ thống tóm tắt văn bản 15
Hình 2. Giá trị trung bình của các phương pháp 26
Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước 27
Hình 4. So sánh giữa phương pháp Two-step và các phương pháp khác (Title) 31
Hình 5. So sánh giữa phương pháp Two-step và các phương pháp khác ( không sử dụng
Title) 31
Hình 6. Lược đồ tính toán độ tương đồng câu 34
Hình 7. Hệ thống cây phân cấp ngữ nghĩa 36
Hình 8. Mô hình biểu diễn của LDA (Các khối vuông biểu diễn quá trình lặp) 40
Hình 9. Mô hình sinh cho LDA 41
Hình 10. Quá trình khởi tạo lấy mẫu lần đầu 42
Hình 11. Quá trình khởi tạo lấy mẫu lại 43
Hình 12. Quá trình đọc các tham số đầu ra 44
Hình 13. Nội dung một văn bản đơn tiếng Việt 47
9
Danh sách các từ viết tắt
WAP : Wireless Application Protocol
PDA : Personal digital assistant
SMS : Short Message Service
LDA :
Latent Dirichlet Allocation
IR : Information Retrieval
TF : Term Frequency
IDF : Inverted document frequency
10
Mở đầu
Dữ liệu trên Internet được sinh ra liên tục mỗi ngày, lượng thông tin khổng lồ đó
khiến người dùng trở nên bối rối do không đủ thời gian đọc tất cả văn bản. Tóm tắt văn
bản tự động hiện đang là một bài toán được sự quan tâm nghiên cứu của nhiều nhà khoa
học.
Tóm tắt văn bản có thể được ứng dụng để tóm tắt các bản tin với định dạng WAP
hoặc SMS cho các thiết bị PDA, điện thoại di động. Trong máy tìm kiếm, ứng dụng tóm
tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm. Người dùng dựa vào đó để
chọn nhưng kết quả phù hợp với mong muốn của mình Những ứng dụng đa dạng và
phong phú của tóm tắt văn bản khẳng định sự cần thiế
t của việc xây dựng một hệ thống
tóm tắt văn bản tự động hiệu quả.
Mục tiêu chính của khóa luận là tập trung vào việc khảo sát, nghiên cứu các phương
pháp giải quyết bài toán tóm tắt văn bản một cách hiệu quả. Để tiếp cận mục tiêu này,
khóa luận giới thiệu kết quả nghiên cứu của báo cáo [4]: phương pháp tính độ tương đồng
câu sử dụng WordNet corpus; Đồng thờ
i, khóa luận nghiên cứu, đề xuất phương pháp tính
toán độ tương đồng câu sử dụng mô hình topic ẩn. Ưu điểm của phương pháp này là làm
tăng tính ngữ nghĩa trong tính toán độ tương đồng câu mà không cần dùng tới một mạng
ngữ nghĩa hay một corpus nào khác.
Nội dung của khóa luận được chia thành các chương như sau:
Chương 1. Tổng quan về bài toán tóm tắt văn bản và độ tương đồng câu: Đề cập tới
nhu cầu của ứng dụng tóm tắt văn bản, các nền tảng kiến thức của bài toán tóm tắt. Phần
này cũng giới thiệu những nội dung cơ bản nhất của bài toán tóm tắt văn bản và độ tương
đồng ngữ nghĩa giữa hai câu.
Chương 2. Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản: Trình
bày cụ thể về bài toán tóm tắt văn bản bao g
ồm định nghĩa tóm tắt, phân loại tóm tắt, cách
đánh giá một văn bản tóm tắt và một số phương pháp tóm tắt văn bản.
Chương 3. Độ đo tương đồng câu và phương pháp tính độ tương đồng câu. Chương
này giới thiệu về độ tương đồng, độ tương đồng câu và hai phương pháp khác nhau để
tính độ tương đồng câu: Phương pháp tính độ tương đồng câu sử dụng WordNet corpus
[...]... điểm) Ví dụ, trong mô hình không gian vector, ta sử dụng độ đo cosine để tính độ tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector Phân loại độ đo tương đồng, ở đây có thể liệt kê ra một số độ đo như độ đo tương đồng giữa các từ, độ đo tương đồng giữa các văn bản, độ đo tương đồng giữa nhiều ảnh, độ đo tương đồng giữa các ontology, … 3.2 Độ tương đồng câu Xét ví dụ gồm hai câu “Tôi... Tính độ tương đồng ngữ nghĩa cho hai câu Khi tính được độ tương tự từ, ta đưa ra được vector ngữ nghĩa si cho mỗi câu Sử dụng vector ngữ nghĩa của hai câu để tính độ tương đồng về ngữ nghĩa cho hai câu đó Bước 4: Tính độ tương đồng thứ tự từ Dựa tập từ chung ta xác định vector thứ tự từ cho mỗi câu Bước 5: Tính độ tương đồng cho toàn bộ câu Kết hợp giữa vector ngữ nghĩa và vector thứ tự của hai câu. .. USA 16 tính toán độ tương đồng giữa các câu, mà điển hình là phương pháp dựa trên tính toán thống kê và phương pháp dựa trên quan hệ ngữ nghĩa giữa tập các từ trong hai câu đó [9][16] 17 Chương 2 Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản 2.1 Bài toán tóm tắt văn bản 2.1.1 Định nghĩa tóm tắt Tóm tắt văn bản là quá trình làm giảm đi độ dài hoặc độ phức tạp của một văn bản mà không mất... tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào Ở đây, khóa luận phân loại tóm tắt như dựa vào input, output, mục đích tóm tắt [9] Nếu dựa vào input ta có tóm tắt đa văn bản, đơn văn bản; tóm tắt miền cụ thể và tóm tắt miền tổng quát; tóm tắt một kiểu văn bản cụ thể Dựa vào mục đích thì tóm tắt được chia thành tóm tắt generic, query-based; tóm tắt indicative và information; hay tóm tắt background... 20 2.1.3 Tóm tắt văn bản đơn Đối tượng thực nghiệm của khóa luận là các văn bản đơn Tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác, là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung chính của văn bản đầu vào đó Tóm tắt văn bản đơn là bước đệm cho việc xử lý, tóm tắt đa văn bản và các bài toán tóm tắt phức tạp hơn Văn bản đơn có thể... đặc trưng văn bản quy định - Định dạng văn bản: tóm tắt văn bản free-form, tóm tắt văn bản có cấu trúc Với văn bản có cấu trúc, tóm tắt văn bản thường sử dụng một mô hình học đã xây dựng từ trước - Kích thước nguồn: tóm tắt đa văn bản, tóm tắt văn bản đơn Một vài hệ thống sẽ tạo ra một bản tóm tắt dựa trên một tài liệu đơn, trong khi một vài hệ thống khác có thể sử dụng nhiều nguồn tài liệu Những hệ thống... trong văn bản Tuy nhiên, với tóm tắt một văn bản đơn không sử dụng truy vấn, quá trình tóm tắt sẽ xét sự tương đồng giữa các thành phần của văn bản với nhau Điều này dẫn đến một vấn đề là chưa thể kết luận ngay các thành phần quan trọng của văn bản để có thể trích rút, đưa vào tóm tắt 2.2 Các phương pháp tóm tắt văn bản đơn Những năm 50-70, tóm tắt văn bản chủ yếu dựa vào các kỹ thuật thống kê để tóm. .. engine Tóm tắt văn bản được ứng dụng ngày một rộng rãi Tóm tắt văn bản có thể ứng dụng trong tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di động Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình Hiện nay, tóm tắt văn bản được sự quan tâm đặc biệt trong. .. ra được độ tương đồng cho hai câu 34 3.3.1.2 Tính độ tương tự từ dựa trên WordNet Vì một đoạn văn bản gồm nhiều câu và mỗi câu có thể xem như một chuỗi các từ mang thông tin cần thiết nên từ được xem như là đơn vị thấp nhất về mặt ngữ nghĩa khi xét cho một văn bản Vậy, muốn tính độ tương tự câu yêu cầu bắt buộc phải dựa vào độ tương tự của từ có trong câu Độ tương tự giữa các từ có ý nghĩa trong các... nhau về ngữ nghĩa của hai câu càng lớn Độ tương đồng ngữ nghĩa là một giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa giữa hai câu Trên thực tế, khó có thể lấy một giá trị có chính xác cao bởi vì ngữ nghĩa chỉ được hiểu đầy đủ trong một ngữ cảnh cụ thể 32 3.3 Phương pháp để đo độ tương đồng câu Như đã giới thiệu, hiện nay có hai phương pháp điển hình để đo độ tương đồng câu là phương pháp thống kê và phương . bản nhất của bài toán tóm tắt văn bản và độ tương
đồng ngữ nghĩa giữa hai câu.
Chương 2. Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản: .
Khóa luận với đề tài Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong bài
toán tóm tắt văn bản tập trung nghiên cứu vào các phương pháp tóm tắt văn
Ngày đăng: 14/03/2014, 17:20
Xem thêm: LUẬN VĂN: ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN pptx, LUẬN VĂN: ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN pptx