LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc

59 1K 1
LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUÝ TÀI NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUÝ TÀI NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. PHẠM BẢO SƠN Hà Nội - 2011 i LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Hà Nội, tháng 6 năm 2011 TÁC GIẢ LUẬN VĂN Lê Quý Tài ii LỜI CẢM ƠN Trước hết tôi xin xin gửi lời cảm ơn đặc biệt tới TS. Phạm Bảo Sơn, người đã định hướng đề tài và tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện luận văn cao học này. Tôi xin chân thành cảm ơn các thầy cô trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, những kinh nghiệm quý báu trong suốt khóa học cao học. Cuối cùng, tôi xin dành một tình cảm biết ơn tới gia đình và những người thân đã luôn ở bên cạnh, động viên, chia sẻ cùng tôi trong suốt thời gian học cao học cũng như quá trình thực hiện luận văn cao học. iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii MỞ ĐẦU 1 Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 3 1.1 Tổng quan 3 1.1.1 Khái niệm 3 1.1.2 Lịch sử phát triển của tóm tắt văn bản 3 1.1.3 Phân loại các phương pháp tóm tắt văn bản 4 1.2 Mô hình tóm tắt văn bản 6 1.2.1 Các phương pháp áp dụng trong pha phân tích 7 1.2.2 Các phương pháp áp dụng trong pha biến đổi 8 1.2.3 Các phương pháp trong pha tổng hợp kết quả 9 1.3 Các phương pháp đánh giá 9 1.3.1 Các phương pháp đánh giá trong 10 1.3.2 Các phương pháp đánh giá ngoài 11 Chương 2 BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT 12 2.1 Một số hướng tiếp cận bài toán tóm tắt văn bản 12 2.2 Đặc điểm tiếng Việt 13 2.2.1 Đặc điểm chung 13 2.2.2 Yếu tố ngoại lai trong từ tiếng Việt 14 2.2.3 Từ đồng nghĩa 14 2.2.4 Đặc điểm chính tả 15 2.2.5 Bảng mã tiếng Việt trên máy tính 16 2.3 Phương pháp cho bài toán tóm tắt văn bản tiếng Việt 17 iv Chương 3. ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN TIẾNG VIỆT 20 3.1 Mô hình tóm tắt sử dụng phương pháp cấu trúc 20 3.2 Tiền xử văn bản 21 3.3 Xử từ 22 3.4 Xây dựng đồ thị liên kết 24 3.5 Sinh văn bản tóm tắt 28 Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 33 4.1 Môi trường thử nghiệm 33 4.2 Dữ liệu thử nghiệm 33 4.3 Phương pháp đánh giá 33 4.4 Kết quả thực nghiệm 36 4.4.1 Thử nghiệm xác định ngưỡng 36 4.4.2 Kết quả thử nghiệm đối với từng phiên bản 37 KẾT LUẬN 42 TÀI LIỆU THAM KHẢO 44 PHỤ LỤC 46 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT STT Ký hiệu, viết tắt Tên đầy đủ 1 IDF Inverse document frequency Tần số tài liệu ngược 2 IR Information Retrieval Tìm kiếm thông tin 3 TF Term frequency Tần số từ vi DANH MỤC CÁC BẢNG Bảng 1 Bậc của các nút sắp theo thứ tự giảm dần của văn bản Text(1).txt 29 Bảng 2 Đánh giá sự liên quan của văn bản tóm tắtvăn bản GS 34 Bảng 3 Kết quả thử nghiệm với các ngưỡng khác nhau 36 Bảng 4 Chất lượng của văn bản tóm tắt bởi Microsoft Word 37 Bảng 5 Kết quả thử nghiệm với phiên bản 1 38 Bảng 6 Kết quả thử nghiệm với phiên bản 2 38 Bảng 7 Kết quả thử nghiệm với phiên bản 3 39 Bảng 8 So sánh kết quả các phiên bản và MS Word 39 Bảng 9 So sánh các văn bản tóm tắt được thực hiện bởi 2 người 40 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1 Kiến trúc của hệ thống tóm tắt văn bản tự động 6 Hình 2 Đồ thị liên kết các câu trong văn bản (gồm 11 câu, 30 liên kết trên 0,2) 19 Hình 3 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc 20 Hình 4 Đồ thị liên kết của văn bản Text(1).txt 27 Hình 5 Bản tóm tắt của Text(1).txt thực hiện bởi con người, tỉ lệ nén 10% 35 Hình 6 Đồ thị kết quả tóm tắt với các ngưỡng 36 Hình 7 So sánh kết quả tóm tắt của các phiên bản và MS Word 40 1 MỞ ĐẦU Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin, Internet cũng như các dịch vụ trực tuyến, ngày càng có nhiều thông tin được tạo ra. Ta có thể truy cập các thông tin đó qua sách, báo, Internet và các phương tiện truyền thông. Hơn nữa, nhu cầu đọc, tìm kiếm và lưu trữ thông tin của con người cũng ngày càng tăng lên. Tuy nhiên, với một lượng lớn thông tin như vậy thì người ta không thể nào có đủ thời gian và sức lực để đọc hết được chúng. Giải pháptóm tắt lại các văn bản đó, từ đó giúp tiết kiệm thời gian và công sức nhưng vẫn có thể đọcxử được nhiều văn bản. Tóm tắt văn bản tự động đã bắt đầu được nghiên cứu từ những năm 50 của thế kỉ trước. Đã có nhiều công trình nghiên cứu về lĩnh vực này và có được những kết quả đáng kể. Tóm tắt văn bản đã được sử dụng trong các phần mềm xử văn bản (Microsoft Office Word…), trong khai phá cơ sở dữ liệu văn bản (Oracle…), trong các ứng dụng tìm kiếm thông tin trực tuyến (hệ thống tìm kiếm Google, Yahoo…) và đều thu được những kết quả rất đáng khích lệ. Tuy nhiên, đối với Tiếng Việt, do sự phức tạp của ngôn ngữ nên hiện chưa có nhiều công trình nghiên cứu về tóm tắt văn bản và kết quả của các công trình nghiên cứu về tóm tắt văn bản tiếng Việt còn hạn chế so với các ngôn ngữ khác mà đặc biệt là so với tiếng Anh. Vì vậy, chúng tôi chọn đề tài: “Nghiên cứu các phương pháp xử tiếng Việt ứng dụng cho tóm tắt văn bản” nhằm nghiên cứu những vấn đề tổng quan về xử ngôn ngữ tự nhiên và một số phương pháp tóm tắt văn bản tiên tiến đã được ứng dụng và thu được kết quả khả quan đối với tiếng Anh; đồng thời nghiên cứu những đặc điểm của tiếng Việt nhằm cải tiến và ứng dụng những phương pháp đó để có thể xây dựng ứng dụng tóm tắt văn bản tiếng Việt. Nội dung của luận văn được chia làm 4 chương: Chương 1. Tổng quan về tóm tắt văn bản Chương này trình bày những vấn đề tổng quan về bài toán tóm tắt văn bản, một số hướng tiếp cận hiện đại và các phương pháp đánh giá kết quả của văn bản tóm tắt. Chương 2. Bài toán tóm tắt văn bản tiếng Việt Chương này trình bày về bài toán tóm tắt văn bản tiếng Việt và một số khó khăn gặp phải do các đặc điểm của tiếng Việt (ngữ âm, ngữ pháp, chính tả…), và một số vấn đề về tiếng Việt trên máy tính (bảng mã, font chữ…), từ đó lựa chọn phương pháp phù hợp cho bài toán tóm tắt văn bản. [...]... VĂN BẢN TIẾNG VIỆT Trong chương này, chúng tôi trình bày chi tiết về việc sử dụng phương pháp cấu trúc đã trình bày trong chương 2 để xây dựng chương trình tóm tắt văn bản tiếng Việt 3.1 Mô hình tóm tắt sử dụng phương pháp cấu trúc 1 Tiền xử lý: 2 Xử từ Danh sách các câu - Loại bỏ từ dừng - Tách câu - Xử các từ đồng nghĩa - Tách từ Văn bản gốc Danh sách các từ 4 Sinh văn bản tóm tắt Chọn ra các. .. 3 phương pháp Văn bản tóm tắt 3 Xây dựng đồ thị liên kết - Tính tf-idf - Xác định độ tương tự giữa các câu Hình 3 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc Trong mô hình này, đầu vào là các văn bản tiếng Việt thuộc nhiều thể loại khác nhau, và để cho đơn giản thì chúng tôi chi sử dụng các văn bản thuần Các văn bản được xử qua 4 giai đoạn 1 Tiền xử Giai đoạn này nhằm chuẩn hoá văn bản. .. đó lựa chọn phương pháp cho bài toán tóm tắt văn bản tiếng Việt 2.1 Một số hướng tiếp cận bài toán tóm tắt văn bản Tại Việt Nam hiện nay, lĩnh vực xử ngôn ngữ tự nhiên đã có được thành tích trong các bài toán phân tách từ, phân lớp và phân nhóm văn bản Tuy nhiên bài toán tóm tắt văn bản chưa có nhiều nghiên cứu và đa phần các công trình nghiên cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên... - Tóm tắt dựa trên câu truy vấn: kết quả trả về dựa trên câu truy vấn của người dùng - Tóm tắt hướng đến người dùng hoặc chủ đề: văn bản tóm tắt đáp ứng nhu cầu của người dùng cụ thể hoặc chủ đề cụ thể nào đó Căn cứ vào số lượng văn bản tóm tắt: Tóm tắt đơn văn bản: thực hiện tóm tắt trên một văn bản hoặc tóm tắt đa văn bản: thực hiện tóm tắt trên nhiều văn bản khác nhau Căn cứ vào ngôn ngữ tóm tắt: ... áp dụng đối với cả 2 dạng tóm tắt Tuy nhiên, độ đo này hữu dụng với các bản tóm tắt trích xuất, hoặc với các bản tóm tắt dạng abstract nhưng có mức độ cắt-dán cao (tức là văn bản tóm tắt được tạo bởi nhiều từ, cụm từ, câu nguyên dạng trong văn bản nguồn) b) So sánh với văn bản nguồn Với phương pháp này, ta đem so sánh văn bản tóm tắt với văn bản nguồn để xác định mức độ hàm chứa thông tin của văn bản. .. 3 Ứng dụng phương pháp cấu trúc để tóm tắt văn bản tiếng Việt Chương này trình bày về việc sử dụng phương pháp sử dụng cấu trúc văn bản kết hợp với từ điển từ dừng và từ điển đồng nghĩa để xây dựng chương trình tóm tắt văn bản tiếng Việt Chương 4 Thực nghiệm và đánh giá Chương này trình bày về phương pháp được sử dụng để đánh giá hệ thống tóm tắtcác kết quả thực nghiệm 3 Chương 1 TỔNG QUAN VỀ TÓM... (clustering) để tạo tóm tắt Yoshio (2001) đã tạo tóm tắt văn bản tiếng Nhật Có 2 phương pháp là rút câu dựa trên từ khoá và rút câu dựa trên kiến trúc ngữ nghĩa trong đó có xây dựng độ đo mối liên kết giữa hai từ Hiện nay, một số nghiên cứu về xử ngôn ngữ tự nhiên cũng bước đầu được áp dụng trong tóm tắt văn bản Mặt khác, các nghiên cứu về tóm tắt đa văn bản, đa ngôn ngữ và tóm tắt đa phương tiện cũng... biệt các bản tóm tắt, các bản tóm tắt khác nội dung nhưng vẫn có cùng độ đo - Độ đo hạng câu (Sentence Rank): thay thế cho độ bao phủ, khi đó, một bản tóm tắt được đặc trưng bởi hạng của các câu trong các bản tóm tắt thích hợp Hạng của các câu trong bản tóm tắt do hệ thống thực hiện và trong các bản tóm tắt dùng để so sánh có thể tính bằng độ đo tương quan Độ do này áp dụng đối với hệ thống tóm tắt. .. loại các phương pháp tóm tắt văn bản Có nhiều tiêu chí để phân loại các phương pháp tóm tắt văn bản, sau đây là một số cách phân loại tiêu biểu [15]: Căn cứ vào dạng tóm tắt, ta có thể chia thành: - Trích xuất (extract): bản tóm tắt hoàn toàn chứa các “dãy từ” được sao chép nguyên dạng từ văn bản nguồn “Dãy từ” ở đây có thể là cụm từ, câu hoặc đoạn văn Tuy nhiên, với dạng trích xuất thì văn bản tóm tắt. .. văn bản khi đọc bản tóm tắt của văn bản đó Bằng thực nghiệm, tác giả tiến hành dựng lại văn bản gốc dựa trên việc đọc văn bản tóm tắt kết hợp phỏng đoán 12 Chương 2 BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT Chương này trình bày về một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt Đồng thời cũng đưa ra những đặc trưng quan trọng cần chú ý của tiếng Việt dưới góc độ của lĩnh vực xử ngôn ngữ tự nhiên, . đề tài: Nghiên cứu các phương pháp xử lý tiếng Việt ứng dụng cho tóm tắt văn bản nhằm nghiên cứu những vấn đề tổng quan về xử lý ngôn ngữ tự nhiên và một số phương pháp tóm tắt văn bản tiên. cho bài toán tóm tắt văn bản tiếng Việt 17 iv Chương 3. ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN TIẾNG VIỆT 20 3.1 Mô hình tóm tắt sử dụng phương pháp cấu trúc 20 3.2 Tiền xử lý. lượng văn bản tóm tắt: Tóm tắt đơn văn bản: thực hiện tóm tắt trên một văn bản hoặc tóm tắt đa văn bản: thực hiện tóm tắt trên nhiều văn bản khác nhau. Căn cứ vào ngôn ngữ tóm tắt: Tóm tắt trên

Ngày đăng: 28/06/2014, 03:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan