Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng

13 360 0
Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TR NG ĐẠI H C CÔNG NGH KIM XUÂN PHÚC TÓM TẮT ĐƠN VĂN BẢN TIẾNG VI T SỬ DỤNG CHUỖI TỪ VỰNG Ngành: Công ngh thông tin Chuyên ngành: H th ng thông tin Mã s : 60.48.01.04 LU N VĂN THẠC SĨ Ng ih ng d n khoa h c: PGS.TS NGUYỄN PH ƠNG THÁI HÀ NỘI - 2015 LỜI CAM ĐOAN ‘Tôi xin cam đoan luận văn công trình nghiên cứu riêng Các số liệu, kết trình bày luận văn hoàn toàn trung thực chưa công bố công trình khác Tôi trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tế Ngoại trừ tài liệu tham khảo này, luận văn hoàn toàn sản phẩm riêng tôi.’ Hà Nội, ngày 20 tháng 10 năm 2015 Ký tên i LỜI CẢM ƠN Lời xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Nguyễn Phương Thái, Ths Vũ Huy Hiển tận tình bảo, giúp đỡ hướng dẫn suốt trình thực luận văn Tôi xin chân thành cảm ơn quý thầy cô nhà trường tạo điều kiện thuận lợi cho học tập nghiên cứu Cuối xin gửi lời cảm ơn tới gia đình, bạn bè Những người giành thời gian bên cạnh quan tâm, động viên, giúp đỡ suốt trình học tập làm luận văn tốt nghiệp Hà Nội, ngày 20 tháng 10 năm 2015 Ký tên ii Mục lục Tổng quan tóm tắt văn tự động 1.1 Các tiếp cận giới 1.2 Các tiếp cận nước 1.3 Giải pháp đề xuất Mạng từ 2.1 Mạng từ tiếng Anh - Wordnet 2.1.1 Thông tin chung 2.1.2 Các quan hệ mạng từ Wordnet 2.2 Mạng từ tiếng Việt 2.2.1 Từ điển Laconec 2.2.2 Mạng từ tiếng Việt đề tài KC.01.20/11-15 2.3 Sử dụng mạng từ tiếng Việt Ứng dụng xích từ vựng 3.1 Xích từ vựng 3.2 Xây dựng xích từ vựng 3.3 Sử dụng xích từ vựng tóm Thực nghiệm kết 4.1 Dữ liệu sử dụng 4.2 Phương pháp đánh giá 4.2.1 Đánh giá đồng chọn 4.2.2 Đánh giá tự động 4.3 Thực nghiệm 4.3.1 Môi trường thực nghiệm 4.3.2 Tiền xử lý 4.3.3 Đánh giá kết iii tắt văn 3 8 8 10 10 11 11 13 13 13 16 18 18 20 20 21 22 22 22 22 MỤC LỤC 4.4 iv Kết 23 KẾT LUẬN 30 5.1 Các công việc làm 30 5.2 Hướng nghiên cứu tương lai 30 Danh sách hình vẽ 1.1 Các bước tóm tắt văn tiếng Việt sử dụng xích từ vựng 3.1 Thuật toán tính toán xích từ vựng 16 v Danh sách bảng 2.1 2.2 Số loạt đồng nghĩa phân theo loại mạng từ tiếng Việt 11 Số lượng từ tiếng Việt chia theo loại mạng từ 11 3.1 Ví dụ xếp hạng độ quan trọng câu sử dụng xích từ vựng 17 4.1 4.2 4.3 4.4 4.5 Thống kê chi tiết kho ngữ liệu Corpus_LTH Tập văn sử dụng Kết đánh giá sử dụng độ đo ROUGE-1 Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Chính trị Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Khoa học Công nghệ Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Văn hóa Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Xã hội Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Khoa học Giáo dục Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Kinh tế 4.8 4.9 4.6 4.7 vi 18 19 23 23 23 23 23 24 24 Danh mục từ viết tắt ES AS CSDL TF-IDF PWN NLTK Extraction Summarization Abstraction Summarization Cơ sở liệu Term Frequency – Inverse Document Frequency Princeton Wordnet Natural Language Toolkit vii MỞ ĐẦU Ngày nay, bùng nổ kỷ nguyên Internet, thông tin văn lưu trữ mạng Internet trở nên vô lớn Hằng ngày, số lượng thông tin văn tăng lên không ngừng Khối lượng thông tin khổng lồ mang lại lợi ích không nhỏ cho người, nhiên với tải khiến cho gặp nhiều khó khăn việc tìm kiếm, xử lý tổng hợp thông tin Để cải thiện khả tìm kiếm tăng hiệu qủa cho công việc xử lý thông tin, tóm tắt tự động giải pháp thiếu để giải vấn đề Đối với tiếng Việt, toán tóm tắt văn tiếng Việt đóng vai trò quan trọng việc khai thác hiệu thông tin kho ngữ liệu văn tiếng Việt lớn Nó có ứng dụng lớn hệ thống như: tìm kiếm thông minh, đa ngôn ngữ, tổng hợp thông tin Đối với lĩnh vực an ninh quốc phòng, tóm tắt tin tức giúp cho cán nghiệp vụ thu thập đủ thông tin cần thiết kịp thời theo dõi, đánh giá, xử lý nguồn thông tin cách nhanh chóng Nội dung luận văn trình bày sau: • Chương 1: Tổng quan tóm tắt văn tự động • Chương 2: Mạng từ • Chương 3: Xích từ vựng • Chương 4: Thực nghiệm kết • Chương 5: Kết luận Chúng đưa nhìn khái quát trạng tóm tắt văn Chương Ở Chương 2, giới thiệu mạng từ bao gồm mạng từ tiếng Anh trường đại học Princeton, mạng từ tiếng Việt có Chúng giới thiệu kiến thức chung cách áp dụng xích từ vựng Chương Trong Chương 4, chúng DANH SÁCH BẢNG trình bày thực nghiệm kết mà đạt Cuối cùng, đưa kết luận công việc tương lai Chương Tài liệu tham khảo Nguyễn Nhật An Nghiên cứu, phát triển kỹ tuật tự động tóm tắt văn tiếng Việt Luận án Tiến sĩ toán học, Viện khoa học công nghệ quân sự, 2014 Baeza-Yates, Ricardo, and Berthier Ribeiro-Neto Modern Information Retrieval Addison Wesley, 1999 Regina Barzilay and Michael Elhadad Using lexical chains for text summarization In ACLIntelligent Scalable Text Summarization 1997, pages 10–17, 1997 P B Baxendale Machine-made index for technical literature: an experiment In IBM Journal of Research and Development 2, pages 354–361, 1958 Jaime G Carbonell and Jade Goldstein The use of mmr, diversity-based reranking for reordering documents and producing summaries In SIGIR, pages 335–336, 1998 Lin Chin-Yew Rouge: a package for automatic evaluation of summaries In n Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, 2004 H Edmundson New methods in automatic abstracting Journal of ACM, 16 (2), 1969 Thanh-Le Ha, Quyet-Thang Huynh, and Chi-Mai Luong A primary study on summarization of documents in vietnamese In Proceeding of the First International Congress of the International Federation for Systems Research, Kobe, Japan, Nov 15-17, pages 234–239, 2005 E Hovy and C Lin Automatic Text Summarization in SUMMARIST (In I Mani and M T Maybury, editors, Advanced in automatic text summarization The MIT Press), 1999 Karel Jezek and Josef Steinberger Automatic Text Summarization Vaclav Snasel (Ed.), 2008 J Kupiec, J.O Pedersen, and F Chen A trainable document summarizer In In the proceedings of the 18th ACM SIGIR conference on research and development in information retrieval, pages 68–73, 1995 C-Y Lin and E.H Hovy Identifying topics by position In In Proceedings of the Applied Natural Language Processing Conference (ANLP-97), page 283–290, 1997 32 Bibliography 33 H.P Luhn The automatic creation of literature abstracts IBM Journal of Research and Development, 2(2), 1958 J Lyons Semantics vols New York: Cambridge University Press, 1977 Dat Quoc Nguyen, Dai Quoc Nguyen, Dang Duc Pham, and Son Bao Pham RDRPOSTagger: A Ripple Down Rules-based Part-Of-Speech Tagger In Proceedings of the Demonstrations at the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 17–20, Gothenburg, Sweden, April 2014 Association for Computational Linguistics URL http://www.aclweb.org/anthology/E14-2005 M.L Nguyen, Shimazu Akira, Xuan-Hieu Phan, Tu-Bao Ho, and Horiguchi Susumu Sentence extraction with support vector machine ensemble In Proceedings of the First World Congress of the International Federation for Systems Research: The New Roles of Systems Sciences For a Knowledge-based Society, 2005 Phuong-Thai Nguyen, Van-Lam Pham, Hoang-An Nguyen, Huy-Hien Vu, Thi-Thu-Ha Truong, and Ngoc-Anh Tran A two-phase approach for building vietnamese wordnet In The 8th Global Wordnet Conference, 2015 Tadashi Nomoto and Yuji Matsumoto A new approach to unsupervised text summarization In SIGIR, pages 26–34, 2001 Đỗ Phúc and Hoàng Kiếm Rút trích ý từ văn tiếng Việt Tạp chí Công nghệ Thông tin Truyền thông, 2004 Nguyen Quang-Uy, Pham Tuan-Anh, Truong Cong-Doan, and Nguyen Xuan-Hoai A study on the use of genetic programming for automatic text summarization In Fourth International Conference on Knowledge and Systems Engineering (KSE), 2012 Trương Quốc-Định and Nguyễn Quang-Dũng Một giải pháp tóm tắt văn tiếng Việt tự động Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông - Hà Nội, 2012 G Salton, A Singhal, C Buckley, and M Mitra Automatic text decomposition using text segments and text themes In In seventh ACM conference on Hypertext, pages 26–34, 1996 Lê Thanh-Hương Nghiên cứu số phương pháp tóm tắt văn tự động máy tính áp dụng cho tiếng Việt Báo cáo tổng kết đề tài khoa học công nghệ cấp bộ, Đại học Bách khoa Hà nội, 2014 Nguyễn Thị Thu-Hà Phát triển số thuật toán tóm tắt văn tiếng Việt sử dụng phương pháp học máy bán giám sát Luận án Tiến sĩ, học viện Kỹ thuật Quân sự, 2012 Bibliography 34 Ngoc Anh Tran, Phuong Thai Nguyen, Thanh Tinh Dao, and Hong Quan Nguyen Identifying reduplicative words for vietnamese word segmentation In Computing Communication Technologies - Research, Innovation, and Vision for the Future (RIVF), 2015 IEEE RIVF International Conference on, pages 77–82, Jan 2015 doi: 10.1109/RIVF.2015.7049878 M E Winston, R Chaffin, and D J Hermann A taxonomy of part-whole relations In Cognitive Science 11, pages 417–444, 1987

Ngày đăng: 29/08/2016, 10:00

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan