Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng

43 508 0
Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TR NG ĐẠI H C CÔNG NGH KIM XUÂN PHÚC TÓM TẮT ĐƠN VĂN BẢN TIẾNG VI T SỬ DỤNG CHUỖI TỪ VỰNG Ngành: Công ngh thông tin Chuyên ngành: H th ng thông tin Mã s : 60.48.01.04 LU N VĂN THẠC SĨ Ng ih ng d n khoa h c: PGS.TS NGUYỄN PH ƠNG THÁI HÀ NỘI - 2015 LỜI CAM ĐOAN ‘Tôi xin cam đoan luận văn công trình nghiên cứu riêng Các số liệu, kết trình bày luận văn hoàn toàn trung thực chưa công bố công trình khác Tôi trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tế Ngoại trừ tài liệu tham khảo này, luận văn hoàn toàn sản phẩm riêng tôi.’ Hà Nội, ngày 20 tháng 10 năm 2015 Ký tên i LỜI CẢM ƠN Lời xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Nguyễn Phương Thái, Ths Vũ Huy Hiển tận tình bảo, giúp đỡ hướng dẫn suốt trình thực luận văn Tôi xin chân thành cảm ơn quý thầy cô nhà trường tạo điều kiện thuận lợi cho học tập nghiên cứu Cuối xin gửi lời cảm ơn tới gia đình, bạn bè Những người giành thời gian bên cạnh quan tâm, động viên, giúp đỡ suốt trình học tập làm luận văn tốt nghiệp Hà Nội, ngày 20 tháng 10 năm 2015 Ký tên ii Mục lục Tổng quan tóm tắt văn tự động 1.1 Các tiếp cận giới 1.2 Các tiếp cận nước 1.3 Giải pháp đề xuất Mạng từ 2.1 Mạng từ tiếng Anh - Wordnet 2.1.1 Thông tin chung 2.1.2 Các quan hệ mạng từ Wordnet 2.2 Mạng từ tiếng Việt 2.2.1 Từ điển Laconec 2.2.2 Mạng từ tiếng Việt đề tài KC.01.20/11-15 2.3 Sử dụng mạng từ tiếng Việt Ứng dụng xích từ vựng 3.1 Xích từ vựng 3.2 Xây dựng xích từ vựng 3.3 Sử dụng xích từ vựng tóm Thực nghiệm kết 4.1 Dữ liệu sử dụng 4.2 Phương pháp đánh giá 4.2.1 Đánh giá đồng chọn 4.2.2 Đánh giá tự động 4.3 Thực nghiệm 4.3.1 Môi trường thực nghiệm 4.3.2 Tiền xử lý 4.3.3 Đánh giá kết iii tắt văn 3 8 8 10 10 11 11 13 13 13 16 18 18 20 20 21 22 22 22 22 MỤC LỤC 4.4 iv Kết 23 KẾT LUẬN 30 5.1 Các công việc làm 30 5.2 Hướng nghiên cứu tương lai 30 Danh sách hình vẽ 1.1 Các bước tóm tắt văn tiếng Việt sử dụng xích từ vựng 3.1 Thuật toán tính toán xích từ vựng 16 v Danh sách bảng 2.1 2.2 Số loạt đồng nghĩa phân theo loại mạng từ tiếng Việt 11 Số lượng từ tiếng Việt chia theo loại mạng từ 11 3.1 Ví dụ xếp hạng độ quan trọng câu sử dụng xích từ vựng 17 4.1 4.2 4.3 4.4 4.5 Thống kê chi tiết kho ngữ liệu Corpus_LTH Tập văn sử dụng Kết đánh giá sử dụng độ đo ROUGE-1 Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Chính trị Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Khoa học Công nghệ Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Văn hóa Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Xã hội Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Khoa học Giáo dục Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Kinh tế 4.8 4.9 4.6 4.7 vi 18 19 23 23 23 23 23 24 24 Danh mục từ viết tắt ES AS CSDL TF-IDF PWN NLTK Extraction Summarization Abstraction Summarization Cơ sở liệu Term Frequency – Inverse Document Frequency Princeton Wordnet Natural Language Toolkit vii MỞ ĐẦU Ngày nay, bùng nổ kỷ nguyên Internet, thông tin văn lưu trữ mạng Internet trở nên vô lớn Hằng ngày, số lượng thông tin văn tăng lên không ngừng Khối lượng thông tin khổng lồ mang lại lợi ích không nhỏ cho người, nhiên với tải khiến cho gặp nhiều khó khăn việc tìm kiếm, xử lý tổng hợp thông tin Để cải thiện khả tìm kiếm tăng hiệu qủa cho công việc xử lý thông tin, tóm tắt tự động giải pháp thiếu để giải vấn đề Đối với tiếng Việt, toán tóm tắt văn tiếng Việt đóng vai trò quan trọng việc khai thác hiệu thông tin kho ngữ liệu văn tiếng Việt lớn Nó có ứng dụng lớn hệ thống như: tìm kiếm thông minh, đa ngôn ngữ, tổng hợp thông tin Đối với lĩnh vực an ninh quốc phòng, tóm tắt tin tức giúp cho cán nghiệp vụ thu thập đủ thông tin cần thiết kịp thời theo dõi, đánh giá, xử lý nguồn thông tin cách nhanh chóng Nội dung luận văn trình bày sau: • Chương 1: Tổng quan tóm tắt văn tự động • Chương 2: Mạng từ • Chương 3: Xích từ vựng • Chương 4: Thực nghiệm kết • Chương 5: Kết luận Chúng đưa nhìn khái quát trạng tóm tắt văn Chương Ở Chương 2, giới thiệu mạng từ bao gồm mạng từ tiếng Anh trường đại học Princeton, mạng từ tiếng Việt có Chúng giới thiệu kiến thức chung cách áp dụng xích từ vựng Chương Trong Chương 4, chúng DANH SÁCH BẢNG trình bày thực nghiệm kết mà đạt Cuối cùng, đưa kết luận công việc tương lai Chương 4.2 Phương pháp đánh giá 21 F − score = ∗ P recision ∗ Recall P recision + Recall (4.3) Trong tóm tắt văn bản, người ta thường dùng trọng số khác cho precision recall tính f-score Giá trị trọng số β số thực không âm Trọng số lớn nghĩa precision quan trọng hơn, trọng số nhỏ nghĩa recall quan trọng F − score = ∗ (β + 1)P recision ∗ Recall β ∗ P recision + Recall (4.4) Các giá trị precision recall không phù hợp số trường hợp tóm tắt văn Ví dụ, từ văn có câu (1, 2, 3, 4, 5), ta tạo hai tóm tắt khác Bản tóm tắt thứ chứa câu (1, 2, 5) chứa câu (1, 4, 5) Bản tóm tắt lý tưởng chứa câu (1, 2, 5) Khi đánh giá precision recall, ta định tóm tắt tốt thứ hai Nhưng trình tóm tắt có tính chủ quan, nên tóm tắt thứ hai tốt tóm tắt đầu 4.2.2 Đánh giá tự động Độ đo đồng xuất ROUGE phương pháp đánh giá vào nội dung Cho trước nhiều tóm tắt lý tưởng người thực hiện, ta tính số ngram xảy lớn tóm tắt trích xuất tóm tắt lý tưởng Sau chia giá trị cho tổng số n-gram tóm tắt lý tưởng theo (Chin-Yew, 2004) ROU GE − N = S∈RSS S∈RSS Countmatch (gramn ) gramn ∈S Count(gramn ) gramn ∈S (4.5) Trong đó: n độ dài n-gram S tóm tắt hệ thống RSS tập văn tóm tắt lý tưởng (tham chiếu) Countmatch (gramn ) số lượng n-gram đồng xuất lớn văn tóm tắt hệ thống tập văn tóm tắt lý tưởng Count(gramn ) số lượng n-gram văn tóm tắt lý tưởng Trong thực nghiệm sử dụng độ đo ROUGE - 4.3 Thực nghiệm 4.3 4.3.1 22 Thực nghiệm Môi trường thực nghiệm Chúng tiến hành thực nghiệm môi trường sau: • Hệ điều hành: Linux Ubuntu 14.10 • Bộ vi xử lý: Intel core i5 2.4 GHZ • Bộ nhớ trong: DDR3 8GB 1600MHZ • Thư viện NLTK cho Python phiên 3.0 hỗ trợ Python 3.x • Wordnet tiếng Anh phiên 3.0 • Wordnet tiếng Việt từ đề tài KC.01/11-15 phiên ngày 28/11/2015 Chúng sử dụng ngôn ngữ Python để lập trình hệ thống tóm tắt văn Đây ngôn ngữ dùng phổ biến cộng đồng xử lý ngôn ngữ tự nhiên Ngôn ngữ Python không nặng cú pháp có tính khả chuyển cao, dễ dàng tích hợp vào hệ thống hay chuyển đổi sang mô hình dịch vụ Web Ngoài ra, giao diện mạng từ Wordnet tiếng Việt có hỗ trợ ngôn ngữ Python, việc tích hợp để sử dụng thông tin Wordnet đơn giản nhiều 4.3.2 Tiền xử lý Chúng sử dụng công cụ tách từ tiếng Việt tác giả Trần Ngọc Anh (Tran et al., 2015) Ngoài ra, bước gãn nhãn từ loại cho từ câu, sử dụng công cụ RDRPOSTagger Nguyễn Quốc Đại cộng (Nguyen et al., 2014) 4.3.3 Đánh giá kết Chúng sử dụng độ đo Rouge (Chin-Yew, 2004) trình bày Chương trình đánh giá tự động nhóm tác giả cung cấp trang web nhóm tác giả1 Trong thực nghiệm sử dụng độ đo ROUGE - (N=1) http://www.berouge.com/Pages/default.aspx 4.4 Kết 4.4 23 Kết Dưới kết thực nghiệm đối thực nghiệm mô tả số ví dụ kết tóm tắt văn bản: Bảng 4.3: Kết đánh giá sử dụng độ đo ROUGE-1 Recall Precision F1 0.78964 0.68215 0.68576 Khi phân tích với nhóm văn tập liệu, nhận kết sau, với nhóm Chính Trị, kết trình bày bảng 4.4, kết nhóm Khoa học Công nghệ trình bày nhóm 4.5, kết nhóm Khoa học giáo dục trình bày bảng 4.6, kết nhóm Kinh tế trình bày bảng 4.7, kết nhóm Văn Hóa trình bày bảng 4.8 kết nhóm Xã hội trình bày bảng 4.9 Bảng 4.4: Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Chính trị Recall Precision F1 0.72719 0.78416 0.73229 Bảng 4.5: Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Khoa học Công nghệ Recall Precision F1 0.64832 0.85406 0.70944 Bảng 4.8: Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Văn hóa Recall Precision F1 0.90056 0.44334 0.55401 Bảng 4.9: Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Xã hội Recall Precision F1 0.82404 0.66409 0.6941 Có thể thấy với lĩnh vực văn khác nhau, kết chênh lệch nhiều, lý giải cho điều này, nhận thấy tùy vào lĩnh vực 4.4 Kết 24 Bảng 4.6: Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Khoa học Giáo dục Recall Precision F1 0.75792 0.74724 0.71576 Bảng 4.7: Kết đánh giá sử dụng độ đo ROUGE-1 với nhóm Kinh tế Recall Precision F1 0.81754 0.67327 0.71167 văn bản, số lượng từ xuất mạng từ ảnh hưởng tới chất lượng xích từ vựng Với lĩnh vực mà văn có chứa nhiều từ xuất mạng từ tiếng Việt, chất lượng độ xác precision tăng lên Dưới số ví dụ Với văn đầu vào: Việt Nam-Philippines cam kết phối hợp giải tranh chấp Biển Đông Nhận lời mời Bộ trưởng Ngoại giao Philippines Albert F Del Rosario, hai ngày 31/7 1/8, Bộ trưởng Ngoại giao Phạm Bình Minh thăm Philippines đồng chủ trì Kỳ họp lần thứ Ủy ban hợp tác song phương Việt Nam - Philippines Tham dự kỳ họp có Đại sứ Việt Nam Philippines, Đại sứ Philippines Việt Nam đại diện bộ, ngành hai nước Tại kỳ họp, hai bên thảo luận lĩnh vực hợp tác song phương bao gồm trị, quốc phòng-an ninh, biển-đại dương, kinh tế, thương mại, nông-lâm-ngư nghiệp, khoa học-công nghệ-môi trường, an ninh lượng, văn hóa-thể thao-du lịch, giáo dục-đào tạo, nguồn nhân lực-phúc lợi xã hội phát triển, thông tin-truyền thông, hợp tác vấn đề khu vực quốc tế Hai bên rà soát, đánh giá kết triển khai thỏa thuận Kỳ họp lần thứ tổ chức Hà Nội tháng 10/2011 trình thực Chương trình Hành động Việt Nam-Philippines 2011-2016, đồng thời đề nhiều phương hướng biện pháp thúc đẩy hợp tác lĩnh vực cụ thể thời gian tới Hai bên đánh giá cao kết chuyến thăm Việt Nam Tổng thống Benigno S Aquino hồi tháng 10/2010 chuyến thăm Philippines Chủ tịch nước Trương Tấn Sang tháng 10/2011; trí tiếp tục trì chuyến thăm cấp cao cấp giao lưu nhân dân nhằm tăng cường hiểu biết tin cậy lẫn Hai bên đánh giá hợp tác an ninh-quốc phòng ngày tăng cường; trí tiếp tục triển khai Thỏa thuận Hợp tác quốc phòng, Bản Ghi nhớ Tăng cường liên lạc chia sẻ thông tin hải quân hai nước Bản Thoả thuận thiết lập đường 4.4 Kết 25 dây nóng Cảnh sát Biển Việt Nam Lực lượng Phòng vệ Bờ biển Philippines; hợp tác chặt chẽ nhằm đối phó với thách thức an ninh phi truyền thống Hai bên cho hợp tác biển đại dương trụ cột quan hệ song phương; hài lòng trước kết tích cực đạt thời gian qua, có việc thành lập Ủy ban Hỗn hợp Biển Đại dương cấp Thứ trưởng Ngoại giao Nhóm chuyên gia pháp lý vấn đề biển; coi chế song phương hữu hiệu để thúc đẩy đối thoại hợp tác vấn đề liên quan đến biển Hai bên thảo luận cách thức triển khai hiệu Thỏa thuận Hợp tác ứng phó Sự cố tràn dầu Thỏa thuận Hợp tác Tìm kiếm cứu nạn Hai bên đánh giá cao việc kim ngạch thương mại hai chiều tăng trưởng hàng năm, đặc biệt năm 2012 đạt gần tỷ USD; trí thúc đẩy để đạt mục tiêu cao năm tới Hai bên hoan nghênh việc ký Thỏa thuận Cung ứng gạo giai đoạn 2014-2016; trí thúc đẩy đàm phán hoàn tất Nghị định thư Hợp tác Nông nghiệp để thay cho Thỏa thuận Hợp tác Nông nghiệp năm 1999 triển khai có hiệu Thỏa thuận Hợp tác Nghề cá, trọng phát triển hợp tác nghiên cứu nuôi trồng thủy sản; phối hợp xử lý vấn đề liên quan đến ngư dân tàu thuyền xâm phạm vùng biển tinh thần nhân đạo quan hệ hữu nghị Hai bên thỏa thuận tăng cường hợp tác lĩnh vực khác an ninh lượng, văn hóa, du lịch, giáo dục-đào tạo, khoa học-công nghệ-môi trường, phúc lợi xã hội phát triển Hai bên bày tỏ hài lòng hợp tác tốt đẹp Việt Nam Philippines diễn đàn khu vực quốc tế, khuôn khổ ASEAN Liên hợp quốc; cam kết phối hợp chặt chẽ với với thành viên khác xây dựng Cộng đồng ASEAN vào năm 2015 đề cao vai trò trung tâm ASEAN giải vấn đề khu vực Trao đổi Biển Đông, hai bên nhấn mạnh nguyên tắc trì hòa bình, ổn định, an toàn an ninh hàng hải; tôn trọng luật pháp quốc tế, Công ước Liên hợp quốc Luật biển 1982 (UNCLOS) Tuyên bố cách ứng xử bên Biển Đông (DOC); hoan nghênh Tuyên bố điểm ASEAN Biển Đông; khẳng định phối hợp thúc đẩy việc sớm hoàn tất Bộ Quy tắc Ứng xử Biển Đông (COC) Kết thúc Kỳ họp, Bộ trưởng Bộ Ngoại giao Việt Nam Phạm Bình Minh Bộ trưởng Bộ Ngoại giao Philippines Albert F Del Rosario ký Biên Thỏa thuận trí tổ chức Kỳ họp lần thứ Ủy ban hợp tác song phương Việt Nam năm 2015 Văn tham chiếu: Nhận lời mời Bộ trưởng Ngoại giao Philippines Albert F.Del Rosario, 4.4 Kết 26 hai ngày 31/7 1/8, Bộ trưởng Ngoại giao Phạm Bình Minh thăm Philippines đồng chủ trì Kỳ họp lần thứ Ủy ban hợp tác song phương Việt Nam - Philippines Tham dự kỳ họp có Đại sứ Việt Nam Philippines, Đại sứ Philippines Việt Nam đại diện bộ, ngành hai nước Hai bên thảo luận lĩnh vực hợp tác song phương bao gồm trị, quốc phòng-an ninh, biển-đại dương, kinh tế, thương mại, nông-lâm-ngư nghiệp, khoa học-công nghệ-môi trường, an ninh lượng, văn hóa-thể thao-du lịch, giáo dục-đào tạo, nguồn nhân lực-phúc lợi xã hội phát triển, thông tin-truyền thông, hợp tác vấn đề khu vực quốc tế Khi tóm tắt văn với tỉ lệ số câu 30% với phương pháp sử dụng xích từ vựng, thu kết sau: Việt Nam-Philippines cam kết phối hợp giải tranh chấp Biển Đông Hai bên đánh giá cao kết chuyến thăm Việt Nam Tổng thống Benigno S Aquino hồi tháng 10/2010 chuyến thăm Philippines Chủ tịch nước Trương Tấn Sang tháng 10/2011; trí tiếp tục trì chuyến thăm cấp cao cấp giao lưu nhân dân nhằm tăng cường hiểu biết tin cậy lẫn Hai bên bày tỏ hài lòng hợp tác tốt đẹp Việt Nam Philippines diễn đàn khu vực quốc tế, khuôn khổ ASEAN Liên hợp quốc; cam kết phối hợp chặt chẽ với với thành viên khác xây dựng Cộng đồng ASEAN vào năm 2015 đề cao vai trò trung tâm ASEAN giải vấn đề khu vực Trao đổi Biển Đông, hai bên nhấn mạnh nguyên tắc trì hòa bình, ổn định, an toàn an ninh hàng hải; tôn trọng luật pháp quốc tế, Công ước Liên hợp quốc Luật biển 1982 (UNCLOS) Tuyên bố cách ứng xử bên Biển Đông (DOC); hoan nghênh Tuyên bố điểm ASEAN Biển Đông; khẳng định phối hợp thúc đẩy việc sớm hoàn tất Bộ Quy tắc Ứng xử Biển Đông (COC) Văn đầu vào: Tăng cường ngăn chặn gia cầm nhập lậu Với chức quan thường trực đề án "Phòng ngừa, ngăn chặn vận chuyển kinh doanh gia cầm, sản phẩm gia cầm nhập trái phép", Phòng Cảnh sát phòng chống tội phạm môi trường (PCTPMT) Công an tỉnh Lạng Sơn xây dựng kế hoạch mở cao điểm, tập trung đấu tranh ngăn chặn hoạt động nhập lậu gia cầm, vận chuyển, kinh doanh gia cầm không rõ nguồn gốc Đơn vị thành lập tổ công tác, huy động 50% quân số tăng cường kiểm soát liên tục tuyến, góp phần nhiều lực lượng khác đấu tranh ngăn chặn nên đến thời điểm này, thực trạng buôn bán, vận chuyển gia cầm nhập lậu Công an tỉnh Lạng Sơn kiểm soát chặt chẽ Giám 4.4 Kết 27 đốc Công an tỉnh Lạng Sơn đạo công an huyện biên giới đẩy mạnh biện pháp nghiệp vụ, lập hồ sơ đối tượng có biểu hoạt động buôn bán gia cầm nhập lậu để quản lý giáo dục, tuyên truyền đến hộ dân thường xuyên tham gia vận chuyển gia cầm ký cam kết không vi phạm Thượng tá Hoàng Văn Nguyên, Phó Trưởng phòng Cảnh sát PCTP môi trường Công an tỉnh Lạng Sơn cho biết: "Do lực lượng đấu tranh mạnh, nên hoạt động đối tượng mua bán, vận chuyển gà nhập lậu qua tuyến biên giới Cao Lộc, Văn Lãng, Tràng Định (Lạng Sơn) kiểm soát Tuy nhiên, dấu hiệu lút vận chuyển qua số đường mòn khu vực biên giới Việt - Trung thuộc địa bàn huyện Lộc Bình" Đáng ý, loại gia cầm sống khó lọt vào nội địa nhiều tầng kiểm soát lực lượng chức năng, đối tượng thay đổi phương thức vận chuyển cách đưa chim bồ câu thịt sẵn đóng vào thùng xốp, bọc bên thùng carton, theo xe khách để vận chuyển vào sâu nội địa Ngày 16-4 vừa qua, km số 38 - Quốc lộ 1A, Công an tỉnh Lạng Sơn kiểm tra xe ôtô khách (BKS: 12B - 000.04) Nguyễn Xuân Quý, SN 1971, trú thị trấn Lộc Bình, tỉnh Lạng Sơn điều khiển, phát xe có thùng xốp chứa 74kg bồ câu thịt sẵn số hàng hóa khác có xuất xứ từ Trung Quốc, giấy tờ chứng minh nguồn gốc giấy tờ kiểm dịch theo quy định Nhằm đấu tranh ngăn chặn có hiệu nguồn gia cầm nhập lậu, xác định nguyên nhân lây nhiễm chủng virus cúm A, có xuất xứ từ Trung Quốc, Công an tỉnh Lạng Sơn tiếp tục đẩy mạnh biện pháp kiểm soát chặt chẽ từ biên giới Tham mưu cho cấp ủy, quyền xã biên giới tổ chức tuyên truyền, ký cam kết không vi phạm chứa chấp, vận chuyển gia cầm nhập lậu nhân dân Văn tham chiếu: Tăng cường ngăn chặn gia cầm nhập lậu Với chức quan thường trực đề án "Phòng ngừa, ngăn chặn vận chuyển kinh doanh gia cầm, sản phẩm gia cầm nhập trái phép", Phòng Cảnh sát phòng chống tội phạm môi trường (PCTPMT) Công an tỉnh Lạng Sơn xây dựng kế hoạch mở cao điểm, tập trung đấu tranh ngăn chặn hoạt động nhập lậu gia cầm, vận chuyển, kinh doanh gia cầm không rõ nguồn gốc Giám đốc Công an tỉnh Lạng Sơn đạo công an huyện biên giới đẩy mạnh biện pháp nghiệp vụ, lập hồ sơ đối tượng có biểu hoạt động buôn bán gia cầm nhập lậu để quản lý giáo dục, tuyên truyền đến hộ dân thường xuyên tham gia vận chuyển gia cầm ký cam kết không vi phạm Nhằm đấu tranh ngăn chặn có hiệu nguồn gia cầm nhập lậu, xác định nguyên nhân lây nhiễm chủng virus cúm A, có xuất xứ từ Trung Quốc, Công an tỉnh 4.4 Kết 28 Lạng Sơn tiếp tục đẩy mạnh biện pháp kiểm soát chặt chẽ từ biên giới Tham mưu cho cấp ủy, quyền xã biên giới tổ chức tuyên truyền, ký cam kết không vi phạm chứa chấp, vận chuyển gia cầm nhập lậu nhân dân Khi tóm tắt văn với tỉ lệ số câu 30% với phương pháp sử dụng xích từ vựng, thu kết sau: Giám đốc Công an tỉnh Lạng Sơn đạo công an huyện biên giới đẩy mạnh biện pháp nghiệp vụ , lập hồ sơ đối tượng có biểu hoạt động buôn bán gia cầm nhập lậu để quản lý giáo dục , tuyên truyền đến hộ dân thường xuyên tham gia vận chuyển gia cầm ký cam kết không vi phạm Đơn vị thành lập tổ công tác , huy động 50% quân số tăng cường kiểm soát liên tục tuyến , góp phần nhiều lực lượng khác đấu tranh ngăn chặn nên đến thời điểm , thực trạng buôn bán , vận chuyển gia cầm nhập lậu Công an tỉnh Lạng Sơn kiểm soát chặt chẽ Thượng tá Hoàng Văn Nguyên , Phó Trưởng phòng Cảnh sát PCTP môi trường Công an tỉnh Lạng Sơn cho biết : " Do lực lượng đấu tranh mạnh , nên hoạt động đối tượng mua bán , vận chuyển gà nhập lậu qua tuyến biên giới Cao Lộc , Văn Lãng , Tràng Định ( Lạng Sơn ) kiểm soát Nhằm đấu tranh ngăn chặn có hiệu nguồn gia cầm nhập lậu , xác định nguyên nhân lây nhiễm chủng virus cúm A , có xuất xứ từ Trung Quốc , Công an tỉnh Lạng Sơn tiếp tục đẩy mạnh biện pháp kiểm soát chặt chẽ từ biên giới Có thể thấy văn tóm tắt chưa hoàn toàn sát với văn tóm tắt người làm Nguyên nhân đến từ hai phía: • Xích từ vựng chưa hoàn toàn xác • Cách áp dụng xích từ vựng chưa phù hợp với tiếng Việt Ở nguyên nhân đầu tiên, phải kể đến chất lượng công cụ tách từ số lượng từ vựng bao phủ mạng từ tiếng Việt Bản thân mạng từ tiếng Việt sử dụng luận văn chưa phải phiên đầy đủ hoàn thiện, đó, số lượng từ vựng bao phủ chiếm tỉ lệ định đảm bảo toàn từ tiếng Việt xuất mạng từ Ngoài ra, tiếp cận mình, sử dụng từ gán nhãn danh từ công cụ tách từ tự động để phân tách từ, chất lượng tách từ gán nhãn cú pháp phần ảnh hưởng đến số lượng xích từ vựng văn Ở nguyên nhân thứ hai, chưa thấy nhiều nghiên cứu nói xích từ 4.4 Kết 29 vựng tiếng Việt, tiếp cận phần dựa vào tư chủ quan chưa hoàn toàn phù hợp với tiếng Việt Chúng sâu vào việc phân tích nghiên cứu công việc tương lai Chương KẾT LUẬN 5.1 Các công việc làm Trong luận văn đạt điểm sau: • Tìm hiểu phương pháp tiếp cận toán tóm tắt văn tự động • Tìm hiểu kiến thức tổng quan mạng từ tiếng Anh, mạng từ tiếng Việt số mạng từ giới • Tìm hiểu phương pháp tóm tắt văn dựa xích từ vựng 5.2 Hướng nghiên cứu tương lai Khi áp dụng xích từ vựng vào tóm tắt văn tiếng Việt, gặp phải nhược điểm tốc độ thực thi chương trình, dự kiến nghiên cứu cách thức để làm thuật toán thực thi nhanh Với tình hình phát triển công nghệ phân tán nay, có thêm lựa chọn để giúp thuật toán hoạt động hiệu ứng dụng thực tế cách • Sử dụng kiến trúc phân tán để tăng tốc độ cho trình tóm tắt văn • Sử dụng phiên đầy đủ mạng từ tiếng Việt để phân tích xác hiệu tác động phương pháp tóm tắt văn tiếng Việt có sử dụng xích từ vựng 30 5.2 Hướng nghiên cứu tương lai 31 • Sử dụng xích từ vựng kết hợp với phương pháp khác để tóm tắt văn theo hướng tóm lược Ngoài nghiên cứu đến toán ứng dụng công nghệ thông tin khác có sử dụng thông tin tóm tắt văn Tài liệu tham khảo Nguyễn Nhật An Nghiên cứu, phát triển kỹ tuật tự động tóm tắt văn tiếng Việt Luận án Tiến sĩ toán học, Viện khoa học công nghệ quân sự, 2014 Baeza-Yates, Ricardo, and Berthier Ribeiro-Neto Modern Information Retrieval Addison Wesley, 1999 Regina Barzilay and Michael Elhadad Using lexical chains for text summarization In ACLIntelligent Scalable Text Summarization 1997, pages 10–17, 1997 P B Baxendale Machine-made index for technical literature: an experiment In IBM Journal of Research and Development 2, pages 354–361, 1958 Jaime G Carbonell and Jade Goldstein The use of mmr, diversity-based reranking for reordering documents and producing summaries In SIGIR, pages 335–336, 1998 Lin Chin-Yew Rouge: a package for automatic evaluation of summaries In n Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, 2004 H Edmundson New methods in automatic abstracting Journal of ACM, 16 (2), 1969 Thanh-Le Ha, Quyet-Thang Huynh, and Chi-Mai Luong A primary study on summarization of documents in vietnamese In Proceeding of the First International Congress of the International Federation for Systems Research, Kobe, Japan, Nov 15-17, pages 234–239, 2005 E Hovy and C Lin Automatic Text Summarization in SUMMARIST (In I Mani and M T Maybury, editors, Advanced in automatic text summarization The MIT Press), 1999 Karel Jezek and Josef Steinberger Automatic Text Summarization Vaclav Snasel (Ed.), 2008 J Kupiec, J.O Pedersen, and F Chen A trainable document summarizer In In the proceedings of the 18th ACM SIGIR conference on research and development in information retrieval, pages 68–73, 1995 C-Y Lin and E.H Hovy Identifying topics by position In In Proceedings of the Applied Natural Language Processing Conference (ANLP-97), page 283–290, 1997 32 Bibliography 33 H.P Luhn The automatic creation of literature abstracts IBM Journal of Research and Development, 2(2), 1958 J Lyons Semantics vols New York: Cambridge University Press, 1977 Dat Quoc Nguyen, Dai Quoc Nguyen, Dang Duc Pham, and Son Bao Pham RDRPOSTagger: A Ripple Down Rules-based Part-Of-Speech Tagger In Proceedings of the Demonstrations at the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 17–20, Gothenburg, Sweden, April 2014 Association for Computational Linguistics URL http://www.aclweb.org/anthology/E14-2005 M.L Nguyen, Shimazu Akira, Xuan-Hieu Phan, Tu-Bao Ho, and Horiguchi Susumu Sentence extraction with support vector machine ensemble In Proceedings of the First World Congress of the International Federation for Systems Research: The New Roles of Systems Sciences For a Knowledge-based Society, 2005 Phuong-Thai Nguyen, Van-Lam Pham, Hoang-An Nguyen, Huy-Hien Vu, Thi-Thu-Ha Truong, and Ngoc-Anh Tran A two-phase approach for building vietnamese wordnet In The 8th Global Wordnet Conference, 2015 Tadashi Nomoto and Yuji Matsumoto A new approach to unsupervised text summarization In SIGIR, pages 26–34, 2001 Đỗ Phúc and Hoàng Kiếm Rút trích ý từ văn tiếng Việt Tạp chí Công nghệ Thông tin Truyền thông, 2004 Nguyen Quang-Uy, Pham Tuan-Anh, Truong Cong-Doan, and Nguyen Xuan-Hoai A study on the use of genetic programming for automatic text summarization In Fourth International Conference on Knowledge and Systems Engineering (KSE), 2012 Trương Quốc-Định and Nguyễn Quang-Dũng Một giải pháp tóm tắt văn tiếng Việt tự động Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông - Hà Nội, 2012 G Salton, A Singhal, C Buckley, and M Mitra Automatic text decomposition using text segments and text themes In In seventh ACM conference on Hypertext, pages 26–34, 1996 Lê Thanh-Hương Nghiên cứu số phương pháp tóm tắt văn tự động máy tính áp dụng cho tiếng Việt Báo cáo tổng kết đề tài khoa học công nghệ cấp bộ, Đại học Bách khoa Hà nội, 2014 Nguyễn Thị Thu-Hà Phát triển số thuật toán tóm tắt văn tiếng Việt sử dụng phương pháp học máy bán giám sát Luận án Tiến sĩ, học viện Kỹ thuật Quân sự, 2012 Bibliography 34 Ngoc Anh Tran, Phuong Thai Nguyen, Thanh Tinh Dao, and Hong Quan Nguyen Identifying reduplicative words for vietnamese word segmentation In Computing Communication Technologies - Research, Innovation, and Vision for the Future (RIVF), 2015 IEEE RIVF International Conference on, pages 77–82, Jan 2015 doi: 10.1109/RIVF.2015.7049878 M E Winston, R Chaffin, and D J Hermann A taxonomy of part-whole relations In Cognitive Science 11, pages 417–444, 1987 Bibliography 35 Copyright c 2015 by Kim Xuân Phúc Printed and bound by Kim Xuân Phúc Powered by TCPDF (www.tcpdf.org) [...]... 2.2 Bảng 2.1: Số loạt đồng nghĩa phân theo loại của mạng từ tiếng Việt Danh từ Động từ Tính từ Tổng 16785 9257 5725 31767 Bảng 2.2: Số lượng từ tiếng Việt chia theo từng loại Danh từ Động từ Số lượng từ tiếng Việt 45180 35066 Số lượng từ tiếng Việt khi loại bỏ trùng lặp và 33994 17121 không phân biệt viết hoa hay thường 2.3 trong mạng từ Tính từ 19772 10998 Sử dụng mạng từ tiếng Việt Chúng tôi sử dụng. .. phương pháp tóm tắt văn bản tiếng Việt dựa vào xích từ vựng, các thông tin từ vựng được lấy từ Wordnet tiếng Việt từ đề tài KC.01.20/11-15 do Phương-Thái và các cộng sự xây dựng theo (Nguyen et al., 2015) Chúng tôi sử dụng xích từ vựng như một thông tin độc lập để đánh giá độ quan trọng của các câu trong văn bản, từ đấy trích rút ra những câu quan trọng nhất để tạo ra một văn bản tóm tắt từ văn bản gốc... cứu ở luận văn này, chúng tôi sử dụng thư viện NLTK để phù hợp với việc tích hợp các công cụ khác vào chương trình 3 http://www.nltk.org/news.html Chương 3 Ứng dụng xích từ vựng trong tóm tắt văn bản Phần này chúng tôi sẽ trình bày những kiến thức về xích từ vựng, cách thức xây dựng xích từ vựng và cách sử dụng xích từ vựng vào tóm tắt văn bản 3.1 Xích từ vựng Xích từ vựng là một chuỗi các từ có liên... hợp của tóm tắt văn bản Ví dụ, từ một văn bản có 5 câu (1, 2, 3, 4, 5), ta tạo ra hai bản tóm tắt khác nhau Bản tóm tắt thứ nhất chứa các câu (1, 2, 5) và bản kia chứa các câu (1, 4, 5) Bản tóm tắt lý tưởng chứa các câu (1, 2, 5) Khi đánh giá bằng precision và recall, ta có thể quyết định bản tóm tắt đầu tiên tốt hơn bản thứ hai Nhưng quá trình tóm tắt cũng có tính chủ quan, nên có thể bản tóm tắt thứ... có thể đến từ hai phía: • Xích từ vựng chưa hoàn toàn chính xác • Cách áp dụng xích từ vựng như trên có thể chưa phù hợp với tiếng Việt Ở nguyên nhân đầu tiên, chúng ta phải kể đến chất lượng của công cụ tách từ và số lượng từ vựng bao phủ trong mạng từ tiếng Việt Bản thân mạng từ tiếng Việt chúng tôi sử dụng trong luận văn này chưa phải là phiên bản đầy đủ và hoàn thiện, do đó, số lượng từ vựng bao... tiếp cận tóm tắt văn bản tiếng Việt vẫn phần lớn dựa vào cấu trúc câu và chưa tận dụng được thông tin ngữ nghĩa giữa các từ trong câu Với bài toán tóm tắt văn bản tiếng Anh, Barzilay và Elhadad trong (Barzilay and Elhadad, 1997) đã sử dụng được thông tin ngữ nghĩa liên kết các từ trong câu (xích từ vựng) dựa theo Wordnet và đạt được những kết quả khả quan trong tóm tắt văn bản Trong luận văn này, chúng... trình tóm tắt văn bản của chúng tôi Trước tiên văn bản gốc sẽ được đi qua bước tiền xử lý, tại bước này, văn bản sẽ được tách từ và gán nhãn từ loại Sau đó, chúng tôi xây dựng các xích từ vựng có trong văn bản và xếp hạng độ quan trọng các câu trong văn bản dựa vào xích từ vựng này Cuối cùng, tùy thuộc vào tỉ lệ tóm tắt, chúng tôi đưa ra kết quả tương ứng 1.3 Giải pháp đề xuất Hình 1.1: Các bước tóm tắt. .. xích từ vựng 3.3 Sử dụng xích từ vựng Chúng tôi vừa trình bày cách xây dựng xích từ vựng theo tiếp cận của Barzilay và Elhadad trong (Barzilay and Elhadad, 1997), tuy nhiên công việc tiếp theo cần phải xử lý là tóm tắt văn bản dựa vào những xích từ vựng này Như chúng tôi đã đề cập ở trên, sau khi tạo xích từ vựng, chúng tôi lấy ra diễn giải mạnh nhất dùng để tóm tắt văn bản, và mỗi một xích từ vựng. .. ) gramn ∈S (4.5) Trong đó: n là độ dài n-gram S là bản tóm tắt hệ thống RSS là tập văn bản tóm tắt lý tưởng (tham chiếu) Countmatch (gramn ) là số lượng n-gram đồng xuất hiện lớn nhất giữa văn bản tóm tắt hệ thống và tập văn bản tóm tắt lý tưởng Count(gramn ) là số lượng n-gram trong văn bản tóm tắt lý tưởng Trong thực nghiệm của mình chúng tôi sử dụng độ đo ROUGE - 1 4.3 Thực nghiệm 4.3 4.3.1 22 Thực... suất từ TFxIDF, vị trí, từ tiêu đề, từ liên quan Các đặc trưng được kết hợp tuyến tính với nhau để tính trọng số mỗi câu trong văn bản gốc Đỗ Phúc, Hoàng Kiếm (Phúc and Kiếm, 2004) giới thiệu phương pháp trích rút các ý chính từ văn bản hỗ trợ tạo tóm tắt văn bản tiếng Việt dựa trên việc sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu của văn bản, dùng từ điển để tìm các dãy từ có ... Chương Ứng dụng xích từ vựng tóm tắt văn Phần trình bày kiến thức xích từ vựng, cách thức xây dựng xích từ vựng cách sử dụng xích từ vựng vào tóm tắt văn 3.1 Xích từ vựng Xích từ vựng chuỗi từ có... Mạng từ tiếng Việt đề tài KC.01.20/11-15 2.3 Sử dụng mạng từ tiếng Việt Ứng dụng xích từ vựng 3.1 Xích từ vựng 3.2 Xây dựng xích từ vựng 3.3 Sử dụng xích từ vựng tóm. .. kết từ câu (xích từ vựng) dựa theo Wordnet đạt kết khả quan tóm tắt văn Trong luận văn này, đề xuất phương pháp tóm tắt văn tiếng Việt dựa vào xích từ vựng, thông tin từ vựng lấy từ Wordnet tiếng

Ngày đăng: 06/04/2016, 19:02

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan