Luận văn xây dựng ứng dụng tóm lược tự động văn bản Tiếng Việt

89 876 2
Luận văn xây dựng ứng dụng tóm lược tự động văn bản Tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt KDD TFxIDF IR NLP SVM CFG CSDL POS RST 10 HMM Giải nghĩa Knowledge Discovery in Databases Phát tri thức sở liệu Term Frequency times Inverse Document Frequency Hệ thu thập thông tin Information Retrieval Natural Language Processing Xử lý ngôn ngữ tự nhiên Support Vector Machine Mô hình máy vector hỗ trợ Context Free Grammar Văn phạm phi ngữ cảnh Cơ sở liệu Part of Speech Từ loại Rhetorical Structure Theory Lý thuyết cấu trúc tu từ Hidden Markov Model STT Từ viết tắt Giải nghĩa Mô hình Markov ẩn DANH MỤC HÌNH VẼ MỤC LỤC DANH MỤC TỪ VIẾT TẮT .1 DANH MỤC HÌNH VẼ .3 MỤC LỤC LỜI NÓI ĐẦU Chương KHAI PHÁ VĂN BẢN 11 1.1 Khai phá liệu .11 1.2 Khai phá văn 12 1.3 Biểu diễn văn 13 1.3.1 Mô hình boolean 14 1.3.2 Mô hình không gian vector 14 a Mô hình không gian vector chuẩn 14 b Kỹ thuật TFxIDF 15 c Mô hình vector thưa mô hình không gian vector khác .16 1.3.3 Các mô hình biểu diễn văn khác 17 a Mô hình Xác suất 17 b Mô hình Mạng Bayes 17 c Mô hình tập thô dung sai 17 1.4 Các toán Khai phá văn điển hình .18 1.4.1 Bài toán Phân lớp văn 18 1.4.2 Bài toán Phân nhóm văn 18 1.4.3 Bài toán Đánh mục - Tìm kiếm 19 1.4.4 Bài toán Tóm tắt văn 20 1.5 Kết chương 20 Chương XỬ LÝ NGÔN NGỮ TỰ NHIÊN 21 2.1 Tổng quan Xử lý ngôn ngữ tự nhiên 21 2.2 Các vấn đề Xử lý ngôn ngữ tự nhiên 23 2.2.1 Phân tách thuật ngữ - Phân tách đoạn câu 23 2.2.2 Gán nhãn từ loại 24 2.2.3 Phân tích cú pháp 25 2.2.4 Phân tích ngữ nghĩa 26 2.3 Các đặc trưng ngôn ngữ tiếng Việt 26 2.3.1 Đặc trưng ngữ âm âm vị 26 2.3.2 Đặc trưng từ pháp hình thái .27 2.3.3 Đặc trưng ngữ pháp 28 2.4 Kết chương 29 Chương BÀI TOÁN TÓM TẮT VĂN BẢN 31 3.1 Giới thiệu chung .31 3.1.1 Tóm tắt văn ? .32 3.1.2 Các tiêu chí đánh giá 34 3.1.3 Phân loại toán Tóm tắt văn 35 3.2 Mô hình Tóm tắt văn .38 3.2.1 Mô hình chung .38 3.2.2 Các phương pháp áp dụng pha Phân tích 40 3.2.2.1 Phương pháp thống kê (Statistical Methods) .40 3.2.2.2 Phương pháp cấu trúc 41 3.2.2.3 Kết luận phương pháp pha Phân tích 43 3.2.3 Các phương pháp áp dụng pha Biến đổi 44 3.2.3.1 Giản lược cấu trúc câu ( Syntactic Condensation ) 44 3.2.3.2 Giản lược mặt ngữ nghĩa ( Semantic Condensation) .45 3.2.3.3 Kết luận phương pháp pha Biến đổi 47 3.2.4 Các phương pháp áp dụng pha Generation 48 3.2.4.1 Phương pháp hiển thị phân đoạn ( Segmental Display ) .48 3.2.4.2 Phương pháp Hiển thị 49 3.2.4.3 Kết luận phương pháp pha Hiển thị 49 3.3 Đánh giá kết tóm tắt 50 3.3.1 Đánh giá bên (Intrinsic Evaluation) .51 3.3.1.1 Độ chặt chẽ mạch lạc ( Coherence ) 51 3.3.1.2 Độ hàm chứa thông tin ( Informationess ) 51 3.3.2 Đánh giá bên ( Extrinsic Evaluation ) .51 3.3.2.1 Độ phù hợp ( Relevance ) .51 3.3.2.2 Độ dễ đọc dễ hiểu ( Reading Comprehence ) .51 3.3.3 So sánh đánh giá bên - bên 52 3.3.4 Các phương pháp đánh giá 52 3.3.4.1 Độ xác (Precision ) độ hồi tưởng (Recall) 52 3.3.4.2 Đánh giá độ tương tự nội dung (Content-based Similarity) 53 3.3.4.2 Độ tương quan phù hợp (Relevance Correlation) 53 3.3.6 Các hệ đánh giá ứng dụng tóm tắt văn 54 3.4 Một số hệ thống tóm tắt văn giới .54 3.5 Kết chương 56 Chương XÂY DỰNG ỨNG DỤNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT 58 4.1 Mô hình xây dựng ứng dụng 58 4.2 Cài đặt tiền xử lý văn tiếng Việt 60 4.2.1 Chuẩn hóa văn .60 4.2.2 Mô hình hóa văn 60 4.2.3 Tách thuật ngữ .61 4.3 Lựa chọn, cài đặt kĩ thuật sử dụng toán Tóm tắt .64 4.3.1 Các phương pháp pha Phân tích .64 a Phương pháp Title 65 b Phương pháp Heading 66 c Phương pháp NamedEntity - NE 67 d Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) 68 e Phương pháp Tần suất xuất thuật ngữ 68 f Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency) 69 4.3.2 Các phương pháp pha Biến đổi .70 4.3.2.1 Biến đổi nhờ vào rút gọn câu 70 4.3.2.2 Giản lược câu về mặt ngữ nghĩa 73 4.3.3 Các phương pháp pha Hiển thị 73 4.4 Kết chương 74 Chương KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG 75 5.1 Giao diện kết thực nghiệm 75 5.2 Tập kiểm thử 80 5.3 Kết kiểm thử đánh giá 81 5.3.1 Kiểm thử thuật toán tách term tiếng Việt 81 5.3.2 Kiểm thử thuật toán tách named Entity 82 5.3.3 Kiểm thử, đánh giá module chọn câu quan trọng 82 5.3.3.1 Phương pháp truyền thống 83 5.3.3.2 Phương pháp đánh giá theo độ tương tự nội dung .83 5.3.4 Kiểm thử đánh giá rút gọn câu 85 LỜI NÓI ĐẦU Hai thập kỷ gần đây, khắp nơi giới tràn ngập thông tin Chính phát triển nhanh chóng Công nghệ thông tin Truyền thông đem lại cho giới mặt Các ứng dụng Công nghệ thông tin - Truyền thông diện hầu hết ngành, lĩnh vực sống, kéo theo chúng thay đổi đáng kể Nền kinh tế tri thức, hợp tác toàn cầu, công việc quản lý, vận hành hoạt động từ vi mô tới vĩ mô doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc, trợ giúp ứng dụng tiêu biểu Công nghệ Thông tin Truyền thông Đặc biệt, đời Internet Mạng thông tin toàn cầu - coi nguyên nhân chính, thúc đẩy bùng nổ thông tin toàn giới Những lợi ích mà Internet mang lại lớn khiến phụ thuộc nhiều vào Những người biết sử dụng linh hoạt đắn lợi phần vượt lên thách thức kinh tế tri thức toàn cầu để thu thành công công việc sống Thông qua Internet, thông tin quý giá lĩnh vực sẵn sàng đợi khám phá lĩnh hội Trong giới thông tin đa dạng phong phú vậy, nhu cầu thu thập thông tin cần thiết, có giá trị đồng thời xử lý chúng thành dạng liệu mong muốn nhu cầu đáng cấp thiết nhân loại Lĩnh vực Công nghệ thông tin đáp ứng nhu cầu to lớn Khai phá liệu Khai phá liệu, vốn giai đoạn bảy giai đoạn trình Phát tri thức sở liệu, nhiên, giai đoạn yếu, nên thường đồng nhất, hay nói xác lấy Khai phá liệu làm đại diện cho trình Phát tri thức sở liệu Và vậy, Khai phá liệu hiểu trình lấy thông tin quan trọng từ dạng CSDL, biến đổi, xử lý chúng nhằm phục vụ mục đích cụ thể người Các phương pháp thường dùng Khai phá liệu phương pháp Trích chọn, Thống kê hay Phân loại Do phần lớn liệu dạng văn nên lĩnh vực nhỏ Khai phá văn quan tâm ý Và đồ án này, em xin đề cập tới Khai phá văn tiền đề cho việc giải toán Tóm tắt văn Khai phá liệu - Khai phá văn đời muộn đạt nhiều thành tựu đáng kể tất nhiên đóng góp nhiều cho ngành Khoa học máy tính Trên giới Việt Nam, vấn đề Khai phá văn tìm hiểu nghiên cứu xây dựng ứng dụng mang tính thực tiễn cao Tuy nhiên, nhiều vấn đề cần phải giải quyết, đặc biệt Việt Nam, Khai phá văn quan tâm tới khoảng chục năm trở lại Các toán điển hình Khai phá văn Phân lớp văn bản, Phân nhóm văn trình nghiên cứu, chưa có sản phẩm mang tính thương mại thị trường Một toán khác Khai phá văn Thu thập thông tin cài đặt thành ứng dụng tìm kiếm mạng máy tìm kiếm Netnam (PanVietNam) hay Tinh Vân (Vinaseek) Nhưng ứng dụng chưa đáp ứng đầy đủ cho nhu cầu to lớn Công nghệ thông tin Việt Nam Trong lĩnh vực Khai phá liệu trở thành đề tài nóng bỏng, cấp thiết gần bùng nổ thông tin toàn cầu ngành Khoa học máy tính, có lĩnh vực khác đời cách lâu, có nhiều thành tựu suốt trình phát triển Đó lĩnh vực Xử lý ngôn ngữ tự nhiên Mục đích Xử lý ngôn ngữ tự nhiên giúp cho máy tính người hiểu hơn, thuận tiện trình làm việc đem lại lợi ích tối đa cho người Thông qua giao tiếp thân thiện, dễ hiểu người máy, việc đưa Công nghệ thông tin thật vào đời sống nhân loại mục tiêu lớn mà Xử lý ngôn ngữ tự nhiên hướng tới Xử lý ngôn ngữ tự nhiên trình xử lý cho máy tính hiểu thông tin giống cách mà người hiểu thông tin thông qua khía cạnh ngôn ngữ bao hàm Theo định nghĩa Xử lý ngôn ngữ tự nhiên phần Trí tuệ nhân tạo - làm cho máy tính nắm bắt, thao tác, mô cách mà người thực Vì phương pháp Trí tuệ nhân tạo thường dùng lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với đặc trưng ngành ngôn ngữ học hình thái, ngữ pháp, ngữ nghĩa… Các toán điển hình Xử lý ngôn ngữ tự nhiên Trả lời tự động, Dịch máy, Sinh văn tự động, Kiểm tra tả… Như vậy, hai lĩnh vực Khai phá liệu Xử lý ngôn ngữ tự nhiên có nhiều điểm khác biệt sử dụng số phương pháp Trí tuệ nhân tạo Nói đến Khai phá liệu nói đến việc tìm thông tin quan trọng, thông tin mong muốn từ lượng lớn liệu, nói đến Xử lý ngôn ngữ tự nhiên nói đến việc máy tự phân tích hiểu khía cạnh ngôn ngữ thông tin cụ thể Tuy nhiên, có toán điển hình Khai phá liệu có sử dụng nhiều khái niệm, mô hình, phương pháp Xử lý ngôn ngữ tự nhiên, toán Tóm tắt văn Bài toán tóm tắt văn thật coi vấn đề Xử lý ngôn ngữ tự nhiên lần đề cập nghiên cứu cách nghiêm túc báo khoa học Luhn vào năm 1958 [17] tiếp Edminson vào năm 1969 [21] Như vậy, Tóm tắt văn đời trước có đời Khai phá văn ! Và Khai phá văn đời, dựa đặc điểm nó, người ta xếp Tóm tắt văn vào lĩnh vực mẻ Tóm tắt văn trình chắt lọc thông tin quan trọng từ nguồn để tạo ngắn gọn đáp ứng nhiệm vụ cụ thể người dùng cụ thể Tóm tắt văn làm nhiệm vụ chọn câu hàm chứa ý chính, câu quan trọng nên chất thuộc lĩnh vực Khai phá văn Tuy nhiên trình chắt lọc, rút gọn cần có áp dụng phương pháp Xử lý ngôn ngữ tự nhiên muốn kết văn dễ đọc, dễ hiểu mang ý nghĩa ngôn ngữ tự nhiên đầu vào Tóm tắt văn có nhiều ứng dụng ngành Công nghệ thông tin Ngôn ngữ học số ngành khác Trên giới có nhiều ứng dụng Tóm tắt văn bản, với mục đích nghiên cứu thương mại Mặc dù vậy, khó khăn thách thức riêng, Tóm tắt văn chưa nghiên cứu nhiều Việt Nam so với toán điển hình khác lĩnh vực Khai phá văn Chính lý em chọn Tóm tắt văn tiếng Việt đề tài đồ án tốt nghiệp, mong muốn góp phần công sức cho phát triển Khai phá văn tiếng Việt nói riêng Công nghệ thông tin Việt Nam nói chung Trong đồ án em muốn trình bày kết tìm hiểu toán Tóm tắt văn bước đầu xây dựng Ứng dụng tóm tắt văn tiếng Việt, sử dụng kết hợp phương pháp Khai phá văn Xử lý ngôn ngữ tự nhiên có xét tới đặc trưng ngôn ngữ tiếng Việt Đồ án gồm phần sau : Chương Trình bày lĩnh vực Khai phá liệu nói chung Khai phá văn nói riêng, vấn đề mô hình hóa văn đề cập sơ qua số toán Khai phá văn điển hình Chương Trình bày lĩnh vực Xử lý ngôn ngữ tự nhiên, vấn đề chung Xử lý ngôn ngữ tự nhiên, đặc trưng ngôn ngữ tiếng Việt vấn đề riêng xử lý tự động văn tiếng Việt Chương Trình bày vấn đề toán Tóm tắt văn bản, bao gồm mô tả khái niệm chung phân loại toán Tóm tắt văn bản, lịch sử phát triển ứng dụng Tóm tắt văn bản, mô hình chung phương pháp xây dựng ứng dụng Tóm tắt văn bản… Chương Trình bày việc thiết kế xây dựng ứng dụng tóm lược văn tiếng Việt VTAS dựa số phương pháp phương pháp nêu chương Ngoài chương này, cài đặt tiền xử lý văn em đề cập đến với nét so với công việc tương tự trước số nhà nghiên cứu lĩnh vực Khai phá văn tiếng Việt Chương Trình bày việc kiểm thử đánh giá ứng dụng VTAS, kết thực nghiệm chương trình Sau phần kết luận hướng phát triển tới đề tài Cuối phần tài liệu tham khảo phụ lục đồ án 10 Chương KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG Trong chương em xin trình bày phần sau :  Kết thử nghiệm VTAS  Giao diện giao diện kiểm thử chương trình  Đánh giá truyền thống dựa độ xác độ hồi tưởng  Đánh giá dựa theo độ phù hợp nội dung 5.1 Giao diện kết thực nghiệm VTAS em xây dựng môi trường NET ngôn ngữ C# Đây ngôn ngữ có khả xử lý sở liệu phẳng cách nhanh chóng, đối tượng cấu trúc liệu có sẵn C# DictionaryBase, HashTable, ArrayList… có chể quản lý tìm kiếm truy xuất phần tử tối ưu, linh hoạt, thích hợp cho toán Khai phá văn Cơ sở liệu chương trình sở liệu phẳng, gồm file *.txt Điều cho phép dễ dàng truy nhập sửa đổi thêm bớt liệu Sau giao diện VTAS 75 Hình 5.1: Giao diện Với mục đích phục vụ nghiên cứu, cài đặt ứng dụng em cài đặt chức kiểm thử đơn vị, tập hợp thành form riêng Sau hình ảnh form này: 76 Hình 5.2: Giao diện kiểm thử Các kết trung gian mô hình hoá văn bản, tách đoạn, phân tách thuật ngữ văn theo dõi trực quan dễ dàng thống kê, kiểm thử Kết pha Phân tích Biến đổi hiển thị thông qua form 77 Hình 5.3: Giao diện phân tách đoạn câu 78 Hình 5.4: Giao diện phân tách thuật ngữ đoạn 79 Hình 5.5: Kết thực thi phương pháp TFxIDF 5.2 Tập kiểm thử Việc kiểm thử hệ thống tách thành việc kiểm thử module thành phần, bao gồm module sau : tách term tiếng việt, tách named entity, chọn câu quan trọng sát với ý văn bản, rút gọn câu Trong module chọn câu quan trọng (Kết pha Phân tích) quan trọng định độ xác toàn ứng dụng Ứng dụng kiểm thử dựa tập liệu tin thuộc nhiều thể loại báo điện tử VnExpress (http://www.vnexpress.net/) Thông số tập kiểm thử : 500 văn thuộc thể loại : Du lịch : 86 văn bản, kích thước trung bình KB Giáo dục : 65 văn bản, kích thước trung bình KB Kinh doanh : 65 văn bản, kích thước trung bình KB Ô tô - Xe máy : 48 văn bản, kích thước trung bình 4,7 KB Pháp luật : 70 văn bản, kích thước trung bình 3,5 KB Sức khoẻ : 76 văn bản, kích thước trung bình KB 80 Thể thao : 40 văn bản, kích thước trung bình 7.5 KB Vi tính : 50 văn bản, kích thước trung bình 4.3 KB Thông số danh sách thuật ngữ Số thuật ngữ có danh sách : 70350 từ Độ dài thuật ngữ dài : 39 ký tự Thông số danh sách từ dừng Số từ dừng có danh sách : 1053 từ Độ dài từ dừng dài : 24 kí tự Với tập kiểm thử trên, em lấy ngẫu nhiên số lượng văn phục vụ cho lần kiểm thử khác Kết kiểm thử trình bày phần sau Các lý thuyết đánh giá kiểm thử ứng dụng Tóm tắt em nêu chương 3, phần Đánh giá tóm tắt 5.3 Kết kiểm thử đánh giá 5.3.1 Kiểm thử thuật toán tách term tiếng Việt - Lấy văn thuộc thể loại khác từ tập kiểm thử, cho qua phân tách thuật ngữ với danh sách thuật ngữ nêu trên, kết phân tách sau : STT Tên văn Lớp Số lỗi sai tách chuỗi từ trái qua Số lỗi sai tách chuỗi từ phải qua Du lịch 1 Giáo dục Kinh doanh 1 Ấn tượng Hoàng Sơn Chính phủ lập Ban đạo đánh giá chất lượng giáo dục Cổ phiếu Bảo Minh đắt giá Khen thưởng cảnh sát giao thông không nhận hối lộ Pháp luật Lysine - vi chất quan trọng dễ bị thiếu hụt Sức khoẻ Khai mạc diễn đàn CNTT Việt Nam 2004 Vi tính 0 Đánh giá : Qua ta thấy áp dụng thuật toán tách thuật ngữ theo độ dài từ dài từ trái qua không hiệu từ phải qua, độ phức tạp tính toán hai thuật toán 81 5.3.2 Kiểm thử thuật toán tách named Entity - Lấy văn thuộc thể loại khác từ tập kiểm thử, cho qua phát Named Entity, kết phân tách sau : STT Tên văn Kết Lớp Số NE tách đúng/tổng số NE phần trăm Du lịch 16/16 100% Giáo dục 8/8 100% Kinh doanh 25/27 92.6% Thăm biển Cù Mông Các môn thi ngày thi tốt nghiệp THCS, THPT thức Vụ kiện tôm đe doạ tới xuất Mỹ TP HCM: Án loại tăn Pháp luật 11/12 91.7% Viêm não cấp xuất nhiều địa phương Sức khoẻ 14/14 100% Bill Gates bênh vực nỗ lực vá lỗi Microsoft Vi tính 29/33 87.9% Đánh giá : Bộ phát named entity thường cho kết cao phân tách văn có nội dung tiếng Việt Độ xác giảm phải đoán nhận văn có tên riêng nhiều tiếng nước Tuy vậy, kết đạt cao 5.3.3 Kiểm thử, đánh giá module chọn câu quan trọng Đây phần kiểm thử quan trọng Từ tập kiểm thử em chọn 10 văn Các phương pháp đánh giá áp dụng với mức độ nén 10%, 20%, 30%, 40%,50% Mức độ nén tính xấp xỉ theo tỉ lệ số câu Các phương pháp tóm tắt ứng dụng trích rút dùng : • Baseline : Mỗi văn tóm tắt tạo việc nối theo thứ tự tự nhiên câu đầu đoạn văn Tất câu đầu đoạn chọn nên phương pháp Baseline áp dụng độ nén cố định • Human : Đây tập tóm tắt dựng nên bạn sinh viên chuyên gia ngôn ngữ Đầu tiên họ chọn số lượng câu quan trọng, sát với ý văn Sau chọn, họ xếp xem câu câu quan trọng nhất, câu câu quan trọng thứ hai, hết số câu vừa chọn Tiêu chí lựa chọn họ tự xây dựng 82 • MSSum : Đây tập tóm tắt dựng nên công cụ Auto Summarize Microsoft Word 2002 Auto Summarize ứng dụng trích rút sinh tiêu đề dựa phương pháp thống kê, không bị ảnh hưởng nhiều vào ngôn ngữ thể loại văn • VTAS : Kết trả từ module trích rút VTAS với độ nén khác tổ hợp tuyến tính “chiến lược” tóm tắt khác Với tập kết trên, em đánh giá ứng dụng dựa phương pháp đánh sau 5.3.3.1 Phương pháp truyền thống Sử dụng tiêu chí độ xác độ hồi tưởng, đánh giá phương pháp Baseline, MSSum va VTAS với kết Human người thực Vì chọn độ nén câu cho lần đánh giá nên dễ dàng thấy F = P = R, ghi lại điểm F mà Điểm F phương pháp trung bình cộng điểm F văn Kết kiểm thử phương pháp truyền thống thu sau : Độ rút gọn 10% 20% 30% Baseline 0.783 0.302 0.219 40% 50% - - MSSum 0.921 0.605 0.595 0.650 0.627 VTAS 0.863 0.543 0.754 0.698 0.601 Đánh giá : Qua kết trên, ta thấy tiếng Việt, VTAS tóm tắt tốt, trả MS Summary Microsoft Word 2002 chút Điều có lẽ VTAS sử dụng tài nguyên tiếng Việt, cách tiếp cận tiếng Việt Phương pháp lấy câu đầu đoạn có độ xác Khi ta tăng từ 10%  50% độ rút gọn độ xác bị ảnh hưởng lớn phương pháp Baseline, hai phương pháp không bị ảnh hưởng (không thấy rõ xu hướng tăng hay giảm) Việc giải thích Khi độ rút gọn tăng, xu hướng liên kết câu đầu đoạn yếu 5.3.3.2 Phương pháp đánh giá theo độ tương tự nội dung Ở đây, sử dụng công thức Cosine cho M VTAS mô hình hoá văn dạng vector S văn VTAS sinh Tập đánh giá J=Human Như công thức xác định độ tương tự nội dung : 83 n ∑ S ⋅ Ji j j j =1 Sim( M , S , Ji ) = cos( S , Ji ) = n ∑ (S ) j n ∑ ( Ji ) ⋅ j j =1 , i = 1, m j =1 Trong m số văn tập đánh giá J Kết thực nghiệm 10 văn sau : Độ rút gọn 10% 20% 30% 40% 50% 1 0.12 0.16 0.12 0.11 0.12 0.10 0.08 0.07 0.30 0.13 0.10 0.08 0.07 0.11 0.12 0.08 0.09 0.13 0.10 0.13 0.06 0.09 0.12 0.14 0.07 0.07 0.12 0.14 0.07 0.06 0.10 0.12 0.10 0.08 0.15 0.11 0.14 0.07 0.06 10 0.11 0.12 0.07 0.08 Đánh giá : Với độ rút gọn nhỏ, VTAS cho kết cao VTAS ưu tiên câu Title - cần có Title Title đưa vào tóm tắt, giống cách người tóm tắt Với độ rút gọn cao hơn, mức độ gần gũi mặt nội dung kết VTAS kết người thực giảm Qua đây, em thấy cần phải có thêm cách đánh giá khác mặt nội dung Em không dùng phương pháp đánh giá bên cho VTAS ứng dụng tóm tắt đơn văn chung chung, không tìm kiếm theo truy vấn 84 5.3.4 Kiểm thử đánh giá rút gọn câu Đối với VTAS, phương pháp rút gọn câu không làm ảnh hưởng tới độ xác toàn ứng dụng, mười câu lấy từ tập kiểm thử rút gọn tính toán độ nén theo độ dài câu Kết sau STT Câu Số kí tự Giám đốc WHO khu vực Tây Thái Binh Dương, ông Shigeru Omi, kêu gọi nước xem xét lại tiêu chuẩn an toàn sinh học sau đợt phát dịch SARS Trung Quốc 174 Giám đốc WHO khu vực Tây Thái Binh Dương kêu gọi nước xem xét lại tiêu chuẩn an toàn sinh học sau đợt phát dịch SARS Trung Quốc 151 Hấp dẫn ánh sáng, mực tập trung ánh đèn măng-sông 58 Mực tập trung ánh đèn măng-sông 36 Hai phần mềm dự thi (Quản lý học sinh học nghề Thận Quản lý thư viện Dương) đưa hai giải khuyến khích cá nhân 126 Hai phần mềm dự thi đưa hai giải khuyến khích cá nhân 59 Với mục đích nâng cao tinh thần trách nhiệm giáo viên học sinh, Bộ khuyến khích thày cô giáo tự đề cho học sinh lớp dạy để có đánh giá xác 176 Bộ khuyến khích thày cô giáo tự đề cho học sinh lớp để có đánh giá xác 96 Tại định ngày 5/7, Đoàn Luật sư kết luận đơn tố cáo bị can Nguyễn Minh Phong hành vi chạy án ông Chiến (được thuê bảo vệ quyền lợi cho Phong vụ án đánh bạc) vững 208 Đoàn Luật sư kết luận đơn tố cáo bị can Nguyễn Minh Phong hành vi chạy án ông Chiến vững 120 Cảnh sát hình Công an thành phố Đà Lạt vừa bắt tang Ngô Việt Trung (nguyên thủ môn đội bóng đá Lâm Đồng) ghi độ bóng đá cho hai người chơi nhà 158 Cảnh sát hình Công an thành phố Đà Lạt vừa bắt tang Ngô Việt Trung ghi độ bóng đá cho hai người chơi nhà 120 85 10 Trưởng khoa Khám bệnh, bác sĩ Nguyễn Thanh Giảng, cho biết ca mổ phức tạp bệnh nhân mười hai tuổi, nặng 19 kg chậm phát triển 143 Trưởng khoa Khám bệnh cho biết ca mổ phức tạp bệnh nhân mười hai tuổi, nặng 19 kg chậm phát triển 115 Ngoài ra, nguồn cho thận khó khăn (thường người nhà bệnh nhân có độ tương thích lớn hơn) 100 Ngoài ra, nguồn cho thận khó khăn 42 Eric Benhamou, Chủ tịch kiêm Giám đốc điều hành Palm, nhận định hợp góp phần thúc đẩy thị trường máy tính cầm tay tăng trưởng 137 Eric Benhamou nhận định hợp góp phần thúc đẩy thị trường máy tính cầm tay tăng trưởng 97 Nằm bên Thái Bình Dương bên hồ Kitaura rộng lớn, Kashima có khí hậu ôn hòa phong cảnh thiên nhiên tuyệt đẹp 132 Kashima có khí hậu ôn hòa phong cảnh thiên nhiên tuyệt đẹp 61 Như độ rút gọn câu trung bình là: n SC = len(Ti ) ∑ len( S ) i i =1 n ⋅ 100% ≈ 62.3% Trong : len(Ti ) chiều dài câu rút gọn thứ i len(Si ) chiều dài câu rút gọn thứ i, i = 1,10 Đánh giá : Các phương pháp rút gọn câu có độ rút gọn nhỏ, độ xác không ảnh hưởng Văn sau pha giảm kích thước khoảng 40%, góp phần vào việc sinh văn ngắn gọn hàm chứa ý câu quan trọng chọn qua pha Phân tích 86 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các toán xử lý văn tiếng Việt toán khó hay hữu ích, quan tâm nghiên cứu nhiều nước ta Trong đồ án này, em trình bày vấn đề bản, khó khăn thách thức, triển vọng phát triển phạm vi ứng dụng rộng rãi toán Tóm tắt văn tiếng Việt Đây số toán có kết hợp hai lĩnh vực Khai phá văn Xử lý ngôn ngữ tự nhiên Các kết đạt đồ án : - Hiểu vấn đề tổng quan Khai phá Văn Xử lý ngôn ngữ tự nhiên, từ làm tiền đề cho nghiên cứu định hướng toán Tóm tắt văn - Nắm bắt phân biệt rõ khái niệm, yêu cầu mục đích chung toán tóm tắt văn Tìm hiểu phương pháp hướng giải nhà nghiên cứu trước vấn đề - Tìm hiểu đặc trưng ngôn ngữ tiếng Việt, từ đề xuất phương pháp riêng, phù hợp ứng dụng Tóm lược văn tiếng Việt, xây dựng mô hình cài đặt thành công ứng dụng Hướng phát triển tới đề tài : - Cải tiến phát triển phương pháp tóm tắt theo hướng Xử lý ngôn ngữ tự nhiên nhằm tăng tính xác thân thiện kết trả - Tích hợp ứng dụng với ứng dụng khác để tạo hệ thống thật hữu ích cho người dùng Việt Nam - Tham gia vào trình xây dựng tài nguyên ngôn ngữ phục vụ cho ngành công nghệ thông tin truyền thông ngành khác liên quan Trong suốt trình làm đồ án, em giúp đỡ, hỗ trợ đông viên lớn từ thầy cô bạn bè Tuy nhiên hạn chế mặt kinh nghiệm thời gian, đồ án chắn tồn khiếm khuyết Qua em mong muốn nhận góp ý nhằm phát triển tốt đề tài tương lai Một lần em xin gửi lời cám ơn chân thành sâu sắc tới TS Huỳnh Quyết Thắng Thầy người định hướng cho em, người tận tình hướng dẫn, bảo, động viên em giúp em hoàn thành tốt đồ án Em xin gửi lời cảm ơn tới thầy cô Bộ môn Khoa, tới gia đình bạn bè, người tạo điều kiện giúp đỡ em nhiều trình học tập trường việc hoàn thành tốt nghiệp 87 TÀI LIỆU THAM KHẢO [1] Chu Hồng Trang, Bài toán phân nhóm văn áp dụng cho Tiếng Việt, Đồ án tốt nghiệp ĐHBKHN, 5/2004 [2] Hoàng Minh Sơn, Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt, Đồ án tốt nghiệp ĐHBKHN, 2004 [3] Lê Thị Tú Kiên, Nghiên cứu xử lý tự động văn tiếng Việt, Luận văn thạc sỹ ĐHBKHN, 2003 [4] Huỳnh Quyết Thắng, Hoàng Minh Sơn, Thử nghiệm giải thuật tách từ tiếng Việt xây dựng cấu trúc liệu toán tìm kiếm văn tiếng Việt, Tài liệu khoa học - ĐHBKHN [5] Nguyễn Hoàng Anh, Hà Thành Lê, Hoàng Vĩnh Sơn, Phân lớp văn bản, Báo cáo đồ án thực tập chuyên ngành ĐHBKHN, 2004 [6] Phạm Thị Anh Lê, Tìm kiếm thông tin dựa vào mô hình thống kê giải thuật kiến trúc phần mềm, Luận văn thạc sỹ ĐHBKHN, 2002 [7] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại học Quốc gia Hà Nội, 1998 [8] Trung tâm Khoa học xã hội Nhân văn Quốc gia, Ngữ pháp tiếng Việt, NXB Khoa học xã hội, 2000 [9] Eduard Hovy & Daniel Marcu, Automated Text Summarization Tutorial, COLING/ACL ’98 [10] Mani & Maybury, Automatic Summarization, ACL 2001 [11] Partha Lal, Text Summarization, Doctor thesis, 07/2002 [12] Udo Hahn, Automated Text Summarization- Methods, Systems, Evaluatio [13] Inderjeet MANI, Summarization Evaluation: An Overview [14] Đinh Thị Phương Thu, Bài toán phân lớp văn tiếng Việt, Luận văn Thạc sĩ khoa CNTT, 11/2004 [15] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt - Kỉ yếu hội thảo khoa học quốc gia lần thứ nghiên cứu, phát triển ứng dụng công nghệ thông tin truyền thông (ICT.rda 2003), Nhà xuất Khoa học kĩ thuật, Hà nội, 2003 [16] Lê Thanh Hương: Phân tích cú pháp tiếng Việt, Luận văn tốt nghiệp cao học , 1999 [17] Luhn, H P, The automatic creation of literature abstracts, IBM journal of Research and Development, 1958 88 [18] R Radev Et All, Evaluation challenges in large-scale document summarization, ACL ’03 [19] Regina Barzilay, Lexical Chains for Summarization, M.Sc Thesis, 11/97 [20] Jing, H., Sentence reduction for automatic text summarization, Proc of the 6th Conference on Applied Natural Language Processing, 2000 [21] Knight, K and Marcu, D., Statistics-Based Summarization Step One: Sentence Compression, Proc of AAAI2000, 2000 [22] Hồ Tú Bảo, Knowledge Discovery and Data Mining, Viện CNTT - Viện khoa học công nghệ tiên tiến Nhật Bản JAIST, Bài giảng đại học Bách Khoa Hà Nội, 12/2003 [23] Đinh Điền, Ứng dụng Ngữ liệu song ngữ Anh - Việt điện tử ngành ngôn ngữ học so sánh, tạp chí Ngôn ngữ, Viện ngôn ngữ học, 2002 [24] Đinh Điền, Xây dựng khai thác Kho ngữ liệu song ngữ Anh - Việt điện tử, Luận án tiến sĩ ngữ văn, 2004 89

Ngày đăng: 02/11/2016, 00:45

Từ khóa liên quan

Mục lục

  • DANH MỤC TỪ VIẾT TẮT

  • DANH MỤC HÌNH VẼ

  • MỤC LỤC

  • LỜI NÓI ĐẦU

  • Chương 1. KHAI PHÁ VĂN BẢN

    • 1.1. Khai phá dữ liệu

    • 1.2. Khai phá văn bản

    • 1.3. Biểu diễn văn bản

      • 1.3.1. Mô hình boolean

      • 1.3.2. Mô hình không gian vector

        • a. Mô hình không gian vector chuẩn

        • b. Kỹ thuật TFxIDF

        • c. Mô hình vector thưa và các mô hình không gian vector khác

        • 1.3.3. Các mô hình biểu diễn văn bản khác

          • a. Mô hình Xác suất

          • b. Mô hình Mạng Bayes

          • c. Mô hình tập thô dung sai

          • 1.4. Các bài toán Khai phá văn bản điển hình

            • 1.4.1. Bài toán Phân lớp văn bản

            • 1.4.2. Bài toán Phân nhóm văn bản

            • 1.4.3. Bài toán Đánh chỉ mục - Tìm kiếm

            • 1.4.4. Bài toán Tóm tắt văn bản

            • 1.5. Kết chương

            • Chương 2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN

              • 2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên.

              • 2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên

                • 2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu

Tài liệu cùng người dùng

Tài liệu liên quan