Tóm tắt đa văn bản dựa vào trích xuất câu

Header Page of 27 ĐẠI HỌC QUỐC GIA HÀ NỢI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TRẦN MAI VŨ TĨM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: PGS TS HÀ QUANG THỤY HÀ NỘI – 2009 Footer Page of 27 Header Page of 27 Mục lục Lời cảm ơn Error! Bookmark not defined Lời cam đoan Error! Bookmark not defined Mục lục ii Danh sách hình vẽ iv Danh sách bảng v Danh sách bảng v Bảng từ viết tắt vi Bảng từ viết tắt vi Mở đầ u Chương Khái quát bài toán tóm tắt văn bản 10 1.1 Bài tốn tóm tắt văn bản tự động 10 1.2 Một số khái niệm tốn tóm tắt phân loại tóm tắt 10 1.3 Tóm tắt đơn văn bản 14 1.4 Tóm tắt đa văn bản 15 1.5 Tóm tắt chương 16 Chương Tóm tắt đa văn bản dựa vào trích xuất câu 16 2.1 Hướng tiếp cận tốn tóm tắt đa văn bản 16 2.2 Các thách thức q trình tóm tắt đa văn bản 18 2.3 Đánh giá kết quả tóm tắt 21 2.4 Tóm tắt đa văn bản dựa vào trích xuất câu 22 2.4.1 Loại bỏ chồng chéo sắp xếp văn bản theo độ quan trọng 23 2.4.2 Phương pháp sắp xếp câu 24 2.5 Tóm tắt chương hai 24 Chương Độ tương đồng câu phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu 25 3.1 Độ tương đồng 25 3.2 Độ tương đồng câu 25 3.3 Các phương pháp tính độ tương đồng câu 26 3.3.1 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine 26 3.3.2 Phương pháp tính ̣ tương đồng câu dựa vào chủ đề ẩn 28 3.3.3 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 30 3.4 Tóm tắt chương ba Error! Bookmark not defined Footer Page of 27 Header Page of 27 Chương Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt Error! Bookmark not defined 4.1 Đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu tiếng Việt Error! Bookmark not defined 4.1.1 Đồ thị thực thể mơ hình xây dựng đồ thị quan hệ thực thể Error! Bookmark not defined 4.1.2 Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể Error! Bookmark not defined 4.2 Độ tương đồng ngữ nghĩa câu tiếng Việt Error! Bookmark not defined 4.3 Mơ hình tóm tắt đa văn bản tiếng Việt Error! Bookmark not defined 4.4 Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản Error! Bookmark not defined 4.5 Tóm tắt chương bốn Error! Bookmark not defined Chương Thực nghiệm đánh giá Error! Bookmark not defined 5.1 Môi trường thực nghiệm Error! Bookmark not defined 5.2 Quá trình thực nghiệm Error! Bookmark not defined 5.2.1 Thực nghiệm phân tích chủ đề ẩn Error! Bookmark not defined 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể Error! Bookmark not defined 5.2.3 Thực nghiệm đánh giá độ đo tương đồng Error! Bookmark not defined 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn bản Error! Bookmark not defined 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp Error! Bookmark not defined Kế t luận Error! Bookmark not defined Các cơng trình khoa học sản phẩm công bố Error! Bookmark not defined Tài liệu tham khảo 34 Footer Page of 27 Header Page of 27 Danh sách hình vẽ Hình 3.1 Tính độ tương đồng câu với chủ đề ẩn .28 Hình 3.2: Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 31 Hình 4.1: Mở rộng mối quan hệ tìm kiếm thực thể liên quan Error! Bookmark not defined Hình 4.2: Mơ hình xây dựng đồ thị quan hệ thực thểError! Bookmark not defined Hình 4.3: Mơ hình tóm tắt đa văn bản tiếng ViệtError! Bookmark not defined Hình 4.4: Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bảnError! Bookmark not defined Footer Page of 27 Header Page of 27 Danh sách bảng Bảng 2.1 Bảng so sánh phương pháp tiếp cận tóm tắt đa văn bản 17 Bảng 2.2 Taxonomy mối quan hệ xuyên văn bản .20 Bảng 4.1: Sự tương quan đồ thị quan hệ thực thể, Wordnet Wikipedia Error! Bookmark not defined Bảng 4.2 Danh sách độ đo tương đồng ngữ nghĩa câuError! Bookmark not defined Bảng 5.1 Các công cụ phần mềm sử dụng trình thực nghiệm Error! Bookmark not defined Bảng 5.2 Kết quả phân tích chủ đề ẩn Error! Bookmark not defined Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97Error! Bookmark not defined Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể Error! Bookmark not defined Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa Error! Bookmark not defined Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt Error! Bookmark not defined Bảng 5.7 Kết quả đánh giá độ đo cụm liệu bảng 5.2 Error! Bookmark not defined Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt 10 cụm tiếng Anh Error! Bookmark not defined Bảng 5.9 Đánh giá kết quả thứ tự văn bản thứ tự 20 câu quan trọng Error! Bookmark not defined Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất 10 câu Error! Bookmark not defined Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet Error! Bookmark not defined Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web Error! Bookmark not defined Footer Page of 27 Header Page of 27 Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp Error! Bookmark not defined Footer Page of 27 Header Page of 27 Bảng từ viết tắt STT Tƣ̀ hoă ̣c cu ̣m tƣ̀ Viế t tắ t Maximal Maginal Relevance MMR Question and Answering Q&A (Hệ thống hỏi đáp tự động) Document Understanding Conferences DUC (Hội nghi chuyên hiểu văn bản) Term Frequency (Tần suất từ/cụm từ văn bản) Footer Page of 27 TF Header Page of 27 Mở đầ u Sự phát triển nhanh chóng mạng Internet với bước tiến mạnh mẽ công nghệ lưu trữ, lượng thông tin lưu trữ trở nên vô lớn Thông tin sinh liên tục ngày mạng Internet, lượng thơng tin văn bản khổng lồ đó mang lại lợi ích khơng nhỏ cho người, nhiên, khiến khó khăn việc tìm kiếm tổng hợp thơng tin Giải pháp cho vấn đề tóm tắt văn tự động Tóm tắt văn bản tự động xác định toán thuộc lĩnh vực khái phá liệu văn bản; việc áp dụng tóm tắt văn bản giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm tăng hiệu quả đánh mục cho máy tìm kiếm Từ nhu cầu thực tế thế, tốn tóm tắt văn bản tự động nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu cơng ty lớn thế giới Các báo liên quan đến tóm tắt văn bản xuất nhiều hội nghị tiếng : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007… bên cạnh phát triển hệ thống tóm tắt văn bản : MEAD, LexRank, Microsoft Word (Chức AutoSummarize)… Một vấn đề thách thức quan tâm năm gần tốn tóm tắt văn bản tự động đưa kết quả tóm tắt cho tập văn bản liên quan với mặt nội dung hay gọi tóm tắt đa văn Bài tốn tóm tắt đa văn xác định tốn có độ phức tạp cao Đa số người nghĩ rằng, tóm tắt đa văn bản việc áp dụng tóm tắt đơn văn bản cho văn bản ghép từ văn bản tập văn bản cho trước Tuy nhiên điều hồn tồn khơng xác, thách thức lớn vấn đề tóm tắt đa văn liệu đầu vào có nhập nhằng ngữ nghĩa nội dung văn bản với văn Document Understanding Conference http://duc.nist.gov Text Analysis Conference http://www.nist.gov/tac Association for Computational Linguistics http://aclweb.org Footer Page of 27 Header Page of 27 bản khác tập văn bản hay trình tự thời gian trình bày văn bản khác nhau, để đưa kết quả tóm tắt tốt vơ khó khăn [EWK] Rất nhiều ứng dụng cần đến trình tóm tắt đa văn bản như: hệ thống hỏi đáp tự động (Q&A System), tóm tắt báo cáo liên quan đến kiện, tóm tắt cụm liệu trả từ trình phân cụm máy tìm kiếm… Hướng nghiên cứu ứng dụng tốn tóm tắt đa văn bản vào việc xây dựng hệ thống hỏi đáp tự động hướng nghiên cứu cộng đồng nghiên cứu tóm tắt văn bản năm gần Rất nhiều nghiên cứu cho thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn (Query-based multi-document summarization) kho liệu tri thức để đưa văn bản tóm tắt trả lời cho câu hỏi người sử dụng đạt nhiều kết quả khả quan thể hướng tiếp cận đắn việc xây dựng mơ hình hỏi đáp tự động [Ba07,YYL07] Với việc lựa chọn đề tài “Tóm tắt đa văn dựa vào trích xuất câu”, tập trung vào việc nghiên cứu, khảo sát, đánh giá đề xuất phương pháp tóm tắt đa văn bản phù hợp với ngơn ngữ tiếng Việt, bên cạnh áp dụng phương pháp vào việc xây dựng mơ hình hệ thống hỏi đáp tiếng Việt Ngoài phần mở đầu kết luận, luận văn được tổ chức thành chương sau:  Chƣơng 1: Khái qt tốn tóm tắt giới thiệu khái qt tốn tóm tắt văn bản tự động nói chung tốn tóm tắt đa văn bản nói riêng, trình bày số khái niệm cách phân loại tốn tóm tắt  Chƣơng 2: Tóm tắt đa văn dựa vào trích xuất câu giới thiệu chi tiết hướng tiếp cận, thách thức vấn đề giải quyết tốn tóm tắt đa văn bản dựa vào trích xuất câu  Chƣơng 3: Độ tƣơng đồng câu phƣơng pháp tăng cƣờng tính ngữ nghĩa cho độ tƣơng đồng câu trình bày nghiên cứu phương pháp tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dụng vào q trình trích xuất câu quan trọng văn bản Footer Page of 27 Header Page 10 of 27 10  Chƣơng 4: Một số đề xuất tăng cƣờng tính ngữ nghĩa cho độ tƣơng đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt phân tích, đề xuất phương pháp tích hợp thuật tốn để giải qút tốn tóm tắt đa văn bản tiếng Việt trình bày việc áp dụng phương pháp đề xuất để xây dựng mơ hình hệ thống hỏi đáp tiếng Việt đơn giản  Chƣơng 5: Thực nghiệm đánh giá trình bày trình thử nghiệm luận văn đưa số đánh giá, nhận xét kết quả đạt Footer Page 10 of 27 Header Page 25 of 27 25 Phương pháp xếp câu Xác định độ quan trọng câu bước xuất hầu hết phương pháp tóm tắt đơn văn bản tóm tắt đa văn bản Độ đo quan trọng xây dựng cách kết hợp nhiều độ đo độ tương đồng câu khác với phương pháp cải tiến từ phương pháp MMR để làm tăng độ quan trọng mức ngữ nghĩa câu [HMR05, FMN07, BKO07] Công thức phương pháp MMR cải tiến cho mức ngữ nghĩa câu: Score(si )  arg max[ * sim( s, q)  (1   ) * max sim( si , s j )] si Trong đó: λ: tham số nằm ngưỡng [0,1] để quyết định việc đóng góp độ đo q: câu truy vấn (hay câu hỏi người dùng đưa vào) si: câu cụm văn bản sj: câu khác nằm cụm văn bản sim: độ đo tương đồng hai câu Nhận xét Cả hai vấn đề cần giải qút tốn tóm tắt đa văn bản dựa vào trích xuất câu tập trung vào việc xác định tương đồng hai văn bản nói chung hai câu nói riêng Trên thực tế, phương pháp áp dụng cải tiến cho tóm tắt đa văn bản dựa vào tập trung vào vấn đề tăng cường tính ngữ nghĩa cho độ đo tương đồng hai câu hay hai văn bản [HMR05, FMN07, BKO07] Trong chương 3, luận văn sâu vào giới thiệu chi tiết đến phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu Tóm tắt chƣơng hai Trong chương luận văn giới thiệu chi tiết đến hướng tiếp cận, vấn đề đặt tốn tóm tắt đa văn bản số phương pháp để giải quyết vấn đề Footer Page 25 of 27 Header Page 26 of 27 26 Trong chương tiếp theo, luận văn tiếp tục tập trung vào việc giới thiệu phương pháp nhằm tương cường tính ngữ nghĩa cho độ tương đồng hai câu Độ tƣơng đồng câu phƣơng pháp tăng cƣờng tính ngữ nghĩa cho độ tƣơng đồng câu Độ tƣơng đồng Trong toán học, độ đo hàm số cho tương ứng với "chiều dài", "thể tích" "xác suất" với phần tập hợp cho sẵn Nó khái niệm quan trọng giải tích lý thuyết xác suất Ví dụ, độ đo đếm định nghĩa µ(S) = số phần tử S Rất khó để đo giống nhau, tương đồng Sự tương đồng đại lượng (con số) phản ánh cường độ mối quan hệ hai đối tượng hai đặc trưng Đại lượng thường phạm vi từ -1 đến đến Như vậy, độ đo tương đồng coi loại scoring function (hàm tính điểm) Ví dụ, mơ hình không gian vector, ta sử dụng độ đo cosine để tính độ tương đồng hai văn bản, văn bản biểu diễn vector Độ tƣơng đồng câu Phát biểu tốn độ tính tương đồng câu sau: Xét tài liệu d gồm có n câu: d = s1, s2, , sn Mục tiêu tốn tìm giá trị hàm S(si, sj) với S  (0,1), i, j = 1, , n Hàm S(si, sj) gọi độ đo tương đồng hai câu si sj Giá trị cao giống nghĩa hai câu nhiều Ví dụ: Xét hai câu sau: “Tôi nam” “Tôi nữ”, trực giác thấy hai câu có tương đồng cao Footer Page 26 of 27 Header Page 27 of 27 27 Độ tương đồng ngữ nghĩa giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa hai câu Trên thực tế, khó lấy giá trị có xác cao ngữ nghĩa hiểu đầy đủ ngữ cảnh cụ thể Các phƣơng pháp tính độ tƣơng đồng câu Bài toán độ tương đồng ngữ nghĩa câu sử dụng phổ biến lĩnh vực xử lý ngơn ngữ tự nhiên có nhiều kết quả khả quan Một số phương pháp sử dụng để tính độ đo [SD08, LLB06, RFF05, STP06]: - Phương pháp sử dụng thống kê: độ đo cosine, độ đo khoảng cách euclid … - Phương pháp sử dụng tập liệu chuẩn ngôn ngữ để tìm mối quan hệ từ: Wordnet, Brown Corpus, Penn TreeBank… Các phương pháp tính độ tương đồng câu sử dụng kho ngữ liệu Wordnet đánh giá cho kết quả cao Tuy nhiên, kho ngữ liệu Wordnet hỗ trợ ngôn ngữ tiếng Anh, việc xây dựng kho ngữ liệu cho ngôn ngữ khác đòi hỏi tốn mặt chi phí, nhân lực thời gian Nhiều phương pháp đề xuất để thay thế Wordnet cho ngôn ngữ khác, việc sử dụng phân tích chủ đề ẩn [Tu08] hay sử dụng mạng ngữ nghĩa Wikipedia để thay thế Wordnet [SP06, ZG07, ZGM07] xem phương án khả thi hiệu quả Các phương pháp tập trung vào việc bổ sung thành phần ngữ nghĩa hỗ trợ cho độ đo tương đồng Cosine Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine Trong phương pháp tính độ này, câu biểu diễn theo mơ hình khơng gian vector Mỗi thành phần vector đến từ tương ứng danh sách mục từ Danh sách mục từ thu từ q trình tiền xử lý văn bản đầu vào, bước tiền xử lý gồm: tách câu, tách từ, gán nhãn từ loại, loại bỏ câu không hợp lệ (không phải câu thực sự) biểu diễn câu không gian vectơ Footer Page 27 of 27 Header Page 28 of 27 28 Khơng gian vector có kích thước số mục từ danh sách mục từ Mỗi phần tử độ quan trọng mục từ tương ứng câu Độ quan trọng từ j tính TF sau: wi , j  tf i , j  tf i, j j Trong đó, tfi,j tần số xuất mục từ i câu j Với không gian biểu diễn tài liệu chọn không gian vector trọng số TF, độ đo tương đồng chọn cosine góc hai vector tương ứng hai câu S i Sk Vector biểu diễn hai câu có dạng: Si = , với wti trọng số từ thứ t câu i Sk = , với wtk trọng số từ thứ t câu k Độ tương tự chúng tính theo cơng thức:  t Sim ( S i , S k )  j 1 w ij w kj  w    w  t j 1 i j t j 1 k j Trên vector biểu diễn cho câu lúc chưa xét đến quan hệ ngữ nghĩa mục từ, từ đồng nghĩa không phát hiện, dẫn đến kết quả xét độ tương tự câu chưa tốt Ví dụ cho hai câu sau: S1 : Nhân loại ngày tiến S2 : Con người phát minh nhiều loại công cụ lao động Nếu không xét đến quan hệ ngữ nghĩa từ hai câu khơng có mối liên hệ cả độ tương đồng Những thực chất, ta thấy rằng, từ “nhân loại” từ “loài người” đồng nghĩa, hai câu nói lồi người, hai câu có Footer Page 28 of 27 Header Page 29 of 27 29 liên quan định với cơng thức tính độ tương tự độ tương tự hai câu phải khác Phương pháp tính đợ tương đồng câu dựa vào chủ đề ẩn Phương pháp tiếp cận tốn tính độ tương đồng câu sử dụng chủ đề ẩn dựa sở nghiên cứu thành cơng gần mơ hình phân tích topic ẩn LDA (Latent Dirichlet Allocation) Ý tưởng bản mơ hình với lần học, ta tập hợp tập liệu lớn gọi “Universal dataset” xây dựng mơ hình học cả liệu học tập giàu topic ẩn tìm từ tập liệu [Tu08, HHM08] Mơ hình độ tƣơng đồng câu sử dụng chủ đề ẩn Dưới mơ hình chung tính độ tương đồng câu với chủ đề ẩn: Hình 3.1 Tính độ tương đồng câu với chủ đề ẩn Mục đích việc sử dụng chủ đề ẩn tăng cường ngữ nghĩa cho câu hay nói cách khác nghĩa câu phân biệt rõ thông qua việc thêm chủ đề ẩn Đầu tiên chọn tập “universal dataset” phân tích chủ đề cho Q trình phân tích chủ đề q trình ước lượng tham số theo mơ hình LDA Kết quả lấy Footer Page 29 of 27 Header Page 30 of 27 30 chủ đề tập “universal dataset”, chủ đề gọi chủ đề ẩn Q trình thực bên ngồi mơ hình tính độ tương đồng câu với chủ đề ẩn Trong Hình 3.1, với đầu vào văn bản đơn, sau bước tiền xử lý văn bản thu danh sách câu Tiếp theo, suy luận chủ đề cho câu qua tiền xử lý, kết quả thu danh sách câu thêm chủ đề ẩn Từ đây, tính tốn độ tương đồng câu thêm chủ đề ẩn Suy luận chủ đề tính độ tƣơng đồng câu Với câu, sau suy luận chủ đề cho câu nhận phân phối xác suất topic câu phân phối xác suất từ topic Tức với câu i, LDA sinh  phân phối topic i cho câu Với từ câu, zi,j – topic index (từ j câu i) lấy mẫu dựa theo phân phối topic Sau đó, dựa vào topic index zi,j ta làm giàu câu cách thêm từ Vector tương ứng với câu thứ i có dạng sau: [Tu08]Error! Reference source not found si  t1 , t2 , , t K , w1 , , w|V |  Ở đây, ti trọng số topic thứ i K topic phân tích (K tham số LDA); wi trọng số từ thứ i tập từ vựng V tất cả câu Mỗi câu có nhiều phân phối xác suất topic Với hai câu thứ i j, sử dụng độ cosine để tính độ tương đồng hai câu làm giàu với chủ đề ẩn K simi , j (topic  parts )  t i ,k  t j ,k k 1 K  t i2,k k 1 K t k 1 j ,k V simi , j ( word  parts )  w i ,t  w j ,t t 1 V V w w t 1 Footer Page 30 of 27 i ,t t 1 j ,t Header Page 31 of 27 31 Cuối cùng, tổ hợp hai độ đo để độ tương đồng hai câu: sim(si , s j )    sim(topic  parts) 1     sim(word - parts) Trong công thức trên,  số trộn, thường nằm đoạn [0,1] Nó quyết định việc đóng góp độ đo tương đồng Nếu   , độ tương đồng hai câu khơng có chủ đề ẩn Nếu   , đo độ tương đồng hai câu tính với chủ đề ẩn [Tu08] Phương pháp tính độ tương đồng câu dựa vào Wikipedia Giới thiệu mạng ngữ nghĩa Wikipedia Wikipedia5 bách khoa tồn thư nội dung mở nhiều ngơn ngữ Internet Wikipedia viết xây dựng nhiều người dùng cộng tác với Dự án này, nói chung, bắt đầu từ ngày 15 tháng năm 2001 để bổ sung bách khoa toàn thư Nupedia nhà chuyên môn; Wikipedia trực thuộc Quỹ Hỗ trợ Wikimedia, tổ chức phi lợi nhuận Wikipedia có 200 phiên bản ngơn ngữ, vào khoảng 100 hoạt động 15 phiên bản có 50.000 viết: tiếng Anh, Đức, Pháp, Ba Lan, Nhật, Ý, Thụy Điển, Hà Lan, Bồ Đào Nha, Tây Ban Nha, Hoa, Nga, Na Uy, Phần Lan, Esperanto tiếng Việt, tổng cộng Wikipedia có 4,6 triệu viết, tính cả 1,2 triệu phiên bản tiếng Anh (English Wikipedia) Kiến trúc Wikipedia Các trang thông tin Wikipedia lưu trữ cấu trục mạng.Chi tiết hơn, viết Wikipedia tổ chức dạng mạng khái niệm liên quan với mặt ngữ nghĩa mục chủ đề (category) tổ chức cấu trúc phân cấp(taxonomy) gọi đồ thị chủ đề Wikipedia (Wikipedia Category Graph WCG) Đồ thị viết(Article graph): Giữa viết Wikipedia có siêu liên kết với nhau, siêu liên kết tạo trình chỉnh sửa viết người http://www.wikipedia.org Footer Page 31 of 27 Header Page 32 of 27 32 sử dụng Nếu ta coi viết nút liên kết từ viết đến viết khác cạnh có hướng chạy từ nút đến nút khác ta có đồ thị có hướng viết Wikipedia (phía bên phải hình 3.5) Hình 3.2 Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia Đồ thị chủ đề (Category graph): Các chủ đề Wikipedia tổ chức giống cấu trúc taxonomy (phía bên trái hình 3.2) Mỗi chủ đề có số lượng tùy ý chủ đề con, chủ đề thường xác định mối quan hệ thượng hạ vị (Hyponymy) hay mối quan hệ phận tổng thể (Meronymy) Ví dụ: Chủ đề vehicle có chủ đề aircraft watercraft Do đó, đồ thị chủ đề (WCG) giống mạng ngữ nghĩa từ tương tự Wordnet Mặc dù đồ thị chủ đề không hoàn toàn xem cấu trúc phân cấp tồn chu trình, hay chủ đề khơng có liên kết đến chủ đề khác nhiên số lượng Theo khảo sát Torsten Zesch Iryna Gurevych [ZG07] vào tháng năm 2006 Wikipedia tiếng Đức đồ thị chủ đề chứa 99,8% số lượng nút chủ đề tồn chu trình Footer Page 32 of 27 Header Page 33 of 27 33 Độ tƣơng đồng khái niệm mạng ngữ nghĩa Wikipedia Phương pháp tính độ tương đồng khái niệm mạng ngữ nghĩa Wikipedia nhiều nghiên cứu đưa Ponzetto cộng năm 2006, 2007 [SP06, PSM07], Torsten Zesch cộng năm 2007 [ZG07, ZGM07],…Các nghiên cứu tập trung vào việc áp dụng cải tiến số độ đo phổ biến tính độ tương đồng từ tập ngữ liệu Wordnet cho việc tính độ tương đồng khái mạng ngữ nghĩa Wikipedia Cũng giống Wordnet độ đo chia thành hai loại độ đo, nhóm độ đo dựa vào khoảng cách khái niệm (Path based measure) Path Length (PL, năm 1989), Leacock & Chodorow (LC, năm 1998), Wu and Palmer (WP, năm 1994) [ZG07, SP06] nhóm độ đo dựa vào nội dung thơng tin (Information content based measures) Resnik (Res, năm 1995), Jiang and Conrath (JC, năm 1997), Lin (Lin, năm 1998) [ZG07] Trong độ đo này, trừ độ đo Path Length giá trị nhỏ độ tương đồng cao, lại đo khác giá trị tính tốn khái niệm lớn độ tương đồng cao  Độ đo Path Length (PL) Độ đo PL Rada cộng đề xuất năm 1989 sử dụng độ dài khoảng cách ngắn hai khái niệm đồ thị (tính số cạnh hai khái niệm) để thể gần mặt ngữ nghĩa - n1, n2: hai khái niệm cần tính tốn - l(n1,n2): khoảng cách ngắn hai khái niệm  Độ đo Leacock & Chodorow (LC) Độ đo LC Leacock Chodorow đề xuất năm 1998 chuẩn hóa độ dài khoảng cách hai node độ sâu đồ thị Footer Page 33 of 27 Header Page 34 of 27 34 - n1, n2: hai khái niệm cần tính tốn - depth: độ dài lớn đồ thị - l(n1,n2): khoảng cách ngắn hai khái niệm  Độ đo WP Wu Palmer đề xuất năm 1994: - n1, n2: hai khái niệm cần tính tốn - lcs: Khái niệm thấp hệ thống cấp bậc quan hệ is-a hay cha hai khái niệm n1 n2 - depth(lcs): độ sâu khái niệm cha  Độ đo Resnik Resnik đề xuất 1995 Resnik coi độ tương đồng ngữ nghĩa hai khai niệm xem nội dung thông tin nút cha gần hai khái niệm Với c1, c2: hai khái niệm cần tính tốn ic tính cơng thức dưới: - hypo(n) số khái niệm có quan hệ thượng hạ vi (hyponym) với khái niệm n C tổng số khái niệm có chủ đề  Độ đo JC Jiang Conrath đề xuất năm 1997: Footer Page 34 of 27 Header Page 35 of 27 35 - n1, n2: hai khái niệm cần tính tốn - IC tính công thức  Độ đo Lin Lin đề xuất năm 1998: - n1, n2: hai khái niệm cần tính tốn Tài liệu tham khảo Tiếng Việt [MB09] Lương Chi Mai Hồ Tú Bảo (2009) Báo cáo Tổng kết đề tài KC.01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" Về xử lý tiếng Việt công nghệ thông tin (2006), Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2009 Tiếng Anh [Ba07] Barry Schiffman (2007) Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007 [BE97] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 1999 [BKO07] Blake,C., Kampov, J., Orphanides, A., West,D., & Lown, C (2007) UNC-CH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, In DUC07 Footer Page 35 of 27 Header Page 36 of 27 36 [BL06] Blei, M and Lafferty, J (2006) Dynamic Topic Models, In the 23th International Conference on Machine Learning, Pittsburgh, PA [BME02] Regina Barzilay, Noemie Elhadad, and Kathleen R McKeown (2002) Inferring strategies for sentence ordering in multidocument news summarization, Journal of Artificial Intelligence Research: 35–55, 2002 [BME99] Barzilay R., McKeown K., and Elhadad M Information fusion in the context of multidocument summarization, Proceedings of the 37th annual meeting of the Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999 [BMI06] D Bollegara, Y Matsuo, and M Ishizuka (2006) Extracting key phrases to disambiguate personal names on the web, In CICLing 2006 [CG98] Jaime Carbonell, Jade Goldstein (1998) The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug 1998 [CSO01] John M Conroy, Judith D Schlesinger, Dianne P O'Leary, Mary Ellen Okurowski (2001) Using HMM and Logis-tic Regression to Generate Extract Summaries for DUC, In DUC 01, Nat’l Inst of Standards and Technology, 2001 [Ed69] H Edmundson (1969) New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 [EWK] Website: http://en.wikipedia.org/wiki/Multi-document_summarization [FMN07] K Filippova, M Mieskes, V Nastase, S Paolo Ponzetto, M Strube (2007) Cascaded Filtering for Topic-Driven Multi-Document Summarization, In EML Research gGmbH, 2007 [GMC00] Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitz (2000) Multi-Document Summarization By Sentence Extraction, 2000 Footer Page 36 of 27 Header Page 37 of 27 37 [HHM08] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008) Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, 2008 [HMR05] B Hachey, G Murray, D Reitter (2005) Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space, In The Embra System at DUC, 2005 [Ji98] H Jing (1998) Summary generation through intelligent cutting and pasting of the input document, Technical Report, Columbia University, 1998 [KST02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL): 311–318, 2002 [LH03] Chin-Yew Lin and Eduard Hovy (2003) Automatic evaluation of summaries using n-gram co-occurrence statistics, In Human Technology Coference 2003 [LH97] Chin-Yew Lin and Eduard Hovy (1997) Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans Knowl Data Eng 18(8): 1138-1150 [Lu58] H Luhn (1958) The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 [Ma01] Inderjeet Mani (2001) Automatic Summarization, John Benjamins Publishing Co., 2001 [Mi04] Nguyen Le Minh (2004) Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD Thesis, School of Information Science Japan Advanced Institute of Science and Technology, September 2004 Footer Page 37 of 27 Header Page 38 of 27 38 [MM99] Inderjeet Mani and Mark T Maybury (eds) (1999) Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359-8 [MR95] Kathleen R McKeown and Dragomir R Radev (1995) Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July 1995 [PKC95] Jan O Pendersen, Kupiec Julian and Francine Chen (1995) A trainable document summarizer, Research and Development in Information Retrieval: 68–73, 1995 [PSM07] Ponzetto, Simone Paolo, and Michael Strube (2007) Knowledge Derived from Wikipedia For Computing Semantic Relatedness, Journal of Artificial Intelligence Research, 30: 181-212, 2007 [Ra00] Dragomir Radev (2000) A common theory of information fusion from multiple text sources, step one: Cross-document structure, In 1st ACL SIGDIAL Workshop on Discourse and Dialogue, Hong Kong, October 2000 [RFF05] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2): 638-646, 2005 [RJS04] Dragomir R Radev, Hongyan Jing, Malgorzata Sty´s, and Daniel Tam (2004) Centroid-based summarization of multiple documents, Information Processing and Management, 40:919–938, December 2004 [SD08] P Senellart and V D Blondel (2008) Automatic discovery of similar words Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44, Springer-Verlag, January 2008 [Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD thesis, Université Paris-Sud, Orsay, France, December 2007 Footer Page 38 of 27 Header Page 39 of 27 39 [SP06] Strube, M & S P Ponzetto (2006) WikiRelate! Computing semantic relatedness using Wikipedia, In Proc of AAAI-06, 2006 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications: 94-98, Chiang Mai, Thailand, December 2006 [Su05] Sudarshan Lamkhede Multi-document summarization using concept chain graphs, Master Thesis, Faculty of the Graduate School of the State University of New York at Buffalo, September 2005 [Tu08] Nguyen Cam Tu (2008) Hidden Topic Discovery Toward Classification And Clustering In Vietnamese Web Documents, Master Thesis, Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008 [VSB06] Lucy Vanderwende, Hisami Suzuki, Chris Brockett (2006) Task-Focused Summarization with Sentence Simplification and Lexical Expansion, Microsoft Research at DUC2006, 2006 [WC07] R Wang and W Cohen (2007) Language-independent set expansion of named entities using the web, In ICDM07, 2007 [YYL07] J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C Yang (2007) Language Model Passage Retrieval for Question-Oriented Multi Document Summarization, DUC 07, 2007 [ZG07] T Zesch and I Gurevych (2007) Analysis of the Wikipedia Category Graph for NLP Applications, In Proc of the TextGraphs-2 Workshop, NAACL-HLT, 2007 [ZGM07] Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007) Comparing Wikipedia and German Word-net by Evaluating Semantic Relatedness on Multiple Datasets, In Proceedings of NAACL-HLT, 2007 Footer Page 39 of 27 ... tắt đa văn bản dựa vào trích xuất câu nói riêng Tóm tắt đa văn dựa vào trích xuất câu Hƣớng tiếp cận tốn tóm tắt đa văn Như biết tóm tắt văn bản nói chung tóm tắt đa văn bản nói riêng... giá cao cộng đồng nghiên cứu tóm tắt văn bản Tóm tắt đa văn dựa vào trích xuất câu Tóm tắt đa văn bản dựa vào trích xuất câu phương pháp giải qút tốn tóm tắt đa văn bản theo hướng tiếp... tốn tóm tắt văn bản đơn tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất tóm tắt theo tóm lược Tóm tắt theo trích xuất Đa số phương tóm tắt theo loại tập trung vào việc trích xuất

Tóm tắt đa văn bản dựa vào trích xuất câu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan