Tóm tắt đa văn bản dựa vào trích xuất câu

39 154 0
Tóm tắt đa văn bản dựa vào trích xuất câu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 27 ĐẠI HỌC QUỐC GIA HÀ NỢI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TRẦN MAI VŨ TĨM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: PGS TS HÀ QUANG THỤY HÀ NỘI – 2009 Footer Page of 27 Header Page of 27 Mục lục Lời cảm ơn Error! Bookmark not defined Lời cam đoan Error! Bookmark not defined Mục lục ii Danh sách hình vẽ iv Danh sách bảng v Danh sách bảng v Bảng từ viết tắt vi Bảng từ viết tắt vi Mở đầ u Chương Khái quát bài toán tóm tắt văn bản 10 1.1 Bài tốn tóm tắt văn bản tự động 10 1.2 Một số khái niệm tốn tóm tắt phân loại tóm tắt 10 1.3 Tóm tắt đơn văn bản 14 1.4 Tóm tắt đa văn bản 15 1.5 Tóm tắt chương 16 Chương Tóm tắt đa văn bản dựa vào trích xuất câu 16 2.1 Hướng tiếp cận tốn tóm tắt đa văn bản 16 2.2 Các thách thức q trình tóm tắt đa văn bản 18 2.3 Đánh giá kết quả tóm tắt 21 2.4 Tóm tắt đa văn bản dựa vào trích xuất câu 22 2.4.1 Loại bỏ chồng chéo sắp xếp văn bản theo độ quan trọng 23 2.4.2 Phương pháp sắp xếp câu 24 2.5 Tóm tắt chương hai 24 Chương Độ tương đồng câu phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu 25 3.1 Độ tương đồng 25 3.2 Độ tương đồng câu 25 3.3 Các phương pháp tính độ tương đồng câu 26 3.3.1 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine 26 3.3.2 Phương pháp tính ̣ tương đồng câu dựa vào chủ đề ẩn 28 3.3.3 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 30 3.4 Tóm tắt chương ba Error! Bookmark not defined Footer Page of 27 Header Page of 27 Chương Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt Error! Bookmark not defined 4.1 Đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu tiếng Việt Error! Bookmark not defined 4.1.1 Đồ thị thực thể mơ hình xây dựng đồ thị quan hệ thực thể Error! Bookmark not defined 4.1.2 Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể Error! Bookmark not defined 4.2 Độ tương đồng ngữ nghĩa câu tiếng Việt Error! Bookmark not defined 4.3 Mơ hình tóm tắt đa văn bản tiếng Việt Error! Bookmark not defined 4.4 Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản Error! Bookmark not defined 4.5 Tóm tắt chương bốn Error! Bookmark not defined Chương Thực nghiệm đánh giá Error! Bookmark not defined 5.1 Môi trường thực nghiệm Error! Bookmark not defined 5.2 Quá trình thực nghiệm Error! Bookmark not defined 5.2.1 Thực nghiệm phân tích chủ đề ẩn Error! Bookmark not defined 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể Error! Bookmark not defined 5.2.3 Thực nghiệm đánh giá độ đo tương đồng Error! Bookmark not defined 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn bản Error! Bookmark not defined 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp Error! Bookmark not defined Kế t luận Error! Bookmark not defined Các cơng trình khoa học sản phẩm công bố Error! Bookmark not defined Tài liệu tham khảo 34 Footer Page of 27 Header Page of 27 Danh sách hình vẽ Hình 3.1 Tính độ tương đồng câu với chủ đề ẩn .28 Hình 3.2: Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 31 Hình 4.1: Mở rộng mối quan hệ tìm kiếm thực thể liên quan Error! Bookmark not defined Hình 4.2: Mơ hình xây dựng đồ thị quan hệ thực thểError! Bookmark not defined Hình 4.3: Mơ hình tóm tắt đa văn bản tiếng ViệtError! Bookmark not defined Hình 4.4: Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bảnError! Bookmark not defined Footer Page of 27 Header Page of 27 Danh sách bảng Bảng 2.1 Bảng so sánh phương pháp tiếp cận tóm tắt đa văn bản 17 Bảng 2.2 Taxonomy mối quan hệ xuyên văn bản .20 Bảng 4.1: Sự tương quan đồ thị quan hệ thực thể, Wordnet Wikipedia Error! Bookmark not defined Bảng 4.2 Danh sách độ đo tương đồng ngữ nghĩa câuError! Bookmark not defined Bảng 5.1 Các công cụ phần mềm sử dụng trình thực nghiệm Error! Bookmark not defined Bảng 5.2 Kết quả phân tích chủ đề ẩn Error! Bookmark not defined Bảng 5.3: 20 từ có phân phối xác suất cao Topic ẩn 97Error! Bookmark not defined Bảng 5.4 Kết quả liệu thu mơ hình xây dựng đồ thị quan hệ thực thể Error! Bookmark not defined Bảng 5.5 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa Error! Bookmark not defined Bảng 5.6 Độ xác đánh giá 20 cụm liệu tiếng Việt độ đo tương đồng Wiki tiếng Việt Error! Bookmark not defined Bảng 5.7 Kết quả đánh giá độ đo cụm liệu bảng 5.2 Error! Bookmark not defined Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt 10 cụm tiếng Anh Error! Bookmark not defined Bảng 5.9 Đánh giá kết quả thứ tự văn bản thứ tự 20 câu quan trọng Error! Bookmark not defined Bảng 5.10 Kết quả tóm tắt trả theo tỷ lệ trích xuất 10 câu Error! Bookmark not defined Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho snippet Error! Bookmark not defined Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn bản cho trang web Error! Bookmark not defined Footer Page of 27 Header Page of 27 Bảng 5.13 Danh sách số kết quả trả lời hệ thống hỏi đáp Error! Bookmark not defined Footer Page of 27 Header Page of 27 Bảng từ viết tắt STT Tƣ̀ hoă ̣c cu ̣m tƣ̀ Viế t tắ t Maximal Maginal Relevance MMR Question and Answering Q&A (Hệ thống hỏi đáp tự động) Document Understanding Conferences DUC (Hội nghi chuyên hiểu văn bản) Term Frequency (Tần suất từ/cụm từ văn bản) Footer Page of 27 TF Header Page of 27 Mở đầ u Sự phát triển nhanh chóng mạng Internet với bước tiến mạnh mẽ công nghệ lưu trữ, lượng thông tin lưu trữ trở nên vô lớn Thông tin sinh liên tục ngày mạng Internet, lượng thơng tin văn bản khổng lồ đó mang lại lợi ích khơng nhỏ cho người, nhiên, khiến khó khăn việc tìm kiếm tổng hợp thơng tin Giải pháp cho vấn đề tóm tắt văn tự động Tóm tắt văn bản tự động xác định toán thuộc lĩnh vực khái phá liệu văn bản; việc áp dụng tóm tắt văn bản giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm tăng hiệu quả đánh mục cho máy tìm kiếm Từ nhu cầu thực tế thế, tốn tóm tắt văn bản tự động nhận quan tâm nghiên cứu nhiều nhà khoa học, nhóm nghiên cứu cơng ty lớn thế giới Các báo liên quan đến tóm tắt văn bản xuất nhiều hội nghị tiếng : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007… bên cạnh phát triển hệ thống tóm tắt văn bản : MEAD, LexRank, Microsoft Word (Chức AutoSummarize)… Một vấn đề thách thức quan tâm năm gần tốn tóm tắt văn bản tự động đưa kết quả tóm tắt cho tập văn bản liên quan với mặt nội dung hay gọi tóm tắt đa văn Bài tốn tóm tắt đa văn xác định tốn có độ phức tạp cao Đa số người nghĩ rằng, tóm tắt đa văn bản việc áp dụng tóm tắt đơn văn bản cho văn bản ghép từ văn bản tập văn bản cho trước Tuy nhiên điều hồn tồn khơng xác, thách thức lớn vấn đề tóm tắt đa văn liệu đầu vào có nhập nhằng ngữ nghĩa nội dung văn bản với văn Document Understanding Conference http://duc.nist.gov Text Analysis Conference http://www.nist.gov/tac Association for Computational Linguistics http://aclweb.org Footer Page of 27 Header Page of 27 bản khác tập văn bản hay trình tự thời gian trình bày văn bản khác nhau, để đưa kết quả tóm tắt tốt vơ khó khăn [EWK] Rất nhiều ứng dụng cần đến trình tóm tắt đa văn bản như: hệ thống hỏi đáp tự động (Q&A System), tóm tắt báo cáo liên quan đến kiện, tóm tắt cụm liệu trả từ trình phân cụm máy tìm kiếm… Hướng nghiên cứu ứng dụng tốn tóm tắt đa văn bản vào việc xây dựng hệ thống hỏi đáp tự động hướng nghiên cứu cộng đồng nghiên cứu tóm tắt văn bản năm gần Rất nhiều nghiên cứu cho thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn (Query-based multi-document summarization) kho liệu tri thức để đưa văn bản tóm tắt trả lời cho câu hỏi người sử dụng đạt nhiều kết quả khả quan thể hướng tiếp cận đắn việc xây dựng mơ hình hỏi đáp tự động [Ba07,YYL07] Với việc lựa chọn đề tài “Tóm tắt đa văn dựa vào trích xuất câu”, tập trung vào việc nghiên cứu, khảo sát, đánh giá đề xuất phương pháp tóm tắt đa văn bản phù hợp với ngơn ngữ tiếng Việt, bên cạnh áp dụng phương pháp vào việc xây dựng mơ hình hệ thống hỏi đáp tiếng Việt Ngoài phần mở đầu kết luận, luận văn được tổ chức thành chương sau:  Chƣơng 1: Khái qt tốn tóm tắt giới thiệu khái qt tốn tóm tắt văn bản tự động nói chung tốn tóm tắt đa văn bản nói riêng, trình bày số khái niệm cách phân loại tốn tóm tắt  Chƣơng 2: Tóm tắt đa văn dựa vào trích xuất câu giới thiệu chi tiết hướng tiếp cận, thách thức vấn đề giải quyết tốn tóm tắt đa văn bản dựa vào trích xuất câu  Chƣơng 3: Độ tƣơng đồng câu phƣơng pháp tăng cƣờng tính ngữ nghĩa cho độ tƣơng đồng câu trình bày nghiên cứu phương pháp tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dụng vào q trình trích xuất câu quan trọng văn bản Footer Page of 27 Header Page 10 of 27 10  Chƣơng 4: Một số đề xuất tăng cƣờng tính ngữ nghĩa cho độ tƣơng đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt phân tích, đề xuất phương pháp tích hợp thuật tốn để giải qút tốn tóm tắt đa văn bản tiếng Việt trình bày việc áp dụng phương pháp đề xuất để xây dựng mơ hình hệ thống hỏi đáp tiếng Việt đơn giản  Chƣơng 5: Thực nghiệm đánh giá trình bày trình thử nghiệm luận văn đưa số đánh giá, nhận xét kết quả đạt Footer Page 10 of 27 Header Page 25 of 27 25 Phương pháp xếp câu Xác định độ quan trọng câu bước xuất hầu hết phương pháp tóm tắt đơn văn bản tóm tắt đa văn bản Độ đo quan trọng xây dựng cách kết hợp nhiều độ đo độ tương đồng câu khác với phương pháp cải tiến từ phương pháp MMR để làm tăng độ quan trọng mức ngữ nghĩa câu [HMR05, FMN07, BKO07] Công thức phương pháp MMR cải tiến cho mức ngữ nghĩa câu: Score(si )  arg max[ * sim( s, q)  (1   ) * max sim( si , s j )] si Trong đó: λ: tham số nằm ngưỡng [0,1] để quyết định việc đóng góp độ đo q: câu truy vấn (hay câu hỏi người dùng đưa vào) si: câu cụm văn bản sj: câu khác nằm cụm văn bản sim: độ đo tương đồng hai câu Nhận xét Cả hai vấn đề cần giải qút tốn tóm tắt đa văn bản dựa vào trích xuất câu tập trung vào việc xác định tương đồng hai văn bản nói chung hai câu nói riêng Trên thực tế, phương pháp áp dụng cải tiến cho tóm tắt đa văn bản dựa vào tập trung vào vấn đề tăng cường tính ngữ nghĩa cho độ đo tương đồng hai câu hay hai văn bản [HMR05, FMN07, BKO07] Trong chương 3, luận văn sâu vào giới thiệu chi tiết đến phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu Tóm tắt chƣơng hai Trong chương luận văn giới thiệu chi tiết đến hướng tiếp cận, vấn đề đặt tốn tóm tắt đa văn bản số phương pháp để giải quyết vấn đề Footer Page 25 of 27 Header Page 26 of 27 26 Trong chương tiếp theo, luận văn tiếp tục tập trung vào việc giới thiệu phương pháp nhằm tương cường tính ngữ nghĩa cho độ tương đồng hai câu Độ tƣơng đồng câu phƣơng pháp tăng cƣờng tính ngữ nghĩa cho độ tƣơng đồng câu Độ tƣơng đồng Trong toán học, độ đo hàm số cho tương ứng với "chiều dài", "thể tích" "xác suất" với phần tập hợp cho sẵn Nó khái niệm quan trọng giải tích lý thuyết xác suất Ví dụ, độ đo đếm định nghĩa µ(S) = số phần tử S Rất khó để đo giống nhau, tương đồng Sự tương đồng đại lượng (con số) phản ánh cường độ mối quan hệ hai đối tượng hai đặc trưng Đại lượng thường phạm vi từ -1 đến đến Như vậy, độ đo tương đồng coi loại scoring function (hàm tính điểm) Ví dụ, mơ hình không gian vector, ta sử dụng độ đo cosine để tính độ tương đồng hai văn bản, văn bản biểu diễn vector Độ tƣơng đồng câu Phát biểu tốn độ tính tương đồng câu sau: Xét tài liệu d gồm có n câu: d = s1, s2, , sn Mục tiêu tốn tìm giá trị hàm S(si, sj) với S  (0,1), i, j = 1, , n Hàm S(si, sj) gọi độ đo tương đồng hai câu si sj Giá trị cao giống nghĩa hai câu nhiều Ví dụ: Xét hai câu sau: “Tôi nam” “Tôi nữ”, trực giác thấy hai câu có tương đồng cao Footer Page 26 of 27 Header Page 27 of 27 27 Độ tương đồng ngữ nghĩa giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa hai câu Trên thực tế, khó lấy giá trị có xác cao ngữ nghĩa hiểu đầy đủ ngữ cảnh cụ thể Các phƣơng pháp tính độ tƣơng đồng câu Bài toán độ tương đồng ngữ nghĩa câu sử dụng phổ biến lĩnh vực xử lý ngơn ngữ tự nhiên có nhiều kết quả khả quan Một số phương pháp sử dụng để tính độ đo [SD08, LLB06, RFF05, STP06]: - Phương pháp sử dụng thống kê: độ đo cosine, độ đo khoảng cách euclid … - Phương pháp sử dụng tập liệu chuẩn ngôn ngữ để tìm mối quan hệ từ: Wordnet, Brown Corpus, Penn TreeBank… Các phương pháp tính độ tương đồng câu sử dụng kho ngữ liệu Wordnet đánh giá cho kết quả cao Tuy nhiên, kho ngữ liệu Wordnet hỗ trợ ngôn ngữ tiếng Anh, việc xây dựng kho ngữ liệu cho ngôn ngữ khác đòi hỏi tốn mặt chi phí, nhân lực thời gian Nhiều phương pháp đề xuất để thay thế Wordnet cho ngôn ngữ khác, việc sử dụng phân tích chủ đề ẩn [Tu08] hay sử dụng mạng ngữ nghĩa Wikipedia để thay thế Wordnet [SP06, ZG07, ZGM07] xem phương án khả thi hiệu quả Các phương pháp tập trung vào việc bổ sung thành phần ngữ nghĩa hỗ trợ cho độ đo tương đồng Cosine Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine Trong phương pháp tính độ này, câu biểu diễn theo mơ hình khơng gian vector Mỗi thành phần vector đến từ tương ứng danh sách mục từ Danh sách mục từ thu từ q trình tiền xử lý văn bản đầu vào, bước tiền xử lý gồm: tách câu, tách từ, gán nhãn từ loại, loại bỏ câu không hợp lệ (không phải câu thực sự) biểu diễn câu không gian vectơ Footer Page 27 of 27 Header Page 28 of 27 28 Khơng gian vector có kích thước số mục từ danh sách mục từ Mỗi phần tử độ quan trọng mục từ tương ứng câu Độ quan trọng từ j tính TF sau: wi , j  tf i , j  tf i, j j Trong đó, tfi,j tần số xuất mục từ i câu j Với không gian biểu diễn tài liệu chọn không gian vector trọng số TF, độ đo tương đồng chọn cosine góc hai vector tương ứng hai câu S i Sk Vector biểu diễn hai câu có dạng: Si = , với wti trọng số từ thứ t câu i Sk = , với wtk trọng số từ thứ t câu k Độ tương tự chúng tính theo cơng thức:  t Sim ( S i , S k )  j 1 w ij w kj  w    w  t j 1 i j t j 1 k j Trên vector biểu diễn cho câu lúc chưa xét đến quan hệ ngữ nghĩa mục từ, từ đồng nghĩa không phát hiện, dẫn đến kết quả xét độ tương tự câu chưa tốt Ví dụ cho hai câu sau: S1 : Nhân loại ngày tiến S2 : Con người phát minh nhiều loại công cụ lao động Nếu không xét đến quan hệ ngữ nghĩa từ hai câu khơng có mối liên hệ cả độ tương đồng Những thực chất, ta thấy rằng, từ “nhân loại” từ “loài người” đồng nghĩa, hai câu nói lồi người, hai câu có Footer Page 28 of 27 Header Page 29 of 27 29 liên quan định với cơng thức tính độ tương tự độ tương tự hai câu phải khác Phương pháp tính đợ tương đồng câu dựa vào chủ đề ẩn Phương pháp tiếp cận tốn tính độ tương đồng câu sử dụng chủ đề ẩn dựa sở nghiên cứu thành cơng gần mơ hình phân tích topic ẩn LDA (Latent Dirichlet Allocation) Ý tưởng bản mơ hình với lần học, ta tập hợp tập liệu lớn gọi “Universal dataset” xây dựng mơ hình học cả liệu học tập giàu topic ẩn tìm từ tập liệu [Tu08, HHM08] Mơ hình độ tƣơng đồng câu sử dụng chủ đề ẩn Dưới mơ hình chung tính độ tương đồng câu với chủ đề ẩn: Hình 3.1 Tính độ tương đồng câu với chủ đề ẩn Mục đích việc sử dụng chủ đề ẩn tăng cường ngữ nghĩa cho câu hay nói cách khác nghĩa câu phân biệt rõ thông qua việc thêm chủ đề ẩn Đầu tiên chọn tập “universal dataset” phân tích chủ đề cho Q trình phân tích chủ đề q trình ước lượng tham số theo mơ hình LDA Kết quả lấy Footer Page 29 of 27 Header Page 30 of 27 30 chủ đề tập “universal dataset”, chủ đề gọi chủ đề ẩn Q trình thực bên ngồi mơ hình tính độ tương đồng câu với chủ đề ẩn Trong Hình 3.1, với đầu vào văn bản đơn, sau bước tiền xử lý văn bản thu danh sách câu Tiếp theo, suy luận chủ đề cho câu qua tiền xử lý, kết quả thu danh sách câu thêm chủ đề ẩn Từ đây, tính tốn độ tương đồng câu thêm chủ đề ẩn Suy luận chủ đề tính độ tƣơng đồng câu Với câu, sau suy luận chủ đề cho câu nhận phân phối xác suất topic câu phân phối xác suất từ topic Tức với câu i, LDA sinh  phân phối topic i cho câu Với từ câu, zi,j – topic index (từ j câu i) lấy mẫu dựa theo phân phối topic Sau đó, dựa vào topic index zi,j ta làm giàu câu cách thêm từ Vector tương ứng với câu thứ i có dạng sau: [Tu08]Error! Reference source not found si  t1 , t2 , , t K , w1 , , w|V |  Ở đây, ti trọng số topic thứ i K topic phân tích (K tham số LDA); wi trọng số từ thứ i tập từ vựng V tất cả câu Mỗi câu có nhiều phân phối xác suất topic Với hai câu thứ i j, sử dụng độ cosine để tính độ tương đồng hai câu làm giàu với chủ đề ẩn K simi , j (topic  parts )  t i ,k  t j ,k k 1 K  t i2,k k 1 K t k 1 j ,k V simi , j ( word  parts )  w i ,t  w j ,t t 1 V V w w t 1 Footer Page 30 of 27 i ,t t 1 j ,t Header Page 31 of 27 31 Cuối cùng, tổ hợp hai độ đo để độ tương đồng hai câu: sim(si , s j )    sim(topic  parts) 1     sim(word - parts) Trong công thức trên,  số trộn, thường nằm đoạn [0,1] Nó quyết định việc đóng góp độ đo tương đồng Nếu   , độ tương đồng hai câu khơng có chủ đề ẩn Nếu   , đo độ tương đồng hai câu tính với chủ đề ẩn [Tu08] Phương pháp tính độ tương đồng câu dựa vào Wikipedia Giới thiệu mạng ngữ nghĩa Wikipedia Wikipedia5 bách khoa tồn thư nội dung mở nhiều ngơn ngữ Internet Wikipedia viết xây dựng nhiều người dùng cộng tác với Dự án này, nói chung, bắt đầu từ ngày 15 tháng năm 2001 để bổ sung bách khoa toàn thư Nupedia nhà chuyên môn; Wikipedia trực thuộc Quỹ Hỗ trợ Wikimedia, tổ chức phi lợi nhuận Wikipedia có 200 phiên bản ngơn ngữ, vào khoảng 100 hoạt động 15 phiên bản có 50.000 viết: tiếng Anh, Đức, Pháp, Ba Lan, Nhật, Ý, Thụy Điển, Hà Lan, Bồ Đào Nha, Tây Ban Nha, Hoa, Nga, Na Uy, Phần Lan, Esperanto tiếng Việt, tổng cộng Wikipedia có 4,6 triệu viết, tính cả 1,2 triệu phiên bản tiếng Anh (English Wikipedia) Kiến trúc Wikipedia Các trang thông tin Wikipedia lưu trữ cấu trục mạng.Chi tiết hơn, viết Wikipedia tổ chức dạng mạng khái niệm liên quan với mặt ngữ nghĩa mục chủ đề (category) tổ chức cấu trúc phân cấp(taxonomy) gọi đồ thị chủ đề Wikipedia (Wikipedia Category Graph WCG) Đồ thị viết(Article graph): Giữa viết Wikipedia có siêu liên kết với nhau, siêu liên kết tạo trình chỉnh sửa viết người http://www.wikipedia.org Footer Page 31 of 27 Header Page 32 of 27 32 sử dụng Nếu ta coi viết nút liên kết từ viết đến viết khác cạnh có hướng chạy từ nút đến nút khác ta có đồ thị có hướng viết Wikipedia (phía bên phải hình 3.5) Hình 3.2 Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia Đồ thị chủ đề (Category graph): Các chủ đề Wikipedia tổ chức giống cấu trúc taxonomy (phía bên trái hình 3.2) Mỗi chủ đề có số lượng tùy ý chủ đề con, chủ đề thường xác định mối quan hệ thượng hạ vị (Hyponymy) hay mối quan hệ phận tổng thể (Meronymy) Ví dụ: Chủ đề vehicle có chủ đề aircraft watercraft Do đó, đồ thị chủ đề (WCG) giống mạng ngữ nghĩa từ tương tự Wordnet Mặc dù đồ thị chủ đề không hoàn toàn xem cấu trúc phân cấp tồn chu trình, hay chủ đề khơng có liên kết đến chủ đề khác nhiên số lượng Theo khảo sát Torsten Zesch Iryna Gurevych [ZG07] vào tháng năm 2006 Wikipedia tiếng Đức đồ thị chủ đề chứa 99,8% số lượng nút chủ đề tồn chu trình Footer Page 32 of 27 Header Page 33 of 27 33 Độ tƣơng đồng khái niệm mạng ngữ nghĩa Wikipedia Phương pháp tính độ tương đồng khái niệm mạng ngữ nghĩa Wikipedia nhiều nghiên cứu đưa Ponzetto cộng năm 2006, 2007 [SP06, PSM07], Torsten Zesch cộng năm 2007 [ZG07, ZGM07],…Các nghiên cứu tập trung vào việc áp dụng cải tiến số độ đo phổ biến tính độ tương đồng từ tập ngữ liệu Wordnet cho việc tính độ tương đồng khái mạng ngữ nghĩa Wikipedia Cũng giống Wordnet độ đo chia thành hai loại độ đo, nhóm độ đo dựa vào khoảng cách khái niệm (Path based measure) Path Length (PL, năm 1989), Leacock & Chodorow (LC, năm 1998), Wu and Palmer (WP, năm 1994) [ZG07, SP06] nhóm độ đo dựa vào nội dung thơng tin (Information content based measures) Resnik (Res, năm 1995), Jiang and Conrath (JC, năm 1997), Lin (Lin, năm 1998) [ZG07] Trong độ đo này, trừ độ đo Path Length giá trị nhỏ độ tương đồng cao, lại đo khác giá trị tính tốn khái niệm lớn độ tương đồng cao  Độ đo Path Length (PL) Độ đo PL Rada cộng đề xuất năm 1989 sử dụng độ dài khoảng cách ngắn hai khái niệm đồ thị (tính số cạnh hai khái niệm) để thể gần mặt ngữ nghĩa - n1, n2: hai khái niệm cần tính tốn - l(n1,n2): khoảng cách ngắn hai khái niệm  Độ đo Leacock & Chodorow (LC) Độ đo LC Leacock Chodorow đề xuất năm 1998 chuẩn hóa độ dài khoảng cách hai node độ sâu đồ thị Footer Page 33 of 27 Header Page 34 of 27 34 - n1, n2: hai khái niệm cần tính tốn - depth: độ dài lớn đồ thị - l(n1,n2): khoảng cách ngắn hai khái niệm  Độ đo WP Wu Palmer đề xuất năm 1994: - n1, n2: hai khái niệm cần tính tốn - lcs: Khái niệm thấp hệ thống cấp bậc quan hệ is-a hay cha hai khái niệm n1 n2 - depth(lcs): độ sâu khái niệm cha  Độ đo Resnik Resnik đề xuất 1995 Resnik coi độ tương đồng ngữ nghĩa hai khai niệm xem nội dung thông tin nút cha gần hai khái niệm Với c1, c2: hai khái niệm cần tính tốn ic tính cơng thức dưới: - hypo(n) số khái niệm có quan hệ thượng hạ vi (hyponym) với khái niệm n C tổng số khái niệm có chủ đề  Độ đo JC Jiang Conrath đề xuất năm 1997: Footer Page 34 of 27 Header Page 35 of 27 35 - n1, n2: hai khái niệm cần tính tốn - IC tính công thức  Độ đo Lin Lin đề xuất năm 1998: - n1, n2: hai khái niệm cần tính tốn Tài liệu tham khảo Tiếng Việt [MB09] Lương Chi Mai Hồ Tú Bảo (2009) Báo cáo Tổng kết đề tài KC.01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" Về xử lý tiếng Việt công nghệ thông tin (2006), Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2009 Tiếng Anh [Ba07] Barry Schiffman (2007) Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007 [BE97] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 1999 [BKO07] Blake,C., Kampov, J., Orphanides, A., West,D., & Lown, C (2007) UNC-CH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, In DUC07 Footer Page 35 of 27 Header Page 36 of 27 36 [BL06] Blei, M and Lafferty, J (2006) Dynamic Topic Models, In the 23th International Conference on Machine Learning, Pittsburgh, PA [BME02] Regina Barzilay, Noemie Elhadad, and Kathleen R McKeown (2002) Inferring strategies for sentence ordering in multidocument news summarization, Journal of Artificial Intelligence Research: 35–55, 2002 [BME99] Barzilay R., McKeown K., and Elhadad M Information fusion in the context of multidocument summarization, Proceedings of the 37th annual meeting of the Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999 [BMI06] D Bollegara, Y Matsuo, and M Ishizuka (2006) Extracting key phrases to disambiguate personal names on the web, In CICLing 2006 [CG98] Jaime Carbonell, Jade Goldstein (1998) The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug 1998 [CSO01] John M Conroy, Judith D Schlesinger, Dianne P O'Leary, Mary Ellen Okurowski (2001) Using HMM and Logis-tic Regression to Generate Extract Summaries for DUC, In DUC 01, Nat’l Inst of Standards and Technology, 2001 [Ed69] H Edmundson (1969) New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 [EWK] Website: http://en.wikipedia.org/wiki/Multi-document_summarization [FMN07] K Filippova, M Mieskes, V Nastase, S Paolo Ponzetto, M Strube (2007) Cascaded Filtering for Topic-Driven Multi-Document Summarization, In EML Research gGmbH, 2007 [GMC00] Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitz (2000) Multi-Document Summarization By Sentence Extraction, 2000 Footer Page 36 of 27 Header Page 37 of 27 37 [HHM08] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008) Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, 2008 [HMR05] B Hachey, G Murray, D Reitter (2005) Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space, In The Embra System at DUC, 2005 [Ji98] H Jing (1998) Summary generation through intelligent cutting and pasting of the input document, Technical Report, Columbia University, 1998 [KST02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL): 311–318, 2002 [LH03] Chin-Yew Lin and Eduard Hovy (2003) Automatic evaluation of summaries using n-gram co-occurrence statistics, In Human Technology Coference 2003 [LH97] Chin-Yew Lin and Eduard Hovy (1997) Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans Knowl Data Eng 18(8): 1138-1150 [Lu58] H Luhn (1958) The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 [Ma01] Inderjeet Mani (2001) Automatic Summarization, John Benjamins Publishing Co., 2001 [Mi04] Nguyen Le Minh (2004) Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD Thesis, School of Information Science Japan Advanced Institute of Science and Technology, September 2004 Footer Page 37 of 27 Header Page 38 of 27 38 [MM99] Inderjeet Mani and Mark T Maybury (eds) (1999) Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359-8 [MR95] Kathleen R McKeown and Dragomir R Radev (1995) Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July 1995 [PKC95] Jan O Pendersen, Kupiec Julian and Francine Chen (1995) A trainable document summarizer, Research and Development in Information Retrieval: 68–73, 1995 [PSM07] Ponzetto, Simone Paolo, and Michael Strube (2007) Knowledge Derived from Wikipedia For Computing Semantic Relatedness, Journal of Artificial Intelligence Research, 30: 181-212, 2007 [Ra00] Dragomir Radev (2000) A common theory of information fusion from multiple text sources, step one: Cross-document structure, In 1st ACL SIGDIAL Workshop on Discourse and Dialogue, Hong Kong, October 2000 [RFF05] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2): 638-646, 2005 [RJS04] Dragomir R Radev, Hongyan Jing, Malgorzata Sty´s, and Daniel Tam (2004) Centroid-based summarization of multiple documents, Information Processing and Management, 40:919–938, December 2004 [SD08] P Senellart and V D Blondel (2008) Automatic discovery of similar words Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44, Springer-Verlag, January 2008 [Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD thesis, Université Paris-Sud, Orsay, France, December 2007 Footer Page 38 of 27 Header Page 39 of 27 39 [SP06] Strube, M & S P Ponzetto (2006) WikiRelate! Computing semantic relatedness using Wikipedia, In Proc of AAAI-06, 2006 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications: 94-98, Chiang Mai, Thailand, December 2006 [Su05] Sudarshan Lamkhede Multi-document summarization using concept chain graphs, Master Thesis, Faculty of the Graduate School of the State University of New York at Buffalo, September 2005 [Tu08] Nguyen Cam Tu (2008) Hidden Topic Discovery Toward Classification And Clustering In Vietnamese Web Documents, Master Thesis, Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008 [VSB06] Lucy Vanderwende, Hisami Suzuki, Chris Brockett (2006) Task-Focused Summarization with Sentence Simplification and Lexical Expansion, Microsoft Research at DUC2006, 2006 [WC07] R Wang and W Cohen (2007) Language-independent set expansion of named entities using the web, In ICDM07, 2007 [YYL07] J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C Yang (2007) Language Model Passage Retrieval for Question-Oriented Multi Document Summarization, DUC 07, 2007 [ZG07] T Zesch and I Gurevych (2007) Analysis of the Wikipedia Category Graph for NLP Applications, In Proc of the TextGraphs-2 Workshop, NAACL-HLT, 2007 [ZGM07] Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007) Comparing Wikipedia and German Word-net by Evaluating Semantic Relatedness on Multiple Datasets, In Proceedings of NAACL-HLT, 2007 Footer Page 39 of 27 ... tắt đa văn bản dựa vào trích xuất câu nói riêng Tóm tắt đa văn dựa vào trích xuất câu Hƣớng tiếp cận tốn tóm tắt đa văn Như biết tóm tắt văn bản nói chung tóm tắt đa văn bản nói riêng... giá cao cộng đồng nghiên cứu tóm tắt văn bản Tóm tắt đa văn dựa vào trích xuất câu Tóm tắt đa văn bản dựa vào trích xuất câu phương pháp giải qút tốn tóm tắt đa văn bản theo hướng tiếp... tốn tóm tắt văn bản đơn tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất tóm tắt theo tóm lược Tóm tắt theo trích xuất Đa số phương tóm tắt theo loại tập trung vào việc trích xuất

Ngày đăng: 03/03/2018, 15:56

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan