Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng việt

23 984 1
Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt Người thực hiện: Hoàng Minh Hiền Phạm Thị Thu Uyên Người hướng dẫn: PGS.TS Hà Quang Thụy Cử nhân Trần Mai Vũ 1 2 Nội dung báo cáo 1. Giới thiệu 2. Độ tương đồng câu 3. Phương pháp tính độ tương đồng câu 4. Áp dụng và kết quả thực nghiệm 5. Kết luận và hướng nghiên cứu tiếp 3 1. Giới thiệu  Vai trò độ tương đồng ngữ nghĩa giữa các câu • Sự quan tâm đặc biệt trong các hội nghị quốc tế như: DUC… • Áp dụng tốt độ đo này sẽ làm các ứng dụng trở nên “thông minh” hơn.  Tính cấp thiết của độ tương đồng ngữ nghĩa trong tiếng Việt • Được nêu ra trong đề tài cấp nhà nước KC.01.01.06-10 2 4 2. Độ tương đồng câu Độ tương đồng câu là gì?  Ví dụ: Xét hai câu sau: “Tôi là nam sinh” và “Tôi là nữ sinh” ta thấy hai câu trên có sự tương đồng cao.  Một tài liệu d gồm có n câu: d = s 1 , s 2 , , s n . Mục tiêu của bài toán là tìm ra một giá trị của hàm S(s i , s j ) với S (0,1), và i, j = 1, ,n.  Hàm S(s i , s j ) được gọi là độ đo tương đồng giữa hai câu s i và s j . 5 2. Độ tương đồng câu Các phương pháp tính độ tương đồng câu  Phương pháp sử dụng thống kê  Độ đo cosine  Phương pháp sử dụng xử lý ngôn ngữ tự nhiên  Sử dụng phân tích cấu trúc ngữ pháp  Sử dụng mạng ngữ nghĩa đối với từ • Wordnet corpus • Brown corpus 6 3. Phương pháp tính độ tương đồng câu Mô hình của phương pháp [LLB06] 7 3. Phương pháp tính độ tương đồng câu Thực hiện qua 5 bước : a. Tiền xử lý b. Tính độ tương tự từ dựa trên Wordnet c. Độ tương đồng về ngữ nghĩa giữa hai câu d. Độ tương đồng về thứ tự của các từ trong câu e. Tính độ tương đồng cho toàn bộ câu 8 3a. Tính độ tương tự từ dựa trên wordnet  Ví dụ: Teacher - educator - professional - adult - person - male - male child - boy [LLB06]  Vì sao sử dụng độ tương tự từ? 9 3a. Tính độ tương tự từ dựa trên Wordnet Kết quả thực nghiệm trên 7 độ đo về độ tương tự từ dựa trên Wordnet cho thấy độ đo JCN có độ chính xác cao nhất. [Pad03] Measure Nouns Only All POS Jiang-Conrath(JCN) 0.46 n/a Ex. Gloss Overlaps 0.43 0.34 Lin 0.39 n/a Vector 0.33 0.29 Hirst-St.Onge 0.33 0.23 Resnik 0.29 n/a Leacock Chodorow 0.28 n/a 10 Độ đo JCN  JCN sử dụng nội dung thông tin (Information Content) của các khái niệm (concept) IC(concept) = –log(P(concept)) với: P(concept) = freq(concept)/N  Công thức tính khoảng cách ngữ nghĩa giữa hai từ: distance = IC(c 1 ) + IC(c 2 ) – 2. IC(lcs(c 1 , c 2 ))  Mối quan hệ giữa hai từ c1 và c2 như sau: Relatedness(c1, c2) = 1 / distance [...]... tương đồng về thứ tự của từ trong câu như sau: Sr || r1 r2 || 1 || r1 r2 || 12 3d Độ tương đồng về toàn bộ câu  Sự giống nhau về toàn bộ câu là sự kết hơp giữa độ tương tự về mặt ngữ nghĩa và thứ tự của từ trong câu  Với 0 1 13 4 Áp dụng độ tương đồng câu cho tóm tắt văn bản tiếng Việt Tóm tắt văn bản tiếng Việt dựa vào câu truy vấn của người dùng 14 Quy trình tóm tắt văn bản  Quá trình tiền xử lý... Độ tương đồng về ngữ nghĩa giữa hai câu  Gọi si là vector ngữ nghĩa của mỗi câu  Sự giống nhau về ngữ nghĩa giữa hai câu là hệ số cosin giữa hai vector: Ss s1.s2 || s1 || || s2 || 11 3c .Độ tương đồng về thứ tự các từ trong câu  Ví dụ:   T1: A quick brown dog jumps over the lazy fox T2: A quick brown fox jumps over the lazy dog  Gọi r là vector thứ tự từ trong câu Công thức để tính độ tương đồng. .. chính, tách câu, loại bỏ câu ngắn Tách từ dựa vào công cụ JvnSegmenter Gán nhãn từ loại dựa vào công cụ VnQtag, chọn các từ có nhãn phù hợp  Quá trình tính toán độ tượng tự ngữ nghĩa giữa các cặp câu  Áp dụng phương pháp nêu đã nêu để tính độ tương đồng giữa các câu với câu truy vấn với bộ Wordnet tiếng Việt thô Từ thực nghiệm cho thấy = 0,85 thì đưa ra được kết quả về độ tương đồng câu là cao nhất... trình tóm tắt văn bản   Xếp hạng kết quả Chọn ra các câu với tỷ lệ xác định trước 15 Kết quả thực nghiệm  Câu truy vấn: “Thị trường chứng khoán trong nước”  Đoạn văn bản 16 Kết quả thực nghiệm Câu Độ đo [1] 0.54 [2] 0.65 [3] 0.87 [4] 0.74 [5] 0.27 [6] 0.23 17 Kết quả thực nghiệm Kết quả: Kết quả tóm tắt Google trả về: 18 5 Kết luận và hướng phát triển tiếp  Nghiên cứu và áp dụng độ đo tương đồng câu. .. quan trọng xây dựng ứng dụng tóm tắt văn bản tiếng Việt, Một số vấn đề chọn lọc của công nghệ thông tin, 2006, 413-421  [MB06] Lương Chi Mai, Hồ Tú Bảo (2006) Về xử lý tiếng Việt trong công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt" , Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2006  [PT05]... câu vào trong xử lý ngôn ngữ tiếng Việt  Thử nghiệm thành công độ đo này trong bài toán tóm tắt trang web tiếng Việt trên máy tìm kiếm  Cải thiện kết quả tính toán các độ đo bằng việc xây dựng bộ corpus tiếng Việt (kiểu WordNet) đầy đủ hơn 19 Tài liệu tham khảo  [LMT06] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006) Kết hợp các phương pháp chọn câu quan trọng xây dựng ứng. .. một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt" , Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2006  [PT05] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích và tóm tắt nội dung trang web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22  [BKO07] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C (2007) UNC-CH at DUC 2007: Query Expansion, Lexical Simplification,... Computer science, Université Paris-Sud, Orsay, France, December 2007  [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 94-98  [1] Nguyễn Cẩm Tú, Phan Xuân Hiếu JvnSegmenter http://jvnsegmenter.sourceforge.net... Organization of Internet Web pages Using WordNet and Self-Organizing maps, MSc Thesis, The University of Texas at Arlington, USA,1999 20 Tài liệu tham khảo      [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics IEEE Trans Knowl Data Eng 18(8): 1138-1150 [MR06] A A Mohamed, S Rajasekaran, (2006) . câu  Với 10 14 4. Áp dụng độ tương đồng câu cho tóm tắt văn bản tiếng Việt Tóm tắt văn bản tiếng Việt dựa vào câu truy vấn của người dùng. 15 Quy trình tóm tắt văn bản  Quá trình tiền xử. tính độ tương đồng câu Thực hiện qua 5 bước : a. Tiền xử lý b. Tính độ tương tự từ dựa trên Wordnet c. Độ tương đồng về ngữ nghĩa giữa hai câu d. Độ tương đồng về thứ tự của các từ trong câu e (0,1), và i, j = 1, ,n.  Hàm S(s i , s j ) được gọi là độ đo tương đồng giữa hai câu s i và s j . 5 2. Độ tương đồng câu Các phương pháp tính độ tương đồng câu  Phương pháp sử dụng thống kê  Độ

Ngày đăng: 18/10/2014, 21:30

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan