Báo cáo máy học Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ

25 540 2
Báo cáo máy học  Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Báo cáo máy học Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ Cần demo Liên hệ facebook. Input: chọn cùng 1 văn bản vào 2 ô textNhấn so sánhKhoảng cách sẽ ra 0 do đầu vào là 2 văn bản giống hệt nhauKết luận đưa ra là 2 văn bản có sự sao chép 100%...

LỜI CẢM ƠN Em xin chân thành cảm ơn các thầy, cô giáo trong Khoa Công nghệ thông tin, trường Đại học Điện Lực, đã tạo điều kiện cho em thực hiện đề tài này. Xin cảm ơn Tiến sỹ Nguyễn Thị Thu Hà đã tận tình hướng dẫn, chỉ bảo nhóm em trong suốt thời gian thực hiện đề tài. Trong thời gian được làm việc với cô, em không những học hỏi được nhiều kiến thức bổ ích mà còn học được tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc của cô. Xin gửi lời cảm ơn chân thành đến gia đình, và bè bạn vì đã luôn là nguồn động viên to lớn, giúp đỡ em vượt qua những khó khăn trong suốt quá trình học tập. Mặc dù đã cố gắng hoàn thiện đồ án với tất cả sự nỗ lực của bản thân, nhưng chắc chắn không thể tránh khỏi những thiếu sót. Kính mong quý Thầy Cô tận tình chỉ bảo. Một lần nữa, em xin chân thành cảm ơn và luôn mong nhận được sự đóng góp quý báu của tất cả mọi người Hà Nội, tháng 12 năm 2014 Sinh viên thực hiện NHẬN XÉT ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· ···························································································· MỤC LỤC LỜI MỞ ĐẦU 1. Tính cấp thiết của đề tài Trong thời đại công nghệ số như hiện nay, các nguồn tài liệu là vô cùng phong phú. Việc “sao chép tài liệu” theo nghĩa tiêu cực như đạo văn, sao chép các luận án, luận văn, đồ án trở nên phổ biến và đang là vấn nạn. Ở qui mô rộng hơn, các thư viện điện tử ngày càng nhiều, một tài liệu có thể được phát hành trên internet nhiều lần trong những thư viện điện tử khác nhau, trên các trang web khác nhau. Làm thế nào để phát hiện sự sao chép tài liệu theo nghĩa tiêu cực? Làm thế nào ngăn chặn việc sao chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ đề này đã được nghiên cứu từ khoảng hơn 10 năm qua. Hiện tại, đã có một số giải pháp cho việc phát hiện sao chép và một vài công cụ phần mềm cho phép phát hiện một tài liệu (gọi là văn bản kiểm tra) có sao chép từ một tập hợp các tài liệu nguồn hay không. Tập hợp các tài liệu nguồn có thể là đóng- tức là các tài liệu tập hợp trước trong một thư viện điện tử- hoặc là mở, chẳng hạn như tập các tài liệu văn bản trên internet. Đã có một số nghiên cứu đề xuất các phương pháp khác nhau để xác định xem một đoạn văn bản của một tài liệu có nằm trong một tài liệu nào khác hay không. Các phương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi. Tuy nhiên, các phương pháp so khớp chuỗi chỉ có hiệu quả nếu việc sao chép là “nguyên văn”. Do vậy một yêu cầu cấp bách đặt ra là làm thế nào để phát hiện việc sao chép khi có sửa đổi đôi chút như thay thế một số từ bằng từ đồng nghĩa hay thay đổi một ít trong thứ tự các câu trong văn bản. Chính vì vậy, đề tài “Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ” được chọn làm đề tài luận văn tốt nghiệp của tôi. 2. Mục tiêu của đề tài Vận dụng các phương pháp tính độ tương tự giữa từ với từ để tính độ tương đồng ngữ nghĩa giữa hai văn bản giúp phát hiện một văn bản có được sao chép từ văn bản kia hay không. 3. Đối tượng và nhiệm vụ của đề tài: • Tập các văn bản trong bộ dữ liệu mẫu. • Tập các tài liệu trên Internet. Nhiệm vụ: đề tài tập trung vào tính độ tương tự ngữ nghĩa văn bản dựa trên tập ngữ liệu có sẵn. Trong đó có tận dụng tối đa các đặc điểm của kho ngữ liệu, đến độ tương tự giữa từ với từ và tập các từ đồng nghĩa. 4. Phương pháp và nội dung nghiên cứu • Nghiên cứu lý thuyết về độ tương tự, các cách tính độ tương tự giữa từ với từ. • Nghiên cứu về kho ngữ liệu, hiện tượng từ đồng nghĩa. • Tìm hiều các cách tách từ trong văn bản tiếng Việt. • Nghiên cứu các phương pháp tính độ tương tự ngữ nghĩa văn bản dựa trên độ tương tự giữa từ với từ. 5. Kết cấu của báo cáo Nội dung chính của luận văn gồm 4 chương: • Chương I: Khái niệm độ tương tự. • Chương II: Độ tương tự từ-từ. • Chương III: Độ tương tự văn bản-văn bản. • Chương IV: Tính độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ. 6 CHƯƠNG 1. KHÁI NIỆM ĐỘ TƯƠNG TỰ 1.1. Tổng quan về độ tương tự Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là “khoảng cách”) thuộc phạm vi toán học, chẳng hạn trong lý thuyết tôpô và xấp xỉ; nhưng trong khoa học máy tính và các ứng dụng máy tính có phần khác. Trong khoa học máy tính, phép tính xấp xỉ thường được sử dụng theo một lối không có tính hệ thống (non-systematic) và không theo thể thức (ad-hoc). Trong ngữ cảnh này, khái niệm “sự tương tự” xuất hiện ở nhiều dạng, diễn xuất, và nhiều ứng dụng. Khái niệm “sự tương tự” có nhiều dạng khác nhau. Bất chấp những khác biệt, chúng đều có điểm chung: “sự tương tự” được sử dụng để so sánh hai (hay nhiều) đối tượng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên do khác nhau. Luôn có mục đích nào đó với một phép so sánh như thế, bởi vì một hành động tiếp sau đó được thực hiện và cuối cùng thì một vấn đề nào đó phải được giải quyết. Vì lý do đó, hai đối tượng được đem so sánh giữ những vai trò khác nhau. Đối tượng thứ nhất đang được xem xét và được gọi là vấn đề (problem). Đối tượng thứ hai là đã biết và đã lưu; thường được gọi là bản mẫu (prototype) hay tình huống (case). “Sự tương tự” được sử dụng một cách gián tiếp trong quá trình giải quyết vấn đề, nổi bật là các phương pháp dựa trên phép loại suy (Analogy), lập luận dựa theo tình huống (Case-Based Reasoning), và nhận dạng mẫu (Pattern Recognition). Chúng có liên hệ với nhau và không có ranh giới rõ ràng giữa phép loại suy và các phương pháp khác. Ở đây, chúng ta chấp nhận quan điểm rằng phép loại suy gắn với các đối tượng thuộc nhiều lĩnh vực, trong khi CBR và nhận dạng mẫu sử dụng độ tương tự trong cùng một lĩnh vực. Một khác biệt cơ bản giữa CBR và phép loại suy là CBR thường (không phải luôn luôn) xét các đối tượng được mô tả theo cùng ngôn ngữ mô tả và thuật ngữ, trong khi phép loại suy có thể xét các lý thuyết hoàn toàn khác nhau. Dưới đây là một số ngữ cảnh cần đến “sự tương tự”: • Lập luận dựa theo tình huống (CBR) là một cách rất tổng quát để giải quyết vấn đề bằng cách sử dụng các kinh nghiệm trước đó. Những kinh nghiệm này được ghi lại trong một cơ sở dữ liệu gọi là kho tình huống. Ý tưởng bên dưới nhằm tái sử dụng những kinh nghiệm là: “Nếu hai vấn đề là tương tự thì chúng có các giải pháp tương tự”. CBR cũng có một giả định cơ bản là luôn tồn tại kinh nghiệm. 7 Với điều kiện này, CBR có thể được áp dụng cho hầu hết các dạng ứng dụng. Thường thì có rất nhiều kinh nghiệm được lưu trữ và một khía cạnh thiết yếu là nhanh chóng tìm ra những kinh nghiệm hữu ích (bài toán thu hồi). • Trong cơ sở dữ liệu (Databases), “sự tương tự” cũng có liên quan với tìm kiếm, và có quan hệ nào đó với CBR. Đa phần cơ sở dữ liệu cần so trùng chính xác. Các phép đo độ tương tự giữ một vai trò trong một số cơ sở dữ liệu đặc biệt như cơ sở dữ liệu không gian (spatial database) hay cơ sở dữ liệu địa lý (geo- database). • Nhận dạng mẫu (Pattern Recognition) cũng là một vấn đề rất tổng quát, nghiên cứu sự vận hành và thiết kế các hệ thống nhận dạng các mẫu trong dữ liệu. Vì những mẫu như thế không phải lúc nào cũng giống hệt nhau, khái niệm “sự tương tự” thường đóng một vai trò quyết định. • Trong phân loại (Classification) và phân tích cụm (Cluster Analysis), “sự tương tự” được sử dụng để phân loại các đối tượng: các đối tượng tương tự thuộc về cùng một lớp/cụm, các đối tượng không tương tự thuộc về các lớp/cụm khác nhau. • Trong diễn xuất hình ảnh (Image Interpretation), các hình ảnh được diễn xuất theo ý nghĩa của chúng và chúng được so sánh với nhau. Ví dụ, một ảnh y khoa thực tế và một ảnh không có bệnh lý nào đó được so sánh với nhau; độ tương tự giữa những ảnh này được sử dụng để cho biết ảnh thực kia có chứa bệnh lý hay không. Xác minh hình ảnh (Image Identification) cũng thuộc về lĩnh vực này. • Trong tâm lý học nhận thức và xã hội (Cognitive and Social Psychology), “sự tương tự” là cái gì đó chủ quan; ám chỉ thái độ, giá trị, sở thích, và cá tính giữa những con người tương xứng mức độ nào. Có nhiều dạng mô hình về sự tương tự trong tâm lý học, bốn mô hình nổi bật là hình học (geometric), đặc tính (featural), dựa trên canh lề (alignment-based), và biến đổi (transformational). • Trong lĩnh vực an ninh, quốc phòng để xác định đối tượng ảnh khi muốn xác định vân tay, kiểm tra những băng đĩa mang những nội dung cần kiểm soát,… Độ đo tương tự là một trong những phương pháp tốt để máy tính phân biệt được các văn bản qua nội dung của chúng. Xét trên khía cạnh nào đó, độ tương tự càng lớn, hai văn bản giống nhau càng nhiều. 1.2. Khái niệm độ tương tự 8 Độ tương tự là một khái niệm quan trọng và đã được sử dụng rộng rãi. Các định nghĩa trước đây về độ tương tự được trói buộc trong một ứng dụng cụ thể hoặc một dạng thể hiện của tri thức. Nhiều độ đo độ tương tự đã được đưa ra, chẳng hạn như nội dung thông tin (Resnik, 1995b), độ đo thông tin chung(mutual information – Hindle, 1990), độ đo 7 dựa trên khoảng cách (Lee et al., 1998; Rada et al 1998) và mô hình đặc trưng tương phản (Tversky, 1977). McGill etc đã khảo sát và so sánh 67 độ đo độ tương tự đã sử dụng trong tìm kiếm thông tin (McGill et al., 1979). Một vấn đề trong độ đo độ tương tự trước đây là mỗi một trong số chúng bị trói buộc trong một ứng dụng cụ thể hoặc đảm đương một mô hình cụ thể. Ví dụ độ đo về độ tương tự giữa các khái niệm dựa trên khoảng cách (Lee et al., 1989; Rada et al.,và mô hình đặc trưng tương phản(Tversky,1997).McGill etc đã khảo sát và so sánh 67 độ đo độ tương tự đã sử dụng trong tìm kiếm thông tin(McGill et al,1979). Một vấn đề trong độ đo độ tương tự trước đây là một trong số chúng bị trói buộc trong một ứng dụng cụ thể hoặc đảm đương một mô hình cụ thể .Ví dụ độ đo về độ tương tự giwuax các khái niệm dựa trên khoảng cách(Lê et al,1989;Rada et al,1989)thừa nhận rằng phạm vi đã được thể hiện trong 1 mạng.Nếu 1 tập các tài liệu không được thể hiện nhưu 1 mạng,ddoooj đo dựa trên khoaongr cách sẽ không được áp dụng.Hệ số dice(súc sắc) và hệ số cosin chỉ có thể áp dụng khi các đối tượng được thể hiện nhưu các vecto đặc trưng bằng số. Một vấn đề khác với các độ đo độ tương tự trước đây là các điều giả định cơ bản của chúng thường không ở trạng thái rõ ràng. Ngoài việc biết các giả định này, không thể tạo ra sự tranh luận về mặt lý thuyết hay phản đối bất cứ độ đo cụ thể nào. Hầu hết tất cả các so sánh và đánh giá của các độ đo độ tương tự trước đây đều dựa trên kết quả do kinh nghiệm. Định nghĩa độ tương tự đạt được 2 mục đích: • Tính phổ biến (universality): Chúng ta định nghĩa độ tương tự trong thuật ngữ lý thuyết thông tin. Điều đó có thể được áp dụng miễn là phạm vi có một mô hình xác suất. Từ đó lý thuyết xác suất có thể được tích hợp với nhiều loại thể hiện của tri thức, chẳng hạn như thứ tự logic (Bacchus, 1988) và mạng ngữ nghĩa (Pearl, 1988), định nghĩa của chúng ta về độ tương tự có thể được áp dụng cho nhiều loại lĩnh vực mà 9 mỗi độ đo có một giả định riêng trước. Hơn nữa, tính phổ biến của định nghĩa còn cho phép độ đo được sử dụng trong lĩnh vực không có giả định trước, chẳng hạn như độ tương tự giữa các giá trị có thứ tự. • Tính giả định (Theoretical Justification): độ đo độ tương tự không được định nghĩa một cách trực tiếp bởi công thức. Hơn nữa, nó được phân phát từ một tập các giả định về độ tương tự. Mặt khác, nếu các giả định được cho là hợp lý, độ đo độ tương tự cần thiết phải xảy ra. 1.2.1.Định nghĩa độ tương tự (Definition of Similarity) Mục đích của chúng ta là cung cấp định nghĩa chính thức về khái niệm độ tương tự, đầu tiên chúng ta đưa ra các trực giác (intuitions) về độ tương tự. • Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương đồng của chúng. Sự tương đồng càng nhiều, độ tương tự càng lớn. • Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệt giữa chúng. Càng nhiều sự khác biệt, độ tương tự càng thấp. • Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệt nhau (đồng nhất - identical) 1.2.2.Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values) Rất nhiều các đặc trưng có các giá trị ưu tiên. Ví dụ, thuộc tính “chất lượng” có thể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”, “awful”. Không có một định nghĩa nào ở trên cung cấp độ đo độ tương tự giữa hai giá trị có thứ tự. Bây giờ chúng ta sẽ chỉ ra cách định nghĩa của chúng ta có thể được áp dụng. Nếu “chất lượng của X là excellent” và “chất lượng của Y là average”, sự mô tả cụ thể nhất của cả X và Y là “chất lượng của X và Y ở giữa hai giá trị excellent và average”. Do đó, sự tương đồng giữa hai giá trị ưu tiên được giới hạn bên trong giữa chúng. 1.2.3.Độ tương tự chuỗi (String Similarity-A case study) Xem xét công việc tìm kiếm từ một danh sách từ các từ mà được xuất phát từ cùng một gốc như là một từ cho sẵn. Ví dụ, cho trước từ “eloquently”, mục đích của chúng ta là để tìm ra các từ liên quan khác như “ineloquent”, “ineloquently”, “eloquent” và “eloquence”. Để làm điều đó, ta có thể định nghĩa độ đo tương tự giữa hai chuỗi và xếp hạng các từ trong danh sách từ theo thứ tự giảm dần của độ tương tự với từ cho sẵn. Những từ xuất phát từ cùng một từ gốc nên xuất hiện sớm trong bảng xếp hạng. 10 [...]... Chúng em xin chân thành cảm ơn! Hướng phát triển • Tìm hiều về khái niệm độ tương tự, độ tương tự về mặt ngữ nghĩa 23 • • Tìm hiều các cách tính độ tương tự giữa từ với từ (dựa trên cơ sở tri thức và dựa trên kho ngữ liệu) Trên cơ sở tính toán độ tương tự từ- từ, luận văn đã xây dựng được hệ thống tính độ tương tự giữa hai tệp văn bản và nội dung của hai trang web trên các site VnExpress.net, Dantri.com... Mỗi lĩnh vực khác nhau có các cách để tính độ tương ngữ nghĩa khác nhau Sau đây chúng ta sẽ tìm hiểu các phương pháp tính độ đo tương tự từ- từ và độ đo tương từ giữa văn bản -văn bản 11 CHƯƠNG 2 ĐỘ TƯƠNG TỰ GIỮA TỪ VÀ TỪ 2.1 Định nghĩa từ Khái niệm từ nghe rất thông dụng dễ hiểu nhưng định nghĩa chính xác thế nào thì không đơn giản Từ trước tới nay cũng có nhiều định nghĩa được đưa ra, tất cả đều đúng...1.3 Độ tương tự ngữ nghĩa Độ tương tự ngữ nghĩa là một khái niệm ở đó tập các tài liệu hoặc các thuật ngữ trong một danh sách các thuật ngữ được gán một tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của chúng Độ đo độ tương tự ngữ nghĩa gần đây được áp dụng và phát triển trong rất nhiều lĩnh vực như trong y học (so sánh các gen), trong phân lớp văn bản (các văn bản tương tự nhau thì cùng... nhập vào 2 văn bản giống hệt nhau Input: chọn cùng 1 văn bản vào 2 ô text Nhấn so sánh Khoảng cách sẽ ra 0 do đầu vào là 2 văn bản giống hệt nhau Kết luận đưa ra là 2 văn bản có sự sao chép 100% 21 - Hình 4.2 Giao diện khi nhập vào 2 văn bản khác nhau Input: chọn 2 văn bản khác nhau vào 2 ô text Nhấn so sánh Khoảng cách sẽ ra khác 0 do đầu vào là 2 văn bản không giống nhau Kết luận đưa ra là 2 văn bản. .. f Lesk 1971) Độ tương tự văn bản cũng được dùng cho phản hồi liên quan (relevance feedback), phân lớp văn bản (Rochio 1971), 16 và gần đây hơn là cho trích chọn văn bản (Salton et al 1997), và phương pháp cho việc đánh giá dịch máy tự động (Papineni et al 2002) hay tóm tắt văn bản (Lin f Hovy 2003) Độ đo độ tương tự văn bản cũng được sử dụng cho việc đánh giá tính chặt chẽ của văn bản (Lapata f Barzilay... Các độ đo độ tương tự văn bản đã được dùng từ rất lâu trong các ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan Một trong những ứng dụng sớm nhất của độ tương tự văn bản có lẽ là mô hình vecto trong tìm kiếm thông tin, ở đó tài liệu có liên quan nhất tới câu truy vấn đầu vào được xác định bằng cách xếp hạng các tài liệu trong tập theo thứ tự ngược của độ tương tự (Salton f Lesk 1971) Độ. .. nhập vào 2 văn bản có phần giống nhau Input: chọn cùng 1 văn bản vào 2 ô text Nhấn so sánh Khoảng cách sẽ ra khác 0 do đầu vào là 2 văn bản không giống hệt nhau Kết luận đưa ra là 2 văn bản có sự nghi ngờ sao chép 4.3 Hướng dẫn sử dụng - Chọn văn bản 1 vào ô text 1 - Chọn văn bản 2 vào ô text 2 - Nhấn button so sánh để thực hiện so sánh 2 văn bản - Kết quả sẽ được hiện lên ở dòng khoảng cách chính là độ. .. ngôn ngữ Đông Nam Á khác như khó xác định ranh giới giữa các từ và có các điểm khác biệt về ngữ âm, văn phạm và ngữ nghĩa so với các ngôn ngữ Ấn Âu Do đó rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Việt nếu không xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt 3.3 Độ tương tự văn bản -văn bản. .. extraction): từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những đoạn bên trong một số tệp liên quan đến một Dịch tự động (machine translation): từ một tệp dữ liệu văn bản trong một ngôn ngữ (tiếng Anh chẳng hạn), máy tính dịch và chuyển thành một tệp văn bản trong một ngôn ngữ khác (tiếng Việt chẳng hạn) [Dorr et al, 2000], [Nagao, 1989] Tóm tắt văn bản (text summarization): từ một văn bản dài... bài toán và công nghệ xử lý ngôn ngữ khác, như giao diện người máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ra ngôn ngữ, … 3.2 Tách từ trong văn bản Tách từ là một khó khăn chính trong việc xử lý văn bản theo ngữ nghĩa đối với các ngôn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng Hàn và cả tiếng Việt Mặc dù được viết bằng các ký tự Latinh mở rộng, tiếng Việt cũng có những đặc tính chung với

Ngày đăng: 23/07/2015, 17:35

Từ khóa liên quan

Mục lục

  • CHƯƠNG 1. KHÁI NIỆM ĐỘ TƯƠNG TỰ

    • 1.1. Tổng quan về độ tương tự

    • 1.2. Khái niệm độ tương tự

      • 1.2.1. Định nghĩa độ tương tự (Definition of Similarity)

      • 1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values)

      • 1.2.3. Độ tương tự chuỗi (String Similarity-A case study)

      • 1.3. Độ tương tự ngữ nghĩa

      • CHƯƠNG 2. ĐỘ TƯƠNG TỰ GIỮA TỪ VÀ TỪ

        • 2.1. Định nghĩa từ

        • 2.2. Cấu trúc từ

        • 2.3. Nghĩa của từ

        • CHƯƠNG 3. THUẬT TOÁN

          • 3.1. Một số kết quả đã đạt được

          • 3.2. Tách từ trong văn bản

          • 3.3. Độ tương tự văn bản-văn bản

          • 3.4. Thuật toán

            • 3.4.1. Tính tần suất của từ chủ đề

            • 3.4.2. Tính khoảng cách từng cặp văn bản

            • CHƯƠNG 4. XÂY DỰNG HỆ THỐNG

              • 4.1. Phần mềm sử dụng

              • 4.2. Giao diện chính

              • 4.3. Hướng dẫn sử dụng

              • KẾT LUẬN

              • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan