Nghiên cứu độ đo tương đồng văn bản trong tiếng việt và ứng dụng hỗ trợ đánh giá việc sao chép bài điện tử

45 2K 15
Nghiên cứu độ đo tương đồng văn bản trong tiếng việt và ứng dụng hỗ trợ đánh giá việc sao chép bài điện tử

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP VIỆN NGHIÊN CỨU ĐỘ ĐO TƯƠNG ĐỒNG VĂN BẢN TRONG TIẾNG VIỆT VÀ ỨNG DỤNG HỖ TRỢ ĐÁNH GIÁ VIỆC SAO CHÉP BÀI ĐIỆN TỬ Mã số: V2014-33 Xác nhận của cơ quan Chủ nhiệm đề tài chủ trì đề tài TS. Dương Thăng Long Hà Nội – 11/2014 Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 2 DANH SÁCH THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI VÀ ĐƠN VỊ PHỐI HỢP 1. Danh sách thành viên tham gia nghiên cứu đề tài ThS Mai Thị Thúy Hà KS Trần Tiến Dũng 2. Các đơn vị phối hợp Khoa Đào tạo từ xa Khoa Công nghệ thông tin Trung tâm đào tạo E-Learning Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 3 MỤC LỤC DANH MỤC BẢNG BIỂU 4 DANH MỤC HÌNH VẼ 5 DANH MỤC TỪ VIẾT TẮT 6 PHẦN I: PHẦN MỞ ĐẦU 7 I.1. Tính cấp thiết của đề tài 7 I.2. Tình hình nghiên cứu 7 I.3. Mục đích nghiên cứu 9 I.4. Đối tượng và phạm vi nghiên cứu 10 I.5. Phương pháp nghiên cứu 10 PHẦN II: NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU 11 Chương 1. Các vấn đề về xử lý ngôn ngữ tự nhiên và ứng dụng 11 1.1. Xử lý ngôn ngữ tự nhiên 11 1.2. Vấn đề về độ tương tự trong văn bản 14 1.3. Vấn đề về sự sao chép hay đạo văn và một số kỹ thuật 19 Chương 2. Phương pháp đánh giá độ tương đồng văn bản tiếng Việt 23 2.1. Giới thiệu 23 2.2. Phương pháp đo độ tương đồng văn bản trong tiếng Việt 24 2.2.1. Độ tương tự ngữ nghĩa của văn bản 25 2.2.2. Độ tương tự về thứ tự các từ trong văn bản 27 2.2.3. Độ tương tự theo ma trận so sánh từng nhóm từ loại 28 2.2.4. Kết hợp giữa độ đo để đánh giá độ tương tự hai văn bản 29 Chương 3. Xây dựng hệ thống ứng dụng thử nghiệm 32 3.1. Công nghệ sử dụng 32 3.1.1. Ngôn ngữ lập trình Java 32 3.1.2. Bộ thư viện JVNTextPro 34 3.1.3. Google Translate API 38 3.2. Chương trình ứng dụng thử nghiệm 39 PHẦN III: KẾT LUẬN & KIẾN NGHỊ 43 III.1. Kết luận 43 III.2. Kiến nghị 43 TÀI LIỆU THAM KHẢO 44 Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 4 DANH MỤC BẢNG BIỂU Bảng 2.1: Các phương án kết hợp đánh giá độ tương tự văn bản 30 Bảng 2.2: Kết quả các phương án kết hợp của ví dụ 31 Bảng 3.1. Kết quả thử nghiệm và so sánh với khảo sát thực tế 42 Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 5 DANH MỤC HÌNH VẼ Hình 2.1: Ví dụ về mạng từ tiếng Anh 15 Hình 2.2: 4 giai đoạn của quá trình phát hiện đạo văn 20 Hình 3.1 : Chương trình thử nghiệm đánh giá độ tương tự văn bản 39 Hình 3.2. Biểu đồ so sánh kết quả thử nghiệm với khảo sát 42 Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 6 DANH MỤC TỪ VIẾT TẮT Stt Từ viết tắt Ý nghĩa đầy đủ 1 NLP Xử lý ngôn ngữ tự nhiên (Natural Language Processing) 2 IC Hàm lượng thông tin (Information Content) 3 WordNet Mạng từ ngữ nghĩa 4 POS Phân nhóm loại từ trong văn bản 5 LCS Nút con chung thấp nhất (Lowest Common Subsummer) 6 LSO Nút con chung thấp nhất (Lowest Super- Ordinate) 7 SIM Độ tương tự (Similarity) Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 7 PHẦN I: PHẦN MỞ ĐẦU I.1. Tính cấp thiết của đề tài Xử lý ngôn ngữ tự nhiên (Natural Language Processing) là một lĩnh vực nghiên cứu thường có sự kết hợp giữa công nghệ thông tin và ngôn ngữ học. Trong đó, vai trò của công nghệ thông tin ngày càng chứng tỏ sức mạnh và tầm quan trọng trong các nghiên cứu cũng như kết quả ứng dụng. Cho đến nay đã có nhiều kết quả nghiên cứu [V1-V5, A1-A9] và triển khai ứng dụng đem lại hiệu quả lớn cho xã hội. Trong đó, chủ yếu là xử lý ngôn ngữ tiếng Anh với các bài toán điển hình như tóm tắt văn bản, trích chọn từ khóa, dịch tự động,… và đặc biệt là bài toán đánh giá độ tương tự văn bản được nhiều tác giả quan tâm nghiên cứu với hy vọng đem lại những lợi ích to lớn trong ứng dụng thực tiễn. Hiện nay, tình trạng sao chép vi phạm bản quyền và gian dối trong các kết quả công trình khoa học hay thậm chí là các bài viết luận diễn ra rất nhiều và khó kiểm soát. Đặc biệt là trong lĩnh vực giáo dục – đào tạo, việc người học sao chép bài của nhau diễn ra phổ biến với số lượng lớn, gây khó khăn và mất nhiều thời gian cho các giảng viên trong việc phân loại, đánh giá các kết quả bài viết luận của sinh viên. Trong khi đó, Viện Đại học Mở Hà Nội đã và đang triển khai đào tạo các loại hình từ xa, chính quy với quy mô rất lớn và trải rộng khắp mọi miền tổ quốc nên việc kiểm soát tình trạng này cũng gặp nhiều khó khăn. Với tình hình trên, đề tài này hy vọng bước đầu có những nghiên cứu về phương pháp đánh giá mức độ tương đồng văn bản tiếng Việt và đưa ra một số đề xuất cả về mô hình cũng như thử nghiệm nhằm có những định hướng ứng dụng hiệu quả trong việc hỗ trợ phân loại, đánh giá sơ bộ các bài viết luận, qua đó nhằm hạn chế và tránh được những sao chép trong học thuật, góp phần nâng cao chất lượng kết qủa học tập. I.2. Tình hình nghiên cứu Trong xử lý ngôn ngữ tự nhiên, các kết quả nghiên cứu về đánh giá độ tương tự trong văn bản tiếng Anh đã và đang diễn ra rất sôi nổi, có nhiều công trình nghiên cứu [A1-A9] và nhiều những ứng dụng hữu ích [Zha12,Abu12], đặc biệt là trong việc phát hiện sự vi phạm bản quyền tác giả trong các bài viết. Trong khi đó, các nghiên cứu về vấn đề này đối với tiếng Việt chiếm tỷ lệ khá khiêm tốn [Tha14]. Hầu hết các phương pháp sử dụng đánh giá dựa trên mạng từ tiếng Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 8 Anh (wordnet) [Zha08,She06,She12,Pta12,Zha10], một số ít phương pháp dựa trên kho ngữ liệu như là dữ liệu Web [Nan10] hoặc kho ngữ liệu có sẵn [Che13]. Các phương pháp mang tính thống kê dựa trên kho ngữ liệu đòi hỏi phải có một kho ngữ liệu đủ lớn và đa dạng mới đem lại hiệu quả cao, bên cạnh đó mạng từ tiếng Anh đã và đang được phát triển rất tốt và đem lại hiệu quả cao trong các phương pháp. Đối với xử lý ngôn ngữ trong tiếng Việt, hiện có một số cá nhân và tổ chức nghiên cứu xây dựng cả về lý thuyết, mô hình và triển khai ứng dụng. Trong đó một nhánh của Đề tài Khoa học công nghệ cấp Nhà nước “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lý văn bản tiếng Việt” [Tha14] đang tập trung phát triển. Tuy vậy, các phương pháp đánh giá độ tương tự văn bản tiếng Việt chủ yếu dựa trên kho ngữ liệu với việc kế thừa các kết quả nghiên cứu từ tiếng Anh. Trong [Tha14], các tác giả đã tổng hợp các phương pháp đánh giá độ tương tự giữa từ với từ và trên cơ sở đó đánh giá độ tương tự giữa câu với câu. Các ví dụ minh họa cho việc mở rộng sang đo độ tương tự trong văn bản tiếng Việt cũng được xem xét khá chi tiết. Bên cạnh đó, cũng có nhiều công trình nghiên cứu về lĩnh vực này và bước đầu có những ứng dụng thử nghiệm nhất định. Điển hình như là VNQTAG, công cụ tìm kiếm itim.vn, hoặc JVnTextPro. Trong đó: + VNQTAG đã được phát triển từ lâu với bộ dữ liệu nhỏ nên độ chính xác chưa cao. + Công cụ tìm kiếm itim.vn là một sản phẩm thương mại, hiện đang trong giai đoạn phát triển và đưa vào sử dụng thử nghiệm, cũng chú trọng việc tách từ trong câu văn Tiếng Việt để phục vụ cho tìm kiếm chính xác hơn. Itim.vn ghi nhận các phản hồi của người dùng về kết quả tách từ để phục vụ cho việc thống kê tìm kiếm kết quả của mình. Tuy nhiên vì đang trong giai đoạn thử nghiệm, độ chính xác của việc tách từ là chưa cao. + JVnTextPro là hệ thống công cụ dùng lại phần lớn kết quả của đề tài VLSP. Có thể thấy, quy mô nhất và hoàn thiện nhất là nhánh xử lý văn bản tiếng việt trong để tài VLSP tiếp cận theo phương pháp học máy. Nhóm nghiên cứu đã xây dựng một trang web demo, phát hành những phần mềm nguồn mở java, công bố các tài liệu báo cáo chi tiết về công trình nghiên cứu trong các giai đoạn. Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 9 VLSP đã xây dựng được một thư viện dữ liệu mẫu với độ lớn và độ tin cậy cao đó là TreeBank tiếng Việt, gồm có 90.000 câu đã được tách từ, 20.000 nghìn câu đã được gán nhãn từ loại. Trong các phần mềm được nhóm công bố thì JVnTager là phần mềm có chức năng tách từ và gán nhãn từ loại . Theo thông tin của nhóm nghiên cứu, JVnTager dựa trên hai phương pháp học máy thống kê là MaxEnt và CRFs. Để đánh giá kết quả của mình, nhóm JVnTager sử dụng dữ liệu VietTreebank gồm 10.000 câu được chia thành 5 folds. Đánh giá gán nhãn từ loại bằng mô hình CRFs và MaxEnt với phương pháp 5-fold-cross-validation, với tỷ lệ dữ liệu đào tạo (Train) là 80%. Hiện nay, một số cơ sở giáo dục đã ứng dụng các hệ thống hỗ trợ kiểm tra đánh giá việc sao chép bài luận điện tử nhằm giúp giảng viên có thể nhanh chóng xác định, phân loại các kết quả bài luận của sinh viên. Hơn nữa, hệ thống cũng sẽ hỗ trợ người học tự kiểm tra kết quả của mình nhằm giúp nâng cao chất lượng kết quả học tập và chủ động tránh những hiện tượng sao chép bài điện tử. Trong đó, điển hình là hệ thống turnitin được triển khai tại FPT Polytechnic, hệ thống này theo giới thiệu là đã làm việc với nhiều trường đại học hàng đầu thế giới và các trung tâm nghiên cứu lớn, bao gồm một vài tổ chức chính phủ, để cung cấp một công cụ hiệu quả nhằm phát hiện sự vay mượn sao chép. Tại nước Anh, chương trình triển lãm giới thiệu trên cả nước của Turnitin được chính phủ tài trợ đã đem lại kết quả là giảm được 59% nội dung bài luận có sao chép kể từ năm 2005. Ngoài ra, có một số hệ thống khác hỗ trợ cho việc này như Plagiarism, Dubli Checker hay Viper Plagiarism Scanner. I.3. Mục đích nghiên cứu Nghiên cứu một số phương pháp đo độ tương đồng văn bản trong ngôn ngữ tiếng Việt, thiết kế hệ thống hỗ trợ tự động đánh giá sự giống nhau về văn bản tiếng Việt, đề xuất xây dựng thử nghiệm một số phần chức năng của hệ thống hỗ trợ tự động đánh giá sự giống nhau của văn bản giúp cho việc xác định nhanh chóng các kết quả bài luận dạng điện tử của sinh viên có trung thực hay không, ứng dụng trong tổ chức quản lý đào tạo của các cơ sở giáo dục. Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 10 I.4. Đối tượng và phạm vi nghiên cứu Các mô hình tính toán xác định độ đo tương đồng văn bản cả về cú pháp và ngữ nghĩa, mức tương đồng văn bản ở các cấp độ từ, câu, đoạn văn hay toàn bộ bài văn và ứng dụng trong tiếng Việt. Các công cụ để lập trình và xây dựng thử nghiệm cho một mô hình được đề xuất để đánh giá độ tương đồng hai văn bản tiếng Việt. Hệ thống hỗ trợ tự động đánh giá sự sao chép các bài luận điện tử giúp cho việc đánh giá sơ bộ các kết quả bài thu hoạch trong đào tạo nhanh chóng và thuận tiện. I.5. Phương pháp nghiên cứu Thu thập, khảo sát và hệ thống hóa các kết quả nghiên cứu đã có về vấn đề đo độ tương đồng văn bản và các ứng dụng đối với tiếng Việt. Nghiên cứu lý thuyết về mô hình độ đo tương đồng văn bản, ứng dụng các mô hình vào thiết kế và xây dựng hệ thống đo độ tương đồng văn bản tiếng Việt, kết hợp thực nghiệm trên các dữ liệu mẫu và dữ liệu thu thập thực tế để đánh giá hệ thống. [...]... bản trong tiếng Việt và ứng dụng Chương 2 Phương pháp đánh giá độ tương đồng văn bản tiếng Việt 2.1 Giới thiệu Các kết quả nghiên cứu về đánh giá độ tương tự trong văn bản tiếng Anh đang diễn ra rất sôi động [2-10] và có nhiều ứng dụng hữu ích [Zha12,Abu12], đặc biệt là trong việc phát hiện sự vi phạm bản quyền tác giả trong các bài viết Trong khi đó, các nghiên cứu về vấn đề này đối với tiếng Việt chiếm... 29 Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng nghĩa và cú pháp (dưới dạng thứ tự các từ vựng) đóng vai trò thể hiện nghĩa của văn bản Do đó, độ đo tượng tự tổng thể của hai văn bản được định nghĩa là một sự kết hợp của tương tự ngữ nghĩa và tương tự về thứ tự các từ trong văn bản Cùng với yếu tố đánh giá tương tự theo nhóm từ loại, chúng ta sử dụng cả ba tiêu chí đánh giá độ tương. .. mức độ cao nhằm giải quyết hiệu quả bài toán đó Có thể thấy trong các bài toán như trích chọn thông tin, tóm tắt văn bản, … đều cần đến các phương pháp đánh giá độ tương tự văn bản Và như đã đề cập, việc xác định mức độ giống nhau, khác nhau giữa các văn bản còn có một ứng dụng riêng khá đặc biệt đối với bài toán chống sao chép, đạo văn 1.2 Vấn đề về độ tương tự trong văn bản Các độ đo độ tương đồng văn. .. tương đồng văn bản cũng dược dùng trong phân lớp văn bản (Rochio 1971), trích chọn văn bản (Salton et al 1997) và phương pháp tóm tắt văn bản (Lin &Hovy 2003) Độ đo tương đồng văn bản cũng được sử dụng cho việc đánh giá tính chặt chẽ của văn bản (Lapata & Barzilay 2005) Trong một số trường hợp, việc đo độ tương đồng giữa hai đo n văn bản là việc sử dụng so khớp từ đơn giản, và tạo ra một điểm tương tự trên... 2014 (mã số: V33.2014) ≈ 0.985 26 Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng 2.2.2 Độ tương tự về thứ tự các từ trong văn bản Độ tương tự về thứ tự của các từ trong hai văn bản, theo [She12], là một yếu tố cần phải được quan tâm vì sự ảnh hưởng của nó đến việc đánh giá độ tương tự của văn bản Chẳng hạn, hai câu sau: T1 = { con_chó, cắn, con_mèo } và T2 = { con_mèo, cắn, con_chó... trên kho ngữ liệu với việc kế thừa các kết quả nghiên cứu từ tiếng Anh Trong [Tha14], các tác giả đã tổng hợp các phương pháp đánh giá độ tương tự giữa từ với từ và trên cơ sở đó đánh giá độ tương tự giữa câu với câu Các ví dụ minh họa cho việc mở rộng sang đo độ tương tự trong văn bản tiếng Việt cũng được xem xét khá chi tiết Các phương pháp đánh giá độ tương tự văn bản trong tiếng Anh chủ yếu dựa... V33.2014) 18 Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng 1.3 Vấn đề về sự sao chép hay đạo văn và một số kỹ thuật Đạo văn, theo [Abu12], có thể được hiểu theo nhiều khía cạnh, chẳng hạn như sao chép, cắt dán, hoặc trích tóm lược của văn bản, đạo ý tưởng, và đạo văn thông qua việc dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác Những loại đạo văn này rõ ràng là một trong những vấn... V33.2014) 28 Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng từ của T1 là {w2} và của T2 là {w5}, trạng từ chỉ có trong T1 là {w4} còn tính từ không có trong cả hai văn bản Khi đó, chúng ta chỉ xây dựng được hai ma trận tương ứng là của nhóm danh từ (A) và của nhóm động từ (B), vì chúng đều có mặt trong cả hai văn bản, còn nhóm tính từ và trạng từ đều không có trong cả hai văn bản Hai ma... của phép đánh giá Sau đây là chi tiết các đánh giá này 2.2.1 Độ tương tự ngữ nghĩa của văn bản Việc đánh giá độ tương tự ngữ nghĩa hai văn bản nhiều tác giả, chẳng hạn trong [Zha08, She12], đề cập đến việc xây dựng véc-tơ đặc trưng ngữ nghĩa cho các văn bản Mỗi thành phần trong véc-tơ này của một văn bản được thiết lập từ việc tính toán độ tương tự một từ trong văn bản đó với các từ trong hai văn còn... Véc-tơ đặc trưng ngữ nghĩa cho văn bản T1, ký hiệu V1 = (v11, v12, …, v1m), sẽ được xây dựng như sau: xét lần lượt từng từ wi ∈ T, đánh Đề tài Khoa học Công nghệ cấp Viện 2014 (mã số: V33.2014) 25 Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng giá độ tương tự ngữ nghĩa (sim) với mỗi từ trong T1 để tìm độ đo tương tự lớn nhất và đưa vào thành phần v1i tương ứng trong V1 Cụ thể, v1i = max{ . đề xuất để đánh giá độ tương đồng hai văn bản tiếng Việt. Hệ thống hỗ trợ tự động đánh giá sự sao chép các bài luận điện tử giúp cho việc đánh giá sơ bộ các kết quả bài thu hoạch trong đào tạo. thể mở rộng cho việc đánh giá độ tương tự giữa hai đo n văn hoặc cả hai văn bản và sẽ được trình bày ở phần sau. Nghiên cứu độ đo tương đồng văn bản trong tiếng Việt và ứng dụng Đề tài Khoa. giữa các văn bản còn có một ứng dụng riêng khá đặc biệt đối với bài toán chống sao chép, đạo văn. 1.2. Vấn đề về độ tương tự trong văn bản Các độ đo độ tương đồng văn bản trong các ứng dụng của

Ngày đăng: 29/07/2015, 14:32

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan