Đánh giá mức độ giống nhau của văn bản tiếng việt tt

27 56 0
Đánh giá mức độ giống nhau của văn bản tiếng việt tt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HỒ PHAN HIẾU ĐÁNH GIÁ MỨC ĐỘ GIỐNG NHAU CỦA VĂN BẢN TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2019 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng TS Nguyễn Thị Ngọc Anh Phản biện 1: ……………………………………………… Phản biện 2: ……………………………………………… Phản biện 3: ……………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà Nẵng Vào hồi … … ngày … tháng … năm 2019 Có thể tìm hiểu luận án tại: - Thư viện quốc gia Việt Nam - Trung tâm Thông tin - Học liệu & Truyền thông, Đại học Đà Nẵng MỞ ĐẦU Đặt vấn đề Ngày nay, với phát triển Internet, hoạt động trao đổi, chia sẻ tài liệu diễn phổ biến Các tài liệu báo, sách, luận văn tốt nghiệp, báo cáo,… số hóa phổ biến mạng Internet ngày nhiều Tuy nhiên, bên cạnh ưu điểm cung cấp nguồn tài liệu tham khảo phong phú tình trạng “sao chép” trở thành vấn nạn Vấn đề đặt làm để đánh giá mức độ giống văn nội dung chép văn bản, đặc biệt tiếng Việt Để phát triển hệ thống phát chép cần giải vấn đề như: 1) Xây dựng kho liệu đủ lớn, có độ bao phủ cao; 2) Có phương pháp biểu diễn văn phù hợp hiệu cho trình so sánh; 3) Các giải thuật để tính độ tương tự đơn vị văn nội dung chép; 4) Xử lý cho khối lượng văn cực lớn Nhằm góp phần giải vấn đề trên, chọn đề tài: “Đánh giá mức độ giống văn tiếng Việt” làm nội dung nghiên cứu cho luận án Tiến sĩ kỹ thuật với mục tiêu phát nội dung chép văn hiệu Ý tưởng bật luận án nghiên cứu, ứng dụng thành tựu đạt lĩnh vực sinh học, xử lý tín hiệu số vào lĩnh vực xử lý ngôn ngữ tự nhiên Điểm chung lĩnh vực khối lượng liệu cần xử lý lớn mục đích giống khác biệt đơn vị liệu cần xử lý Cụ thể, luận án đề xuất hướng tiếp cận xử lý văn cách áp dụng phương pháp biến đổi Wavelet rời rạc (DWT) ứng dụng lọc Haar để chuyển văn thành chuỗi số DNA; tổ chức lưu trữ đề xuất giải thuật so sánh, tìm kiếm hiệu xử lý liệu lớn để phát đánh giá mức độ giống chuỗi DNA Đây hướng nghiên cứu mới, đầy tiềm để giải toán xử lý văn liệu lớn Mục tiêu nghiên cứu Mục tiêu luận án tìm giải pháp hiệu để biểu diễn, đánh giá mức độ giống đơn vị văn áp dụng cho việc phát chép Các mục tiêu cụ thể luận án gồm: - Đề xuất phương pháp hiệu biểu diễn văn để phục vụ tốt cho trình phát chép văn - Đề xuất giải thuật nhằm cải thiện tốc độ độ xác để phát chép xử lý liệu lớn - Xây dựng hệ thống phát chép văn tiếng Việt ứng dụng thử nghiệm ĐHĐN Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận án bao gồm nội dung: - Các mơ hình, phương pháp biểu diễn văn - Các phương pháp, thuật tốn tính độ tương tự văn - Bài toán phát nội dung chép văn - Các hệ thống phát chép văn Giới hạn phạm vi nghiên cứu luận án gồm: - Tập trung vào phương pháp biểu diễn văn dựa mơ hình vector Nghiên cứu số mơ hình, phương pháp biểu diễn văn bản, chuyển văn thô thành kho liệu dựa mơ hình vector - Nghiên cứu đề xuất thuật tốn tính độ tương tự văn Luận án tính tốn độ tương tự văn dựa phương pháp liên quan đến chuỗi, mà không xét đến yếu tố ngữ nghĩa văn - Đề xuất giải pháp tính độ tương tự văn tiếng Việt triển khai thử nghiệm ĐHĐN Phương pháp nghiên cứu - Phương pháp tài liệu: Nghiên cứu tài liệu có liên quan đến nội dung nghiên cứu như: Khai phá văn bản, biểu diễn lưu trữ văn bản; số đặc trưng tiếng Việt; hệ thống phát chép văn bản, độ tương tự văn bản, phát chép PAN; DWT lọc Haar; tìm kiếm nhị phân, xử lý liệu lớn - Phương pháp thực nghiệm: Nghiên cứu đánh giá thực nghiệm mơ hình, phương pháp so khớp văn phát chép Xây dựng chương trình so khớp văn So sánh, đánh giá kết phương pháp đề xuất với số phương pháp có Cuối cùng, phát triển hệ thống thực nghiệm ĐHĐN đánh giá kết Nhiệm vụ nghiên cứu kết đạt Để đạt mục tiêu đề ra, nhiệm vụ nghiên cứu tập trung vào vấn đề sau đây: - Nghiên cứu, phân tích phương pháp biểu diễn văn nói chung mơ hình vector nói riêng, từ đề xuất thuật tốn để so sánh, đánh giá phát triển ứng dụng cụ thể - Khảo sát nguồn liệu, tổng hợp tài liệu số, đề xuất giải pháp tổ chức lưu trữ, đánh mục, biểu diễn liệu phù hợp - Nghiên cứu toán so sánh văn để phát chép PAN, đề xuất giải pháp xử lý phát chép văn hiệu - Nghiên cứu lý thuyết DWT lọc Haar xử lý tín hiệu số, đề xuất giải pháp để chuyển văn thành chuỗi số DNA - Nghiên cứu đề xuất giải thuật xử lý thông qua lọc Haar, giải pháp tổ chức lưu trữ DNA phù hợp, đề xuất thuật toán phát giống - Nghiên cứu xây dựng liệu tiếng Việt thử nghiệm để phục vụ đánh giá - Triển khai thực nghiệm đánh giá kết Bố cục luận án Trên sở nội dung nghiên cứu, để đạt mục tiêu đề đảm bảo tính logic, ngồi phần mở đầu phần kết luận, luận án tổ chức thành chương sau: Chương 1: Tổng quan tình hình nghiên cứu Chương trình bày sở lý thuyết, kết nghiên cứu tổng quan vấn đề nghiên cứu luận án Trên sở phân tích, đánh giá định hướng, đề xuất xác định nội dung nghiên cứu triển khai Chương 2: So sánh văn dựa mơ hình vector Chương trình bày phương pháp tính trọng số đặc trưng văn biểu diễn mơ hình vector; thực nghiệm số phương pháp so sánh văn dựa mô hình vector Trên sở phân tích, đánh giá, luận án đề xuất thuật toán thử nghiệm để đánh giá tương tự văn tiếng Việt dựa mơ hình vector Chương 3: Phát chép văn dựa biến đổi Wavelet rời rạc Chương giới thiệu kết nghiên cứu, phân tích đề xuất hướng tiếp cận để giải toán so sánh văn dựa DWT sử dụng lọc Haar Nội dung trình bày tập trung vào phương pháp đề xuất dựa DWT lọc Haar để giải toán Thực nghiệm, so sánh đánh giá kết đạt để chứng minh phương pháp đề xuất đạt hiệu cao Chương 4: Phát triển hệ thống phát chép văn tiếng Việt Trình bày kết giải pháp xây dựng kho liệu văn tiếng Việt phát triển hệ thống phát chép văn dựa kết nghiên cứu đạt mơ hình vector phương pháp DWT Kết triển khai thử nghiệm ĐHĐN số nhận xét, đánh giá Đóng góp luận án Luận án góp phần giải tốn đánh giá mức độ giống văn để phát nội dung giống văn nhằm phát chép Những đóng góp luận án: - Đề xuất cải tiến mơ hình vector sử dụng độ đo Cosine để tính tốn độ tương tự văn dựa đơn vị từ câu - Đề xuất cách tiếp cận để đánh giá mức độ giống văn gồm phương pháp biểu diễn văn thành chuỗi số thực DNA ứng dụng phương pháp DWT lọc Haar - Đề xuất quy trình xử lý, xây dựng thuật tốn phát giống văn cách tính tốn khoảng cách Euclid nhỏ từ DNA cần đánh giá đến DNA nguồn so sánh với mức ngưỡng thích hợp để đưa kết luận giống - Đề xuất giải pháp, thuật toán để xử lý liệu lớn hiệu với việc mã hóa liệu văn sang dạng tín hiệu số thơng qua chuỗi DNA xếp theo thứ tự tăng dần cho phép tìm kiếm nhị phân - Xây dựng liệu tiếng Việt để thực nghiệm, xây dựng hệ thống phát chép văn triển khai ứng dụng thử nghiệm ĐHĐN mang ý nghĩa thực tiễn cao CHƯƠNG TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 1.1 Một số khái niệm sử dụng luận án Trình bày số khái niệm liên quan sử dụng luận án như: Văn (Document/Text), độ tương tự (Similarity measures), độ tương tự văn (Text similarity), so khớp văn (Text alignment), đạo văn (Plagiarism), phát chép (Copy detection), kho ngữ liệu (Corpus), độ đo tính tốn hiệu (Precision, Recall, F-score) 1.2 Mơ hình biểu diễn văn Trong xử lý văn có nhiều phương pháp có cách tính tốn khác nhau, nhìn cách tổng quan phương pháp thường khơng tương tác trực tiếp tập liệu thô ban đầu, mà cần phải thực tiền xử lý (như tách câu, tách từ, xử lý chữ viết hoa/chữ thường, loại bỏ từ dừng ) chọn mơ hình biểu diễn văn phù hợp để xử lý, tính tốn gọi mơ hình hóa văn Biểu diễn văn chia thành hai hướng tiếp cận chính, là: Hướng thống kê hướng ngữ nghĩa Trong tiếp cận theo hướng thống kê, văn biểu diễn theo số tiêu chí phục vụ đo lường dựa thống kê, phương pháp theo hướng ngữ nghĩa liên quan đến khái niệm phân tích cú pháp Luận án khảo sát trình bày nội dung nhận xét, đánh giá mơ hình biểu diễn văn như: Mơ hình Boolean, mơ hình khơng gian vector (VSM), mơ hình túi từ (bag of words), mơ hình mục ngữ nghĩa tiềm ẩn (LSI), dựa khái niệm mờ (fuzzy), mơ hình đồ thị, mơ hình n-gram, phương pháp chiếu ngẫu nhiên, mơ hình phân tích cú pháp, biểu diễn Tensor 1.3 Các phương pháp tính độ tương tự văn Qua khảo sát chia nghiên cứu phương pháp tính độ tương tự văn thành ba hướng tiếp cận theo phương pháp dựa chuỗi (String-Based) xác định giống mặt hình thức (từ, câu); phương pháp dựa tập liệu (Corpus-Based) dựa tri thức (Knowledge-Based) xác định giống mặt ngữ nghĩa từ [39, 75] Luận án trình bày số thuật tốn điển hình để giải tốn so khớp chuỗi như: Brute-Force, Naïve, Morris-Pratt, KnuthMorris-Pratt (KMP), Boyer-Moore, Rabin-Karp, Horspool [27, 118, 133] Những thuật toán tập trung vào vấn đề so sánh hai chuỗi ký tự phát giống chúng Với số trường hợp so khớp văn bản, việc đo độ tương tự hai đoạn văn việc sử dụng so khớp từ đơn giản Vì vậy, luận án nghiên cứu thuật toán so khớp chuỗi để làm tảng cho việc tính tốn độ tương tự văn so sánh hiệu phương pháp đề xuất dựa độ phức tạp tính tốn 1.4 So sánh văn ứng dụng phát chép Bài toán so sánh văn thực chất tính tốn mức độ giống hay độ tương tự văn Với mục đích nghiên cứu đánh giá mức độ giống văn để ứng dụng phát chép, luận án tập trung nghiên cứu theo hướng giải toán so sánh văn theo dạng so khớp chuỗi mà không sâu mặt ngữ nghĩa không đề cập sâu hình thức chép như: dạng cấu trúc, ý tưởng, tự chép, trích dẫn khơng phù hợp Bài toán phát chép hầu hết kiểu phát văn gần trùng lặp nên vấn đề khó dạng trùng lặp vơ đa dạng Chính đa dạng việc chép văn mà khơng thể có giải thuật hay kỹ thuật đo cách xác giống văn Bài tốn khơng phải mới, Việt Nam chưa có nghiên cứu ứng dụng rõ ràng công bố Qua trình nghiên cứu, khảo sát đánh giá, luận án tổng hợp phương pháp, kỹ thuật so sánh văn phát chép phân loại gồm: Các phương pháp dựa ký tự (Character-based methods), dựa tần suất (Frequency-based methods), dựa cấu trúc (Structural-based methods), dựa phân lớp gom cụm (Classification and Cluster-based methods), dựa cú pháp (Syntax-based methods), phát gần trùng lặp (Near Dupplicate Detection), dựa ngữ nghĩa (Semantic-based methods), dựa trích dẫn (Citation-based methods), kế thừa văn (Recognizing Textual Entailment) Phát chép PAN Một mơ hình tổng qt cho trình xử lý để phát chép đề xuất giải pháp có hiệu cao PAN Hình 1.4 Mơ hình xử lý tổng quát để phát chép [124] 11 2.2 Một số phương pháp so sánh văn dựa mơ hình vector Để tính giá trị đặc trưng cho văn bản, luận án thực phương pháp TF-IDF Trong luận án sử dụng độ đo dựa vào thống kê tần suất xuất từ văn xác định độ tương tự văn cách: 1) Tính góc vector sử dụng độ đo Cosine hệ số Jaccard; 2) Dựa tính khoảng cách điểm độ đo khoảng cách Manhattan Levenshtein Các bước xử lý sau: - Bước 1: Tiền xử lý (Tách từ đơn, loại bỏ từ dừng, tạo danh sách từ vựng ) - Bước 2: Xây dựng tập từ vựng chung T = {t1, t2 , tn} - Bước 3: Mơ hình hóa văn thành vector: Dựa vào T ta tạo vector a b với trọng số từ A B ai, bj (bằng cách tính TF-IDF) - Bước 4: Áp dụng cơng thức tính độ tương tự theo độ đo - Bước 5: Hiển thị kết Phương pháp cải tiến sử dụng độ đo Cosine Luận án đề xuất thuật tốn tính tốn độ tương tự văn dựa mơ hình vector theo đơn vị từ câu, có xét đến yếu tố trật tự từ để tăng độ xác ý nghĩa văn So sánh hai phương pháp dựa kết thực nghiệm liệu tiếng Việt từ luận văn tốt nghiệp để chứng minh phương pháp đề xuất tính tốn độ tương tự văn tiếng Việt có nhận xét để làm tiền đề cho nghiên cứu đề xuất 12 Luận án áp dụng độ đo Cosine để tính độ tương tự hai văn (văn truy vấn văn nguồn), góc hai vector a b, tính theo cơng thức sau: n a b ab Sim(a, b) =  a  b i i (2.5) i 1 n n  a b i i 1 i i 1 Thay đổi trật tự từ câu ảnh hưởng đến ý nghĩa câu: Ta có cơng thức tính độ tương tự thứ tự từ hai vector [1, 46]: m SimR (a, b)   - rb  1 + rb   ria - rib  m i 1   ria + rib  (2.11) i 1 Trong đó: vector thứ tự từ văn a, rb vector thứ tự từ văn b, m số từ chung hai văn bản, ria thứ tự từ i văn a, rib thứ tự từ i văn b Độ tương tự nội dung đại diện cho giống mặt từ vựng, độ tương tự thứ tự từ tương tự cung cấp thông tin mối quan hệ từ Những từ xuất câu đứng trước đứng sau từ khác đóng vai trò truyền đạt ý nghĩa câu Vì thế, độ đo giống toàn văn kết hợp độ đo tương tự mặt nội dung thứ tự từ văn Luận án áp dụng cơng thức tính sau: S(a, b)   Sim(a, b)  (1 -  )Sim R (a, b)   - rb ab + (1 -  ) ab + rb (2.12) 13 Qua nghiên cứu tính tốn độ tương tự văn dựa mơ hình vector với phương pháp đánh trọng số TF-IDF cách sử dụng độ đo Cosine, Jaccard, Manhattan, Levenshtein Trong luận án cải tiến đề xuất phương pháp so sánh văn dựa mơ hình vector sử dụng độ đo Cosine với đơn vị từ câu với việc tính tốn trọng số từ câu, dựa trật tự từ 2.3 Đánh giá phương pháp dựa mơ hình vector Luận án tạo liệu để đánh giá thuật toán xây dựng ứng dụng với chức như: Tiền xử lý văn bản, vector hóa, so khớp, hiển thị kết vẽ biểu đồ Kết thực nghiệm cho thấy phương pháp dựa vector độ đo tương tự phổ biến đề cập giải mục tiêu toán đánh giá độ tương tự văn Tuy nhiên, với phương pháp đề xuất độ xác chưa cao Bên cạnh đó, phương pháp biểu diễn theo vector hạn chế số chiều biểu diễn cho tập văn lớn nên tốn không gian lưu trữ, độ phức tạp thuật toán so sánh tăng làm giảm tốc độ tính tốn Với nội dung nghiên cứu đạt Chương này, ứng dụng mơ hình biểu diễn vector cách phù hợp phạm vi nghiên cứu luận án, biểu diễn DNA theo mơ hình vector sử dụng độ đo khoảng cách Euclid vector để tính độ tương tự Những nội dung liên quan đề cập Chương 14 CHƯƠNG PHÁT HIỆN SAO CHÉP VĂN BẢN DỰA TRÊN BIẾN ĐỔI WAVELET RỜI RẠC 3.1 Đặt vấn đề Luận án đề xuất ý tưởng để chuyển văn thành chuỗi tín hiệu số xử lý, tính tốn, so khớp liệu Để áp dụng việc đánh giá mức độ giống văn bản, thách thức lớn đặt là: 1) Nghiên cứu để tìm cách chuyển đổi văn thành tín hiệu số đảm bảo đầy đủ nội dung thông tin văn bản; 2) Nghiên cứu sử dụng phương pháp xử lý tín hiệu số phù hợp để tính tốn; 3) Nghiên cứu áp dụng độ đo để tính tốn, lọc tín hiệu bất thường để phát tín hiệu giống nhau; 4) Liên kết truy xuất lại nội dung để đánh giá mức độ giống văn 3.2 Cơ sở lý thuyết DWT lọc Haar Trình bày sở lý thuyết phép biến đổi Wavelet rời rạc (DWT), lọc Haar chuỗi số DNA Việc nghiên cứu sử dụng lọc Haar DWT để biến đổi tín hiệu chuỗi thời gian thực thành chuỗi số DNA để tính tốn, xử lý lọc tín hiệu hướng tiếp cận để giải tốn có tính khả thi, giải tốn liệu lớn mang lại hiệu cao 3.3 Đề xuất mơ hình hệ thống phát chép Luận án đề xuất mơ hình tổng quan thiết kế khối cho hệ thống phát chép văn Trong giai đoạn tiền xử lý, văn thu thập phân đoạn lấy mẫu cho mẫu có độ dài Sau đó, phân đoạn lưu trữ liệu thơ nhằm mục đích trích xuất đoạn văn giống (nếu có) Trong giai đoạn xử lý chính, văn số hóa cho qua 15 lọc Haar để thu liệu cho DNA nguồn Trong đó, văn đánh giá cho qua mã hóa để xử lý Văn đánh giá thô tạo thành sau trình tiền xử lý phân đoạn Sau đó, phân đoạn văn đánh giá mã hóa thành DNA nhằm mục đích phát giống (nếu có) phân đoạn với phân đoạn khác thuộc liệu nguồn Hình 3.6 mơ tả chi tiết q trình xử lý để đánh giá văn kiểm tra so với tập văn nguồn (kho liệu) Hình 3.6 Quá trình xử lý để đánh giá văn cần kiểm tra 16 3.4 Đề xuất quy trình chuyển đổi liệu Thuật tốn 3.1 Quy trình mã hóa văn thành chuỗi tín hiệu số DNA Đầu vào: Văn Đầu ra: Chuỗi số DNA Xử lý: Mã hóa văn thành chuỗi tín hiệu số - Tiền xử lý (loại bỏ dấu câu, ký tự đặc biệt, đánh mục lưu trữ dạng liệu thô ) - Số hóa nhằm chuyển liệu thơ thành dạng chuỗi số - Xử lý qua lọc Haar để mã hóa thành DNA 3.5 Đề xuất phương pháp giải thuật xử lý Trong phần phân tích chi tiết nhiệm vụ khối trình xử lý thực qua giai đoạn sau: Tiền xử lý loại bỏ ký tự đặc biệt chia văn thành phân đoạn Q trình số hóa chuyển đổi từ phân đoạn thành số thực đặc trưng trước đưa đến lọc Haar để lấy mẫu cho việc tính tốn DNA nhằm phục vụ cho việc so sánh mức độ giống văn kiểm tra văn kho liệu Giải thuật cho lọc Haar Tín hiệu vào lọc chuỗi số rời rạc gồm N = 2K số thực Một phép biến đổi Haar rời rạc thực qua K bước lặp lần lặp thứ k (hay mức thứ k), với k = 1,2 ,K; tín hiệu đầu phép biến đổi mô tả sau: x(k )  x(k ) x(k ) x(k 1)  low high c (3.12) đó, hệ số xấp xỉ x(k) hệ số chi tiết x(k) cho low công thức lấy mẫu sau: high 17   k) x(high   x(ak1)*f   2,  x(k-1) x(k) a *f L  2, low (3.13) (3.14) H với f = 1 1 f = 1 1 đáp ứng lọc thông thấp L H thông cao; x ( k 1) a x( k 1) tương ứng hệ số xấp xỉ bước c thứ (k-1) tổng hợp hệ số chi tiết chuỗi tín hiệu thu bước trước Tại điểm khởi tạo, x(0) x(0) cho sau: a c x(0) = x(0) , a (3.15) x(0) = [], c (3.16) đó, x(0) chuỗi tín hiệu ban đầu (vector x sau số hóa) [] vector rỗng Các giá trị x(k)  a 1 Nc ( k ) 1Na (k ) , với N a ( k )  K k , N ( k )   K i , k = 1,2 ,K cập nhật i 1 c theo công thức sau: x(ck )  k k) x(ak )  x(low , (3.17) k ) x( k 1)  x(ck )   x(high  c   (3.18) Có thể chứng minh N (k )  N ( k )  K k   k K i  K  N , k = i 1 a c 1,2 ,K Qua đó, tín hiệu sau K bước lặp có độ dài N ban đầu Thực chất, phân đoạn văn khác sau số hóa qua lọc Haar cho chuỗi số mang thông tin đặc trưng phân biệt mức độ khác chúng Do đó, chuỗi tín hiệu sau lọc gọi DNA Cuối luận án phát triển thuật tốn theo phân tích sau: 18 Thuật toán 3.2 Xác định giá trị cho chuỗi DNA Đầu vào: Tập chuỗi số thực Đầu ra: Chuỗi số thứ K DNA cần tính Khởi tạo: Các vector xấp xỉ hệ số cho CT (3.15), (3.16) For k:= 1 K - Tính chuỗi số thứ k theo CT (3.12), (3.13) (3.14) - Cập nhật giá trị cho vector xấp xỉ hệ số theo CT (3.17), (3.18) Endfor Tổ chức liệu cho DNA nguồn Sau thực bước quy trình số hóa, có DNA cho tập văn thu thập Sau đó, xếp DNA theo giá trị DNA tăng dần để hệ thống thực việc tìm kiếm nhị phân nhằm xác định DNA giống với DNA mẫu thuộc phân đoạn văn đánh giá Qua cải thiện độ phức tạp thuật toán đánh giá văn Sở dĩ dùng giá trị DNA làm khóa xếp giá trị xấp xỉ hay tổng giá trị thành phần sau K bước lặp Vì vậy, vị trí giá trị hai mẫu DNA giống nhau, hai mẫu văn tương ứng với hai DNA giống 3.6 Đề xuất thuật toán phát giống Mã hóa liệu tính DNA văn đánh giá: Sau tiền xử lý văn đánh giá, dễ dàng thực quy trình mã hóa liệu văn đánh trình bày phần So sánh đưa định Ở khối cuối hệ thống so sánh nhóm DNA phân đoạn với DNA tập liệu nguồn lưu trữ sẵn Đối với mẫu DNA nhóm DNA đưa vào khâu so sánh, tìm kiếm nhị phân kho liệu để xác định DNA nguồn có 19 giá trị giống với DNA xét Tiếp theo, khoảng cách Euclid hai DNA tính đơn giản theo công thức sau: d  x, y   x  y 2 (3.19) 1 N y  1 N vector DNA nguồn vector DNA xét Khoảng cách Euclid so sánh với đó, x  mức ngưỡng ε Nếu d(x, y)< ε, hai DNA xem giống vị trí tương ứng với DNA xét đánh dấu lại để hệ thống đưa định sau tổng hợp tất mẫu DNA phân đoạn Thuật toán 3.4 Phát giống 10 11 12 13 Đầu vào: Văn cần đánh giá Đầu ra: Đưa phân đoạn chứa từ giống với phân đoạn nguồn (nếu có) Khởi tạo: Độ dài chuỗi DNA (N) mức ngưỡng (ε) để so sánh Tiền xử lý, phân đoạn lưu trữ liệu để xuất kết For phân đoạn, cần thực hiện: Số hóa phân đoạn Lấy mẫu xác định nhóm DNA phân đoạn theo Thuật tốn 3.2 For DNA y nhóm, cần thực hiện: - Tìm kiếm nhị phân kho DNA nguồn để tìm DNA x cho giá trị đầu chuỗi DNA y xét gần với giá trị đầu DNA x - Tính khoảng cách Euclid d(x, y) theo công thức (3.19) If d(x, y)< ε then Đánh dấu DNA y xét Endif Endfor // kết thúc vòng lặp for dòng Tổng hợp DNA y đánh dấu (nếu có) để thu chuỗi từ giống phân đoạn xét so với phân đoạn nguồn Endfor // kết thúc vòng lặp for dòng 20 3.7 Kết thử nghiệm phương pháp dựa DWT Để kiểm tra kết giải thuật đề xuất, luận án sử dụng phép đo PAN [100] để tính giá trị prec rec Luận án thực thử nghiệm liệu PAN năm 20091, gồm 7.214 tài liệu nguồn 7.214 tài liệu kiểm tra, với dung lượng 2.6 GB, thực lần đánh giá 100 văn nghi ngờ hoàn toàn khác với văn sử dụng để tìm ngưỡng ε phù hợp thông qua kết đạt prec rec Kết đạt theo thông số sau: Hình 3.8 Giá trị prec rec đạt qua mức ngưỡng khác Với kết trên, nhận thấy thuật toán đề xuất cho kết prec rec cao ổn định (trên 97% đến 99%, với ngưỡng ε từ 10-7 đến 10-12) Trong luận án thực nghiệm liệu tiếng Việt tự tạo đạt tỉ lệ xác cao nguồn liệu tiếng Việt nên việc tìm kiếm nhanh kết đạt xác với nhiều mức ngưỡng ε khác Qua trình huấn luyện dể dàng tinh chỉnh mức ngưỡng ε để đạt kết tốt https://pan.webis.de/sepln09/pan09-web/plagiarism-detection.html 21 CHƯƠNG PHÁT TRIỂN HỆ THỐNG PHÁT HIỆN SAO CHÉP VĂN BẢN TIẾNG VIỆT 4.1 Mô tả hệ thống Nhằm mục đích xây dựng kho liệu phát chép văn bản, luận án đề xuất xây dựng hệ thống với quy trình thực sau: Hình 4.1 Quy trình phát chép 4.2 Xây dựng kho liệu văn tiếng Việt Luận án đề xuất giải pháp xây dựng hệ thống kho liệu giải vấn đề thực tế ĐHĐN có độ bao phủ cao Kết thử nghiệm, bước đầu cập nhật vào kho liệu 2.000 tài liệu thuộc lĩnh vực theo quy định Bộ Khoa học Công nghệ phân theo thể loại để phục vụ mục đích thử nghiệm cho hệ thống phát chép Dữ liệu này, tiếp tục cập nhật từ nguồn liệu ĐHĐN để phục vụ cho việc kiểm tra sau 22 4.3 Triển khai hệ thống phát chép văn Với nghiên cứu đạt được, tiến hành phát triển hệ thống phát chép văn thử nghiệm đặt địa chỉ: http://bigdata.udn.vn Luận án đề xuất thuật toán đánh dấu nội dung văn chép trực tiếp tập tin tài liệu cần kiểm tra Thuật toán 4.1 Đánh dấu tô màu văn 10 11 12 Đầu vào: Văn (tập tin doc hay docx) Đầu ra: Văn có đánh dấu, tơ màu câu nghi ngờ chép tham chiếu đến tài liệu nguồn bị chép Xử lý: n = CountSent(D1) //Số lượng câu tập tin cần kiểm tra D1 For i:=  n m = length(W) //Số lượng câu kho liệu Extract Si //Tách câu thứ i D1 Encode Si //Mã hóa câu thứ i D1 thành DNA For j:=  m Sj = DNAj //DNA câu thứ j W If So_khop(Si, Sj) trùng (90%-100%): Chèn note, tô màu đỏ If So_khop(Si, Sj) trùng (70%-89%): Chèn note, tô màu xanh If So_khop(Si, Sj) trùng (50%-69%): Chèn note, tô màu vàng Endfor // kết thúc vòng lặp for dòng Endfor // kết thúc vòng lặp for dòng Hình 4.7 Đánh dấu nội dung giống tài liệu cần kiểm tra 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận án nghiên cứu toàn diện cách đo độ tương tự văn ứng dụng vào phát chép Kết thực tóm tắt sau: - Đã khảo sát, nghiên cứu, phân tích, đề xuất nội dung liên quan đến so khớp văn dựa mô hình vector, kết thực nghiệm chứng minh phương pháp dựa mơ hình vector sử dụng độ đo Cosine phương pháp thơng dụng giải tốn tính độ tương tự văn - Đề xuất quy trình số hóa văn cách chuyển văn thành chuỗi số thực DNA dựa phương pháp DWT lọc Haar Đây cách tiếp cận hoàn toàn để giải tốn - Đề xuất quy trình xử lý, xây dựng thuật toán phát giống văn cách tính tốn khoảng cách Euclid nhỏ từ DNA cần đánh giá đến DNA nguồn so sánh với mức ngưỡng thích hợp để đưa giống văn kiểm tra với văn nguồn kho liệu Các kết thực nghiệm liệu chuẩn PAN liệu tiếng Việt thử nghiệm chứng minh thuật toán đề xuất luận án đem lại hiệu cao phát giống văn - Đã hướng đến xử lý liệu lớn cách hiệu với việc mã hoá liệu văn sang chuỗi DNA, tổ chức lưu trữ theo dạng vector xếp theo thứ tự tăng dần cho phép tìm kiếm nhị phân, phương pháp tìm kiếm nhanh làm việc với liệu lớn Hơn nữa, DWT cho độ phức tạp tính 24 tốn hàm tuyến tính lần lấy mẫu nên giải pháp đề xuất hiệu trình xử lý liệu lớn - Thực nghiệm xây dựng kho liệu hệ thống phát chép văn triển khai ứng dụng thử nghiệm ĐHĐN Mặc dù đạt kết khả quan luận án số hạn chế như: - Phương pháp dựa DWT lọc Haar tập trung vào độ xác xử lý liệu lớn nên chưa thể đánh giá mặt ngữ nghĩa Ngoài ra, phương pháp đề xuất dựa đặc tính xếp liệu theo chuỗi thời gian thực, trường hợp thay đổi thứ tự từ tài liệu đáng ngờ hiệu thấp - Luận án chưa giải số vấn đề liên quan chép như: ngữ nghĩa (liên quan đến cấu trúc câu - từ, từ loại từ, từ đồng nghĩa, phân tích cú pháp, gán nhãn từ loại, thứ tự từ câu, nhận dạng thực có tên, khái niệm…), dịch từ ngơn ngữ sang ngơn ngữ khác, trích dẫn, quyền tác giả, tự chép Hướng phát triển - Tiếp tục nghiên cứu phương pháp xử lý, tìm kiếm, so khớp DNA đạt hiệu cao - Tổ chức liệu DNA theo mơ hình Tensor hướng đầy triển vọng cần tiếp tục nghiên cứu thử nghiệm - Phát triển hệ thống hoàn chỉnh ứng dụng vào thực tiễn để góp phần nâng cao chất lượng đào tạo nghiên cứu khoa học DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ Hồ Phan Hiếu, Trần Thanh Liêm, Giải pháp hệ thống hóa tên miền và nguồn tài liệu khoa học Đại học Đà Nẵng Tạp chí Khoa học Cơng nghệ ĐHĐN, Số 12(97), 2015, (20-24) Hung Vo Trung, Ngoc Anh Nguyen, Hieu Ho Phan, Thi Dung Dang, Comparison of the Documents Based On Vector Model: A Case Study of Vietnamese Documents American Journal of Engineering Research (AJER), Vol 6(7), 2017, (251-256) Hồ Phan Hiếu, Võ Trung Hùng, Nguyễn Thị Ngọc Anh, Một số phương pháp tính độ tương tự văn dựa mơ hình vector Tạp chí Khoa học Công nghệ ĐHĐN, Số 11(120), 2017, (112-117) Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh, Nguyễn Văn Hiếu, Đặng Thiên Bình, Võ Trung Hùng, Một cách tiếp cận để phát sự giống văn dựa phép biến đổi Wavelet rời rạc Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ X (Fair’10), lĩnh vực Nghiên cứu ứng dụng CNTT, 2017, (479-487) Phan Hieu Ho, Trung Hung Vo, Ngoc Anh Thi Nguyen, Data Warehouse Designing for Vietnamese Textual Document-based Plagiarism Detection System IEEE International Conference on System Science and Engineering (ICSSE 2017), 2017, (254-258) (Indexed in Scopus) Nguyen Thi Ngoc Anh, Ho Phan Hieu, Tran Anh Kiet, and Vo Trung Hung, Similarity Detection for Higher-Order Structure of DNA Sequences Journal of Science and Technology: Issue on Information and Communications Technology, Vol 3, No.2, 2017, (28-34) Phan Hieu Ho, Ngoc Anh Thi Nguyen, Trung Hung Vo, DNA Sequences Representation Derived from Discrete Wavelet Transformation for Text Similarity Recognition In Springer SCI Book, Modern Approaches for Intelligent Information and Database Systems, 2018, (75-85) (Indexed in Scopus) Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh, Võ Trung Hùng, Phương pháp mã hóa văn thành chuỗi số DNA để đánh giá mức độ giống văn Hội thảo KH Quốc gia CNTT ứng dụng-CITA 2018, (223-229) Phan Hieu Ho, Trung Hung Vo, Ngoc Anh Thi Nguyen, Ha Huy Cuong Nguyen, A Narrative Method for Evaluating Documents Similarity based on Unique Strings International Journal of Recent Technology and Engineering (IJRTE), Vol 8, 2019, (473-479) (Indexed in Scopus) ... Vì vậy, vị trí giá trị hai mẫu DNA giống nhau, hai mẫu văn tương ứng với hai DNA giống 3.6 Đề xuất thuật toán phát giống Mã hóa liệu tính DNA văn đánh giá: Sau tiền xử lý văn đánh giá, dễ dàng... phát đánh giá mức độ giống chuỗi DNA Đây hướng nghiên cứu mới, đầy tiềm để giải toán xử lý văn liệu lớn Mục tiêu nghiên cứu Mục tiêu luận án tìm giải pháp hiệu để biểu diễn, đánh giá mức độ giống. .. quan đến nội dung nghiên cứu như: Khai phá văn bản, biểu diễn lưu trữ văn bản; số đặc trưng tiếng Việt; hệ thống phát chép văn bản, độ tương tự văn bản, phát chép PAN; DWT lọc Haar; tìm kiếm

Ngày đăng: 20/11/2019, 06:17

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan