Xây dựng hệ thống kiểm tra sao chép luận văn tốt nghiệp

48 1.6K 13
Xây dựng hệ thống kiểm tra sao chép luận văn tốt nghiệp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây dựng một hệ thống thu thập dữ liệu, quản lý, xây dựng thuật toán đánh giá sự sao chép của một luận văn tốt nghiệp với dữ liệu trên hệ thống nhằm giảm bớt gánh nặng công việc kiểm tra trùng lặp đề tài cho cán bộ hướng dẫn cũng như hội đồng phản biện.

Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp LỜI CẢM ƠN Lời đầu tiên, nhóm thực tập chuyên ngành xin gửi lời cảm ơn lòng biết ơn sâu sắc tới ThS Phan Trọng Tiến tận tình bảo hướng dẫn nhóm suốt trình thực đề tài thực tập chuyên ngành Nhóm xin chân thành cảm ơn thầy, tạo điều kiện thuận lợi cho nhóm để nhóm học tập nghiên cứu Học viện Nơng Nghiệp Việt Nam Nhóm xin cảm ơn tới bạn lớp K57- THB , K57 – THA ủng hộ, khuyến kích suốt q trình học tập trường làm đề tài thực tập chuyên ngành Nhóm xin chân thành cảm ơn ! Hà Nội, Ngày 25/05/2016 Nhóm Sinh viên: Ngơ Nguyễn Thức Tơ Thanh Lượng Đoàn Kim Oanh Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp MỤC LỤC DANH MỤC HÌNH ẢNH Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp PHẦN I MỞ ĐẦU 1.1 Tên đề tài Đề tài: “Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp” 1.2 Đặt vấn đề Công nghệ thông tin ngày phát triển tạo điều kiện cho việc chia sẻ kiến thức dễ dàng Càng ngày có nhiều tài liệu tạo lưu trữ, dễ dàng tìm kiếm chia sẻ máy tính cá nhân Internet Tuy có nhiều thuận lợi cho việc tiệp cận tri thức mở, nảy sinh nhiều vấn đề: ý tưởng, đoạn văn chí tồn văn chép cách tràn lan mà khơng thích nguồn hay tác giả [4] Điều không ảnh hưởng đến quyền sở hữu trí tuệ, quyền tác giả [4] mà ảnh hưởng đến việc đánh giá chất lượng tài liệu báo cáo, tiểu luận, luận văn trình độ người tạo chúng, đặc biệt mơi trường giáo dục nói chung đại học nói riêng Để mang lại khách quan, đánh giá công sức em sinh viên trình làm luận văn tốt nghiệp, cần xây dựng cơng cụ để phát việc có chép luận văn [6] mà khơng trích dẫn từ nhiều nguồn tài liệu hay khơng Xuất phát từ tính cấp thiết đó, chúng em lựa chọn đề tài: “Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp”, nhằm nghiên cứu tạo chương trình giúp kiểm tra, đánh giá trùng lặp cách nhanh chóng hiệu quả, khoa học xác 1.3 Mục đích, yêu cầu 1.3.1 Mục đích Xây dựng hệ thống thu thập liệu, quản lý, xây dựng thuật toán đánh giá chép luận văn tốt nghiệp với liệu hệ thống Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp nhằm giảm bớt gánh nặng công việc kiểm tra trùng lặp đề tài cho cán hướng dẫn hội đồng phản biện 1.3.2 Yêu cầu  Nghiên cứu cách lấy liệu từ Internet  Nghiên cứu cách chuyển đổi liệu từ định dạng khác sang dạng văn  Tìm hiểu thuật toán so sánh văn với  Xây dựng hệ thống kiểm tra trùng lặp luận văn với tập liệu xây dựng từ trước lấy từ Internet  Đánh giá kết so sánh trùng lặp luận văn PHẦN II TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƯỚC 2.1 Tình hình nghiên cứu nước Đề tài so sách trùng lặp, chép luận văn hay báo không cịn tốn q lĩnh vực công nghệ thông tin, đặc biệt các trường đại học lớn, tạp chí có uy tín giới, họ sử dụng hệ thống để kiểm tra luận văn hay báo có bị “đạo văn” hay không Ở Việt Nam việc kiểm tra chép luận văn, tạp chí nước ta mẻ, chưa có nhiều phần mềm, công cụ thương mại thị trường đề tài Các chương trình có chủ yếu sử dụng đến phương pháp tìm kiếm so sánh chuỗi, chúng hiệu luận văn, tạp chí bị chép y nguyên văn, tài liệu bị chỉnh sửa từ đồng nghĩa thay đổi thứ tự phương pháp khơng cịn hiệu Một số luận văn, tạp chí, báo tiêu biểu Việt Nam xuất như: “Phát triển hệ thống phát đạo văn cho trường đại học Việt Nam” TS Trần Cao Đệ [2] “Nghiên cứu độ đo tương đồng văn Tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử” TS Dương Thăng Long [1] hay hay luận văn thạc sỹ “Tính tốn độ tương Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp tự ngữ nghĩa văn dựa vào độ tương tự từ với từ” Đỗ Thị Thanh Nga, v.v Hay ngày 20/01/2016 Học Viện Cảnh Sát áp dụng phần mềm chống chép luận văn [5] với mục đích rà sốt, phát nội dung chép trùng lặp, hạn chế tình trạng đạo luận văn, luận án cho thấy tính thực tiễn đề tài 2.2 Tình hình nghiên cứu ngồi nước Trên giới, việc nghiên cứu xây dựng chương trình phát chép tài liệu nhiều tổ chức, công ty, trường đại học cá nhân nghiên cứu thời gian dài Và có nhiều hệ thống ứng dụng thành công bao gồm ứng dụng web ứng dụng desktop Một số phần mềm thương mại nước ngồi có là:  Turnitin [7] công cụ phát đạo văn phổ biến sử dụng nhiều trường đại học Phần mềm sử dụng liệu 24 tỉ trang web, 300 triệu làm sinh viên khác 110000 ấn phẩm Turnitin sử dụng thuật toán nhận dạng mẫu để kiểm tra đạo văn khơng trích dẫn làm sinh viên  Plagiarism Checker [8] kiểm tra phần bị chép cách dán đoạn văn sinh viên vào hộp tìm kiếm Hệ thống tìm kiếm thông qua Google Yahoo  Dupli Checker [11] cung cấp tính cho phép bạn chép, dán hay tải nội dung liệu viết, bình luận, nội dung trang web hay tiểu luận nhấp vào nút tìm kiếm, ứng dụng thực phân tích mổ xẻ tất trang web nguồn có nội dụng bị chép hiển thị  iThenticate [12] dịch vụ Plagiarism.org cung cấp sử dụng nhiều viết văn chuyên nghiệp nghiên cứu học thuật Các nhà xuất Oxford University Press sử dụng dịch vụ cho phần mềm Cross Check bao gồm liệu với 31 triệu viết 67664 đầu sách tạp chí Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp  Grammarly [10] công cụ kiểm tra ngữ pháp đạo văn cách so sánh văn bạn với tỉ trang web, tải lên hay chép tập tin văn để kiểm tra đạo văn Qua việc sử dụng tìm hiểu phần mềm phát chép với nhiều ngôn ngữ khác nhau, đặc biệt thông dụng ngơn ngữ Tiếng Anh Tuy nhiên để áp dụng vào hệ thống giáo dục nước ta cịn có nhiều bất cập Thứ đa số phần mềm viết yêu cầu trả phí nhìn chung phí đắt so với mặt chung trường đại học Thứ hai, đề cập trên, phần mềm chủ yếu phát chép tài liệu tiếng anh, chưa có kiểm định phần mềm hoạt động tốt với tài liệu ngôn ngữ Tiếng Việt PHẦN III NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Vấn đề xử lí ngơn ngữ Tiếng Việt ứng dụng 3.1.1 Vấn đề xử lí ngơn ngữ Tiếng Việt Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) [16] nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngơn ngữ cơng cụ hồn hảo tư giao tiếp Xử lý ngôn ngữ tự động máy tính vấn đề khó lĩnh vực cơng nghệ thơng tin Cái khó làm đề máy hiểu ngôn ngữ người, hiểu nghĩa từ sử dụng hoàn cảnh, hiểu nghĩa câu hiểu nghĩa văn Bản chất phức tạp ngôn ngữ người đa nghĩa nhập nhằng ngôn ngữ Một số vấn đề xử lí ngơn ngữ Tiếng Việt [17] là: Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp  Tập trung vào làm sản phẩm cho người dùng cuối, sản phẩm thường khó làm cần nhiều thời gian nghiên cứu với phương pháp thích hợp  Ít nghiên cứu nên tảng, lại phát triển điều kiện thiếu “hạ tầng sở” cho q trình xử lý ngơn ngữ cơng cụ tài nguyên: từ điền (dùng cho máy), kho liệu Đó thứ khơng thiểu thiếu cộng đồng quốc tế công nhận  Các nghiên cứu ngắn hạn đơn lẻ với nhiều hạn chế thời gian điều kiện phát triển Kết nghiên cứu dừng lại việc xây dựng mơ hình, thử kiểm nghiệm tệp liệu nhỏ Trên thực tế không phù hợp với mức độ người sử dụng  Nhiều nhóm bắt tay vào thực nghiên cứu với khảo sát không đầy đủ thông tin cịn thiếu kiến thức Trong vấn đề xử lý ngơn ngữ cịn phức tạp, chưa có nhều chuyên gia nên việc đánh giá thẩm định thứ làm chưa làm chưa thật rõ ràng, xác, người thực đề tài đường vịng  Các nhóm nghiên cứu thực đơn lẻ, thiếu liên kết, thiếu phân cơng, hợp tác theo lộ trình kế hoạch xử lý tiếng Việt khơng có tính kế thừa kết tầng xử lý ngôn ngữ tự nhiên 3.1.2 Ứng dụng xử lí ngơn ngữ Một số ứng dụng xử lí ngơn ngữ [17] là:  Nhận dạng chữ viết: Có hai kiểu nhận dạng nhận dạng chữ in nhận dạng chữ viết tay Thứ nhất, nhận dạng chữ in ví dụ nhận dạng chữ sách giáo khoa chuyển sang dạng văn điện tử có định dạng doc docx Microsoft Word Phức tạp nhận dạng chữ viết tay, chữ viết tay khơng có khn dạng rõ ràng người có dạng chữ viết khác Nhận dạng chữ in chuyển hàng ngàn đầu sách thư viện thành văn điện tử Nhận dạng chữ viết tay người ứng dụng khoa học hình bảo mật thơng tin Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp  Nhận dạng tiếng nói: Là trình nhận dạng mẫu, với mẫu đơn vị nhận dạng từ âm vị Nhận dạng tiếng nói chuyển chúng thành văn tương ứng Giúp thao tác người thiết bị nhanh đơn giản hơn, chẳng hạn thay gõ tài liệu bạn đọc lên trình soạn thảo tự ghi Đây bước cần phải thực ước mơ thực giao tiếp người với robot Nhận dạng tiếng nói có khả trợ giúp người khiếm thị nhiều Khó khăn tốn tiếng nói ln biến thiên theo thời gian có khác biệt lớn người khác nhau, tốc độ nói, ngữ cảnh môi trường âm học khác Các nghiên cứu nhân dạng tiếng nói dựa nguyên tắc bản: - Tín hiệu tiếng nói biểu diễn xác giá trị phổ khung thời gian ngắn Nhờ ta trích đặc điểm tiếng nói từ khoảng thời gian ngắn dùng đặc điểm làm liệu để nhận dạng tiếng nói - Nội dung tiếng nói biểu diễn dạng chữ viết, dãy ký hiệu ngữ âm Nên ý nghĩa phát âm bảo toàn phiên âm thành dãy khý hiệu ngữ âm - Nhận dạng tiếng nói qua trình nhận thức Ngơn ngữ nói có nghĩa, thơng tin ngữ nghĩa ngữ dụng có giá trị trình nhận dạng tiếng nói, đặc biệt thơng tin âm học không rõ ràng  Tổng hợp tiếng nói (Text – to – speech, TTS): có mục tiêu ngược với nhận dạng tiếng nói Từ văn tự động tổng hợp thành tiếng nói Thay phải tự đọc sách hay nội dung trang web, tự động đọc cho Giống nhận dạng tiếng nói, tổng hợp tiếng nói trợ giúp tốt cho người khiếm thị, ngược lại bước cuối giao tiếp robot với người Kiến trúc hệ thống TTS giống kiến trúc đọc chữ người, bao gồm môdun xử lý ngôn ngữ tự nhiên mơdun xử lý tín hiệu số Mơdun xử lý ngơn ngữ tự nhiên có khă sinh Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp phiên âm phù hợp với cách phát âm trình đọc văn với ngữ điệu, ngơn điệu Cịn mơdun xử lý tín hiệu số chuyển thơng tin tưởng trưng nhận thành tiếng nói Khi hai khối định nghĩa rõ ràng, việc nghiên cứu hai q trình thực riêng rẽ, độc lập với TTS biểu đạt qua hai phương pháp: - Phương pháp thứ thực dạng quy tắc mô tả âm vị, ảnh hưởng lẫn âm vị phát âm (phương pháp tổng hợp quy luật) - Phương pháp thứ hai lưu giữ đơn vị âm bản, biến đổi đơn vị âm đồng thời tạo sở liệu tiếng nói, sử dụng chúng đơn vị âm học để tạo thành lời nói (phương pháp tổng hợp theo xích chuỗi)  Dịch tự động (machine translate): Như tên gọi chương trình dịch tự động từ ngơn ngữ sang ngơn ngữ khác Một phần mềm điển hình tiếng Việt chương trình Evtrans Softex, dịch tự động từ tiếng Anh sang tiếng Việt ngược lại, phần mềm trang web vdict.com mua quyền, trang đưa ứng dụng lên mạng  Tìm kiếm thơng tin (information retrieval): Đặt câu hỏi chương trình tự tìm nội dung phù hợp Thông tin ngày nhiều lên theo cấp số nhân, đặc biệt với phát triển Internet việc tiếp cận thông tin trở lên dễ dàng Các máy tìm kiếm dựa giao diện web Google hay Yahoo phân tích nội dung đơn giản dựa tần suất từ khoá thứ hạng trang số tiêu chí đánh giá khác để đưa kết luận, kết nhiều tìm kiếm khơng nhận câu trả lời phù hợp, chí bị dẫn tới liên kết khơng liên quan thủ thuật đánh lừa trang web nhằm giới thiệu sản phẩm (có tên tiếng Anh SEO viết tắt từ search engine optimization)  Tóm tắt văn bản: Từ văn dài tóm tắt thành văn ngắn theo mong muốn chứa nội dung thiết yếu Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp  Khai phá liệu (data mining) phát tri thức: Từ nhiều tài liệu khác phát tri thức Thực tế để làm điều khó, gần mơ trình học tập, khám phá khoa học người, lĩnh vực giai đoạn đầu phát triển Ở mức độ đơn giản kết hợp với máy tìm kiếm cho phép đặt câu hỏi để từ cơng cụ tự tìm câu trả lời dựa thông tin web mặc cho việc trước có câu trả lời lưu web hay không (giống trang Yahoo! hỏi đáp, nơi chuyên đặt câu hỏi để người khác trả lời), nói cách nơm na biết xử lý liệu để trả lời câu hỏi người sử dụng, thay máy móc đáp trả có sẵn nhớ 3.2 Xây dựng mơ hình hệ thống so sánh văn 3.2.1 Các tác nhân Có tác nhân việc so sánh văn là: tập liệu, người sử dụng hệ thống so sánh văn Tập liệu lưu trữ nhiều định dạng khác nhau, ví dụ HTML(có menu, quảng cáo, hình ảnh), Word (có định dạng font chữ , màu chữ, kích thước), Excel(quản lí bảng liệu) hay file PDF, text, v.v Tuy nhiên hệ thống tìm kiếm, xử lý thông tin sử dụng đến cấu trúc lưu trữ văn chương trình Người sử dụng người đưa truy vấn để tìm kiếm thơng tin thực so sánh văn bản, trích rút thuộc tính, v.v Q trình so sánh văn thực hệ thống so sánh với đầu vào yêu cầu người dùng tập liệu xây dựng từ trước Các hệ thống phải có khả xử lý khối lượng thông tin lớn với ngôn ngữ tự nhiên (Natural Language Processing – NLP) thời gian cho phép chấp nhận 10 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp Hình 4.1 Nội dung lưu lại 4.2 Chuyển đổi liệu pdf sang text a Cách thực Nhiều sách điện tử, báo cáo thường tồn dạng file PDF Để phục vụ cho toán cần chuyển file PDF dạng văn Một thư viện viết Python có tên PDFminer cho phép chuyển đổi dễ dàng file pdf thành file text với độ xác cao File pdf2text đặt pdfminer/tool/pdf2text.py file cài đặt Để cài đặt ta Cài đặt python (không cài Vì chưa hỗ trợ) Bước 1: Tạo biến môi trường tới đường dẫn python, pdfminer 34 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp Hình 4.2 Tạo biến mơi trường tới đường dẫn python, pdfminer Bước 2: Chạy cmd, đưa đường dẫn tới setup.py pdfminer/ setup.py install Hình 4.3 Tạo biến môi trường tới đường dẫn python, pdfminer b Ví dụ: Ví dụ tạo thư mục samples chứa file pdf c:\pdfminer\samples, ta chuyển sang text cách gõ dòng lệnh sau cmd window: pdf2txt.py-o samples/output.txt/samples/IRI_2_ChuanHoa_DanhTrongSo.pdf 35 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp Hình 4.4 Chạy ví dụ Chuyển thủ công tay file pdf chưa mã hóa sang text sử dụng dịng lệnh: “pdf2text.py –o “đường dẫn tới nơi chứa file text/tên đầy đủ file text” “đường dẫn tới nơi chứa file pdf/tên đầy đủ file pdf”” Nhận xét: - Ưu điểm: Khơng phí, mã nguồn mở python, chạy với dung lượng lớn - Nhược điểm: File bị mã hóa cho có nhiều ký tự đặc biệt không dùng được, chưa biết cách kết nối với java 4.3 Phân tách từ - sử dụng thư viện vnTokenizer a Mơ hình: • Đầu vào: nội dung văn định dạng file txt • Đầu ra: chuỗi đơn vị từ tách b Yêu cầu: Yêu cầu người dùng nhập vào tham số sau: • Đường dẫn đến file text Ví dụ: String inputFile= "./data/input/baibao021.txt"; • Đường dẫn file lưu kết Ví dụ: String outputFile = "./data/output/test1.txt"; c Code để chạy chương trình 36 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp Hình 4.6 Chạy thử vnTokenizer d Kết thực tế:  Dữ liệu đầu vào Hình 4.5 File liệu đầu vào  Các từ tiếng việt phân tách 37 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp Hình 4.6 Kết phân tách từ vnTokenizer  Cắt từ khoảng trắng chuyến công_du việt_nam đầu_tiên ông obama hai nhiệm_kỳ new_york viết với tiêu_đề obama đến việt_nam hướng Hình 4.7 Cắt từ khoảng trắng sau phân tách 38 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp Nhận xét - Ưu điểm: Kết phân tách có độ xác cao cao, dễ dàng tích hợp vào chương trình - Nhược điểm: Vẫn cịn số từ tách chưa hoàn thiện 4.4 Đánh trọng số từ tập liệu a Các bước thực Thực lưu trữ tần số, IDF, trọng số HashMap với cấu trúc lưu trữ cụ thể sau: Bước 1: Tính tần suất từ tập liệu Lưu trữ vào: HashMap tf = new HashMap(); Bước 2: Tính IDF từ tập liệu Lưu trữ vào: HashMap idf = new HashMap(); Bước 3: Tính IDF lưu vào: HashMap tfidf = new HashMap(); b Kết đánh trọng số 39 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp Hình 4.8 Kết đánh trọng số 4.5 So sánh độ tương đồng văn Hệ thống máy tính sử dụng để chạy chương trình có cấu hình sử dụng xử lý Intel ® Core ™ i5 2.5GHz, nhớ ram 4GB hệ điều hành Win 4.5.1.Thời gian tính tốn a Thời gian tính tốn đánh mục: Thời gian đánh mục 0.63s 1.1s 1.6s 15s 28s 65s Hình 4.9 Thời gian đánh mục b.Thời gian tính tốn thực kiểm tra đạo văn: D (v 50 50 Hình 4.10 Thời gian kiểm tra đạo văn 4.5.2 So sánh văn theo mơ hình tần số a Các bước thực hiện: Bước 1: Đánh trọng số từ tập liệu Bước 2: Duyệt văn tập liệu đánh độ tương tự (tính theo trọng số) với văn cần kiểm tra Bước Xuất kết độ tương tự theo thứ tự giảm dần b Kết quả: Thực chép văn “baibao021.txt” làm văn để kiểm tra Sử dụng mơ hình tần số thu kết sau: 40 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp Hình 4.11 Kết tính độ tương tự theo tần số Như dễ dàng thấy “baibao021”, “baibao020”, “baibao079” có độ tương tự với văn cần kiểm tra c Nhận xét Ưu điểm: Tính tốn dễ dàng thực nhanh chóng Nhược điểm: Kết thu nhiều khơng xác có độ tương tự cao 4.5.3 So sánh văn theo mơ hình Vectơ a Các bước thực hiện: Bước 1: Đánh trọng số từ tập liệu Bước 2: Duyệt văn tập liệu đánh độ tương tự (tính theo góc Cosin) với văn cần kiểm tra Bước Xuất kết độ tương tự theo thứ tự giảm dần 41 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp b Kết Thực chép văn “baibao021.txt” làm văn để kiểm tra Sử dụng mơ hình tần số thu kết sau: Hình 4.12 Kết tính độ tương tự theo vectơ Như dễ dàng thấy “baibao021”, “baibao020”, “baibao079” có độ tương tự với văn cần kiểm tra PHẦN V KẾT LUẬN VÀ ĐỀ NGHỊ 5.1 Kết luận a Về kết Xử lý ngơn ngữ tự nhiên có nhiều tốn có tốn so sánh trùng lặp liệu luận văn toán phức tạp gồm nhiều bước xử lý từ thu thập liệu, chuyển đổi liệu loại định 42 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp dạng, đánh trọng số thuật toán so sánh Đặc biệt toán phải làm liệu lớn, nên tốc độ xử lý vấn đề cần quan tâm Bài toán đánh giá chép luận văn toán phức tạp nhiều vấn đề, bước đầu nhóm tìm hiểu vấn đề xử lý liệu, nghiên cứu cài đặt số thuật toán để đánh giá độ tương tự văn Hiện có nhiều thuật tốn cách thức so sánh trùng lặp, thời gian nghiên cứu có hạn chúng tơi kiểm thử so sánh hai mơ hình đánh giá độ tương tự mơ hình tần suất mơ hình vectơ, chúng tơi có số số kết luận sau: - Nếu kiểm tra việc chép nguyên văn phương pháp trả 10 kết có độ tương tự xác tương đương - Nếu kiểm tra việc chép từ 50-70% văn gốc phương pháp dùng vectơ có kết trả tốt b Mặt hạn chế Mỗi mơ hình so sánh có mặt ưu điêm nhược điểm Trong hai mơ hình mặt hạn chế lớn mà thấy là: - Hai mơ hình chủ yếu đánh giá việc so khớp tần suất xuất từ văn chưa đánh giá đến vị trí từ câu xét đến mặt ngữ nghĩa từ ghép lại thành câu Vì với tài liệu bị chỉnh sửa từ đồng nghĩa thay đổi thứ tự phương pháp không đạt hiệu cao 5.2 Đề nghị Một số đề nghị nhóm cho việc nghiên cứu phát triển cho đề tài là: - Sử dụng cách đánh mục kết hợp với lưu vị để lưu quan hệ từ văn bản, từ tính độ tương tự cho văn đạt kết cao - Nghiên cứu cách để xác định loại từ (ví dụ: danh từ, động từ, tính từ, trạng từ, v.v) để từ xác định xác ngữ nghĩa mà câu biểu đạt, từ để xây dựng cơng thức đánh giá độ tương tự 43 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp - Thiết kế để lưu trữ liệu hệ quản trị CSDL để tăng tốc độ truy cập hướng tới xây dựng ứng dụng để triển khai thực tế PHẦN VI TÀI LIỆU THAM KHẢO TS Dương Thăng Long (11/2014) Nghiên cứu độ đo tương đồng văn Tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử Báo cáo tổng kết đề tài khoa học công nghệ Viện Đại Học Mở Hà Nội TS Trần Cao Đệ (2014) Phát triển hệ thống phát đạo văn cho trường đại học Việt Nam Tạp chí khoa học Trường Đại học Cần Thơ Trần Đức Duy, Lê Hùng (2010) Phát chép tài liệu phương pháp mục ngữ nghĩa tiềm ẩn Luận văn tốt nghiệp đại học Cần Thơ HTTP1: Vi phạm quyền - ( https://goo.gl/LeyXqE ) HTTP 2: Học viện Cảnh sát áp dụng phần mềm chống chép luận văn (http://goo.gl/i7GJQ4 ) HTTP 3: Sao chép luận văn tốt nghiệp ngày phổ biến - VnExpress( http://goo.gl/f14Ien ) HTTP 4: Turnitin ( http://turnitin.com/ ) HTTP 5: Plagiarism Checker ( http://en.writecheck.com/ ) HTTP 6: Grammar Check – ( https://goo.gl/WTr4qw ) 10 HTTP 7: Grammarly ( https://www.grammarly.com ) 11 HTTP 8: Plagiarism Checker (http://www.duplichecker.com/ ) 12 HTTP 9: Plagiarism Detection Software (http://www.ithenticate.com/ ) 13 HTTP 10: Wikipedia – Tìm kiếm thơng tin (https://goo.gl/2EcRhg) 14 HTTP 11: Wikipedia – Cơng cụ tìm kiếm (https://goo.gl/APPPyJ ) 15 Le, H.-P., Nguyen, M.-H T., Roussanaly, A., & Ho, T.-V (2008) A Hybrid Approach to Word Segmentation of Vietnamese Texts Language and Automata Theory and Applications, 240 16 Xử lí ngôn ngữ tự nhiên – Wikipedia (https://goo.gl/JUa78g ) 17 Vấn đề xử lí ngơn ngữ Tiếng Việt - Timoday(http://goo.gl/r68p6g ) 44 Thức, Oanh, Lượng Xây dựng hệ thống kiểm tra chép luận văn tốt nghiệp 18 Jsoup – (https://jsoup.org/ ) 19 Bài toán tách từ - Timoday - (http://goo.gl/OSrWrr) 20 Gerard Salton and Michael J McGill 1986 Introduction to Modern Information Retrieval McGraw-Hill, Inc., New York, NY, USA 45 Thức, Oanh, Lượng

Ngày đăng: 24/09/2016, 21:03

Từ khóa liên quan

Mục lục

  • LỜI CẢM ƠN

  • MỤC LỤC

  • DANH MỤC HÌNH ẢNH

  • PHẦN I. MỞ ĐẦU

    • 1.1. Tên đề tài

    • 1.2. Đặt vấn đề

    • 1.3. Mục đích, yêu cầu

      • 1.3.1. Mục đích

      • 1.3.2. Yêu cầu

      • PHẦN II. TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC

        • 2.1. Tình hình nghiên cứu trong nước

        • 2.2. Tình hình nghiên cứu ngoài nước

        • PHẦN III. NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

          • 3.1. Vấn đề trong xử lí ngôn ngữ Tiếng Việt và ứng dụng

            • 3.1.1. Vấn đề trong xử lí ngôn ngữ Tiếng Việt

            • 3.1.2. Ứng dụng trong xử lí ngôn ngữ

            • 3.2. Xây dựng mô hình hệ thống so sánh các văn bản

              • 3.2.1. Các tác nhân chính

                • Hình 3.1. Các tác nhân chính trong hệ thống

                • 3.2.2. Mô hình hệ thống so sánh các văn bản

                  • Hình 3.2. Mô hình hệ thống so sánh các văn bản

                  • 3.3. Các bước tiền xử lí

                    • 3.3.1. Lấy dữ liệu từ trên Internet

                    • 3.3.2. Chuyển đổi dữ liệu pdf sang thuần text

                    • 3.3.3. Phân tách từ - Sử dụng công cụ VnTokenizer

                      • Hình 3.3. Quy trình thực hiện tác từ

                      • Hình 3.4. Các tài nguyên của vnTokenizer

                      • Hình 3.5. Ví dụ tích hợp vnTokenizer

                      • 3.3.4. Đánh chỉ mục

                        • Hình 3.6. Tổng quan xây dựng đánh chỉ mục

                        • Hình 3.7. Ma trận phụ thuộc

Tài liệu cùng người dùng

Tài liệu liên quan