DSpace at VNU: Ứng dụng độ tương đồng chuỗi trong chống trùng lặp cho các tập dữ liệu văn bản có cấu trúc dạng bảng

12 231 0
DSpace at VNU: Ứng dụng độ tương đồng chuỗi trong chống trùng lặp cho các tập dữ liệu văn bản có cấu trúc dạng bảng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

DSpace at VNU: Ứng dụng độ tương đồng chuỗi trong chống trùng lặp cho các tập dữ liệu văn bản có cấu trúc dạng bảng tài...

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRƯƠNG LÊ QUÂN ỨNG DỤNG ĐỘ TƯƠNG ĐỒNG CHUỖI TRONG CHỐNG TRÙNG LẶP CHO CÁC TẬP DỮ LIỆU VĂN BẢN CĨ CẤU TRÚC DẠNG BẢNG Ngành: Cơng nghệ Thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60.48.01.03 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: Tiến sĩ Hoàng Xuân Tùng Hà Nội – 2015 Lời cảm ơn Tôi xin chân thành cảm ơn TS Hoàng Xuân Tùng, người tận tình hướng dẫn tơi suốt q trình làm luận văn Những ý kiến đóng góp bảo thầy trình kim nam giúp tơi hồn thành mục tiêu nghiên cứu Tôi xin cảm ơn tập thể thầy cô giáo trường Đại học Công nghệ - Đại học Quốc gia Hà Nội giảng dạy tạo điều kiện tốt cho thời gian học tập trường nghiên cứu làm luận văn Tôi xin gửi lời cảm ơn tới người đàn anh thầy hướng dẫn người cho lời khuyên cần thiết động viên người trình làm luận văn Cuối tơi xin gửi lời cảm ơn tới gia đình bạn bè người ln đứng sau cổ vũ cho suốt quãng thời gian học tập làm luận văn 3 Lời cam đoan Tôi xin cam đoan viết luận văn sản phẩm cá nhân tôi, không chép từ người khác Trong toàn luận văn điều trình bày cá nhân tơi trích dẫn từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 27 tháng 10 năm 2015 Trương Lê Quân Mở đầu Trong luận văn tơi trình bày phương pháp giải khó khăn thực phương pháp chống trùng lặp thông thường tập liệu văn có cấu trúc dạng bảng Khó khăn xuất có lỗi nhập liệu, sai sót gõ máy dẫn tới việc phương pháp thơng thường khơng thể tìm liệu bị trùng lặp Để giải khó khăn đề xuất phương pháp chống trùng lặp dựa vào cách tính độ tương đồng chuỗi nhằm đạt kết cao tìm liệu trùng lặp tập liệu văn xảy lỗi nhập liệu Bằng phương pháp tính độ tương đồng liệu nhập vào tập văn cho dù có xảy lỗi nhập liệu bị phát xử lý Mặc dù mơi trường thử nghiệm thiếu thốn, tập liệu đầu vào phương pháp thực nghiệm độ tương đồng kết thực nghiệm rằng: phương pháp chống trùng lặp ứng dụng độ tương đồng giải vấn đề nhập liệu Tỉ lệ sai nhập liệu lớn hiệu suất phương pháp cao Ngay không xảy lỗi nhập liệu hiệu suất phương pháp ngang với phương pháp cũ Điểm yếu thời gian chạy, tơi chưa thể thực nghiệm phương pháp giải vấn đề thời gian nêu lý thuyết Để đánh giá cách công cần thử nghiệm lớn với phương pháp tối ưu Tuy nhiên kết luận luận văn là: Phương pháp chống trùng lặp ứng dụng độ tương đồng chuỗi phần giải khó khăn xử lý liệu tập văn có cấu trúc 5 Mục Lục DANH MỤC CÁC TỪ VIẾT TẮT DANH SÁCH HÌNH VẼ DANH SÁCH BẢNG .9 Chương 1: Trùng lặp liệu phương pháp chống trùng lặp .10 1.1 Các vấn đề trùng lặp liệu 10 1.2 Chống trùng lặp liệu 11 1.2.1 Khái niệm 11 1.2.2 Lợi ích chống trùng lặp liệu 12 1.3 Ứng dụng chống trùng lặp liệu 13 1.3.1 Backup liệu 13 1.3.2 Nhân liệu 14 1.3.3 Lưu trữ liệu 14 Chương 2: Phân loại phương pháp chống trùng lặp liệu 17 2.1 Các phương pháp chống trùng lặp phân chia theo liệu 17 2.1.1 File Base Compare .17 2.1.2 File Level Hashing .17 2.1.3 Block Level Hashing 18 2.1.4 Sub Block Level Hashing 19 2.1.5 Delta Versioning 20 2.1.6 So sánh phương pháp chống trùng lặp 21 2.2 Các phương pháp chống trùng lặp theo cách thức thực .23 2.2.1 Inline 23 2.2.2 Post-process 24 2.2.3 Client Base 25 2.2.4 Target-base 25 2.2.5 NAS-based 26 2.2.6 SAN-based 26 2.2.7 Global 27 2.3 Các đoạn có chiều dài cố định đoạn có chiều dài linh hoạt 28 Chương Ứng dụng độ tương đồng chuỗi chống trùng lặp liệu 31 3.1 Vấn đề phương pháp chống trùng lặp cho tập liệu văn có cấu trúc dạng bảng 31 3.2 Ứng dụng độ tương đồng chuỗi vào chống trùng lặp .32 3.2.1 Sử dụng khoảng cách chuỗi 32 3.2.2 Phương pháp sử dụng phân cụm k-means 36 3.2.3 Phương pháp sử dụng thuật toán LSH (locality sensitive hashing) 39 Chương Thực nghiệm đánh giá kết 42 4.1 Tổng quan thử nghiệm 42 4.2 Thử nghiệm 43 4.3 Thử nghiệm 46 4.4 Đánh giá kết 48 4.5 Các thử nghiệm khác .49 4.5.1 Thử nghiệm chọn cận cách thống kê .49 4.5.2 Thử nghiệm đánh giá tác động cận .50 4.6 Thực nghiệm thực tế 52 4.7 Kết luận hướng phát triển tương lai 53 4.7.1 Kết luận 53 4.7.2 Hướng phát triển tương lai 54 TÀI LIỆU THAM KHẢO 55 Tiếng Anh .55 Phụ lục 57 DANH MỤC CÁC TỪ VIẾT TẮT Viết tắt LAN WAN NAS SAN IP FC LSH Tên đầy đủ Local Area Network Wide Area Network Network Attached Storage Storage Area Network Internet Protocol Fibre Channel Locality Sensitive Hash DANH SÁCH HÌNH VẼ Hình 1.1 Chống trùng lặp liệu [3] 12 Hình 1.2 Lưu trữ liệu không sử dụng chống trùng lặp [3] 15 Hình 1.3 Lưu trữ liệu sử dụng chống trùng lặp [3] 15 Hình 2.1 File Base Compare 17 Hình 2.2 Quy trình hoạt động File Level Hashing 18 Hình 2.3 Quy trình làm việc Block Level Hashing 19 Hình 2.4 Chia nhỏ File 19 Hình 2.5 Dữ liệu sau xóa block/sub-block .20 Hình 2.6 Inline 24 Hình 2.7 Post-process 25 Hình 2.8 Client Base .25 Hình 2.9 Target-base 26 Hình 2.10 NAS-Based 26 Hình 2.11 SAN-based 27 Hình 2.12 Global 28 Hình 13 Chia đoạn có chiều dài cố định [1] .29 Hình 14 Chia đoạn có độ dài linh hoạt [1] 29 Hình 3.1 Sử dụng phương pháp chống trùng lặp bình thường .31 Hình 3.2 Quy trình chống trùng lặp sử dụng độ tương đồng chuỗi 33 Hình 3.3 Quy trình đánh giá độ tương đồng chuỗi .33 Hình Lưu đồ phương pháp tương đồng chuỗi 35 Hình 3.5 Thuật tốn K-means .36 Hình 3.6 Lưu đồ thuật toán K-means .37 Hình 3.7 Lưu đồ phương pháp sử dụng K-means 38 Hình Mơ hình thuật tốn LSH [10] 40 Hình Lưu đồ phương pháp ứng dụng LSH .41 Hình 4.1 Kết thu sau thực nghiệm .44 Hình 4.2 Kết thu sau thực nghiệm .47 Hình 4.3 Biểu đồ két thực nghiệm 51 DANH SÁCH BẢNG Bảng 2.1 So sánh phương pháp 23 Bảng 4.1 Sự thay đổi file đầu vào thử nghiệm 44 Bảng 4.2 Kết thực nghiệm 45 Bảng 4.3 Sự thay đổi file gốc thử nghiệm 46 Bảng 4.4 Kết thực nghiệm 48 Bảng 4.5 File đầu vào thực nghiệm thay đổi cận 50 Bảng 4.6 Bảng kết thực nghiệm tác động cận 52 10 Chương 1: Trùng lặp liệu phương pháp chống trùng lặp 1.1 Các vấn đề trùng lặp liệu Thông tin phần quan trọng công nghệ thông tin, công ty hay tổ chức muốn hoạt động tốt cần phải có cách sử dụng thơng tin cách hợp lý Chính mà liệu – thứ tạo nên thông tin cần phải quản lý cách tốt bảo vệ cách hiệu quả, nhiên lượng liệu lớn u cầu khơng gian lưu trữ việc quản lý ngày gia tăng Sự gia tăng liệu dẫn tới vấn đề nghiêm trọng khác, trùng lặp liệu Trùng lặp liệu việc liệu có nội dung giống nhiều nguyên nhân khác mà bị lưu lại nhiều lần Một hậu mà trùng lặp liệu gây hao phí cho khơng gian lưu trữ Dữ liệu trùng lặp lớn hao phí nhiều Ví dụ người bán hàng gửi giới thiệu sản phẩm khoảng 10mb cho khoảng 500 người báo cáo phải chứa file khác cho dù nội dung chúng phần lớn giống nhau, lúc dung lượng phải lưu trữ khoảng 5gb, đương nhiên khơng phải số lớn phải gửi 10 giới thiệu, 100 giới thiệu sao, chắn khơng phải số nhỏ Hơn phần lớn liệu giống khiến cho việc lưu trữ liệu trở nên hoang phí, block giống lại lưu trữ nhiều lần khơng khiến chi phí cho khơng gian lưu trữ tăng lên nhanh chóng mà khiến cho chi phí backup liệu tăng lên tới mức chóng mặt (Chi tiết xem [1]) Theo [2] khơng cơng ty lớn xảy việc trùng lặp liệu mà đám mây Đám mây hồ liệu lớn nơi liệu lưu trữ Thay việc phải sử dụng hay nhiều máy chủ tất liệu đám mây ảo hóa thơng qua internet Điểm mạnh việc lưu trữ đám mây tính mềm dẻo, khả tính tốn, tính đàn hồi co giãn tài ngun, người sử dụng khơng cần phải tính tốn dung lượng lưu trữ mà cần trả tiền có dung lượng cần thiết Chính mà việc trùng lặp liệu xảy đám mây lại nhiều Lấy ví dụ đơn giản ơng A u thích nhạc cổ điển, ơng ta đưa file X lên đám mây, ta lại có thêm ơng B yêu thích nhạc cổ điển trùng hợp ơng ta u thích X đưa lên đám mây Hiện đám mây có X phải lưu trữ hai Như chi phí cho file, liệu tốn gấp đôi, chưa kể tới việc số người dùng đám mây lúc nhiều, số lượng liệu trùng lặp lúc lớn, gấp đôi mà gấp ba, gấp bốn chí gấp hàng chục lần Nếu khơng có biện pháp giải vấn đề việc lãng phí tài ngun trở thành vấn đề lớn, chi phí cho tài nguyên dư thừa trở thành gánh nặng nhà cung cấp 55 TÀI LIỆU THAM KHẢO Tiếng Anh [1] S W Mark R.Coppock, Data Deduplication For Dummies, 2011 [2] D S S Deepak Mishra, Comprehensive study of data de-duplication, 2013 [3] A N Christopher Poelker, Storage Area Network for Dummies, 2011 [4] W J B Dutch T Meyer, A Study of Practical Deduplication, 2011 [5] C Poelker, "computerworld.com," [Online] Available: http://www.computerworld.com/article/2475300/cloud-security/datadeduplication-in-the-cloud-explained part-three implementationmethods.html [6] D Lin, An Information-Theoretic Definition of Similarity [7] G Navarro, A guided tour to approximate string matching, 2001 [8] N S N D M M C D P R S A Y W Tapas Kanungo, "An EfficientkMeans Cụming Algorithm:Analysis and Implementation" [9] M Bilenko, "Learnable Similarity Functions and Their Applications to Record Linkage and Cụming," 2003 [10] J Leskovec [Online] Available: http://web.stanford.edu/class/cs246/slides/03-lsh.pdf [11] J Z J Z Xinran Jiang, Enhance Data De-Duplication Performance With Multi-Thread Chunking, 2014 [12] J M S J G L C Y Y W K Ider Lkhagvasuren, Byte-index Chunking Algorithm for Data Deduplication System, 2013 [13] S Y P J G L Y W K Ho Min Jung, Efficient Data Deduplication System Considering File, 2012 [14] A B A N P G Vandana Dixit Kaushik, An Efficient Algorithm for Deduplication of, 2012 [15] R K A K A O J L S S Ahmed El-Shimi, Primary Data Deduplication – Large Scale Study and System Design, 2012 56 [16] K E D B Mark Lillibridge, Improving Restore Speed for Backup Systems that Use Inline, 2013 [17] Y J D H D Guanlin Lu, Frequency Based Chunking for Data DeDuplication, 2010 [18] L Whitehouse, HP StoreOnce Deduplication Software, 2010 [19] S S J L Biplob Debnath, ChunkStash: Speeding up Inline Storage Deduplication using Flash Memory, 2010 [20] L D R Amatruda, Back up and recovery: accelerating efficiency and driving down IT cost using data deduplication, 2010 [21] P Bille, Asurvey on tree edit distance and related problems, 2004 ... 2.3 Các đoạn có chiều dài cố định đoạn có chiều dài linh hoạt 28 Chương Ứng dụng độ tương đồng chuỗi chống trùng lặp liệu 31 3.1 Vấn đề phương pháp chống trùng lặp cho tập liệu văn có cấu trúc. .. thể tìm liệu bị trùng lặp Để giải khó khăn tơi đề xuất phương pháp chống trùng lặp dựa vào cách tính độ tương đồng chuỗi nhằm đạt kết cao tìm liệu trùng lặp tập liệu văn xảy lỗi nhập liệu Bằng... cách cơng cần thử nghiệm lớn với phương pháp tối ưu Tuy nhiên tơi kết luận luận văn là: Phương pháp chống trùng lặp ứng dụng độ tương đồng chuỗi phần giải khó khăn xử lý liệu tập văn có cấu trúc

Ngày đăng: 15/12/2017, 03:48

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan