DSpace at VNU: Đánh giá hiệu năng các hệ thống Inverted Index cho bài toán khai thác thông tin nhật kí giao dịch dựa trên bộ công cụ xử lý dữ liệu lớn Hadoop

13 238 2
DSpace at VNU: Đánh giá hiệu năng các hệ thống Inverted Index cho bài toán khai thác thông tin nhật kí giao dịch dựa trên bộ công cụ xử lý dữ liệu lớn Hadoop

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

DSpace at VNU: Đánh giá hiệu năng các hệ thống Inverted Index cho bài toán khai thác thông tin nhật kí giao dịch dựa trê...

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH HỒNG ĐIỆP ĐÁNH GIÁ HIỆU NĂNG CÁC HỆ THỐNG INVERTED INDEX CHO BÀI TỐN KHAI THÁC THƠNG TIN NHẬT GIAO DỊCH DỰA TRÊN BỘ CƠNG CỤ XỬ DỮ LIỆU LỚN HADOOP LUẬN VĂN THẠCCÔNG NGHỆ THÔNG TIN Hà Nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH HỒNG ĐIỆP ĐÁNH GIÁ HIỆU NĂNG CÁC HỆ THỐNG INVERTED INDEX CHO BÀI TỐN KHAI THÁC THƠNG TIN NHẬT GIAO DỊCH DỰA TRÊN BỘ CƠNG CỤ XỬ DỮ LIỆU LỚN HADOOP Ngành: Công nghệ Thông tin Chuyên ngành: Truyền liệu Mạng máy tính Mã số: LUẬN VĂN THẠCCÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: Tiến sĩ Hoàng Xuân Tùng Hà Nội – 2015 LỜI CẢM ƠN Tôi xin chân thành cảm ơn TS Hồng Xn Tùng, người tận tình hướng dẫn bảo suốt thời gian dài thực đề tài Những ý kiến đóng góp bảo khơng mệt mỏi thầy động lực để tơi hồn thành mục tiêu nghiên cứu luận văn Tôi xin chân thành cảm ơn thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội giảng dạy, truyền đạt tạo điều kiện học tập tốt cho suốt thời gian học tập trình thực luận văn Tôi gửi lời cảm ơn tới tập thể lớp K17 chuyên ngành Truyền liệu Mạng máy tính Sự đồn kết tương trợ mà thành viên lớp mang đến cho thật nhiều ý nghĩa Cuối cùng, xin gửi lời cảm ơn tới gia đình, người thân bạn bè tôi, người bên động viên khích lệ tơi suốt khóa học 4 Lời cam đoan Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 22 tháng 05 năm 2015 Trịnh Hồng Điệp TỔNG QUAN Trong báo cáo này, thực đánh giá hiệu cho hệ thống inverted index xây dựng dựa cơng cụ xửliệu nguồn mở Hadoop cho mục đích khai thác thơng tin nhật giao dịch Ứng với yêu cầu khai thác thơng tin khác cần xây dựng hệ thống inverted index khác Các hệ thống inverted index đánh giá hiệu dựa hoạt động tạo lập, cập nhật truy vấn thông tin index hệ thống tập tin phân tán HDFS HBase mơ hình liệu hướng cột NoSQL hệ sinh thái Hadoop Mặc có giới hạn mơi trường thử nghiệm, giới hạn khả thiết kế công cụ phục vụ cho đánh giá hiệu HDFS so với công cụ xây dựng sẵn HBase số thử nghiệm, kết thử nghiệm rằng: HDFS nhanh vượt trội thời gian tạo lập index kích thước liệu index nhỏ so với mục đích HBase Nhưng HBase lại bảo đảm thời gian tra cứu thông tin nhanh mà không phụ thuộc vào vị trí ghi kích thước liệu Tính chất HBase đáp ứng yêu cầu thời gian thực cho ứng dụng cần đến Muốn có đánh giá tồn diện, đòi hỏi phải tiến hành thử nghiệm kỹ lưỡng môi trường thử nghiệm phải phù hợp với tầm vóc Hadoop, để có nhìn rõ ràng lợi ích việc xây dựng inverted index HDFS HBase Tuy nhiên, từ kết thử nghiệm đánh giá, đưa khuyến nghị sau:  Với tốn khai thác thơng tin tổng qt nên lựa chọn HBase Vì HBase bảo đảm cho thời gian truy vấn thông tin thỏa mãn thời gian thực mà khơng phục thuộc vào vị trí ghi kích thước liệu  Khi cần tối ưu thời gian tạo lập kích thước index nên lựa chọn HDFS Khi cần thiết kế tốt công cụ truy vấn thông tin cho kết truy vấn nhanh 6 MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT 10 DANH SÁCH HÌNH VẼ Error! Bookmark not defined DANH SÁCH BẢNG Error! Bookmark not defined Chương 1: GIỚI THIỆU Error! Bookmark not defined Chương 2: NHỮNG KIẾN THỨC NỀN TẢNG Error! Bookmark not defined 2.1 Khái quát nhật giao dịch Error! Bookmark not defined 2.2 Inverted index Error! Bookmark not defined 2.2.1 Giới thiệu inverted index Error! Bookmark not defined 2.2.2 Tạo lập inverted index Error! Bookmark not defined 2.2.3 Kích thước inverted index Error! Bookmark not defined 2.2.4 Truy vấn thông tin inverted index Error! Bookmark not defined 2.2.5 Cập nhật inverted index Error! Bookmark not defined 2.3 MapReduce Error! Bookmark not defined 2.3.1 Giới thiệu MapReduce Error! Bookmark not defined 2.3.2 Mơ hình lập trình Error! Bookmark not defined 2.3.3 Những lợi ích MapReduce Error! Bookmark not defined 2.4 Hadoop Error! Bookmark not defined 2.4.1 Hadoop Error! Bookmark not defined 2.4.2 Kiến trúc Hadoop Error! Bookmark not defined 2.4.3 Hadoop làm việc Error! Bookmark not defined 2.4.4 Ưu điểm Hadoop Error! Bookmark not defined 2.4.5 Ứng dụng Hadoop Error! Bookmark not defined 2.5 HDFS Error! Bookmark not defined 2.5.1 Giới thiệu HDFS Error! Bookmark not defined 2.5.2 Tính HDFS Error! Bookmark not defined 2.5.3 Kiến trúc HDFS Error! Bookmark not defined 2.5.3.1 NameNode Error! Bookmark not defined 2.5.3.2 DataNode Error! Bookmark not defined 7 2.5.3.3 Không gian tên hệ thống tập tin HDFS Error! Bookmark not defined 2.5.3.4 Sao chép liệu Error! Bookmark not defined 2.5.3.5 Các giao thức truyền thông Error! Bookmark not defined 2.6 HBase Error! Bookmark not defined 2.6.1 Giới thiệu HBase Error! Bookmark not defined 2.6.2 Mơ hình liệu Error! Bookmark not defined 2.6.2.1 Bảng (Table) Error! Bookmark not defined 2.6.2.2 Hàng (Row) Error! Bookmark not defined 2.6.2.3 Cột (Column) Error! Bookmark not defined 2.6.2.4 Column Family Error! Bookmark not defined 2.6.2.5 Column Qualifier Error! Bookmark not defined 2.6.2.6 Cell (ô) Error! Bookmark not defined 2.6.2.7 Nhãn thời gian (Timestamp) Error! Bookmark not defined 2.6.3 Các hoạt động mơ hình liệu Error! Bookmark not defined 2.6.3.1 Get Error! Bookmark not defined 2.6.3.2 Put Error! Bookmark not defined 2.6.3.3 Scan Error! Bookmark not defined 2.6.3.4 Delete Error! Bookmark not defined 2.6.4 Thiết kế bảng HBase Error! Bookmark not defined 2.6.5 Kiến trúc HBase Error! Bookmark not defined 2.6.5.1 HBase Master (HMaster) Error! Bookmark not defined 2.6.5.2 HRegionServer Error! Bookmark not defined 2.6.5.3 Region Error! Bookmark not defined 2.6.5.4 HBase client Error! Bookmark not defined Chương 3: XÂY DỰNG CÁC HỆ THỐNG INVERTED INDEX VÀ NHỮNG CÔNG CỤ PHỤC VỤ CHO VIỆC ĐÁNH GIÁ HIỆU NĂNG TRÊN HADOOP Error! Bookmark not defined 3.1 Xây dựng hệ thống inverted index Hadoop Error! Bookmark not defined 8 3.1.1 Triển khai hệ thống inverted index HDFS Error! Bookmark not defined 3.1.2 Triển khai hệ thống inverted index HBase Error! Bookmark not defined 3.2 Xây dựng công cụ phục vụ cho việc đánh giá hiệu Hadoop Error! Bookmark not defined 3.2.1 Xây dựng công cụ phục vụ đánh giá hiệu thời gian dùng để tạo lập inverted index Error! Bookmark not defined 3.2.2 Xây dựng công cụ phục vụ đánh giá hiệu thời gian dùng truy vấn thông tin từ inverted index Error! Bookmark not defined 3.2.2.1 Xây dựng công cụ phục vụ đánh giá hiệu thời gian dùng truy vấn thông tin từ inverted index HBase Error! Bookmark not defined 3.2.2.2 Xây dựng công cụ phục vụ đánh giá hiệu thời gian dùng truy vấn thông tin từ inverted index HDFS Error! Bookmark not defined 3.2.3 Xây dựng công cụ phục vụ đánh giá hiệu cập nhật inverted index Error! Bookmark not defined 3.2.3.1 Xây dựng công cụ cập nhật index HBase Error! Bookmark not defined 3.2.3.2 Xây dựng công cụ cập nhật index HDFS Error! Bookmark not defined 3.2.3.3 Xây dựng công cụ đánh giá hiệu độ trễ cập nhật Error! Bookmark not defined 3.2.3.4 Xây dựng công cụ đánh giá hiệu tốc độ tìm kiếm Error! Bookmark not defined 3.2.4 Những công cụ bổ trợ khác phục vụ trình đánh giá hiệu Error! Bookmark not defined Chương 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ Error! Bookmark not defined 4.1 Chuẩn bị môi trường cho thử nghiệm Error! Bookmark not defined 4.2 Thử nghiệm tạo lập inverted index Error! Bookmark not defined 4.3 Thử nghiệm truy vấn thông tin inverted index Error! Bookmark not defined 4.3.1 Thử nghiệm - Tra cứu ghi Error! Bookmark not defined 9 4.3.2 Thử nghiệm 2:Quét toàn nội dung inverted index Error! Bookmark not defined 4.4 Thử nghiệm cập nhật inverted index Error! Bookmark not defined 4.4.1 Thử nghiệm thời gian sử dụng để xây dựng phần index Error! Bookmark not defined 4.4.2 Thử nghiệm độ trễ cập nhật Error! Bookmark not defined 4.4.3 Thử nghiệm tốc độ tìm kiếm Error! Bookmark not defined 4.4.4 Đánh giá khả hỗ trợ tìm kiếm cập nhật Error! Bookmark not defined 4.4.5 Đánh giá khả phục hồi liệu Error! Bookmark not defined 4.5 Tổng quan đánh giá hiệu Error! Bookmark not defined 4.5.1 Đánh giá hiệu tạo lập inverted index Error! Bookmark not defined 4.5.2 Đánh giá hiệu truy vấn inverted index Error! Bookmark not defined 4.5.2.1 Đánh giá hiệu truy vấn ghi Error! Bookmark not defined 4.5.2.2 Đánh giá hiệu quét toàn index Error! Bookmark not defined 4.5.3 Đánh giá hiệu cập nhật inverted index Error! Bookmark not defined 4.6 Những nghiên cứu liên quan Error! Bookmark not defined Chương 5: KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU Error! Bookmark not defined 5.1 Kết luận Error! Bookmark not defined 5.2 Hướng nghiên cứu Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 PHỤ LỤC Error! Bookmark not defined 10 DANH MỤC CÁC TỪ VIẾT TẮT Viết tắt API AVG CPU GFS HDFS I/O ID IIS IP IR MB ms RDBMS RPC s SQL TCP WALs XML Tên đầy đủ Application Programming Interface Average Central Processing Unit Google File System Hadoop Distributed File System Input/Output Identification Internet Information Services Internet Protocol Information Retrieval Megabytes miliseconds Relational Database Management System Remote Procedure Call seconds Structured Query Language Transmission Control Protocol Write Ahead Logs Extensible Markup Language 11 TÀI LIỆU THAM KHẢO Tiếng Anh Ajit Kumar MAHAPATRA and Sitanath BISWAS, 2011, "Inverted indexes: Types and techniques", vol Alex HOLMES, 2012, Hadoop in practice.: Manning Publications Co Amandeep Khurana, "Introduction to hbase Schema Design" Apache Hadoop HDFS Architecture [Online] http://hadoop.apache.org/docs/r2.7.0/hadoop-project-dist/hadoophdfs/HdfsDesign.html Cloudera, Ten Common Hadoopable Problems Real-World Hadoop Use Cases.: White Paper Denis, et al SHESTAKOV, 2013, "Scalable high-dimensional indexing with Hadoop" Fay, et al CHANG, 2008, "Bigtable: A distributed storage system for structured data" Jeffrey DEAN and Sanjay GHEMAWAT, 2008, "MapReduce: simplified data processing on large clusters" Jeffrey SHAFER, Scott RIXNER, and Alan L COX, 2010, "The Hadoop distributed filesystem: Balancing portability and performance" 10 Justin ZOBEL and Alistair MOFFAT, 2006, "Inverted files for text search engines" 11 Konstantin, et al SHVACHKO, 2010, "The hadoop distributed file system" 12 Linthala SRINITHYA and G Venkata Rami REDDY, 2012, "Performance Evaluation of Hadoop Distributed File System and Local File System" 13 Madhavi VAIDYA, 2011, "Survey of Parallel Data Processing in Context with MapReduce" 14 Microsoft W3C Extended Log File Format (IIS 6.0) [Online] https://www.microsoft.com/technet/prodtechnol/WindowsServer2003/Library/II 12 S/676400bc-8969-4aa7-851a-9319490a9bbb.mspx?mfr=true 15 Ms Vibhavari CHAVAN and Rajesh N PHURSULE, 2014, "Survey Paper On Big Data", Vol (6) 16 Prof R.L.Paikra Dhomse Kanchan, 2014, "Survey paper on Generalized Inverted Index for Keyword Search", vol 10, no 17 Ronald C TAYLOR, 2010, "An overview of the Hadoop/MapReduce/HBase framework and its current applications in bioinformatics" 18 Sanjay GHEMAWAT, Howard GOBIOFF, and Shun-Tak LEUNG, 2003, "The Google file system" 19 Stefan BÜTTCHER, Charles LA CLARKE, and Gordon V CORMACK, 2010, Information retrieval: Implementing and evaluating search engines.: Mit Press 20 Sunita, et al SURALKAR, 2013, "Review of Distributed File Systems: Case Studies" 21 Tom WHITE, 2012, Hadoop: The definitive guide.: O'Reilly Media, Inc 22 Wang LIANG and Zhao KAIYONG, 2013, "A new DNA alignment method based on inverted index" 23 Xiaoming GAO and Judy QIU, 2010, "Scalable inverted indexing on NoSQL table storage" 13 a class ... HỌC CÔNG NGHỆ TRỊNH HỒNG ĐIỆP ĐÁNH GIÁ HIỆU NĂNG CÁC HỆ THỐNG INVERTED INDEX CHO BÀI TỐN KHAI THÁC THƠNG TIN NHẬT KÍ GIAO DỊCH DỰA TRÊN BỘ CƠNG CỤ XỬ LÝ DỮ LIỆU LỚN HADOOP Ngành: Công nghệ Thông. .. này, thực đánh giá hiệu cho hệ thống inverted index xây dựng dựa công cụ xử lí liệu nguồn mở Hadoop cho mục đích khai thác thơng tin nhật kí giao dịch Ứng với u cầu khai thác thơng tin khác cần... xây dựng hệ thống inverted index khác Các hệ thống inverted index đánh giá hiệu dựa hoạt động tạo lập, cập nhật truy vấn thông tin index hệ thống tập tin phân tán HDFS HBase mơ hình liệu hướng

Ngày đăng: 17/12/2017, 03:05

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan