Xây dựng hệ thống khảo duyệt web phân tán và thu thập dữ liệu phục vụ các hệ hỗ trợ quyết định

11 265 0
Xây dựng hệ thống khảo duyệt web phân tán và thu thập dữ liệu phục vụ các hệ hỗ trợ quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH VIỆT DŨNG XÂY DỰNG HỆ THỐNG KHẢO DUYỆT WEB PHÂN TÁN VÀ THU THẬP DỮ LIỆU PHỤC VỤ CÁC HỆ HỖ TRỢ QUYẾT ĐỊNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH VIỆT DŨNG XÂY DỰNG HỆ THỐNG KHẢO DUYỆT WEB PHÂN TÁN VÀ THU THẬP DỮ LIỆU PHỤC VỤ CÁC HỆ HỖ TRỢ QUYẾT ĐỊNH Ngành: Công nghệ thông tin Chuyên ngành: Truyền liệu mạng máy tính Mã số: Chƣơng trình đào tạo thí điểm LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN ĐẠI THỌ LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn sản phẩm riêng cá nhân tôi, không chép lại ngƣời khác Trong toàn nội dung luận văn điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tôi xin hoàn toàn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 19 tháng 10 năm 2015 Trịnh Việt Dũng MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG LỜI CẢM ƠN MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ HỆ HỖ TRỢ QUYẾT ĐỊNH 1.1 Thế định 1.2 Quá trình định 1.3.1 Phân loại định 1.3.2 Các giai đoạn trình định 1.3 Hệ hỗ trợ định 1.3.1 Khái niệm hệ hỗ trợ định 1.3.2 Các thành phần hệ hỗ trợ định 1.3.3 Mô hình định 1.3.4 Phân loại hệ hỗ trợ định 1.4 Một trƣờng hợp sử dụng hệ hỗ trợ định việc dự đoán giá sản phẩm đƣợc bán đấu giá eBay 1.4.1 Thu thập liệu từ website eBay 1.4.2 Tiền xử lý liệu 1.4.3 Dự đoán giá 11 1.5 Kết luận 12 CHƢƠNG MỘT SỐ HỆ THỐNG THU THẬP DỮ LIỆU 13 2.1 Kiến trúc chung hệ thống Web Crawler 13 2.1.1 Kho chứa URL 16 2.1.2 Lịch sử viếng thăm kho chứa trang web 17 2.1.3 Tải trang web 18 2.1.4 Duyệt phân tích nội dung 19 2.2 Hệ thống thu thập liệu Mercator 22 2.3 Hệ thống thu thập liệu từ Twitter - TwitterEcho 24 2.4 Tìm hiểu công cụ HTTrack 25 2.5 Kết luận 29 CHƢƠNG THIẾT KẾ HỆ THỐNG KHẢO DUYỆT WEB VÀ THU THẬP DỮ LIỆU 30 3.1 Kiến trúc hệ thống Web Crawler 31 3.1.1 Sơ đồ tổng quan 32 3.1.2 Các thành phần Web Crawler 33 3.1.3 Thiết kế 33 3.2 Kiến trúc hệ thống Twitter Crawler 36 3.2.1 Sơ đồ tổng quan 36 3.2.2 Sử dụng RestAPI v1.1 để thu thập liệu 37 3.2.3 Request Limits 41 3.2.4 Thiết kế 41 3.3 MongoDB cho việc lƣu trữ sở liệu 45 3.3.1 Ƣu điểm nhƣợc điểm 45 3.3.2 Cơ chế phân quyền vào bảo mật 46 3.3.3 Chỉ mục MongoDB 47 3.3.4 Phân mảnh MongoDB 47 3.4 Kết luận 50 CHƢƠNG ĐÁNH GIÁ KẾT QUẢ 51 4.1 Triển khai 51 4.2 Mô hình triển khai 53 4.3 Phần mềm thông số máy chủ 54 4.3.1 Phần mềm 54 4.3.2 Cấu hình máy chủ 54 4.4 Đánh giá hệ thống 55 4.4.1 Đánh giá hệ thống Web Crawler 55 4.4.2 Đánh giá hệ thống Twitter Crawler 55 4.4.3 Một số giao diện sau chạy hệ thống 56 4.5 Kết luận 57 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 58 5.1 Kết luận 58 5.2 Hƣớng phát triển 58 TÀI LIỆU THAM KHẢO 59 PHỤ LỤC 60 PHỤ LỤC 61 PHỤ LỤC 62 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải DE Data Extraction - hệ thống bóc tách liệu từ website theo luật ngƣời sử dụng tạo WC Web Crawler - hệ thống thu thập liệu RSS Crawler Một hệ thống thu thập liệu thông qua RSS - Rich Site Summary MS Crawler Metasearch - hệ thống thu thập liệu thông qua máy tìm kiếm nhƣ Google, Bing, Yahoo, Daum FB Crawler Một hệ thống thu thập liệu từ mạng xã hội Facebook TW Crawler Một hệ thống thu thập liệu từ mạng xã hội Twitter WB Crawler Một hệ thống thu thập liệu từ mạng xã hội Weibo IS Crawler Một hệ thống thu thập liệu từ mạng xã hội Instagram Crawling Quá trình thu thập liệu Spider Trap Bẫy hệ thống thu thập liệu tự động làm cho hệ thống thu thập liệu rơi vào vòng lặp vô hạn Robot Exclusion Giao thức loại trừ robot Protocol TOA Twitter Open Authentication dùng để xác thực yêu cầu gửi lên server Task Một công việc mà hệ thống cần thực DANH MỤC CÁC HÌNH VẼ Hình 1-1 Các giai đoạn trình định Hình 1-2 Ưu điểm hệ hỗ trợ định Hình 1-3 Các thành phần hệ hỗ trợ định Hình 1-4 Sản phẩm đấu giá eBay Hình 1-5 Nội dung HTML sản phẩm 10 Hình 1-6 Vector đại diện văn mẫu 11 Hình 1-7 Cây định hồi quy 11 Hình 2-1 Kiến trúc chung Web Crawler 15 Hình 2-2 Trang HTML cấu trúc hệ thống tương ứng 22 Hình 2-3 Các thành phần Mercator 23 Hình 2-4 Kiến trúc TwitterEcho 25 Hình 2-5 Kéo thả vài địa web 26 Hình 2-6 Cấu hình HTTrack 26 Hình 2-7 Lọc liên kết 27 Hình 2-8 Đặt lịch tự động download 27 Hình 2-9 Giao diện thu thập liệu 28 Hình 2-10 Màn hình kết thúc trình thu thập liệu 28 Hình 3-1 Mô hình hệ thống thu thập liệu công ty Saltlux 31 Hình 3-2 Kiến trúc phân tán hệ thống khảo duyệt web 32 Hình 3-3 Các thành phần bên Web Crawler 33 Hình 3-4 Tạo Web Crawler task 34 Hình 3-5 Cập nhật thông tin cho Web Crawler task 34 Hình 3-6 Xoá Web Crawler task 35 Hình 3-7 Xem liệu download 35 Hình 3-8 Kiến trúc phân tán Twitter Crawler 36 Hình 3-9 Danh sách địa điểm hỗ trợ Twitter 40 Hình 3-10 Các chủ đề ý toàn cầu 41 Hình 3-11 Tạo Twitter task 41 Hình 3-12 Cập nhật thông tin Twitter task 42 Hình 3-13 Xoá Twitter task 43 Hình 3-14 Trao đổi thông tin TwitterManager QueueManager 44 Hình 3-15 Trao đổi thông tin TwitterWorker QueueManager 44 Hình 3-16 Hệ thống sử dụng shard lưu trữ 1TB liệu 48 Hình 3-17 Các thành phần shard cluster 49 Hình 4-1 Giao diện website terms.naver.com 51 Hình 4-2 Màn hình kết lấy tweet 56 Hình 4-3 Màn hình kết lấy danh sách follower 57 DANH MỤC CÁC BẢNG Bảng 3-1 Cấu trúc bảng crawler_agent_info 36 Bảng 3-2 Danh sách tham số statuses/filter API 37 Bảng 3-3 Danh sách tham số statuses/user_timeline API 38 Bảng 3-4 Danh sách tham số follower/ids API 38 Bảng 3-5 Danh sách tham số friends/ids API 39 Bảng 3-6 Danh sách tham số users/lookup API 39 Bảng 3-7 Cấu trúc bảng twitter_task 45 Bảng 3-8 Cấu trúc bảng twitter_open_authentication 45 Bảng 4-1 Danh sách 61 người dùng Twitter 53 Bảng 4-2 Mô hình triển khai hệ thống 54 Bảng 4-3 Thông số cấu hình máy chủ 54 Bảng 4-4 Kết đánh giá hệ thống Web Crawler 55 Bảng 4-5 So sánh kết 55 Bảng 4-6 Kết đánh giá hệ thống Twitter Crawler 56 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Trần Hữu Phú (2011), Xây dựng hệ thống thu thập thông tin tự động phục vụ cập nhật nội dung cho trang Web, Đại học Đà N ng Tiếng Anh [2] Dennis van Heijst, Rob Potharst, Michiel van Wezel (2007), A Support System for predicting eBay end prices [3] Harshavardhan Achrekar, Avinash Gandhe, Ross Lazarus, Ssu-Hin Yu, Benyuan Liu, Predicting Flu Trends using Twitter Data [4] Allan Heydon, Marc Najork (1999), Mercator: A Scalable, Extensible Web Crawler [5] Hongfei Yan Jianyong Wang, Xiaoming Li, Lin Guo (2001), Architectural design and evaluation of an efficient Web-crawling system [6] Masko Bosnjak, Eduardo Oliveira, Jose Martins, TwitterEcho - A Distributed Focused Crawler to Support Open Research with Twitter Data [7] Gorry, G.A, Scott Morton, A framework for Management Information System, Sloan Management Review, Vol 13, No 1, 1971 [8] Efraim Turban, Jay E Aronson, Decision Support System and Intelligent Systems [9] NetCraft, http://news.netcraft.com/, 2015 [10] Twitter Developers, https://dev.twitter.com [11] MongoDB Manual, https://docs.mongodb.org/manual 59

Ngày đăng: 27/08/2016, 22:37

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan