Nghiên cứu tối ưu truy vấn trong cơ sở dữ liệu phân tán

71 564 0
Nghiên cứu tối ưu truy vấn trong cơ sở dữ liệu phân tán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ ĐIỆU NGHIÊN CỨU TỐI ƯU TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM Hà Nội – 2014 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ ĐIỆU NGHIÊN CỨU TỐI ƯU TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật Phần mềm Mã số : 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN TUỆ Hà Nội – 2014 3 LỜI CẢM ƠN Trước hết, tôi xin gửi lời biết ơn sâu sắc đến người thầy TS. Nguyễn Tuệ, th ầy đã dành rất nhiều thời gian, tâm huyết hướng dẫn nghiên cứu và giúp tôi hoàn thành t ốt luận văn tốt nghiệp này. Thầy đã có những hướng mở rất hay và nh ững định hướng nghiên cứu thiết thực, bổ ích, đồng thời tạo điều kiện thuận lợi nhất cho tôi nghiên cứu. Tôi cũng xin được bày tỏ lòng biết ơn tới các thầy cô trường Đại học Công nghệ, ĐH Quốc gia Hà Nội đã tham gia giảng dạy và chia sẻ những kinh nghiệm quý báu cho tập thể học viên trong khóa nói chung và cá nhân tôi nói riêng. Tôi xin c ảm ơn tới các thầy và các anh chị đã thường xuyên giúp đỡ, trao đổi, góp ý về những vấn đề khoa học li ên quan tới luận văn. Trên tất cả, tôi xin gửi lời biết ơn tới bố mẹ, gia đình người thân. Bố mẹ đ ã phải làm việc vất vả tạo cơ hội và điều kiện thuận nhất giúp tôi toàn tâm toàn ý th ực hiện luận văn và chọn con đường đi của mình. M ột lần nữa, tôi xin chân thành cảm ơn! Nội, tháng 11 năm 2014 Học viên Nguyễn Thị Điệu 4 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình của riêng tôi. Các số liệu, kết quả nêu trong Lu ận văn là trung thực và chưa từng ai công bố trong bất kỳ công trình nào khác. Tôi xin cam đoan rằng các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Học viên thực hiện Luận văn NGUY ỄN THỊ ĐIỆU 5 MỤC LỤC TRANG BÌA PHỤ 1 L ỜI CẢM ƠN 2 L ỜI CAM ĐOAN 4 MỤC LỤC 5 Danh mục các ký hiệu và chữ viết tắt 7 Danh mục các bảng 8 Danh mục các hình vẽ, đồ thị 9 MỞ ĐẦU 11 CHƯƠNG 1. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 14 1.1 Cơ sở dữ liệu phân tán 14 1.2 Ki ến trúc của cơ sở dữ liệu phân tán 14 1.3 H ệ cơ sở dữ liệu phân tán 15 1.4 L ợi ích của cơ sở dữ liệu phân tán 16 1.5 Cơ sở dữ liệu phân tán đồng nhất và không đồng nhất 17 1.6 Lưu trữ dữ liệu phân tán 18 1.6.1 Nhân b ản 18 1.6.2 Phân m ảnh 20 1.7 Các bước thiết kế cơ sở dữ liệu phân tán 20 1.7.1 Thi ết kế quan niệm 21 1.7.2 Thi ết kế lôgic 21 1.7.3 Thi ết kế phân mảnh 21 1.7.3.1 Phân m ảnh ngang (Horizontal Fragmentation) 22 1.7.3.2 Phân m ảnh dọc (Vertical Fragmentation) 26 1.7.3.3 Phân m ảnh hỗn hợp (Hybrid Fragmentation) 27 1.7.4 Thi ết kế định vị 28 1.8 Tính trong su ốt của cơ sở dữ liệu phân tán 28 1.9 V ấn đề xử lý truy vấn trong CSDL phân tán 30 CHƯƠNG 2. PHÂN TÍCH VÀ XÂY DỰNG CƠ SỞ DỮ LIỆU PHÂN TÁN 34 2.1 Phân tích bài toán 34 2.2 Lược đồ quan niệm của cơ sở dữ liệu 35 2.3 Lược đồ cơ sở dữ liệu toàn cục 36 6 2.4 Thiết kế phân tán cơ sở dữ liệu cho hệ thống 41 2.4.1 Th ực trạng 41 2.4.2 Gi ải pháp 41 2.4.3 Phân m ảnh cơ sở dữ liệu 42 2.5 X ử lý các nghiệp vụ của hệ thống 44 CHƯƠNG 3. TỐI ƯU HÓA TRUY VẤN 46 3.1 Mô hình xử lý truy vấn 46 3.1.1 Phân rã truy v ấn 47 3.1.2 C ục bộ hóa dữ liệu 47 3.1.3 T ối ưu truy vấn toàn cục 47 3.1.4 Th ực thi truy vấn phân tán 48 3.2 M ục đích và quy trình tối ưu truy vấn 48 3.2.1. Không gian tìm ki ếm 49 3.2.2 Chi ến lược tìm kiếm 51 3.2.3 Mô hình chi phí phân tán 52 3.2.3.1 Hàm chi phí 52 3.2.3.2 Các th ống kê cơ sở dữ liệu 53 3.3 Các thu ật toán tối ưu truy vấn 54 3.3.1 Thu ật toán tối ưu truy vấn cục bộ 55 3.3.1.1 Thu ật toán INGRES 55 3.3.1.2 Thu ật toán SYSTEM R 57 3.3.2 Thu ật toán tối ưu toàn cục 59 3.3.2.1 Thu ật toán phân tán INGRES (D- INGRES) 60 3.3.2.2 Thu ật toán phân tán SYSTEM R* 61 CHƯƠNG 4. CÀI ĐẶT THỰC NGHIỆM 64 4.1 Hệ thống mạng của cơ sở dữ liệu 64 4.2 Các truy v ấn đã thực hiện 65 4.3 Đánh giá 67 KẾT LUẬN 68 TÀI LI ỆU THAM KHẢO 70 7 Danh mục các ký hiệu và chữ viết tắt STT Từ viết tắt Ý nghĩa 1 DBMS Database Management System 2 SQL Structured Query Language 3 OS Operating System 4 DDBS Distributed Database System 5 DDB Distributed Database 6 DDBMS Distributed Database Management System 7 CSDL Cơ sở dữ liệu 8 CPU Central Processing Unit 9 I/O Input/Output 10 SD Service Directory 11 QEP Query Execution Plan 12 UK United Kingdom 13 QOA Query Optimization Algorithm 14 ORQ Mono - Relation Query 8 Danh mục các bảng Bảng 1.1 Chi phí của chiến lược 1 32 B ảng 1.2 Chi phí của chiến lược 2 32 B ảng 2.1 Danh sách các Actor của hệ thống 35 B ảng 2.2 Danh sách các Use case của hệ thống 35 B ảng 2.3 Bảng loại hình kinh doanh 36 B ảng 2.4 Bảng Quận/Huyện 36 B ảng 2.5 Bảng tổ chức 36 B ảng 2.6 Bảng thông tin server của mỗi tổ chức 37 B ảng 2.7 Bảng phòng ban 37 B ảng 2.8 Bảng nhóm 37 B ảng 2.9 Bảng người phụ trách 37 B ảng 2.10 Bảng loại contact 38 B ảng 2.11 Bảng loại dịch vụ 38 B ảng 2.12 Bảng đơn vị giá 38 B ảng 2.13 Bảng dịch vụ 39 B ảng 2.14 Bảng ghi nhận dịch vụ đã cung cấp cho khách hàng 39 B ảng 2.15 Bảng phân mảnh ngang tổ chức 43 B ảng 3.1 So sánh các thuật toán 63 9 Danh mục các hình vẽ, đồ thị Hình 1.1 Tổng quan về cơ sở dữ liệu phân tán 14 Hình 1.2 L ược đồ định vị cơ sở dữ liệu 15 Hình 1.3 Ki ến trúc cơ sở dữ liệu phân tán 15 Hình 1.4 X ử lý tập tin truyền thống 16 Hình 1.5 X ử lý cơ sở dữ liệu 16 Hình 1.6 C ơ sở dữ liệu phân tán đồng nhất 18 Hình 1.7 C ơ sở dữ liệu phân tán không đồng nhất 18 Hình 1.8 Kh ởi tạo bảng Subscriber không đồng nhất trong cơ chế nhân bản 20 Hình 1.9 Các b ước thiết kế CSDL phân tán 21 Hình 1.10 Các quan h ệ trong cơ sở dữ liệu Ngân hàng(CSDL Banking) 23 Hình 1.11 Phân m ảnh ngang quan hệ TAIKHOAN 25 Hình 1 .12 Đồ thị nối giữa các mảnh 26 Hình 1.13 Phân m ảnh dọc quan hệ TAIKHOAN 27 Hình 1.14 Phân m ảnh hỗn hợp 28 Hình 1.15 Khôi ph ục phân mảnh hỗn hợp 28 Hình 1.16 Trong su ốt phân mảnh 29 Hình 1.17 S ự trong suốt về vị trí 30 Hình 1.18 Chi ến lược thứ nhất 32 Hình 1.19 Chi ến lược thứ hai 32 Hình 2.1 S ơ đồ Use case tổng quan của hệ thống 35 Hình 2.2 L ược đồ thực thể liên kết 35 Hình 2.3 L ược đồ cơ sở dữ liệu quan hệ toàn cục (gọi là CSDL SD) 40 Hình 2.4 Mô hình c ơ sở dữ liệu tập trung 41 Hình 2.5 Mô hình CSDL phân tán cho ứng dụng 42 Hình 2.6 L ược đồ cục bộ cơ sở dữ liệu thứ nhất 44 Hình 2.7 L ược đồ cục bộ cơ sở dữ liệu thứ hai quản lý chung 44 Hình 3.1 Mô hình x ử lý truy vấn phân tán 46 Hình 3.2 Quy trình t ối ưu truy vấn 49 Hình 3.3 Bi ểu diễn truy vấn bằng cây nối 50 Hình 3.4 Hai lo ại cây nối chính 51 Hình 3.5 Các ho ạt động tối ưu trong chiến lược đơn định 51 10 Hình 3.6 Hoạt động tối ưu trong chiến lược ngẫu nhiên hóa 52 Hình 3.7 Ví d ụ về truyền tải dữ liệu cho truy vấn 53 Hình 3.8 Đồ thị nối của truy vấn 58 Hình 3.9 L ựa chọn thứ tự nối 59 Hình 4.1 Các c ơ sơ sở dữ liệu được phân tán 65 Hình 4.2 Các linked server cho k ết nối từ xa 65 Hình 4.3 Màn hình đăng nhập hệ thống 66 Hình 4.4 Màn hình th ống kê tất cả các dịch vụ đã cung cấp 66 Hình 4.5 Màn hình th ống kê dịch vụ đã tất toán theo ngày 66 Hình 4.6 Màn hình th ống kê nhân viên 67 Hình 4.7 Bi ểu đồ so sánh thời gian thực thi truy vấn (dựa vào chức năng thống kê dịch vụ đã cung cấp) 67 Hình 4.8 Bi ểu đồ so sánh thời gian thực thi truy vấn (dựa vào chức năng thống kê dịch vụ đã tất toán) 68 [...]... đề tài “NGHIÊN CỨU TỐI ƯU TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN” 8 Bố cục luận văn Luận văn được thiết kế bao gồm 4 chương: Chương 1: Tổng quan về cơ sở dữ liệu phân tán Chương này giới thiệu tổng quan về cơ sở dữ liệu phân tán, hệ cơ sở dữ liệu phân tán, những lợi ích khi sử dụng cơ sở dữ liệu phân tán Thế nào là đồng nhất và không đồng nhất cơ sở dữ liệu phân tán, lưu trữ cơ sở dữ liệu phân tán Chương... CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Cơ sở dữ liệu phân tán Cơ sở dữ liệu phân tán (DDB) là một tập các cơ sở dữ liệu có quan hệ với nhau về mặt lôgic và được phân bố tại các trạm (site) trên một mạng máy tính [2, 3] Các cơ sở dữ liệu trong trong cơ sở dữ liệu phân tán không chỉ được phân tán trong mạng cục bộ bên trong một công ty mà còn trên nhiều công ty thông qua mạng diện rộng [16] Việc thực hiện phân tán. .. cơ sở dữ liệu phân tán - Nghiên cứu xây dựng cơ sở dữ liệu phân tán cho bài toán cụ thể - Cài đặt cơ sở dữ liệu phân tán sử dụng SQL Server 2008 R2 - Nghiên cứu thuật toán tối ưu truy vấn 11 b Phạm vi nghiên cứu Có 3 cách tiếp cận lưu trữ dữ liệu trong cơ sỡ dữ liệu phân tán:  Nhân bản: hệ thống duy trì nhiều bản sao (copies) giống hệt nhau của quan hệ và lưu mỗi bản sao tại các trạm khác nhau  Phân. .. thể truy cập lẫn nhau [4] 1.4 Lợi ích của cơ sở dữ liệu phân tán So với các cơ sở dữ liệu tập trung truy n thống, cơ sở dữ liệu phân tán có những ưu điểm sau [15, 16]:  Tính tự trị cục bộ (Local Autonomy): tất cả dữ liệu trong cơ sở dữ liệu phân tán được làm chủ và quản lý tại mỗi trạm, các trạm không bị phụ thuộc vào cơ sở dữ liệu tập trung mà chỉ cần cài đặt và thao tác với mỗi cơ 16 sở dữ liệu. .. Với cơ sở dữ liệu phân tán không đồng nhất (heterogeneous distributed database) thì các trạm chạy phần mềm hệ quản trị cơ sở dữ liệu khác nhau hoặc hệ thống cơ sở dữ liệu khác nhau Luận văn tiếp cận Cơ sở dữ liệu phân tán đồng nhất và lưu trữ phân mảnh ngang Thực nghiệm trên cơ sở dữ liệu này và đánh giá hiệu quả tối ưu của truy vấn 4 Phương pháp nghiên cứu a Phương pháp lý thuyết Luận văn nghiên cứu. .. Dữ liệu Mô tả Tệp tin 2 Dữ liệu dư thừ a Chương trình 3o Tệp tin 3 Dữ liệu Mô tả Hình 1.4 Xử lý tập tin truy n thống Chương trình 1 Chương trình 2 Mô tả dữ liệu Thao tác dữ liệu CSDL … Chương trình 3 Hình 1.5 Xử lý cơ sở dữ liệu Khái niệm hệ cơ sở dữ liệu phân tán ở đây bao gồm cả khái niệm cơ sở dữ liệu phân tán và hệ quản trị cơ sở dữ liệu phân tán (Distributed Database Management System - DDBMS) Trong. .. liệu phân tán Chương 2 Phân tích và xây dựng cơ sở dữ liệu phân tán Chương này nhằm giới thiệu tổng quan về bài toán thực nghiệm, thực hiện phân tích và thiết kế cơ sở dữ liệu phân tán cho bài toán sử dụng hệ quản trị SQL Server 2008 Chương 3 Tối ưu hóa truy vấn Chương này sẽ giới thiệu chung về về xử lý truy vấn phân tán Các thuật toán giúp tối ưu truy vấn trong cơ sở dữ liệu phân tán áp dụng cho bài... đề lớn cho việc xử lý truy vấn, trong khi sự khác nhau trong phần mềm trở thành chướng ngại cho việc xử lý giao dịch để truy xuất đến nhiều trạm khác nhau Luận văn tập trung vào cơ sở dữ liệu phân tán đồng nhất 1.6 Lưu trữ dữ liệu phân tán Xem xét một quan hệ r được lưu trữ trong cơ sở dữ liệu Có hai cách tiếp cận lưu trữ quan hệ này trong cơ sở dữ liệu phân tán là Nhân bản và Phân mảnh 1.6.1 Nhân bản... tài liệu, các công trình khoa học về cơ sở dữ liệu phân tán, nguyên lý các hệ phân tán Hệ thống lại các vấn đề và rút ra kết luận so sánh giữa thời gian trả lời truy vấn chưa tối ưu và thời gian trả lời vấn tin đã tối ưu b Phương pháp thực nghiệm Luận văn cài đặt cơ sở dữ liệu phân tán cho một bài toán cụ thể trên môi trường mạng LAN, cài đặt các phép truy vấn từ xa, thực hiện tối ưu các phép truy vấn. .. là đồng nhất hoặc không đồng nhất cơ sở dữ liệu Hình 1.1 Tổng quan về cơ sở dữ liệu phân tán - Tính chất phân tán: Toàn bộ dữ liệu của cơ sở dữ liệu (CSDL) phân tán không được lưu trữ tại một vị trí mà lưu trữ tại nhiều trạm thuộc mạng máy tính, điều này giúp chúng ta phân biệt CSDL phân tán với CSDL tập trung đơn lẻ - Tương quan lôgic: Toàn bộ dữ liệu của CSDL phân tán có một số thuộc tính ràng buộc . VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 14 1.1 Cơ sở dữ liệu phân tán 14 1.2 Ki ến trúc của cơ sở dữ liệu phân tán 14 1.3 H ệ cơ sở dữ liệu phân tán 15 1.4 L ợi ích của cơ sở dữ liệu phân tán 16 1.5 Cơ sở dữ. chương: Chương 1: Tổng quan về cơ sở dữ liệu phân tán Chương này giới thiệu tổng quan về cơ sở dữ liệu phân tán, hệ cơ sở dữ liệu phân tán, những lợi ích khi sử dụng cơ sở dữ liệu phân tán. Thế nào là đồng. cứu a. Đối tượng nghiên cứu - Nghiên cứu lý thuyết về cơ sở dữ liệu phân tán. - Nghiên c ứu xây dựng cơ sở dữ liệu phân tán cho bài toán cụ thể. - Cài đặt cơ sở dữ liệu phân tán sử dụng SQL Server

Ngày đăng: 11/07/2015, 10:17

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan