Tối ưu hóa truy vấn trong cơ sở dữ liệu phân tán

27 333 0
Tối ưu hóa truy vấn trong cơ sở dữ liệu phân tán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN PHẠM THỊ THU HUYỀN TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2010 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN PHẠM THỊ THU HUYỀN TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN Chuyên nghành: Khoa học máy tính M· sè: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2010 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -1- MỤC LỤC Trang phụ bìa Lời cam đoan Lời cám ơn Mục lục i Danh mục ký hiệu, chữ viết tắt ii Danh mục hình vẽ, ảnh chụp, đồ thị iii PHẦN MỞ ĐẦU 1 Lý chọn đề tài Phạm vi nghiên cứu ứng dụng Ý nghĩa khoa học Phƣơng pháp nghiên cứu Các kết dự kiến đạt đƣợc Chƣơng CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm hệ sở liệu phân tán 1.1.1 Khái niệm 1.1.2 Những ưu điểm sở liệu phân tán 1.1.3 Những nhược điểm sở liệu phân tán 1.2 Các đặc trƣng suốt sở liệu phân tán 1.2.1 Trong suốt phân tán 1.2.2 Trong suốt giao dịch 1.2.3 Trong suốt thất bại 1.2.4 Trong suốt thao tác 1.2.5 Trong suốt tính không 1.3 Kiến trúc tham chiếu sở liệu phân tán 1.4 Các kỹ thuật xây dựng sở liệu phân tán 1.4.1 Phân đoạn 1.4.3 Định vị liệu 13 1.5 Kết luận 14 Chƣơng CÁC NGUYÊN LÝ CHUNG CỦA TỐI ƢU HÓA CÂU TRUY VẤN PHÂN TÁN 15 2.1 Các chiến lƣợc tối ƣu hóa 15 2.2 Các phép biến đổi đại số 16 2.2.1 Các yêu cầu phép biến đổi tối ưu hoá câu truy vấn 16 2.2.2 Biểu thức tương đương 17 2.2.3 Các qui tắc liên quan đến phép kết nối tích Decartes 17 2.2.4 Các qui tắc liên quan đến phép chọn phép chiếu 18 2.2.5 Thuật toán cải tiến biểu diễn biểu thức quan hệ 19 2.3 Phân rã câu truy vấn thành câu truy vấn 24 2.3.1 Đồ thị nối quan hệ 24 2.3.2 Tách câu truy vấn thành câu truy vấn 25 2.3.3 Dùng phép nửa kết nối để giảm kích thước quan hệ 26 2.3.4 Phương pháp thay n-bộ 26 2.4 Các kỹ thuật tối ƣu hóa tập trung 27 2.4.1 Thuật toán INGRES 28 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -2- 2.4.2 Thuật toán SYSTEM R 31 2.5 Kết luận 34 Chƣơng TỐI ƢU HÓA TRUY VẤN PHÂN TÁN 35 3.1 Phân rã câu truy vấn 35 3.1.1 Chuẩn hoá 35 3.1.2 Phân tích 36 3.1.3 Loại bỏ dư thừa 39 3.1.4 Viết lại 40 3.2 Định vị liệu phân tán 42 3.2.1 Rút gọn phân đoạn ngang nguyên thuỷ 43 3.2.2 Rút gọn phân đoạn dọc 46 3.2.3 Rút gọn phân đoạn gián tiếp 47 3.2.4 Rút gọn phân đoạn hỗn hợp 49 3.3 Khái quát xử lý câu truy vấn 50 3.3.1 Vấn đề xử lý truy vấn 51 3.3.2 Các mục tiêu xử lý câu truy vấn 52 3.3.3 Các giai đoạn xử lý câu truy vấn 52 3.4 Tối ƣu hoá truy vấn phân tán 53 3.4.1 Đầu vào tối ưu hoá câu truy vấn 54 3.4.2 Thứ tự kết nối câu truy vấn đoạn 59 3.4.3 Các thuật toán tối ưu hoá câu truy vấn phân tán 65 3.4.3 Kết luận 82 Chƣơng CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN 85 4.1 Xác định thuật toán 85 4.2 Cài đặt thử nghiệm thuật toán tối ƣu truy vấn sở liệu phân tán 85 4.2.1 Cấu trúc CSDL 85 4.2.2 Xây dựng ứng dụng 88 4.3 Kết luận 95 KẾT LUẬN 96 TÀI LIỆU THAM KHẢO 97 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -1- PHẦN MỞ ĐẦU Lý chọn đề tài Xã hội ngày phát triển kèm theo yêu cầu khối lượng thông tin cần xử lý, lưu trữ tăng lên Trên thực tế, doanh nghiệp, đơn vị tổ chức phải phân bố vùng rộng lớn mặt địa lý, dàn trải phạm vi nhiều thành phố, toàn quốc gia hay đến vài quốc gia, chí toàn cầu Do đó, liệu lưu trữ tập trung địa điểm định mà rải khắp địa điểm mà quan, tổ chức hay doanh nghiệp hoạt động Khi liệu không lưu trữ tập trung vấn đề làm để quản lý, tốc độ truy xuất liệu phục vụ cho công tác chuyên môn không bị ảnh hưởng, không bị gián đoạn đặt Đó tiền đề để sở liệu phân tán đời Khi khối lượng thông tin phải xử lý ngày lớn, phong phú đa dạng vấn đề đặt xử lý thông tin để giảm chi phí đến mức tối thiểu Một giải pháp có tính khả thi phải tối ưu hoá câu lệnh truy vấn liệu nên chọn nghiên cứu “Tối ưu hoá truy vấn sở liệu phân tán” làm đề tài luận văn tốt nghiệp Phạm vi nghiên cứu ứng dụng Đề tài nghiên cứu vấn đề sở liệu phân tán, nguyên lý chung, kỹ thuật, thuật toán liên quan đến vấn đề tối ưu hoá truy vấn cài đặt thử nghiệm thuật toán tối ưu truy vấn phân tán Ý nghĩa khoa học Trên sở nghiên cứu mô hình CSDL phân tán chế truy vấn để xây dựng thuật toán truy vấn tối ưu Những kết dự kiến luận văn góp phần vào việc thiết kế CSDL phân tán phục vụ cho việc truy vấn hiệu Phương pháp nghiên cứu Nghiên cứu lý thuyết CSDL, CSDL phân tán, kỹ thuật truy vấn sách, báo công bố Tổng hợp kết công bố truy vấn tối ưu đề xuất số cải tiến thực tối ưu hóa truy vấn phân tán Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -2- Các kết dự kiến đạt - Giới thiệu tổng quan CSDL phân tán - Trình bày phương pháp, thuật toán tối ưu hóa truy vấn phân tán - Cài đặt thử nghiệm thuật toán tối ưu truy vấn phân tán Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -3- Chƣơng CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm hệ sở liệu phân tán 1.1.1 Khái niệm Cơ sở liệu phân tán [3] tập hợp liệu phục thuộc lôgic lẫn hệ thống lưu trữ trạm mạng máy tính Cơ sở liệu phân tán làm tăng khả truy nhập tới sở liệu lớn mạng Trong hệ thống máy tính quản lý sở liệu thành phần gọi node site Hệ quản trị sở liệu phân tán (DBMS) phần mềm quản trị sở liệu, đảm bảo suốt người sử dụng cho phép tính tự trị nghĩa sở liệu thành phần quản trị độc lập riêng biệt Định nghĩa nhấn mạnh hai khía cạnh quan trọng sở liệu phân tán - Tính phân tán: Thực tế liệu không cư trú trạm, phân biệt sở liệu phân tán với sở liệu tập trung - Sự tương quan logic: Các liệu có số tính chất ràng buộc lẫn phân biệt sở liệu phân tán với tập sở liệu địa phương với tệp trạm khác mạng 1.1.2 Những ưu điểm sở liệu phân tán Lợi ích sở liệu phân tán liệu sở liệu vật lý riêng biệt tích hợp logic với làm cho nhiều người sử dụng mạng truy nhập [6] Cho phép quản lý liệu với nhiều mức suốt - Trong suốt mạng - phân tán: Hệ quản trị sở liệu phải suốt phân tán theo nghĩa làm cho người sử dụng không cần biết vị trí liệu không cần biết phức tạp truy cập qua mạng - Trong suốt - Trong suốt phân đoạn Tăng độ tin cậy khả sẵn sàng Độ tin cậy khả hệ thống làm việc (không bị ngừng) thời điểm đó, tính sẵn sàng khả hệ thống tiếp tục làm việc khoảng Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -4- thời gian Khi liệu sở liệu phân tán vài trạm, trạm có cố trạm khác hoạt động sử dụng thành phần khác sở liệu Chỉ trạm bị cố, liệu ứng dụng truy cập Để nâng cao độ tin cậy tính sẵn sàng, áp dụng chế tạo nhiều trạm Cải thiện hiệu Một hệ quản trị sở liệu phân tán, phân đoạn sở liệu làm cho liệu lưu giữ gần nơi sử dụng Dữ liệu lưu giữ cục làm giảm cạnh tranh CPU, giảm phục vụ I/O giảm tương tranh truy nhập mạng Dữ liệu phân tán trạm nên dung lượng liệu cục nhỏ hơn, xử lý giao tác truy vấn cục thực tốt Hơn trạm có giao tác số giao tác sở liệu tập trung tăng hiệu suất hệ thống Dễ dàng mở rộng Việc thêm sở liệu mới, tăng kích cỡ sở liệu thêm xử lý môi trường phân tán dễ thêm sở liệu thành phần 1.1.3 Những nhược điểm sở liệu phân tán - Độ phức tạp thiết kế cài đặt hệ thống tăng: Hệ quản trị sở liệu phân tán phải bổ sung thêm chức như: + Theo dõi dấu vết liệu + Xử lý truy vấn phân tán + Quản lý giao dịch phân tán + Phục hồi sở liệu phân tán + Quản lý + Quản lý thư mục - catalog phân tán - Hệ thống phần cứng phức tạp cần có nhiều trạm trạm phải kết nối mạng - Các phần mềm hệ thống đảm bảo quản trị, trì kết nối, trao đổi liệu mạng - Bảo mật khó khăn Ở mức phần cứng vật lý, nhân tố sau để phân biệt hệ Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -5- sở liệu phân tán với hệ sở liệu tập trung [6]: - Có nhiều máy tính gọi trạm hay nút - Các trạm phải kết nối kiểu mạng truyền thông để truyền liệu câu lệnh trạm với nhau, hình 1.1 Hình 1.1 Kiến trúc sở liệu phân tán Trong mô hình liệu tập trung, tài nguyên tập trung máy tính Trong hệ thống sở liệu phân tán, sở liệu chứa nhiều máy tính, máy tính nối với qua hệ thống truyền thông, chúng không chia sẻ nhớ chung không dùng chung đồng hồ Các xử lý hệ thống phân tán có kích cỡ chức khác (chẳng hạn bao gồm vi xử lý, trạm làm việc, máy tính mini, hay máy lớn vạn năng) Trong hệ thống sở liệu phân tán gồm nhiều trạm trạm truy nhập liệu trạm khác 1.2 Các đặc trƣng suốt sở liệu phân tán 1.2.1 Trong suốt phân tán - Cho phép xử lý liệu hệ sở liệu phân tán giống sở liệu tập trung - Người sử dụng không cần biết: Dữ liệu phân đoạn nào, liệu để đâu, vị trí vật lý lưu trữ liệu đâu Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -6- - Trong suốt phân tán thể hiện: + Trong suốt địa điểm: User không cần biết lưu trữ vật lý liệu đâu, truy vấn cần tên đoạn mà không cần vị trí + Trong suốt tên: Khi đối tượng đặt tên truy nhập xác không cần đặc tả thêm + Trong suốt sao: Sự nhân trình chép trì liệu hệ sở liệu phân tán Cùng liệu (được lưu trữ vật lý vị trí) sử dụng nhiều vị trí khác Các lưu trữ nhiều trạm làm tăng hiệu suất, độ tin cậy tính sẵn sàng hệ thống Các ứng dụng truy nhập liệu trạm mà không cần phải truy cập từ xa giảm truyền tải mạng lớn Hệ thống cho phép tiếp tục thực trạm từ xa có cố Trong suốt đảm bảo user liệu cập nhật đồng với liệu gốc + Trong suốt phân đoạn: Một quan hệ sở liệu phân tán phân đoạn ngang phân đoạn dọc nghĩa tách thành liệu quan hệ lưu trữ nhiều trạm khác Trong suốt phân đoạn cho phép người sử dụng không cần biết có phân đoạn, truy vấn liệu viết sở liệu tập trung 1.2.2 Trong suốt giao dịch Cơ sở liệu phân tán cho phép giao dịch cập nhật, sửa đổi liệu trạm khác Để đảm bảo liệu quán toàn hệ thống, trạm giao dịch ủy thác tất trạm ủy thác thành công roll back trạm bị thất bại 1.2.3 Trong suốt thất bại Đảm bảo trạm hệ thống bị hỏng hệ thống làm việc bình thường (do chế tạo làm việc trạm không bị cố) Nếu mạng hệ thống có cố ủy thác giao dịch sở liệu phân tán giao dịch giải tự động suốt theo nghĩa mạng hệ thống khôi phục tất các trạm ủy thác roll back lại giao tác 1.2.4 Trong suốt thao tác Cho phép câu lệnh thao liệu đơn giản để truy nhập sở Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... Chƣơng CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm hệ sở liệu phân tán 1.1.1 Khái niệm Cơ sở liệu phân tán [3] tập hợp liệu phục thuộc lôgic lẫn hệ thống lưu trữ trạm mạng máy tính Cơ sở liệu phân tán. .. Chƣơng CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm hệ sở liệu phân tán 1.1.1 Khái niệm 1.1.2 Những ưu điểm sở liệu phân tán 1.1.3 Những nhược điểm sở liệu phân tán. .. năng) Trong hệ thống sở liệu phân tán gồm nhiều trạm trạm truy nhập liệu trạm khác 1.2 Các đặc trƣng suốt sở liệu phân tán 1.2.1 Trong suốt phân tán - Cho phép xử lý liệu hệ sở liệu phân tán giống

Ngày đăng: 15/04/2017, 10:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan