THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN

68 13 0
  • Loading ...
1/68 trang

Thông tin tài liệu

Ngày đăng: 02/04/2019, 19:19

Nguyên tắc chung: Quyết định bố trí dữ liệu và chương trình trên các vị trí của mạng máy tính cũng như thiết kế bản thân mạng. „Trong HệQTCSDLPT,việc bốtríứng dụng bao gồm: ÆBốtríphần mềm HệQTCSDLPT;và ÆBốtrícác ứng dụng chạy trên CSDL. „Từtrên xuống (Topdown) ÆThiết kếhệthống từ đầu ÆCác hệthống đồng chất (homogeneoussystems) „Từ dưới lên (Bottomup) ÆKhi đã cóCSDL ởmột sốvịtrí Thiết kế CSDL phân tán PGS.TS Đỗ Phúc Khoa Hệ thống thông tin Trường Đại học Công nghệ thông tin, ĐHQG-HCM Distributed DBMS Page Bài toán thiết kế „ Nguyên tắc chung: Quyết định bố trí liệu chương trình vị trí mạng máy tính thiết kế thân mạng „ Trong Hệ QTCSDLPT, việc bố trí ứng dụng bao gồm: Ỉ Bố trí phần mềm Hệ QTCSDLPT; Ỉ Bố trí ứng dụng chạy CSDL Distributed DBMS Page Các khía cạnh tốn Access pattern behavior dynamic static data data + program partial information Level of knowledge complete information Level of sharing Distributed DBMS Page Thiết kế phân tán „ Từ xuống (Top-down) Æ Thiết kế hệ thống từ đầu Æ Các hệ thống đồng chất (homogeneous systems) „ Từ lên (Bottom-up) Ỉ Khi CSDL số vị trí Distributed DBMS Page Thiết kế từ xuống Requirements Analysis Objectives User Input Conceptual Design View Integration View Design Access Information GCS Distribution Design ES’s User Input GCS: Global conceptual schema ES:External Schema LCS’s LCS:Local conceptual schema Physical Design LIS’s Distributed DBMS Page 5 Các vấn đề thiết kế phân tán œTại phải phân mảnh liệu? Cách phân mảnh? žMức độ phân mảnh? ŸCách kiểm tra tính đắn?  Cách cấp phát? ¡Các thơng tin cần thiết? Distributed DBMS Page Phân mảnh liệu „ „ Chỉ để phân tán quan hệ? Đơn vị phân tán hợp lý? Ỉ Quan hệ views tập quan hệ -> cục ‹ Cần truyền thông ( qua mạng) nhiều hơn- quan hệ lưu nới khác với vị trí khởi động truy vấn ‹ Ỉ Các phân mảnh quan hệ (quan hệ con)-thích hợp Thực đồng thời số giao tác nhằm truy cập phần khác quan hệ ‹ Views không định nghĩa mảnh yêu cầu nhiều xử lý ‹ Kiểm soát liệu ngữ nghĩa (đặc biệt ép thỏa tồn vẹn) điều khó khăn ‹ Distributed DBMS Page Các kiểu phân mảnh– ngang PROJ PROJ1 : projects kinh phí budgets) nhỏ $200,000 PROJ2 : projects kinh phí lớn hay $200,000 PROJ1 PNO P1 P1 P2 P3 P4 P5 PNAME BUDGET Instrumentation 150000 Database Develop 135000 CAD/CAM 250000 Maintenance 310000 CAD/CAM 500000 LOC Montreal New York New New York York Paris Boston PROJ2 PNAME Instrumentation BUDGET 150000 P2 Database Develop 135000 Distributed DBMS PNO LOC PNO PNAME BUDGET LOC Montreal P3 CAD/CAM 250000 New York New York P4 Maintenance 310000 Paris P5 CAD/CAM 500000 Boston Page Các kiểu phân mảnh– dọc PROJ PROJ1: thơng tin kinh phí đề án PROJ2: thơng tin tên vị trí đề án Distributed DBMS PNO P1 P2 P3 P4 P5 PROJ1 PROJ2 PNO BUDGET PNO P1 P2 P3 P4 P5 150000 135000 250000 310000 500000 P1 P2 P3 P4 P5 PNAME BUDGET Instrumentation 150000 Database Develop 135000 CAD/CAM 250000 Maintenance 310000 CAD/CAM 500000 PNAME Instrumentation Database Develop CAD/CAM Maintenance CAD/CAM LOC Montreal New York New New York York Paris Boston LOC Montreal New York New York Paris Boston Page Mức độ phân mảnh Số hữu hạn kiểu Bộ hay Thuộc tính Phân mảnh (ngang, dọc) Quan hệ (khơng phân mảnh) Phân mảnh đếm mức độ định đến hiệu truy vấn Tìm mức độ thích hợp để phân hoạch phạm vi Distributed DBMS Page 10 VF – Algorithm Định nghĩa TQ=tập ứng dụng truy cập TA BQ=tập ứng dụng truy cập BA OQ = tập ứng dụng truy cập vừa TA BA CTQ = tổng số truy cập đến thuộc tính ứng dụng truy cập TA CBQ = tổng số truy cập đến thuộc tính ứng dụng truy cập BA COQ = tổng số truy cập đến thuộc tính ứng dụng truy cập TA BA Sau tìm điểm dọc theo đường chéo làm cực đại CTQ∗ CBQ− COQ2 Distributed DBMS Page 54 VF – Algorithm hai vấn đề: œ Tạo Cluster điểm ma trận CA Ỉ Dịch lên dòng dịch trái cột, áp dụng thuật tốn tìm điểm phân hoạch tốt Ỉ Làm điều cho tất dịch chuyển Ỉ Chi phí O(m2)  Nhiều clusters Ỉ Phân hoạch theo m-cách Ỉ Thử với 1, 2, …, m–1 điểm tách dọc theo đường chéo tìm điểm tốt cho điểm Ỉ Chi phí O(2m) Distributed DBMS Page 55 VF – Correctness A relation R, defined over attribute set A and key K, generates the vertical partitioning FR = {R1, R2, …, Rr} „ Completeness Ỉ The following should be true for A: A =∪ ARi „ Reconstruction Ỉ Reconstruction can be achieved by R = cK „ Ri ∀Ri ∈FR Disjointness Ỉ TID's are not considered to be overlapping since they are maintained by the system Æ Duplicated keys are not considered to be overlapping Distributed DBMS Page 56 Phân mảnh hỗn hợp Hybrid Fragmentation R z HF HF R1 R2 z Distributed DBMS z VF VF VF z z z R11 R12 R21 VF z R22 VF z R23 Page 57 Bố trí phân mảnh theo vị trí „ Phát biểu toán Cho : F = {F1, F2, …, Fn} S ={S1, S2, …, Sm} Q = {q1, q2,…, qq} mảnh vị trí mạng ứng dụng, truy vấn Tìm phân bố “tối ưu” F S „ Tối ưu Ỉ Chi phí cực tiểu ‹ ‹ Truyền thơng + nhớ + xử lý ( đọc & cập nhật) Chi phí theo thời gian (thơng thường) Ỉ Cơng Thời gian đáp ứng và/hay kết Ỉ Ràng buộc ‹ Distributed DBMS Ràng buộc vị trí (bộ nhớ & xử lý) Page 58 Yêu cầu thơng tin „ Thơng tin CSDL Ỉ Sựa lựa chọn truy vấn mảnh Ỉ Kích thước mảnh „ Thơng tin ứng dụng Ỉ Kiểu truy cập số truy cập Ỉ Tính cục truy cập „ Thông tin mạng truyền thơng Ỉ Đơn giá lưu trữ liệu vị trí Ỉ Đơn giá xử lý vị trí „ Thơng tin hệ thống máy tính Ỉ Băng thơng Ỉ latency Ỉ Tổn phí truyền thơng Distributed DBMS Page 59 Cấp phát Cấp phát tập tin(FAP) so với cấp phát CSDL (DAP): Ỉ Các phân mảnh khơng phải tập tin riêng rẻ ‹ Cần trì mối quan hệ Ỉ Truy cập đến CSDL thường phức tạp ‹ Không thể áp dụng mô hình truy cập tập tin từ xa ‹ Mối quan hệ cấp phát xử lý truy vấn Ỉ Cần xem xét việc ép thỏa ràng buộc toàn vẹn Æ Cần xem xét kiểm soát đồng hành Distributed DBMS Page 60 Yêu cầu thông tin „ Thông tin CSDL Ỉ Sựa lựa chọn truy vấn mảnh Ỉ Kích thước mảnh „ Thơng tin ứng dụng Ỉ Ỉ Ỉ Ỉ Ỉ „ Số truy cập đọc truy vấn đến mảnh Số truy cập cập nhật truy vấn đến mảnh Ma trận biểu thị truy vấn cập nhật mảnh Ma trận tương tự để đọc Vị trí ngun thủy truy vấn Thơng tin vị trí Ỉ Đơn giá lưu trữ liệu vị trí Ỉ Đơn giá xử lý vị trí „ Thơng tin mạng Ỉ Chi phí truyền thơng/khung sườn (frame) vị trí Ỉ Kich thước khung sườn Distributed DBMS Page 61 Mơ hình cấp phát Dạng tổng quát min(Total Cost) thỏa mãn ràng buộc thời gian đáp ứng ràng buộc nhớ ràng buộc xử lý Biến định xij = Distributed DBMS ⎧1 ⎨ ⎩0 mảnh Fi lưu vị trí Sj ngược lại Page 62 Mơ hình cấp phát „ Tổng chi phí ∑ all queries ∑ „ query processing cost + all sites ∑ all fragments cost of storing a fragment at a site Chi phí nhớ (của Fj vị trí Sk) (unit storage cost at Sk) ∗ (size of Fj) ∗xjk „ Chi phí xử lý truy vấn (cho truy vấn) processing component + transmission component Distributed DBMS Page 63 Mơ hình cấp phát „ Chi phí xử lý truy vấn Processing component access cost + integrity enforcement cost + concurrency control cost Æ Access cost ∑ all sites ∑ all fragments (no of update accesses+ no of read accesses) ∗ xij ∗local processing cost at a site Ỉ Integrity enforcement and concurrency control costs ‹ Distributed DBMS Can be similarly calculated Page 64 Mơ hình cấp phát „ Chi phí xử lý truy vấn Thành phần truyền thơng Chi phí xử lý cập nhật + chi phí xử lý đọc Ỉ Cost of updates ∑ all sites ∑ ∑ all fragments all sites ∑ update message cost + all fragments acknowledgment cost Ỉ Retrieval Cost ∑ all fragments all sites (cost of retrieval command + cost of sending back the result) Distributed DBMS Page 65 Mơ hình cấp phát „ Ràng buộc Ỉ Thời gian đáp ứng execution time of query ≤ max allowable response time for that query Æ Ràng buộc nhớ (for a site) ∑ all fragments storage requirement of a fragment at that site ≤ storage capacity at that site Ỉ Ràng buộc xử lý (for a site) ∑ all queries processing load of a query at that site ≤ processing capacity of that site Distributed DBMS Page 66 Mơ hình cấp phát „ Các phương pháp giải Ỉ FAP is NP-complete Ỉ DAP also NP-complete „ Các Heuristics dựa Ỉ Vị trí kho hồng (for FAP) Ỉ Bài tốn xếp ba lơ (knapsack problem) Ỉ Kỹ thuật nhánh cận (branch and bound techniques) Ỉ Bài tốn luồng (network flow) Distributed DBMS Page 67 Mơ hình cấp phát „ Cố gắng giảm khơng gian lời giải Ỉ Giá đình tất các phân hoạch ứng viên biết; chọn phân hoạch “tốt nhất” Ỉ Bỏ Ỉ Trượt cửa sổ mảnh Distributed DBMS Page 68 ... vấn đề thiết kế phân tán œTại phải phân mảnh liệu? Cách phân mảnh? žMức độ phân mảnh? ŸCách kiểm tra tính đắn?  Cách cấp phát? ¡Các thông tin cần thiết? Distributed DBMS Page Phân mảnh liệu „... Page Thiết kế phân tán „ Từ xuống (Top-down) Ỉ Thiết kế hệ thống từ đầu Ỉ Các hệ thống đồng chất (homogeneous systems) „ Từ lên (Bottom-up) Ỉ Khi có CSDL số vị trí Distributed DBMS Page Thiết kế. .. máy tính Distributed DBMS Page 14 Phân mảnh „ Phân mảnh ngang (HF) Æ Phân mảnh ngang nguyên thủy (PHF) Æ Phân mảnh nganh suy dẫn (DHF) „ Phân mảnh dọc (VF) „ Phân mảnh hỗn hợp (HF) Distributed
- Xem thêm -

Xem thêm: THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN, THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN

Mục lục

Xem thêm

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay