Luận văn thạc sỹ Tối ưu hóa truy vấn trong cơ sở dữ liệu phân tán

107 394 0
Luận văn thạc sỹ Tối ưu hóa truy vấn trong cơ sở dữ liệu phân tán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỞ ĐẦU Cơ sở thực tiễn đề tài 1.1 Cơ sở khoa học đề tài Với phát triển nhanh chóng công nghệ thông tin ứng dụng sở liệu xâm nhập vào hoạt động kinh tế xã hội đem lại hiệu vô to lớn Xã hội ngày phát triển nhu cầu thu thập, lưu trữ, xử lý trao đổi thông tin ngày tăng Trên thực tế công ty, doanh nghiệp, đơn vị kinh doanh địa điểm khác liệu không tập trung địa điểm định mà rải khắp địa điểm mà quan hoạt động Khi liệu không tập trung việc làm để quản lý, truy xuât sở liệu phục vụ cho công tác chuyên môn không bị ảnh hưởng không gián đoán đặt Cơ sở liệu phân tán đời để giải vấn đề Khi khối lượng thông tin phải xử lý lớn phong phú đa dạng vấn đề đặt xử lý thông tin để giảm chi phí tối thiểu giải pháp có tính khả thi phải tối ưu hóa câu lênh truy vấn liệu Vấn đề tối ưu truy vấn vấn đề quan trọng hàng đầu CSDL, đặc biệt với hệ CSDL lớn So với môi trường tập trung, vấn đề tối ưu truy vấn môi trường phân tán quan trọng phức tạp có nhiều tham số ảnh hưởng đến hiệu truy vấn phân tán Các quan hệ có mặt truy vấn phân tán bị phân mảnh, bị nhân bản, phải tốn thêm nhiều chi phí cho trình truyền thông vị trí truy xuất khác Như vậy, không giải tốt vấn đề tối ưu truy vấn hiệu thao tác hệ CSDL phân tán đạt thấp Từ nhận định nêu trên, chọn luận văn cao học “Tối ưu hóa truy vấn sở liệu phân tán” 1.2 Ý nghĩa thực tiễn đề tài Góp phần vào việc thiết kế sở liệu phân tán phục vụ cho việc truy vấn có hiệu Làm tài liệu nghiên cứu, tham khảo cho giảng viên, sinh viên Công nghệ thông tin trường cao đẳng Sơn La Nội dung nghiên cứu 2.1 Mục tiêu đề tài Nghiên cứu lý thuyết CSDL, CSDL phân tán, kỹ thuật truy vấn sở liệu Tổng hợp kết công bố truy vấn tối ưu đề xuất sô cải tiến thực tối ưu hóa truy vấn sở liệu phân tán Cài đặt thực nghiệm môt thuật toán tối ưu, thực truy vấn vào sở liệu phân tán đánh giá kết thực 2.2 Nội dung đề tài Mục đích luận văn đề cập đến hai phần  Phần lý thuyết: Nắm rõ trình bày sở lý thuyết liên quan đến sơ liệu sở liệu phân tán như:  Giới thiệu tổng quan sở liệu phân tán  Một số nguyên lý chung tối ưu hóa truy vấn  Trình bày phương pháp, thuật toán tối ưu hóa truy vấn  Phần thực nghiệm cài đặt: Cài đặt thực nghiệm thuật toán tối ưu, thực truy vấn vào sở liệu phân tán, đánh giá kết thực Phương pháp nghiên cứu  Tìm kiếm, tham khảo, nghiên cứu lý thuyết sở liệu, sở liệu phân tán, kỹ thuật truy vấn sách báo công bố  Tổng hợp kết truy vấn truy vấn tối ưu đề xuất số cải tiến thực tối ưu hóa truy vấn phấn tán Phạm vi nghiên cứu Đề tài nghiên cứu vấn đề sở liệu phân tán, nguyên lý chung tối ưu hóa truy vấn phân tán, kỹ thuật, thuật toán tối ưu hóa truy vấn cài đặt thử nghiệm thuật toán tối ưu, thực truy vấn sở liệu phân tán, đánh giá kết thực Các kết dự kiến đạt - Giới thiệu tổng quan CSDL phân tán - Trình bày phương pháp, thuật toán tối ưu hóa truy vấn - Cài đặt thử nghiệm thuật toán tối ưu hóa truy vấn CHƯƠNG GIỚI THIỆU VÊ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm sở liệu phân tán 1.1.1 Khái niệm Cơ sở liệu phân tán tập hợp liệu phụ thuộc logic lẫn hệ thống lưu trữ trạm mạng máy tính Cơ sở liệu phân tán làm tăng khả truy nhập tới sở liệu lớn mạng hệ thống máy tính quản lý sở liệu thành phần gọi node site [4] Hệ quản trị sở liệu phân tán (DBMS) phần mềm quản trị sở liệu, đảm bảo suốt với người sử dụng cho phép tính tự trị nghĩa sở liệu thành phần quản trị độc lập riêng biệt Định nghĩa nhấn mạnh hai khía cạnh quan trọng sở liêu phân tán Tính chất phân tán: Thực tế liệu không cư trú trạm, phân biệt sở liệu phân tán với sở liệu tập trung Tương quan logic: Các liệu có số tính chất ràng buộc lẫn phân biệt sở liệu phân tán với sở liệu địa phương với tệp trạm khác mạng 1.1.2 Những ưu điểm sở liệu phân tán Lợi ích sở liệu phân tán sở liệu vật lý riêng biệt tích hợp vật lý với làm cho nhiều người mạng truy nhập [7] Cho phép quản lý liệu với nhiều mức suốt - Trong suốt mạng - phân tán: Hệ quản trị sở liệu phải suốt phân tán theo nghĩa làm cho người sử dụng không cần biết vị trí liệu không cần biết phước tạp truy cập qua mạng - Trong suốt - Trong suốt phân mảnh Tăng độ tin cậy khả sẵn sàng Độ tin cậy khả hệ thống làm việc (không bị ngừng) thời điểm đó, tính sẵn sàng khả hệ thống tiếp tục làm việc khoảng thời gian Khi liệu hệ sở liệu phân tán trạm, trạm có cố trạm hoạt động sử dụng thành phần khác sở liệu Chỉ trạm bị cố, liệu ứng dụng truy cập Để nâng cao độ tin cậy tính sẵn sàng, áp dụng chế tạo nhiều trạm Cải thiện hiệu Một hệ quản trị sở liệu phân tán, phân mảnh sở liệu lưu giữ gần nơi sử dụng Dữ liệu lưu giữ cục làm giảm cạnh tranh CPU, giảm phục vụ I/O giảm tương tranh truy nhập mạng Dữ liệu phân tán mạng nên dung lượng liệu cục nhỏ hơn, xử lý giao tác truy vấn cục thực tốt Hơn trạm có giao tác số giao tác sở liệu tập trung tăng hiệu suốt hệ thống Dễ dàng mở rộng Việc thêm sở liệu mới, tăng kích cơ sở liệu thêm xử lý môi trường phân tán dễ thêm sở liệu thành phần 1.1.3 Những nhược điểm sở liệu phân tán [3] Giá thành phước tạp phần mềm Các phần mềm sử dụng môi trường sở liệu phân tán phước tạp, đặc biệt phần mềm sử dụng cho việc quản trị môi trường sở liệu phân tán Tiến trình kết nối vị trí liệu cục khó khăn, phiền phức Các vị trí cục phải trao đổi thông điệp với thực thêm tính toán phức tạp để đảm bảo kết nối đắn vị trí Sự toàn vẹn liệu Một sản phẩm mang nhiều tính phức tạp dĩ nhiên phải làm gia tăng khả xáo trộn việc đảm bảo tính toàn vẹn cho liệu Tốc độ truy cập trở lên chậm chạp cách đáng kể Nếu liệu không phân tán thích hợp theo yêu cầu sử dụng bảng thiết lập truy vấn thiết lập không đắn việc tìm kiếm xử lý xảy chậm chạp 1.2 Các đặc trưng suốt sở liệu phân tán 1.2.1 Trong suốt phân tán - Cho phép xử lý liệu hệ sở liệu phân tán giống sở liệu tập trung - Người sử dụng không cần biết: liệu phân mảnh nào, liệu để đâu, vị trí vật lý lưu trữ liệu đâu - Trong suốt phân tán thể hiện: Trong suốt địa điểm: Người sử dụng không cần biết lưu trữ vật lý liệu đâu truy vấn cần tên đoạn mà không cần vị trí Trong suốt tên: Khi đối tượng đặt tên truy nhập xác không cần đặc tả thêm Trong suốt sao: Sự nhân trình chép trì liệu hệ sở liệu phân tán Cùng liệu (được lưu trữ vật lý vị trí) sử dụng nhiều vị trí khác Các lưu trữ nhiều trạm làm tăng hiệu suất, độ tin cậy tính sẵn sàng hệ thống Các ứng dụng truy cập liệu trạm mà không cần phải truy cập từ xa giảm truyền tải mạng lớn Hệ thống cho phép tiếp tục thực trạm từ xa có cố Trong suốt đảm bảo người sử dụng liệu cập nhật đồng với liệu gốc Trong suốt phân mảnh: Một quan hệ sở liệu phân tán phân mảnh ngang phân mảnh dọc nghĩa tách thành liệu quan hệ lưu trữ nhiều trạm khác Trong suốt p hân mảnh cho phép người sử dụng không cần biết có phân mảnh, truy vấn liệu viết sở liệu tập trung 1.2.2 Trong suốt giao dịch Cơ sở liệu phân tán cho phép giao dịch cập nhật, sửa đổi liệu trạm khác Để đảm bảo liệu quán toàn hệ thống, trạm giao dịch commit tất trạm commit thành công roll back trạm bị thất bại 1.2.3 Trong suốt thất bại Đảm bảo trạm hệ thống bị hỏng hệ thống làm việc bình thường (do chế tạo làm việc trạm không bị cố) Nếu mạng hệ thống có cố commit giao dịch sở liệu phân tán giao dịch giải tự động suốt theo nghĩa mạng hệ thống khôi phục tất các trạm commit roll back lại giao tác 1.2.4 Trong suốt thao tác Cho phép câu lệnh thao liệu đơn giản để truy nhập sở liệu trạm cục trạm từ xa Các thao tác xử lý liệu từ xa không phức tạp đảm bảo giống thao tác liệu hệ sở liệu không phân tán 1.2.5 Trong suốt tính không Cho phép hỗn hợp nhiều hệ quản trị sở liệu khác với khả trao đổi liệu, xử lý cập nhật liệu, xử lý giao tác phân tán toàn hệ thống 1.3 Kiến trúc tham chiếu sở liệu phân tán Đây kiến trúc tường minh cho tất sở liệu phân tán, kiến trúc thể tổ chức sở liệu phân tán [3] Lược đồ tổng thể (Global schema) mô tả thống tất liệu sở liệu phân tán độc lập với môi trường phân tán Mảnh (fragment) mối quan hệ tổng thể chia thành vài phần không gối lên gọi mảnh Lược đồ phân mảnh (Fragment schema) định nghĩa ánh xạ quan hệ tổng thể phân mảnh Ánh xạ chiều: vài mảnh tương ứng với quan hệ tổng thể, quan hệ tổng thể tương ứng với mảnh Ký hiệu Ri mảnh thứ i quan hệ tổng thể R Lược đồ phân phối (Allocation schema): Định nghĩa ánh xạ từ mảnh vào trạm chứa phân mảnh Tất mảnh tương ứng với quan hệ tổng thể R đặt trạm j tạo thành hình ảnh vật lý (physical image) quan hệ tổng thể R trạm j Lược đồ ánh xạ cục (Local mapping schema): Ánh xạ hình ảnh vật lý tới đối tượng thao tác hệ quản trị sở liệu cục Trong hệ không ta có kiểu ánh xạ cục khác trạm khác Lược đồ tổng thể Lược đồ Phân mảnh Lược đồ lập trạm Lược đồ định vị Lược đồ ánh xạ cục Lược đồ ánh xạ cục Hệ quản trị sở liệu vị trí Hệ quản trị sở liệu vị trí Cơ sở liệu cục vị trí Các vị trí khác,… Cơ sở liệu cục vị trí Hình 1.1: Kiến trúc tham chiếu sở liệu phân tán 1.4 Các kỹ thuật xây dựng sở liệu phân tán - Kỹ thuật phân tách liệu từ sở liệu để lưu trữ trạm khác gọi phân mảnh - Sử dụng cho phép sở liệu lưu trữ nhiều trạm - Quá trình cục phân mảnh liệu cục phân mảnh lưu trữ liệu đoạn khác 1.4.1 Phân mảnh Sự phân mảnh chia liệu bảng liệu thành bảng liệu Có ba kiểu phân mảnh quan hệ tổng thể: phân mảnh ngang, phân mảnh dọc phân mảnh hỗn hợp [9] Một phân mảnh đắn phải thỏa mãn ba điều kiện sau: - Điều kiện không thông tin: Tất liệu quan hệ tổng thể phải ánh xạ tới mảnh, có nghĩa phần tử liệu thuộc quan hệ tổng thể phải thuộc hay nhiều mảnh - Điều kiện xây dựng lại: Luôn xây dựng lại quan hệ tổng thể từ mảnh có - Điều kiện rời (Chỉ áp dụng cho phân mảnh ngang): Để tối thiểu hóa lập lại liệu 1.4.1.1 Phân mảnh ngang (Horizontal framentation) Phân mảnh ngang phân chia quan hệ thành tập bộ, tập xác định phép chon với tân từ p quan hệ tổng thể R: Ri   p ( R ) , i với pi tân từ R i Để khôi phục R ta dùng phép hợp quan hệ R=R  R   R n Ví dụ 1.1: Xét quan hệ tổng thể NHACUNGCAP Trong thuộc tính SHNCC: Số hiệu nhà cung cấp TNCC: Tên nhà cung cấp TP: Thành phố Ta tách quan hệ NHACUNGCAP thành quan hệ NCC1 NCC2 thuộc hai chi nhánh “HN” “HP” Ta có phân mảnh ngang sau: N C C   T P = "H N " ( N H A C U N G C A P ) NCC2   T P = "H P " (NHACUNGCAP) Thỏa mãn: - Điều kiện xây dựng lại: N H A C U N G C A P  N C C  N C C - Điều kiện rời thỏa mãn vì: N C C  N C C   Tổng quát: - Điều kiện không thông tin tập tân từ tất mảnh phải đầy đủ - Điều kiện xây dựng lại luôn thỏa mãn phép hợp - Điều kiện rời đòi hỏi tân từ phải loại trừ 1.4.1.2 Phân mảnh ngang gián tiếp (Direver Horizontal framentation) Phân mảnh ngang gián tiếp phân chia quan hệ ban đầu thành quan hệ thứ hai khác mà quan hệ liên hệ với quan hệ ban đầu khóa Điều thể mối liên hệ liệu quan hệ ban đầu quan hệ thứ hai phân mảnh cách Ví dụ 1.2: Xét quan hệ tổng thể CUNGCAP(SHNCC, SHSP, SHPHONG, SOLUONG) Trong thuộc tính SHNCC: Số hiệu nhà cung cấp SHSP: Số hiệu sản phẩm 10 Các giai đoạn phân thực xử lý theo cách hệ tập trung, hệ phân tán vấn đề cần phải quan tâm hai giai đoạn cục tối ưu hóa câu truy vấn phân tán Câu hỏi phân tán Sự cục hóa Lược đồ phân mảnh Câu hỏi phân tán cục hóa (diễn đạt mảnh) Mô hình chi phí Các thống kê(liên quan mảnh) Các giải thuật(truy nhập phân tán Tối ưu hóa Phương án thực phân tán Hình 2.28: Các giai đoạn việc đánh giá câu truy vấn phân tán Thông tin cần thiết cho cục hóa (việc định nghĩa phân mảnh quan hệ) lưu trữ lược đồ phân mảnh Việc cục hóa câu truy vấn phân tán tiến hành thành hai giai đoạn: Phát sinh câu truy vấn tắc tương đương giản lược Câu truy vấn tắc diễn đạt mảnh, có cách thay quan hệ câu truy vấn phân tán câu truy vấn khôi phục tương ứng Câu truy vấn tắc với câu truy vấn tổng thể minh họa dạng đại số quan hệ Nói chung, câu truy vấn tắc có chứa đựng thao tác (phép toán) vô ích giản lược nhờ vào quy tắc cổ điển việc cấu trúc đại số lại quy tắc giản ước đặc thù cho kiểu phân mảnh Các quy tắc giản lược 93 cho phép xác định phép toán vô ích cho kết rỗng đồng với toán hạng loại bỏ tương ứng Vai trò tối ưu hóa xác định chiến lược thực câu truy vấn cực tiểu hàm chi phí Bài toán chọn lựa chiến lược tối ưu cho câu truy vấn NP đầy đủ Để tránh chi phí tối ưu lớn, mục tiêu tối ưu hóa chiến lược gắn với tối ưu hóa tránh chiến lược thực thi tồi Nói chung, hàm chi phí phải cực tiểu tổng thời gian việc thực câu truy vấn, tổng thể tất thời gian thực giành cho trạm khác tham gia vào câu truy vấn Một hàm chi phí thường dùng thời gian trả lời câu truy vấn, có tính tới xử lý tiến hành song song 94 CHƯƠNG 3: CÀI ĐẶT THỰC NGHIỆM THUẬT TOÁN 3.1 Xác định thuật toán Bốn thuật toán tối ưu hóa truy vấn sở liệu phân tán trình bày chương hai bốn thuật toán tiêu biểu cho lớp khác thuật toán tối ưu hóa truy vấn sở liệu phân tán Nhìn chung, thuật toán có nhận thông tin thống kê liệu, kích thước thông báo, thời gian tổng chi phí Dưới cài đặt thuật toán thử nghiệm thuật toán System R*, thuật toán tối thiểu hóa tổng chi phí kích thước thông báo 3.2 Cài đặt thực nghiệm thuật toán tối ưu hóa truy vấn sở liệu phân tán Thuật toán R* mô tả dạng mã giả Sau phần ứng dụng cài đặt thuật toán R* CSDL sử dụng CSDL quản lý bán hàng qua mạng Internet Thông tin lưu CSDL bao gồm thông tin khách hàng, địa khách hàng, sản phẩm khách hàng đặt mua quan mạng Internet 3.2.1 Cấu trúc sở liệu Table: Geography Tên cột Kiểu liệu Giải thích Geographykey int Khóa City nvarchar(30) Tỉnh, thành phố SateProvinceCode nvarchar(3) Mã thành phố SateProvinceName nvarchar(50) Tên tỉnh, thành phố CountryRegionCode nvarchar(3) Mã vùng EnglichCountryRegionName nvarchar(50) Tên vùng PostalCode Mã vùng quốc tế nvarchar(15) 95 Table: InternetSales Tên cột Kiểu liệu Giải thích Productkey int Khóa ngoài(bảng Product) Customerkey int Khóa ngoài(bảng Customer) SalesOrderNumber nvarchar(20) Mã đặt đơn hàng OrderQuantity smallin Chất lượng yêu cầu UnitPrice monkey Giá đơn vị sản phẩm DiscountAmount fload Lượng giảm giá ProductStandardCode monkey Giá chuẩn sản phẩm TotalProductCode monkey Tổng giá trị sản phẩm Table: Product Tên cột Kiểu liệu Giải thích Productkey int Khóa ProductAlternateKey nvarchar(25) Mã sản phẩm EnglishProductName nvarchar(20) Tên sản phẩm StandardCost monkey Giá chuẩn Color nvarchar(15) Màu sắc SafetyStockLevel smallint Mức độ lưu trữ hàng ListPrice monkey Giá ghi bao bì Ze nvarchar(50) Kích thước Weight float Cân nặng EnglishDescription nvarchar(400) Ghi thêm StartDate datetime Ngày nhập EndDate datetime Ngày kết thúc Status nvarchar(7) Trạng thái 96 Table: Customer Tên cột Kiểu liệu Giải thích Customerkey int Khóa GeographyKey int Khóa ngoài(bảng Geography) FirstName nvarchar(50) Tên MiddleName nvarchar(50) Tên đệm LastName nvarchar(50) Tên họ BirthDate datetime Ngày sinh MaritalStatus nchar(1) Tình trạng hôn nhân Gender nvarchar(1) Giới tính EmailAdress nvarchar(50) Địa email TotalChildren tinyint Tổng số NumberCarsOwned tinyint Số xe ô tô sở hữu AddressLine1 nvarchar(120) Địa AddressLine2 nvarchar(120) Địa Phone nvarchar(20) Điện thoại DateFirstPurchase datetime Ngày mua hàng ComuteDistance nvarchar(15) Khoảng cách * Sơ đồ qua hệ bảng sau: 97 3.2.2 Xây dựng ứng dụng Ứng dụng cài đặt thuật toán với trạm - Trạm 1: gồm hai bảng Customer(18484 ghi) Geography(655 ghi) - Trạm 2:- Trạm 2: Bảng InternetSales(60398 ghi) - Trạm 3: bảng Product(606 ghi) Diễn giải bước thực thuật toán Bước 1: Phân tách câu hỏi truy vấn thành câu hỏi truy vấn máy trạm Bước 2: Tìm chi phí lớn truyền liệu(bỏ qua tốc độ băng thông mạng) Chi phí truyền liệu mạng chủ yếu dung lượng bytes cần truy vấn Để giảm chi phí truyền thông, chi phí máy trạm lớn không truyền Thay vào chi phí nhỏ truyền để thực trình tích hợp liệu * Giao diện chương trình: 98 Giao diện kết nối trạm Thông tin để kết nối trạm bao gồm: Tên máy trạm/ IP máy trạm Loại kết nối CSDL (SQL Server, Mysql, Oracle, Microsoft Access, ), tên truy cập CSDL, mật kết nối, tên CSDL sử dụng Giao diện kết nối trạm Các thông số có ý nghĩa tương tự với trạm 99 Giao diện kết nối trạm Các thông số có ý nghĩa tương tự với trạm Ứng dụng cho phép truy vấn máy trạm, với câu truy vấn lấy liệu máy đơn lẻ 100 3.2.2.1 Thử nghiệm Thực với câu truy vấn sau: Select Customer.GeographyKey, Customer.FirstName, InternetSales.ProductKey, InternetSales.TotalProductCost From Customer, InternetSales Where(InternetSales.CustomerKey = Customer.CustomerKey) Truy vấn với CSDL tập trung: - Thời gian để thực truy vấn hiển thị là: 992.0044 Milliseconds - Số lượng ghi trả là: 60398 Truy vấn CSDL phân tán - Thời gian để thực truy vấn hiển thị là: 1302.1216 Milliseconds - Số lượng ghi trả là: 60398 101 Các bước thực truy vấn 102 3.2.2.2 Thử nghiệm Thực câu truy vấn với câu hỏi sau: Select Customer.GeographyKey, Customer.FirstName, InternetSales.ProductKey, InternetSales.TotalProductCost, Product.EnglishProductName From Customer, InternetSales, Product Where InternetSales.CustomerKey=Customer.CustomerKey and Product.ProductKey = InternetSales.ProductKey and Customer.GeographyKey=11 and Product.Color='Silver' Truy vấn với CSDL tập trung: - Thời gian thực câu truy vấn hiển thị là: 25.001 Milliseconds - Số lượng ghi trả về: 17 103 Truy vấn CSDL phân tán - Thời gian để thực truy vấn hiển thị là: 684.2175 Milliseconds - Số lượng ghi trả là: 17 Các bước thực 104 3.3 Kết luận Đề tài cài đặt thuật toán System R* để xử lý phân tán câu truy vấn lựa chọn phương án xử lý câu truy vấn phan tán với chi phí tối ưu từ máy trạm Ứng dụng cho phép thực hiện: - Thực câu truy vấn máy trạm - Thực câu truy vấn CSDL tập trung - Cho phép thực câu truy vấn đơn giản phân tán máy trạm thực cài đặt với thuật toán R* - Đưa thời gian thực câu truy vấn CSDL tập trung CSDL phân tán để so sánh thời gian thực Hiện đề tài thực câu truy vấn đơn giản, chưa thực câu truy vấn phân tán lồng Quá trình tích hợp liệu có từ máy trạm chưa tối ưu, nên thời gian thực câu truy vấn phân tan chưa nhanh so với CSDL tập trung 105 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Kết luận Việc lựa chọn giải pháp khả thi để thực phân tán sở liệu cho phù hợp với yêu cầu thực tế bước quan trọng khởi đầu xây dựng hệ phân tán Một giải pháp phân tán liệu phù hợp làm tăng tốc độ xử lý liệu đem lại hiệu kinh tế cao Trên thực tế lý thuyết sở liệu phân tán vấn đề tìm giải pháp để tối ưu hóa truy vấn sở liệu phân tán quan trọng cần thiết Luận văn phần làm vấn đề Những kết luận văn bao gồm - Trình bày nguyên lý chung để tối ưu hóa bao gồm: chiến lược tối ưu tổng quát, kỹ thuật tối ưu hóa thứ tự phép toán biểu thức đại số quan hệ phân rã câu hỏi thành câu hỏi - Đánh giá câu hỏi sở liệu phân tán bao gồm giai đoạn phân rã câu hỏi định vị liệu tối ưu hóa câu hỏi phân tán - Giới thiệu thuật toán tối ưu hóa truy vấn sở liệu phân tán: thuật toán INGRES phân tán; thuật toán System R*; thuật toán SDD-1 thuật toán AHY - Cài đặt thử nghiệm thuật toán System R* phân tán Hướng phát triển đề tài Phân tích sâu sắc thuật toán INGRES phân tán, R*, thuật toán SDD1, thuật toán AHY, để đánh giá độ phức tạp thuật toán để từ đưa khuyến cáo trường hợp nên dùng thuật toán có hiệu Thực phân tán câu truy vấn lồng 106 TÀI LIỆU THAM KHẢO Tiếng việt [1] Phạm Thế Quế (2009), “Giáo trình Cơ sở liệu phân tán”, NXB Thông tin truyền thông [2] Hồ Thuần, Hồ Cẩm Hà (2004), “Các hệ Cơ sở liệu: Lí thuyết Thực hành”, Tập [3] Nguyễn Văn Nhuận, Phạm Việt Bình (2009), “Giáo trình Hệ sở liệu phan tán & suy diễn: Lý thuyết thực hành”, NXB Khoa học kỹ thuật [4] Vũ Đức Thi (1997), Cơ sở liệu – kiến thức thực hành, NXB thống kê [5] Nguyễn Bá Tường (2005), Nhập môn sở liệu phân tán, NXB khoa học kỹ thuật [6] Jeffrey D Ullman, biên dịch Trần Đức Quang (2002), Nguyên lý hệ CƠ SỞ DỮ LIỆU CƠ SỞ TRI THỨC, tập I II, NXB Thống kê Tiếng anh [7] M.TAMER OZSU – PATRICH VALDRIEZ (1998) Principles of Distributed Database Systems, Hill book company [8] STEFANO CERI – GIUSEPPE PELAGATTI (1998) Distrisbuted Database Prinshiples And System [9] JUNIAN BUNN (2001), Distribute Database, Center for Advanced Computing Research Caltech [10] DILSAT ABDULLAH (2003), Query Optimization in Distribute Database, Midd East Technical University 107 ... nghiên cứu, tham khảo cho giảng viên, sinh viên Công nghệ thông tin trường cao đẳng Sơn La Nội dung nghiên cứu 2.1 Mục tiêu đề tài Nghiên cứu lý thuyết CSDL, CSDL phân tán, kỹ thuật truy vấn... thực nghiệm môt thuật toán tối ưu, thực truy vấn vào sở liệu phân tán đánh giá kết thực 2.2 Nội dung đề tài Mục đích luận văn đề cập đến hai phần  Phần lý thuyết: Nắm rõ trình bày sở lý thuyết... giảm cạnh tranh CPU, giảm phục vụ I/O giảm tương tranh truy nhập mạng Dữ liệu phân tán mạng nên dung lượng liệu cục nhỏ hơn, xử lý giao tác truy vấn cục thực tốt Hơn trạm có giao tác số giao tác

Ngày đăng: 31/03/2017, 20:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan