Tối ưu truy vấn cơ sở dữ liệu quan hệ và cơ sở dữ liệu phân tán bằng phương pháp heuristic

11 294 0
Tối ưu truy vấn cơ sở dữ liệu quan hệ và cơ sở dữ liệu phân tán bằng phương pháp heuristic

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ =====o0o===== Đinh Thị Lan Phƣơng TỐI ƢU TRUY VẤN CƠ SỞ DỮ LIỆU QUAN HỆ VÀ CƠ SỞ DỮ LIỆU PHÂN TÁN BẰNG PHƢƠNG PHÁP HEURISTIC LUẬN VĂN THẠC SĨ Hà Nội - 2007 MỤC LỤC LỜI CẢM ƠN MỤC LỤC CÁC THUẬT NGỮ VIẾT TẮT Error! Bookmark not defined MỞ ĐẦU Chƣơng TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU 1.1 CƠ SỞ DỮ LIỆU QUAN HỆ .6 1.1.1 Khái niệm .6 1.1.2 Tiêu chuẩn sở liệu 1.2 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU 1.2.1 Hệ quản trị sở liệu 1.2.2 Các chức hệ quản trị sở liệu 1.2.3 Cách thức truy nhập CSDL 1.3 MƠ HÌNH DỮ LIỆU QUAN HỆ 1.3.2 Các phép toán quan hệ 1.3.3 Các dạng chuẩn mơ hình quan hệ 10 1.4 HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN Error! Bookmark not defined 1.4.1 Các khái niệm sở liệu phân tán Error! Bookmark not defined 1.4.2 Các mục tiêu hệ quản trị sở liệu phân tán Error! Bookmark not defined 1.4.3 Kiến trúc hệ quản trị sở liệu phân tán Error! Bookmark not defined 1.4.4 Phân đoạn, nhân cấp phát liệu Error! Bookmark not defined 1.5 KẾT LUẬN CHƢƠNG Error! Bookmark not defined Chƣơng TỔNG QUAN VỀ TỐI ƢU HOÁ TRUY VẤN Error! Bookmark not defined 2.1 BÀI TOÁN TỐI ƢU HÓA TRUY VẤN Error! Bookmark not defined 2.2 BỘ TỐI ƢU TRUY VẤN Error! Bookmark not defined 2.2.1 Khơng gian tìm kiếm Error! Bookmark not defined 2.2.2 Chiến lƣợc tìm kiếm Error! Bookmark not defined 2.2.3 Mơ hình chi phí Error! Bookmark not defined 2.3 KẾT LUẬN CHƢƠNG Error! Bookmark not defined Chƣơng MỘT SỐ PHƢƠNG PHÁP TỐI ƢU TRUY VẤN Error! Bookmark not defined 3.1 MỘT SỐ PHƢƠNG PHÁP TỐI ƢU HỐ TRUY VẤN TRONG MƠI TRƢỜNG TẬP TRUNG Error! Bookmark not defined 3.1.1 Thuật toán INGRES Error! Bookmark not defined 3.1.2 Thuật toán System R Error! Bookmark not defined 3.2 MỘT SỐ PHƢƠNG PHÁP TỐI ƢU HỐ TRUY VẤN TRONG MƠI TRƢỜNG PHÂN TÁN Error! Bookmark not defined 3.2.1 Thuật toán INGRES phân tán Error! Bookmark not defined 3.2.2 Thuật toán System R* Error! Bookmark not defined 3.2.3 Thuật toán SDD-1 Error! Bookmark not defined 3.3 KẾT LUẬN CHƢƠNG Error! Bookmark not defined Chƣơng TỐI ƢU TRUY VẤN BẰNG PHƢƠNG PHÁP HEURISTIC Error! Bookmark not defined 4.1 CÁC CHIẾN LƢỢC TỐI ƢU TỔNG QUÁT Error! Bookmark not defined 4.2 CÁC PHÉP BIẾN ĐỔI ĐẠI SỐ QUAN HỆ Error! Bookmark not defined 4.2.1 Biểu thức quan hệ Error! Bookmark not defined 4.2.2 Biến đổi tƣơng đƣơng đại số quan hệ Error! Bookmark not defined 4.3 THUẬT TOÁN HEURISTIC Error! Bookmark not defined 4.4 VÍ DỤ TỐI ƢU HOÁ CÂU HỎI THEO HEURISTIC Error! Bookmark not defined 4.5 KẾT LUẬN CHƢƠNG Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 10 M U Đặt vấn đề Trong thời đại kinh tế tri thức mà sống, hoạt động muốn đạt hiệu cao thiết phải có đ-ợc thông tin, tri thức cần thiết cách nhanh chóng xác Thông tin có đ-ợc nơi, v CSDL nguồn cung cấp thông tin Vấn đề đặt khối l-ợng thông tin l-u trữ lớn song đòi hỏi việc xử lý thông tin phải nhanh chóng hiệu Để lấy đ-ợc thông tin cần thiết ta cần thực hàng loạt thao tác CSDL thông qua câu truy vấn Từ câu truy vấn ban đầu thực theo ph-ơng pháp khác để có kết song cần phải hạ thấp chi phí thực truy vấn gọi tối -u hoá truy vấn Tuy nhiên để có đ-ợc ph-ơng án tối -u chi phí cho trình tối -u lại cao Xuất phát từ đặc điểm chung tính thời nêu trên, đà chọn đề tài nghiên cứu tối -u hoá truy vấn sâu vào tìm hiểu ph-ơng pháp tối -u truy vấn Heuristic mong đ-ợc đóng góp phần nhỏ bé việc nghiên cứu ph-ơng pháp tối -u hoá truy vấn liệu để khai thác thông tin cách có hiệu nhanh chóng, trợ giúp cho ng-ời sử dụng liệu thực tốt công việc Mục tiêu luận văn Mục tiêu đề tài nghiên cứu ph-ơng pháp tối -u hoá truy vấn, đặc biệt tập trung nghiên cứu ph-ơng pháp tối -u hoá Heuristic Luận văn bao gồm vấn đề sau đây: - Nghiên cứu sở liệu quan hệ sở liệu phân tán - Tìm hiểu toán tối -u hoá truy vấn - Tìm hiểu số ph-ơng pháp tối -u hoá môi tr-ờng tập trung phân tán - Nghiên cứu ph-ơng pháp tối -u hoá truy vấn Heuristic Bố cục luận văn Luận văn gồm ch-ơng: Ch-ơng 1: Tổng quan sở liệu quan hệ sở liệu phân tán Ch-ơng 2: Bài toán tối -u hoá truy vấn Ch-ơng 3: Một số ph-ơng pháp tối -u hoá truy vấn môi tr-ờng tập trung phân tán Ch-ơng4: Ph-ơng pháp tèi -u ho¸ truy vÊn b»ng Heuristic, vÝ dơ minh ho¹ Chƣơng TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU 1.1 CƠ SỞ DỮ LIỆU QUAN HỆ 1.1.1 Khái niệm Đƣợc phát triển từ năm 60, hệ sở liệu (CSDL) đƣợc tập trung nghiên cứu phát triển ứng dụng mạnh Khái niệm CSDL đƣợc định nghĩa dƣới nhiều góc độ khác nhau, ta hiểu CSDL theo khái niệm tập hợp liệu tổ chức, xí nghiệp,… đƣợc lƣu trữ máy tính, đƣợc nhiều ngƣời sử dụng cách tổ chức đƣợc chi phối mơ hình liệu[5] Một ngân hàng liệu thƣờng tập hợp thơng tin lƣu trữ máy tính có liên quan đến lĩnh vực khoa học, kinh tế văn hố, thể thao theo cách đầy đủ có Dữ liệu ngân hàng thực chất kho liệu CSDL tổ chức hàm chứa thông tin liên quan đến việc bảo mật, cấu trúc lƣu trữ thông tin chia sẻ tài nguyên 1.1.2 Tiêu chuẩn sở liệu Một CSDL cần thoả mãn tiêu chuẩn sau[1, 4, 6]: Biểu diễn tốt giới thực: cung cấp hình ảnh trung thực thực Một CSDL trung thực cho phép ngƣời dùng có thơng tin thoả mãn việc sử dụng cập nhật Không dư thừa thông tin: thông tin đảm bảo không bị trùng lặp, có mặt lần CSDL lựa chọn liệu Tính độc lập chương trình liệu: tƣơng ứng với cần thiết làm giảm giá thành bảo trì chƣơng trình Những thay đổi cấu trúc hệ CSDL thay đổi giới thực ứng dụng cụ thể cho phép nhiều ứng dụng chia sẻ liệu Tính an tồn bí mật liệu: CSDL đƣợc đảm bảo ngƣời có trách nhiệm truy cập đến thơng tin sử dụng chúng Ngồi cần có đảm bảo an tồn cho vật mang thông tin chống lại huỷ hoại Hiệu suất ứng dụng: Mặc dù chia sẻ nguồn chung, ứng dụng phải có hiệu suất CSDL giống nhƣ sử dụng thông tin truyền thông Các tiêu chuẩn thiết yếu cho CSDL hoàn thiện tối ƣu, nhiên tiêu chuẩn khác đƣợc ƣu tiên nhiều khác tuỳ theo mục đích ứng dụng cụ thể 1.2 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU 1.2.1 Hệ quản trị sở liệu Hệ quản trị sở liệu (QTCSDL) hệ thống phần mềm đặc biệt cho phép khai thác cách hợp lý CSDL Một hệ QTCSDL bao gồm phần mềm cho phép mô tả, lƣu trữ, thao tác, xử lý tập hợp liệu Đồng thời, hệ QTCSDL đảm bảo an tồn bí mật liệu mơi trƣờng có nhiều ngƣời sử dụng với yêu cầu khác có tác động truy nhập đồng thời lên liệu 1.2.2 Các chức hệ quản trị sở liệu Một hệ QTCSDL phải đảm bảo đƣợc chức tối thiểu sau: - Mô tả liệu - Tìm kiếm liệu đƣợc lƣu trữ - Cập nhật liệu (thêm, bớt, sửa đổi,…) - Chuyển hoá liệu mức độ lƣợc đồ - Điều khiển tính an tồn tồn vẹn liệu - Quản lý liệu mức thấp (mức giao tác xử lý liệu) 1.2.3 Cách thức truy nhập CSDL Truy nhập CSDL phƣơng pháp khai thác tệp chƣơng trình ứng dụng sử dụng để chọn ghi Trong hệ CSDL có loại truy nhập sau: Tổ chức truy nhập tuần tự: phƣơng pháp đọc ghi tệp, từ đầu tệp ghi cần tìm.Trong kiểu tổ chức ghi đƣợc lƣu trữ lần lƣợt, muốn đọc ghi thứ n, ta phải lần lƣợt qua (n-1) ghi trƣớc Tuy nhiên ta khơng cần đọc tồn nội dung ghi mà cần đọc phần thơng tin tối thiểu đủ để xác định xem có phải ghi cần hay khơng Tổ chức truy nhập trực tiếp: Cho phép truy nhập trực tiếp đến đơn vị thơng tin cần tìm mà không cần đọc lần lƣợt từ đầu Để truy nhập phải tuân theo phƣơng pháp xác định tổ chức lƣu trữ Có hai loại tổ chức truy nhập tệp trực tiếp tệp có số Ta phải sử dụng phần thông tin ghi làm khố ghi Qua đặc trƣng khố cho phép xác định xác ghi cần tìm Truy nhập ngẫu nhiên: Kiểu tổ chức lƣu trữ ghi địa theo khố Ta thƣờng dùng thuật tốn, hàm ngẫu nhiên để tính tốn địa ghi Hàm địa đƣợc xây dựng theo nhiều phƣơng pháp khác nhƣ phƣơng pháp tính địa tuyến tính, phƣơng pháp dùng hàm mã cắt v.v… 1.3 MƠ HÌNH DỮ LIỆU QUAN HỆ Mơ hình liệu tập hợp khái niệm dùng để biểu diễn cấu trúc CSDL Cấu trúc CSDL bao gồm kiểu liệu, mối liên kết ràng buộc phải tuân theo liệu Nhiều mơ hình cịn có thêm tập hợp phép toán để đặc tả thao tác CSDL Mơ hình quan hệ đƣợc Ted Codd đƣa vào năm 1970 đƣợc sử dụng rộng rãi tính đơn giản sở tốn học 1.3.1 Khái niệm quan hệ Một lƣợc đồ quan hệ R, kí hiệu R(A1, A2,…,An) đƣợc tạo nên từ tên quan hệ R, danh sách thuộc tính A1, A2,…,An Số thuộc tính quan hệ gọi bậc quan hệ Một quan hệ r tƣơng ứng với lƣợc đồ R : r(R )  D1 x D2 x…x Dn Di với (1  i  n) miền giá trị thuộc tính Ai Một quan hệ đƣợc biểu diễn nhƣ bảng, giá trị thuộc tính đƣợc ghi cột giá trị quan hệ đƣợc ghi dịng 1.3.2 Các phép tốn quan hệ Có năm phép tốn năm phép tốn khác đƣợc định nghĩa theo năm phép tốn Đó phép chọn, phép chiếu, phép hợp, phép trừ phép tích Descartes Các phép tốn bổ sung là: giao, nối, nối tự nhiên, nối nửa phép chia Phép chọn quan hệ R với vị từ p tập tất t R thoả p:  p ( R)  {t  R / p(t )} Phép chiếu quan hệ R tập thuộc tính X quan hệ R, quan hệ tập thuộc tính X, đƣợc xây dựng cách loại bỏ quan hệ R thuộc tính khơng nằm X  X ( R)  {t[ X ] | t  R} Phép hợp Hợp hai quan hệ R S, tập tất thuộc R thuộc S thuộc hai Các trùng lặp bị loại bỏ R  S= {t| tR t  S } Phép trừ: Hiệu hai quan hệ R S tập tất R không thuộc S R-S = {t| tR t S } Tích Descartes Tích Descartes hai quan hệ R bậc n S bậc m có kết tập (n+m) cho có n thành phần đầu thuộc R m thành phần sau thuộc S R x S = {t | t có dạng (a1, a2,…,an, b1, b2,…, bm ) (a1, a2,…,an)  R (b1,b2,…,bm)S} Phép giao: Giao quan hệ R S, tập tất t thuộc hai quan hệ R S R S = {t | t R, t S } = R - (R-S) Nối -  Phép nối dẫn xuất tích Descartes Có nhiều kiểu nối, kiểu nối tổng quát nối  hay đơn giản nối Với F vị từ nối: R  F S = F (R x S) Nối tự nhiên Giả sử hai quan hệ R S có tập thuộc tính chung X Phép nối tự nhiên hai quan hệ R S quan hệ tập thuộc tính R tập Y thuộc tính S khơng nằm X R  S = {(u,v)|uR  v = s[Y] sS s[X] = u[X]} Nối nửa hai quan hệ R S theo vị từ p cho kết là: R < p S =X (R  P S ) với X tập thuộc tính R Phép chia Chia quan hệ R bậc n cho quan hệ S bậc m (trong n>m m  0) tập t n-m thuộc tính cho với uS (t,u) R RS = A’(R)-A’((A’(R)xS)-R), với A’ tập thuộc tính R không thuộc S 1.3.3 Các dạng chuẩn mơ hình quan hệ Các quan hệ dùng hệ QTCSDL phải thoả mãn điều kiện[4]: - Hạn chế tối thiểu dƣ thừa thông tin - Cho phép cập nhật nhanh - Tránh rời rạc liên quan đến q trình cập nhật Chuẩn hố - trình bƣớc thay tập quan hệ cho tập quan hệ có cấu trúc ngày đơn giản chuẩn tắc Mục đích chuẩn hố loại bỏ bất thƣờng quan hệ Quan hệ đƣợc chuẩn hố quan hệ miền giá trị thuộc tính chứa giá trị nguyên tố tức không phân nhỏ đƣợc giá trị quan hệ nguyên tố Theo lý thuyết ban đầu Codd đƣa có dạng chuẩn quan hệ Về sau Boyce Codd định nghĩa phiên sửa đổi dạng chuẩn ba, thƣờng gọi dạng chuẩn Boyce-Codd (BCNF) Tiếp sau dạng chuẩn bốn (4NF) chuẩn năm (5 NF) đƣợc đề nghị dựa phụ thuộc hàm đa trị phụ thuộc hàm nối TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: 10 [1] Nguyễn Kim Anh, Nguyên lý hệ sở liệu, NXB ĐH Quốc Gia Hà Nội, 2004 [2] Trần Tiến Dũng, Giáo trình lý thuyết thực hành Oracle, NXB Giáo dục, 2000 [3] Đỗ Phúc, Bài giảng sở liệu nâng cao (Dành cho lớp cao học CNTT), 2004 [4] Đỗ Phúc - Nguyễn Tăng Tỵ, Giáo trình sở liệu, NXB Đại học QG TP Hồ Chí Minh, 2006 [5] Jeffrey D.Ulman, biên dịch Trần Đức Quang (2002), Nguyên lý hệ sở liệu sở tri thức, tập I II, NXB thống kê [6] Nguyễn Bá Tƣờng, Nhập môn sở liệu phân tán, NXB Khoa học kỹ thuật, 2005 [7] Phạm Thế Quế, Giáo trình CSDL, Lý thuyết thực hành, NXB Bƣu Điện, 2004 [8].Tìm hiểu số vấn đề tối ưu hố truy vấn, luận văn thạc sỹ, Nguyễn Thị Vân Anh Tài liệu tiếng Anh: [9] Advanced Database Systems CS632 Spring 2001 http://www.cs.cornell.edu/courses/cs632/2001sp/ [10] Distributed Database by Farnoush Banaei – Kashani excerpt from “Principles of Distributed Database System”, M.Tamer Özsu and Patrick Valduriez, April 19,2006 http://infolab.usc.edu/csci585/Spring2006/Lectures/Session17-Query.pdf [11] INGRES 15-823 Advanced Topics in Database Systems Performance 2, 2001 Anastassia http://www.cs.cmu.edu/~natassa/courses/15-823/S01/lectures/3_Ingres.pdf [12] Query Optimization http://dbserver.kaist.ac.kr/~parkcs/qo.html 11

Ngày đăng: 16/11/2016, 21:03

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan