Thông tin tài liệu
1 PHẦN MỞ ĐẦU 1. Lý do chọn đề tài Cùng vi s phát tria công ngh thông tin, các ng dng c s d lip vào các hong quc kinh t li nhng hiu qu to ln và cn thit. Bên cu v x lí thông tin thu th, x nhiu ln t phát trin ca tài nguyên phn cng và phn mm. Trong thc t các doanh nghi n nhau hay k c các c c phân b nhiu khu v d lic tp trung ti mm nhnh mà ri kha ng. Khi d liu không còn tp trung thì v qun lý, truy xut CSDL phc v cho công tác chuyên môn không b n, tiêu tn ít thi gian công sc tin bc. Mt s h thng tp trung ng c, không phù hp vi nhu cu hii hóa. Xây dng mt h thng phân tán có kh l ng thi mt bài toán trên nhiu máy tính là mt ng gii quyt kh c chng minh tính hu dng. H thng phân tán còn to nhiu thun li trong vic chia s thông tin trên khp mi . Vì vy, CSDL gii quyt vn N t cách có hiu qu và thông sunh khi truy vt trong nhng cách gii quyt cho v này. Vn ti u hóa truy vn trên CSDL phân tán là rt quan trng và phc tp do tính phân mnh, nhân bn, tn kém chi phí trong vic truyn d liu 2 ca nó. Nu không gii quyt tt vn ti u truy vn thì hiu nng ca các thao tác trên h CSDL phân tán s t rt thp. Nhng nh tài nghiên cTìm hiểu về tối ƣu hóa truy vấn trong cơ sở dữ liệu phân tán 2. Mục tiêu nghiên cứu. Nghiên cu lý thuyt CSDL phân tán, các k thut truy vn trong CSDL. Tng hp các kt qu v truy vn tc hin t truy vn trong CSDL phân tán. 3. Đối tƣợng và phạm vi nghiên cứu. tài tp trung nghiên cu v v bn ca CSDL n phân tán, các k thut, thut toán ti . 4. Phƣơng pháp nghiên cứu. Thu thp, tìm kim, tham kho, phân tích, nghiên cu các tài liu và thông tài t CSDL, CSDL phân tán, các k thut truy vn ca các tác gi chn lc và sp xp lng ca mình. Tng hp các kt qu ên cu v truy vn tn hành thc hin tn phân tán qua mt trng hp nghiên cu. 3 CHƢƠNG 1: GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1. Khái niệm về cơ sở dữ liệu phân tán 1.1.1. Khái niệm C d liu phân tán [3] là mt tp hp d liu, mà v mt logic tp hp này thuc cùng mt h th mt vt lý d lic phân tán trên các v trí khác nhau ca mt mng máy tính. d li p ti h thng CSDL ln trên mng. Trong h thng i máy tính qun lý mt CSDL thành phn c gi là 1 node hot site. M d liu phân tán là mt tp hp nhiu CSDL i logic và c phân b trên mt mng máy tính. m quan trc nêu ra và c: - Tính chất phân tán: Tt c d liu ca CSDL phân tán cùng mt v c phân b trên nhiu máy trm t ti các v trí khác nhau thuc mng máy tính. m phân bit gia CSDL phân tán và CSDL tp trung. - Tương quan logic: D liu ca CSDL phân tán có mt s thuc tính ràng buc vu này giúp chúng ta có th phân bit mt CSDL phân tán vi mt tp hp CSDL tp trung. Các file d li ti nhiu v trí khác nhau, ng thy trong các ng dng mà h thng s phân quyn truy nhp d ling mng. Ví dụ 1.1: Website ca google phân tán tìm kim theo cách t nhn bit, yêu cu nào g lý. Các server ca google phân b rông khp trên toàn th gii. 4 1.1.2. Các đặc điểm chính của CSDL phân tán 1. Chia sẻ tài nguyên Vic chia s tài nguyên ca h c thc hin qua mng truyn thông. Mi tài nguyên cc qun lý bi mn truyn thông chia s mt cách có hiu qu. Các tài nguyên có th c truy cp, cp nht mt cách tin cy và nht quán. Qun lý tài nguyên bao gm lp k hoch d t tên cho các lp tài nguyên, cho phép tài c truy cp t ta ch truyn thông, 2. Tính mở Tính m ca h thng phân tán là tính d dàng m rng phn cng ca nó. Mt h thc gi là có tính m thì phu kin sau: - H thng có th to nên bi nhiu loi phn cng và phn mm ca nhiu nhà cung cp khác nhau. - Có th b sung vào các dch v dùng chung tài nguyên mà không phá hng ch v n ti. - Tính m c hoàn thin bnh rõ các giao din chính ca mt h i các nhà phát trin phn mm. - Tính m ca h phân tán da trên vic cung c truyn thông gia các tin trình và công khai các giao di truy nhp các tài nguyên chung. 3. Khả năng song song H phân tán hong trên mt mng truyn thông có nhiu máy tính, mi máy có th có mt hay nhiu CPU. 5 Có th thc hin nhiu tin trình trong cùng mt thm. Vic thc hin tin trình ng thi phân chia thi gian (mt CPU) hay song song (nhiu CPU). Kh c song song trong h c th hin qua hai tình hung: - Nhii s dng thi các ng dng thi xut hin nhiu Clients). - Nhiu tin trình Server chng thi, mi tin trình phng yêu cu t các Clients. T u ki lý, kh a h thng phân tán tr thành mt thuc tính ca nó. 4. Khả năng mở rộng H phân tán có kh ng tt và hiu qu nhiu mc khác nhau. Kh rng ca mt h i tính không thay i phn mm h thng và phn mm ng dng khi h thng c m rng. u này ch t m i vi h phân tán hin ti (không th u m rng không ch là m rng v phn cng hay v mng mà còn cn phc t c các khía cnh khi thit k h phân tán. Ví dụ 1.2: Tn sut s dng file trên mt ngt tránh tình trng tc nghn xy ra khi ch có mt Server và phng các yêu cu truy nhp i ta nhân bn file trên mt Server khác và h thc thit k sao cho vic b sung c d dàng. Có th n gii pháp khác là s dng Cache và các bn sao d liu. 6 5. Khả năng thứ lỗi Kh li th hin vic h thng không b s bi các s c do các li thành phn (c phn cng ln phn mm) trong mt b ph Vic thit k kh li các h thng máy tính da trên hai gii pháp sau: - Dùng kh m bo s hong liên tc và hiu qu. - m b phc hi d liu khi xy ra s c. 6. Đảm bảo tin cậy và nhất quán H thng yêu c tin c - Bí mt ca d liu. - Các chng phm bo. - Ngoài ra các yêu cu ca h thng v tính nh hin ch: không có mâu thun trong ni dung CSDL. 1.1.3. Những ưu nhược điểm của cơ sở dữ liệu phân tán Những ưu điểm của cơ sở dữ liệu phân tán Ln nht ca CSDL phân tán là d liu ca các CSDL vt lý riêng bic tích hp logic vi nhau làm cho nhiu ni s dng trên mng có th truy nhc [6]. - Cho phép qun lý d liu vi nhiu mc trong sut: + Trong sut mng - phân tán: H qun tr CSDL phc trong sut i s dng không cn bit v trí ca d liu và không cn bit s phc tp truy cp qua mng. + Trong sut bn sao + Trong sun - tin cy và kh n sàng: tin cy là kh thng c (không b ngng) ti mt thi n sàng là kh thng tip tc làm vic trong mt khong th 7 liu và CSDL phân tán trên mt vài trm, mt trm có th có s c trong khi các trm khác vn có th hong hoc s dng các thành phn khác ca CSDL. Ch trên trm b s c, d liu và ng dng không th truy cc. tin cy và tính sn sàng, có th áp dng to bn sao trên nhiu trm. - Ci thin hi: Mt h qun tr CSDL n CSDL có th làm cho d liu s ti g dng nht. D liu c cc b làm gim cnh tranh CPU, gim các I/O Server và gi tranh truy nhp trên mng. D lic phân tán ti các trng d liu cc b s nh lý giao tác và truy vn cc b s c thc hin ta trên mi tr các giao tác trên CSDL tp trung vì vu sut h thng. - D dàng m rng: Vic thêm CSDL m CSDL hoc thêm b x lý ng phân tán là d CSDL thành phn. Những nhược điểm của cơ sở dữ liệu phân tán - phc tp thit k t h th qun tr CSDL phân tán phi b sung thêm các ch + Theo dõi du vt d liu + X lý các truy vn phân tán + Qun lý giao dch phân tán + Phc hi CSDL phân tán + Qun lý các bn sao + Quc - catalog phân tán - H thng phn cc tn có nhiu trm và các trm phc kt ni trên mng. 8 - Các phn mm h thm bo qun tr, duy trì kt ni d liu trên mng. - Bo m 1.2. Các đặc trƣng trong suốt của cơ sở dữ liệu phân tán 1.2.1. Trong suốt phân đoạn (fragmentation transparency) Khi d lin thì vic truy cc thc hin phân tán và không ng ti s dng. Ví dụ 1.3: Xét quan h tng th NCC (Id, Tên, Tui) n c tách ra t nó: NCC1 (Id, Tên, Tui) NCC2 (Id, Tên, Tui) NCC3 (Id, Tên, Tui) Gi s DDBMS cung cp tính trong sut v thy tính trong suc th hi Khi mun tìm mi có Id= “Id1” thì ch cn tìm trên quan h tng th NCC mà không cn bit quan h NCC có phân tán hay không. SELECT * FROM NCC WHERE Id=“Id1” Hình 1.1:Trong suốt phân đoạn 9 1.2.2. Trong suốt về vị trí (location transparency) - i s dng không cn bit v v trí vt lý ca d liu mà có quyn truy cn CSDL ti bt c v trí nào. - ly hoc cp nht mt d liu t c t ng thc hin bi h thng tu cu. - Tính trong sut v v trí rt hi s dng b qua các bn sao d lin ti mi v di chuyn mt bn sao d liu t mt v n mt v trí khác và cho phép to các bn sao mi mà không nn các ng dng. Ví dụ 1.4: Vi quan h tng th trên gi s rng DDBMS cung cp trong sut v v p trong sut v n. Xét câu truy vi có Id=“Id1”. SELECT * FROM NCC1 WHERE Id=“Id1” IF NOT #FOUND THEN SELECT * FROM NCC2 WHERE Id=“Id1” + u tiên h thng s thc hin tìm kim n NCC1 và nu DBMS tr v biu khin #FOUND thì mt câu lnh truy v c thc hin NCC2 , + NCC2 c sao làm hai bn trên hai v trí 2 và v trí 3, ta ch cn tìm thông tin trên quan h NCC2 mà không cn quan tâm nó v trí nào. 10 Hình 1.2: Sự trong suốt về vị trí 1.2.3. Trong suốt ánh xạ địa phương (local mapping transparency) - Là mc tính quan trng trong mt h thng nht. - ng dng tham chi c lp t các h thng cc b . - ng dt trên mt h thng nhc s dt h thng nht. Hình 1.3: Sự trong suốt ánh xạ địa phương 1.3. Kiến trúc cơ bản của một cơ sở dữ liệu phân tán 1.3.1. Sơ đồ tổng thể (Global Schema) - nh tt c các d liu s trong CSDL lic phân tán các trm trong h thng. [...]... thuật tối ƣu hóa tập trung Phần này sẽ tr nh bày 2 kỹ thuật tối ưu hoá câu truy vấn đối với hệ tập trung Sự biểu diễn này là điều kiện để tối ưu hóa câu truy vấn phân tán với ba lý do: - Một câu truy vấn phân tán được biến đổi thành các câu truy vấn địa phương được xử lý theo cách tập trung - Các kỹ thuật tối ưu hoá câu truy vấn phân tán thường là sự mở rộng các kỹ thuật đối với hệ tập trung - Tối ưu. .. là vấn đề đơn giản, sự tối thiểu hoá chi phí truy n thông dẫn đến tối ưu hoá câu truy vấn phân tán phức tạp hơn 2.4.1 Thuật toán INGRES INGRES sử dụng thuật toán tối ưu hoá câu truy vấn động, chia một truy vấn phép tính quan hệ thành các truy vấn nhỏ hơn Một truy vấn đa biến đầu tiên được phân tích thành một dãy các truy vấn con có một biến duy nhất chung, mỗi truy vấn con được dựa vào kết quả của truy. .. thành các câu truy vấn con làm đơn giản việc tính kết quả câu truy vấn và làm giảm kích thước của các kết quả trung gian trong quá tr nh tính toán Hơn nữa, trong các hệ phân tán, việc tách câu truy vấn thành các câu truy vấn con sẽ làm tăng khả năng xử lý câu truy 27 vấn v các câu truy vấn con có thể được xử lý tại các máy trạm và sử dụng dữ liệu cục bộ Ví dụ 2.4: Để thực hiện câu truy vấn ở ví dụ 2.3,... niệm phân đoạn dữ liệu với khái niệm định vị dữ liệu - Biết được dữ liệu dư thừa - Độc lập với các DBMS địa phương Ba yếu tố này tương ứng với ba mức trong suốt tương ứng a Tách rời khái niệm phân đoạn dữ liệu với khái niệm định vị dữ liệu 12 • Phân đoạn dữ liệu, bao gồm những công việc mà người lập trình ứng dụng làm việc với quan hệ tổng thể, phân chia quan hệ tổng thể thành các đoạn Thông qua tính trong. .. hiện tối ưu hóa truy vấn tĩnh, đầu vào là một cây đại số quan hệ do phân tích một truy vấn SQL, đầu ra là sơ đồ thực hiện cây đại số quan hệ "tối ưu" Thuật toán tối ưu bao gồm hai bước chính: 34 - Dự đoán phương pháp truy nhập tới mỗi quan hệ đơn tốt nhất dựa trên một giả thiết chọn - Với mỗi quan hệ R, đánh giá thứ tự kết nối tốt nhất, trong đó R được truy nhập trước tiên sử dụng phương pháp truy. .. trung và nó phù hợp hơn trong cấu trúc phân quyền của nhiều tổ chức Kỹ thuật CSDL phân tán được mở rộng và phát triển từ kỹ thuật của CSDL truy n thống Trong 13 môi trường mới này, một số vấn đề kỹ thuật đòi hỏi các giải pháp khác, và một số giải pháp hoàn toàn mới Tính trong suốt phân tán cung cấp sự độc lập của các chương tr nh khỏi sự phân tán của CSDL Các mức trong suốt phân tán khác nhau có thể được... trong suốt phân tán khác nhau có thể được cung cấp bởi một hệ quản trị CSDL phân tán; Tại mỗi mức, tính trong suốt làm cho người lập trình ứng dụng không biết được sự phân tán dữ liệu 14 CHƢƠNG 2: CÁC NGUYÊN LÝ CHUNG CỦA TỐI ƢU HÓA TRUY VẤN PHÂN TÁN Các ngôn ngữ hỏi bậc cao như SQUARE, SEQUEL, SQL, cho phép viết nhiều câu truy vấn với sự quan tâm nhiều đến thời gian thực hiện, và thời gian thực hiện... câu truy vấn trước khi thực hiện Sự cải tiến như vậy thường gọi là "Sự tối ưu hoá", m c dù câu truy vấn được viết lại không cần tối ưu trên tất cả các cách cài đ t câu truy vấn có thể Chương này sẽ trình bày một số phương pháp tối ưu hóa các biểu thức quan hệ, đ c biệt là xử lý biểu thức liên quan đến phép kết nối và tích Decartes, xem xét các kỹ thuật điển hình INGRES và System R 2.1 Các chiến lƣợc tối. .. câu truy vấn: "T m tên những cuốn sách và tên độc giả đã mượn sách trước ngày 13/10/2013" Đồ thị nối các quan hệ như sau: Hình 2.4: Đồ thị nối các quan hệ 2.3.2 Tách những câu truy vấn thành những câu truy vấn con Phương pháp này thực hiện việc tách một câu truy vấn phức tạp Q thành các câu truy vấn con Q1, Q2, , Qm mà giữa các câu truy vấn này có quan hệ ràng buộc với nhau Việc tách các câu truy vấn. .. thay thế của GTG sinh ra hai câu truy vấn con một biến: q131: SELECT KYSU.TENKS FROM KYSU WHERE KYSU.SHKS=“E1” q132: SELECT KYSU.TENKS FROM KYSU WHERE KYSU.SHKS=“E2” Truy vấn có thể xử lý bởi VOQP Sau đây là thuật toán tối ƣu hóa câu truy vấn của INGRES, gọi là INGRES-QOA Thuật toán: INGRES-QOA Input: MVQ: Truy vấn đa biến với n biến Output: output: Câu truy vấn tối ưu Begin 33 output if n=1 . nh tài nghiên c Tìm hiểu về tối ƣu hóa truy vấn trong cơ sở dữ liệu phân tán 2. Mục tiêu nghiên cứu. Nghiên cu lý thuyt CSDL phân tán, các k thut truy vn trong CSDL. Tng hp. tn phân tán qua mt trng hp nghiên cu. 3 CHƢƠNG 1: GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1. Khái niệm về cơ sở dữ liệu phân tán 1.1.1. Khái niệm C d liu phân tán [3]. không có mâu thun trong ni dung CSDL. 1.1.3. Những ưu nhược điểm của cơ sở dữ liệu phân tán Những ưu điểm của cơ sở dữ liệu phân tán Ln nht ca CSDL phân tán là d liu ca
Ngày đăng: 20/12/2014, 08:37
Xem thêm: tìm hiểu về tối ưu hóa truy vấn trong cơ sở dữ liệu phân tán, tìm hiểu về tối ưu hóa truy vấn trong cơ sở dữ liệu phân tán