Tối ưu hóa truy vấn cơ sở dữ liệu suy diễn

85 686 0
Tối ưu hóa truy vấn cơ sở dữ liệu suy diễn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM THỊ CHI LÊ TỐI ƢU HÓA TRUY VẤN SỞ DỮ LIỆU SUY DIỄN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2013 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM THỊ CHI LÊ TỐI ƢU HÓA TRUY VẤN SỞ DỮ LIỆU SUY DIỄN Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2013 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi cam đoan luận văn này là do bản thân tự nghiên cứu và thực hiện theo sự hƣớng dẫn khoa học của PGS.TS Đoàn Văn Ban. Tôi hoàn toàn chịu trách nhiệm về tính pháp lý quá trình nghiên cứu khoa học của luận văn này. Thái Nguyên, ngày tháng năm 2013 Ngƣời Cam Đoan Phạm Thị Chi Lê Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 1 LỜI CẢM ƠN Trƣớc tiên tôi bầy tỏ lời cảm ơn chân thành đến các Thầy, giáo đã giảng dạy, hƣớng dẫn và giúp đỡ tôi trong thời gian học tập và nghiên cứu hoàn thành luận văn này. Xin đƣợc bầy tỏ lòng biết ơn sâu sắc tới Thầy giáo PGS.TS Đoàn Văn Ban đã tận tình hƣớng dẫn, giúp đỡ và đóng góp cho tôi nhiều ý kiến quí báu để hoàn thành luận văn này. Xin chân thành cảm ơn các Thầy, giáo Trƣờng Đại học Công nghệ thông tin & truyền thông Thái Nguyên và Viện Công nghệ thông tin đã giảng dạy, giúp đỡ và tạo điều kiện thuận lợi cho tôi trong thời gian học tập tại Trƣờng. Tôi xin gửi lời cảm ơn đến các bạn đồng nghiệp và các bạn học viên lớp Cao học K10A khóa 2011 – 2013 đã giúp đỡ và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và làm luận văn. Cuối cùng, xin chân thành cảm ơn gia đình và bạn bè đã động viên, quan tâm, giúp đỡ tôi hoàn thành khóa học và luận văn. PHẦN MỞ ĐẦU sở dữ liệu (CSDL) là một trong những lĩnh vực đƣợc tập trung nghiên cứu và phát triển của công nghệ thông tin, nhằm giải quyết các bài toán quản lý, tìm kiếm thông tin trong những hệ thống lớn, đa dạng, phức tạp cho nhiều ngƣời sử dụng trên máy tính điện tử. Cùng với sự ứng dụng mạnh mẽ công nghệ thông tin vào đời sống xã hội, kinh tế, quốc phòng Việc nghiên cứu CSDL đã và đang phát triển ngày càng phong phú và hoàn thiện. Tuy nhiên CSDL kinh điển không khả năng suy dẫn ra sự kiện mới, khả năng tiềm ẩn không đƣợc khai thác hết nên từ những năm 1970-1980 một Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 trào lƣu sôi nổi muốn đƣa vào CSDL quan hệ những chế suy diễn, những tri thức tổng quát. CSDL suy diễn là một lĩnh vực khá mới mẻ, trong thời gian qua ngƣời ta đã tập trung nghiên cứu và cho nhiều kết quả thú vị cả lĩnh vực lý thuyết và ứng dụng. CSDL suy diễn khả năng sử dụng các tính năng của lập trình logic để thực hiện các suy diễn nhằm tạo ra thông tin mới dựa trên các luật suy diễndữ liệu đƣợc lƣu trữ trong sở dữ liệu. CSDL suy diễn, một sự mở rộng CSDL quan hệ, không những chỉ các nguyên tố nền tƣơng ứng với các bộ của các quan hệ trong CSDL quan hệ mà còn các quy tắc tổng quát (gồm các quy tắc suy diễn và các ràng buộc toàn vẹn). Những quy tắc này tạo thành phần mở rộng. So với các hệ CSDL quan hệ, các hệ CSDL suy diễn thừa nhận một kiểu lý thuyết chứng minh, nghĩa là nó đƣợc xem xét nhƣ một lý thuyết bao gồm một tập các công thức cấp một, còn việc thực hiện một câu truy vấn hoặc làm thoả mãn một ràng buộc toàn vẹn thể xem nhƣ chứng minh một công thức cấp một là hệ quả logic của lý thuyết đã cho. Sức mạnh biểu diễn của CSDL suy diễn là thật sự quan trọng trong nhiều lĩnh vực khác nhau. Các ứng dụng tiêu biểu của CSDL bao gồm hệ chuyên gia, hệ hỗ trợ quyết định, phân tích tài chính, phân tích ngôn ngữ, cú pháp Tuy vậy, trong lĩnh vực CSDL suy diễn, mặc đã nhiều kết quả giá trị nhƣng cũng nhiều vấn đề cần nghiên cứu tiếp, đặc biệt là các vấn đề về ngữ nghĩa của phủ định và tối ƣu hoá câu hỏi (truy vấn). Luận văn nghiên cứu các kỹ thuật tối ƣu câu truy vấn trên CSDL suy diễn. ba kiểu tiếp cận khác nhau trong việc định giá câu truy vấn: Các phƣơng pháp trên xuống, các phƣơng pháp dƣới lên và các phƣơng pháp sự kết hợp các đặc trƣng của phƣơng pháp trên xuống và dƣới lên. Các phƣơng pháp trên xuống (còn gọi là suy luận đích hoặc kết xâu lùi) điểm khởi đầu của việc tính toán là từ đích truy vấn và chúng sẽ không tính các sự kiện không thích Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3 hợp với câu truy vấn. Tuy nhiên quá trình tính toán thể kéo dài vô hạn. Các phƣơng pháp dƣới lên đảm bảo tính kết thúc trong quá trình tìm lời giải của câu truy vấn, nhƣng điều này không nghĩa là nó hiệu quả. Chúng thƣờng không định hƣớng đích, nhiều sự kiện không thích hợp với câu truy vấn cũng đƣợc tính. Các chiến lƣợc dƣới lên không xem xét câu truy vấn trong suốt quá trình định giá, tức là việc tính toán không đƣợc gắn liền với câu truy vấn nhƣ thƣờng xảy ra trong các phƣơng pháp trên xuống. Trong thời gian gần đây, một số phƣơng pháp mở rộng để trả lời câu truy vấn đƣợc đề xuất nhằm mục đích tạo ra một chiến lƣợc tìm kiếm hƣớng đích, đồng thời tính hiệu quả là đảm bảo kết thúc quá trình tính toán câu trả lời truy vấn. Điển hình đó là phép biến đổi ma tập (magic set transformation) và định giá bảng. Các phƣơng pháp này đƣợc đánh giá là một trong những kỹ thuật tối ƣu câu truy vấn hiệu quả trong CSDL suy diễn. Nó đã kết hợp đƣợc các ƣu điểm của kỹ thuật định giá theo kiểu trên xuống và dƣới lên, do đó giảm thiểu đƣợc số các sự kiện cần tính và tìm kiếm trên CSDL. Ý tƣởng chính của phép biến đổi ma tập là mô phỏng sự lan truyền các trị ràng buộc đƣợc tạo ra trong phƣơng pháp định giá câu truy vấn theo kiểu trên xuống. Sự lan truyền này nhận đƣợc bằng cách viết lại chƣơng trình gốc ban đầu. Trong mỗi quy tắc gốc một điều kiện mới đƣợc thêm vào để hạn chế việc tính toán trên quy tắc. Các điều kiện này đƣợc xem là các quan hệ lọc. Một quy tắc mới đƣợc tạo ra để mô phỏng sự lan truyền các trị ràng buộc. Luận văn gồm phần mở đầu, ba chƣơng nội dung, phần kết luận, tài liệu tham khảo và phần phụ lục. Chƣơng 1: Trình bày khái quát về sở dữ liệu suy diễn và ngữ nghĩa chƣơng trình logic. Chƣơng 2: Trình bày các phƣơng pháp tối ƣu câu truy vấn trong sở dữ liệu suy diễn. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4 Chƣơng 3: Cài đặt chƣơng tr . Phần phụ lục giới thiệu về Swi-Prolog và hƣớng dẫn cách thức làm việc với Swi-Prolog. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 CHƢƠNG 1. SỞ DỮ LIỆU SUY DIỄN VÀ NGỮ NGHĨA CHƢƠNG TRÌNH LOGIC Chương 1 trình bày kiến thức bản về sở dữ liệu suy diễn với các khái niệm, cấu trúc, mô hình, mục đích, chức năng bản của sở dữ liệu suy diễn và giới thiệu một số hệ quản trị sở dữ liệu suy diễn như hệ LDL, hệ Anditi, hệ Coral; giới thiệu về chương trình logic với các khái niệm bản như logic vị từ, hạng thức, công thức đóng, bộ kí tự và ngữ nghĩa của chương trình logic; cuối chương giới thiêu về sở dữ liệu Horn với các khái niệm, định lý, hệ quả, ngữ nghĩa của sở dữ liệu Horn và các ví dụ để minh chứng cho phần lý thuyết. 1.1 Giới thiệu về sở dữ liệu suy diễn Tính từ thời điểm xuất hiện các hệ quản trị sở dữ liệu đầu tiên (khoảng những năm 1960) đến nay, công nghệ CSDL đã tiến triển nhanh chóng, và đã thu đƣợc rất nhiều thành tựu trong các lĩnh vực ứng dụng khác nhau của công nghệ thông tin. Một đặc điểm chung của các hệ CSDL là khả năng quản lí những khối lƣợng lớn dữ liệu, tuy nhiên thƣờng chỉ thực hiện các thao tác đơn giản để xử lí dữ liệu. Vì vậy, việc nghiên cứu sở dữ liệu suy diễn đƣợc đặt ra nhƣ một yêu cầu thiết thực. Mặt khác, song song với sự phát triển của các hệ quản trị CSDL, các hệ chuyên gia đã đƣợc phát triển để trợ giúp quá trình ra quyết định trong các lĩnh vực chuyên ngành hẹp. Đặc điểm chính của các hệ chuyên gia là cung cấp khả năng suy luận nhằm hỗ trợ việc ra quyết định, nhƣng chúng thƣờng không khả năng quản lí các khối lƣợng lớn thông tin. Từ các yếu tố trên, các hệ CSDL suy diễn đã đƣợc đề xuất, xem nhƣ một giải pháp khắc phục những hạn chế của các hệ CSDL truyền thống bằng cách Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 6 phối hợp, theo một cách nào đó, các đặc trƣng nổi trội đƣợc cung cấp bởi các hệ chuyên gia. Do đó, các hệ CSDL suy diễn thể đƣợc xem là một tích hợp của dữ liệu (nhƣ trong một hệ quản trị CSDL) và tri thức (nhƣ trong một hệ chuyên gia). Hình trên đây minh hoạ sự tiến triển song song của các hệ CSDL và các hệ chuyên gia. Khái niệm về CSDL suy diễn cũng đƣợc nhiều nhà nghiên cứu đề cập theo hƣớng phát triển các kết quả mà Green đã đạt đƣợc vào năm 1969 về các hệ thống hỏi – đáp. Xuất phát từ quan điểm lý thuyết, các CSDL suy diễn thể khả năng quản lí các khối lƣợng lớn dữ liệu các khả năng suy luận - Dữ liệu ngoại diên: các sự kiện - Tính toàn vẹn, khôi phục, tối ƣu hoá câu hỏi - Đƣợc bảo trì bởi những nhà quản trị - Tri thức nội hàm: các luật - Biểu diễn tri thức - Đƣợc bảo trì bởi các chuyên gia Cần những khả năng suy luận bên trong sở dữ liệu Cần một hệ thống hoàn thiện để quản lí các khối lƣợng lớn thông tin Các hệ CSDL Các hệ chuyên gia sở dữ liệu suy diễn Hình 1.1. Sự tiến triển song song của các hệ CSDL và các hệ chuyên gia Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 đƣợc coi nhƣ các chƣơng trình logic với sự khái quát hoá khái niệm về CSDL quan hệ. Đó là cách tiếp cận của Brodie và Manola vào năm 1989, của Codd vào năm 1970, của Date vào năm 1986, của Gardarin và Valdurier vào năm 1989 và của Ullman vào năm 1984 [2]. Nhƣ vậy, CSDL suy diễn thể đƣợc coi nhƣ các chƣơng trình logic với sự khái quát hóa khái niệm về CSDL quan hệ bằng cách hỗ trợ các khung nhìn đệ qui và dữ liệu không nguyên tử. Điều này làm cho viêc lập trình CSDL dễ hơn nhiều đối với các ứng dụng. 1.1.1 sở dữ liệu suy diễn (CSDLSD) là gì CSDL truyền thống không suy diễn các sự kiện mới, ví dụ không thể suy ra đƣợc là Vân là cha của ai nếu dựa vào quan hệ parent(X, Y). sở dữ liệu suy diễn sở dữ liệu (CSDL) khả năng suy diễn ra một số sự kiện mới từ những sự kiện, các luật đƣợc lƣu trữ trong CSDL. Mô hình sở dữ liệu suy diễn (CSDLSD) là sự tích hợp của mô hình sở dữ liệu và lập trình logic. sở lý thuyết của mô hình sở dữ liệu suy diễn là logic vị (tân) từ cấp một: lƣu trữ, tìm kiếm, suy luận và điều khiển thực thi chƣơng trình ứng dụng [1], [20]. Lập trình logic thế mạnh là khả năng biểu diễn tri thức và thể hiện đƣợc ràng buộc toàn vẹn thông tin. CSDLSD là một sự kết hợp giữa trí tuệ nhân tạo (AI) và CSDL. sở dữ liệu khả năng quản trị dữ liệu, bảo mật dữ liệu. sở dữ liệu suy diễn khả năng sử dụng các tính năng của lập trình logic để thực hiện các suy diễn nhằm tạo ra thông tin mới dựa trên các luật suy diễndữ liệu đƣợc lƣu trữ trong sở dữ liệu. Cấu trúc của một CSDL suy diễn Một CSDL suy diễn là một bộ gồm ba tập hữu hạn: [...]... quan về lý thuyết cơ sở dữ liệu suy diễn, chƣơng trình logic và ngữ nghĩa của chúng Để hiểu rõ hơn những khái niệm lý thuyết sở trong chƣơng này ta sẽ tìm hiểu việc áp dụng thực hiện chúng trong các thuật toán đƣợc trình bầy ở chƣơng 2 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 27 CHƢƠNG 2 CÁC PHƢƠNG PHÁP TỐI ƢU CÂU TRUY VẤN TRONG SỞ DỮ LIỆU SUY DIỄN Từ lý thuyết sở được nghiên... Đặc Trưng của sở dữ liệu suy diễn Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 Một CSDL suy diễn là một CSDL khả năng suy diễn ra một số dữ kiện mới từ những sự kiện đƣợc lƣu trữ trong CSDL Cụ thể hơn, nó cung cấp, ở mức ngôn ngữ thao tác dữ liệu, một chế suy diễn mạnh hơn của đại số quan hệ, đặc biệt cho phép chỉ định rõ cách xử lí đệ quy Mặt khác, một CSDL suy diễn phải có... quản trị CSDL suy diễn phải cung cấp một hệ xử lý câu truy vấn, khả năng trả lời các câu truy vấn được phát biểu theo các khung nhìn cũng như theo các tân từ sở của một CSDL suy diễn Một thủ tục định giá câu truy vấn sẽ tìm câu trả lời phù hợp với ngữ nghĩa của CSDL ba phương pháp tiếp cận khác nhau để định giá câu truy vấn trong CSDL suy diễn: Phương pháp định giá câu truy vấn trên/xuống,... tân từ sở (ngoại diên) và các tân từ dẫn xuất (còn gọi là nội hàm hay khung nhìn) Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 9 Một tân từ sở xuất hiện trong EDB và thể xuất hiện trong thân các luật suy diễn hay các rằng buộc toàn vẹn Một tân từ dẫn xuất chỉ xuất hiện trong IDB và đƣợc định nghĩa nhờ vào một (hoặc một số) luật suy diễn nào đó Mô hình CSDL suy diễn Mô hình dữ liệu. .. hệ giữa các đối tƣợng và để suy diễn ra quan hệ mới từ những quan hệ đƣợc xem là đúng 1.1.2 Mục đích và đặc trƣng bản của CSDLSD  Mục đích chính của CSDLSD Mở rộng ngôn ngữ CSDL theo cách tiếp cận logic để hỗ trợ cho truy vấn, lập luận và lập trình dựa vào các luật suy diễn [1]  Mở rộng CSDL quan hệ để hỗ trợ suy diễn đệ qui để xử lý hiệu quả (truy vấn đệ qui) các dữ liệu thƣờng trực trên đĩa ... đổi ma tập đƣợc đánh giá là một trong những kỹ thuật tối ƣu câu truy vấn rất hiệu quả trong sở dữ liệu suy diễn Lý do quan trọng đối với sự thành công của kỹ thuật này là sự kết hợp đƣợc các ƣu điểm của kỹ thuật ƣớc lƣợng trên xuống (top-down) và dƣới lên (bottom-up), từ đó giảm thiểu đƣợc số các sự kiện cần tính và tìm kiếm trên cơ sở dữ liệu Tính lôi cuốn của kỹ thuật ma tập đƣợc thể hiện ở... giá câu truy vấn dưới/lên và đặc biệt là phương pháp định giá câu truy vấn sự kết hợp của hai phương pháp trên/xuống và dưới/lên Ta sẽ lần lượt tìm hiểu để thấy rõ được ưu điểm và nhược điểm của từng phương pháp trong chương này 2.1 Phương pháp định giá câu truy vấn dưới/lên (bottom-up) Phƣơng pháp định giá câu truy vấn dƣới/lên (bottom-up) còn đƣợc gọi là kết xâu tiến (forward-chaining) Phép suy luận... câu truy vấn trên/xuống (top-down) Phƣơng pháp định giá câu truy vấn trên/xuống (top-down) còn gọi là suy luận từ đích hoặc kết xâu lùi (backward-chaining) Xuất phát từ đích truy vấn, ta sẽ xem xét tất cả các cách thức thể dẫn tới đích [1], [17] Các bƣớc chính thực hiện việc đính giá phƣơng pháp trên xuống nhƣ sau: 1 Khởi đầu từ đích truy vấn Q và chƣơng trình Logic P 2 Chọn một đích Ai từ đích truy. .. một CSDL suy diễn phải tất cả những chức năng của một hệ quản trị CSDL truy n thống, chẳng hạn nhƣ cho phép nhiều ngƣời dùng truy cập đồng thời tới dữ liệu, cho phép dữ liệu phân bố trên nhiều trạm khác nhau (trƣờng hợp CSDL phân tán), đảm bảo tính tin cậy, nhất quán và sự an toàn của dữ liệu, Sự phát triển của các hệ CSDL suy diễn là sự đơm hoa kết trái của sự tích hợp các hệ CSDL và lập trình logic... và ngữ nghĩa thủ tục là tƣơng đƣơng với nhau Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 26 1.5 Kết thúc chương Những khái niệm về cơ sở dữ liệu suy diễn, khái niện về chƣơng trình logic và CSDL Horn cùng mô hình, cấu trúc, ngữ nghĩa, các định lý, các hệ quả với các ví dụ …v.v đã đƣợc trình bày, là những kiến thức sở cần thiết làm nền tảng cho việc mở rộng nghiên cứu các thuật toán và . Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 CHƢƠNG 1. CƠ SỞ DỮ LIỆU SUY DIỄN VÀ NGỮ NGHĨA CHƢƠNG TRÌNH LOGIC Chương 1 trình bày kiến thức cơ bản về cơ sở dữ liệu suy diễn. Cơ sở dữ liệu suy diễn (CSDLSD) là gì CSDL truy n thống không suy diễn các sự kiện mới, ví dụ không thể suy ra đƣợc là Vân là cha của ai nếu dựa vào quan hệ parent(X, Y). Cơ sở dữ liệu suy. thiêu về cơ sở dữ liệu Horn với các khái niệm, định lý, hệ quả, ngữ nghĩa của cơ sở dữ liệu Horn và các ví dụ để minh chứng cho phần lý thuyết. 1.1 Giới thiệu về cơ sở dữ liệu suy diễn Tính

Ngày đăng: 10/06/2014, 21:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan