Chuyển đổi cơ sở dữ liệu quan hệ sang dạng ontology

61 1K 6
Chuyển đổi cơ sở dữ liệu quan hệ sang dạng ontology

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG KHOA CƠNG NGHỆ THƠNG TIN LƯƠNG ĐÌNH NGUN CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU QUAN HỆ SANG DẠNG ONTOLOGY ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CƠNG NGHỆ THƠNG TIN NHA TRANG – NĂM 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG KHOA CƠNG NGHỆ THƠNG TIN LƯƠNG ĐÌNH NGUN CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU QUAN HỆ SANG DẠNG ONTOLOGY ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CƠNG NGHỆ THƠNG TIN CÁN BỘ HƯỚNG DẪN: TS PHẠM THỊ THU THÚY NHA TRANG – NĂM 2016 MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN 1.1 HẠN CHẾ CỦA CƠ SỞ DỮ LIỆU QUAN HỆ 1.2 SƠ LƯỢC VỀ ONTOLOGY 1.3 U CẦU ĐỀ TÀI CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 ONTOLOGY 2.1.1 Giới thiệu Ontology 2.1.2 Khung mơ tả tài ngun RDF (Resource Description Framework) 2.1.3 Lược đồ RDF (RDF Schema) 2.1.4 Ngơn ngữ biểu diễn Ontology OWL (Web Ontology Language) 2.1.5 Giới thiệu phần mềm Protégé 10 2.2 MỐI TƯƠNG QUAN GIỮA ONTOLOGY VÀ CƠ SỞ DỮ LIỆU QUAN HỆ 12 2.3 CÁC NGHIÊN CỨU LIÊN QUAN 13 2.4 PHƯƠNG PHÁP CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU QUAN HỆ SANG DẠNG ONTOLOGY 14 2.4.1 Bảng chuyển đổi kiểu liệu 14 2.4.2 Các quy tắc ánh xạ lớp thuộc tính 16 2.4.3 Các quy tắc ánh xạ ràng buộc thuộc tính 18 2.4.4 Các quy tắc ánh thể 21 CHƯƠNG 3: THỰC NGHIỆM 22 3.1 CƠ SỞ DỮ LIỆU MINH HỌA 22 3.2 THUẬT TỐN CHUYỂN ĐỔI VÀ MINH HỌA TRÊN CƠ SỞ DỮ LIỆU MẪU 25 3.2.1 Mơ tả sở liệu 25 3.2.2 Chuyển đổi sở liệu sang dạng Ontology 35 3.2.3 Đánh giá thuật tốn 39 3.3 CHƯƠNG TRÌNH RDB2OWL 39 3.3.1 Mơ tả chương trình 39 3.3.2 Mơi trường cài đặt 40 3.3.3 Giao diện chương trình 40 3.3.4 Hướng dẫn sử dụng chương trình 41 CHƯƠNG 4: KẾT LUẬN 47 4.1 KẾT QUẢ ĐẠT ĐƯỢC VÀ THẢO LUẬN 47 4.2 HƯỚNG PHÁT TRIỂN 48 TÀI LIỆU THAM KHẢO 49 PHỤ LỤC 50 DANH MỤC CÁC CHỮ VIẾT TẮT Các chữ viết tắt Cụm từ đầy đủ WWW World Wide Web RDBMS Relational Database Management System RDB Relational Database XML Extensible Markup Language XSD XML Schema Definition RDF Resource Description Framework RDFS RDF Schema OWL Web Ontology Language SQL Structured Query Language URI Uniform Resource Identifier CSDL Cơ sở liệu DANH MỤC CÁC BẢNG Bảng 2.1 Các lớp RDFS Bảng 2.2 Các thuộc tính RDFS (tất thể rdf:Property) Bảng 2.3 Ánh xạ kiểu liệu từ SQL sang XSD 15 Bảng 3.1 Phương pháp phân loại bảng SQL 26 Bảng 3.2 Thơng tin mơ tả bảng Attributes 27 Bảng 3.3 Thơng tin mơ tả bảng Attributes ứng với sở liệu mẫu NhaTrangUniversity 27 Bảng 3.4 Thơng tin mơ tả bảng ClassPriority 29 Bảng 3.5 Thơng tin mơ tả bảng ClassPriority ứng với sở liệu mẫu NhaTrangUniversity 29 Bảng 3.6 Thơng tin mơ tả bảng PkeyInheritance 30 10 Bảng 3.7 Thơng tin mơ tả bảng PkeyInheritance ứng với sở liệu mẫu NhaTrangUniversity 30 11 12 Bảng 3.8 Thơng tin mơ tả bảng MTRDB 311 Bảng 3.9 Thơng tin mơ tả bảng MTRDB ứng với sở liệu mẫu NhaTrangUniversity 322 DANH MỤC CÁC HÌNH Hình 2.1 Bộ ba RDF dạng đồ thị diễn tả cho phát biểu "Joe has homepage identified by URI http://www.example.org/~joe/" Hình 2.2 Bộ ba RDF dạng đồ thị diễn tả cho phát biểu "Joe has family name Smith" 6 Hình 2.3 Phần mềm Protégé 11 Hình 2.4 Phương pháp chuyển đổi CSDL quan hệ sang dạng Ontology 14 Hình 3.1 Cơ sở liệu NhaTrangUniversity 22 Hình 3.2 Sơ đồ tổng thể tốn chuyển đổi 25 Hình 3.3 Giao diện chương trình RDB2OWL 40 Hình 3.4 Giao diện chương trình RDB2OWL trạng thái ban đầu 42 Hình 3.5 Giao diện chương trình RDB2OWL sau bước 43 10 11 12 13 Hình 3.6 Giao diện chương trình RDB2OWL sau bước 44 Hình 3.7 Các tập tin mơ tả CSDL tạo sau bước 44 Hình 3.8 Giao diện chương trình RDB2OWL sau bước 45 Hình 3.9 Tập tin Ontology tạo sau bước 46 LỜI MỞ ĐẦU Từ đời đến nay, World Wide Web (WWW) trở thành cơng cụ quan trọng để lưu trữ chia sẻ nguồn tri thức khổng lồ nhân loại Phần lớn liệu WWW lưu trữ hệ quản trị sở liệu quan hệ (RDBMS) Việc tổ chức lưu trữ liệu hệ quản trị sở liệu quan hệ mang lại nhiều ưu điểm như: lưu trữ hiệu quả, thực thi truy vấn phức tạp, khả mở rộng, tính bảo mật cao Tuy nhiên, sở liệu quan hệ (RDB) thường tách biệt nhau, khơng đồng lược đồ, thuật ngữ, định danh Do đó, kỹ thuật RDF Ontology đời nhằm mục đích cung cấp tảng cho việc tích hợp tất nguồn liệu Như đề cập trên, phần lớn liệu WWW lưu trữ hệ quản trị sở liệu quan hệ Việc chuyển đổi liệu từ mơ hình quan hệ sang dạng Ontology giải pháp để tận dụng khai thác nguồn liệu khổng lồ có sẵn Việc chuyển đổi phải tự động với sở liệu quan hệ Và lý tơi chọn đề tài “Chuyển đổi sở liệu quan hệ sang dạng Ontology” làm đề tài cho đồ án tốt nghiệp Cũng đề tài này, tơi ứng dụng phương pháp chuyển đổi để cài đặt chương trình RDB2OWL – chuyển đổi tự động sở liệu quan hệ sang dạng Ontology (RDF/OWL) Kết chương trình chuyển đổi tự động sở liệu quan hệ sang dạng Ontology với phương pháp đề Tơi xin chân thành cảm ơn Phạm Thị Thu Thúy, Giảng viên mơn Hệ thống thơng tin, thuộc khoa Cơng nghệ thơng tin, trường Đại học Nha Trang, tận tình hướng dẫn để tơi hồn thành đề tài Dù cố gắng q trình thực đề tài khơng thể tránh khỏi sai sót Rất mong nhận góp ý thầy để giúp tơi có thêm kinh nghiệm hồn thiện đề tài CHƯƠNG 1: TỔNG QUAN 1.1 HẠN CHẾ CỦA CƠ SỞ DỮ LIỆU QUAN HỆ Khi đời, sở liệu khái niệm sử dụng phòng thí nghiệm dự án nghiên cứu đặc biệt Ngày nay, sở liệu thành phần rộng khắp ngành cơng nghệ thơng tin Đi kèm phát triển vũ bão cơng nghệ đời tiêu chuẩn cơng nghệ sở liệu Ngồi ra, số mơ hình sở liệu khác đời, bật mơ hình sở liệu quan hệ Thực tế mơ hình quan hệ mơ hình sử dụng phổ biến số mơ hình sở liệu ưu điểm: – Dễ dàng định nghĩa, bảo trì thao tác cấu trúc lưu trữ liệu – Dữ liệu bảo vệ tốt – Có tiêu chuẩn ban hành tổ chức tiêu chuẩn hóa ANSI (American National Standards Institute) ISO (International Organization for Standardization) – Có nhiều nhà cung cấp với nhiều sản phẩm đa dạng – Việc chuyển đổi triển khai nhà cấp thực tương đối dễ dàng – Các hệ quản trị sở liệu quan hệ sản phẩm phát triển lâu dài ổn định World Wide Web, mạng lưới thơng tin tồn cầu mà người truy nhập qua máy tính có kết nối Internet Web phát minh đưa vào sử dụng vào khoảng năm 1990, 1991 viện sĩ Viện Hàn lâm Anh Tim Berners-Lee Robert Cailliau (Bỉ) CERN, Geneva, Switzerland Phần lớn liệu WWW lưu trữ hệ quản trị sở liệu quan hệ Việc tổ chức lưu trữ liệu hệ quản trị sở liệu quan hệ mang lại nhiều ưu điểm nêu phần Tuy nhiên, sở liệu quan hệ thường tách biệt nhau, khơng đồng lược đồ, thuật ngữ, định danh Do đó, kỹ thuật RDF Ontology đời nhằm mục đích cung cấp tảng cho việc tích hợp tất nguồn liệu Việc chuyển đổi liệu từ mơ hình quan hệ sang dạng Ontology giải pháp để tận dụng khai thác nguồn liệu khổng lồ có sẵn 1.2 SƠ LƯỢC VỀ ONTOLOGY Ontology thuật ngữ mượn từ Triết học, tạm dịch “bản thể học”, nhằm khoa học mơ tả loại thực thể giới thực cách chúng liên kết với Trong khoa học máy tính, Ontology mơ hình liệu biểu diễn lĩnh vực, sử dụng để suy luận đối tượng mối quan hệ chúng lĩnh vực Cơng cụ quan trọng ontology biểu diễn tri thức 1.3 U CẦU ĐỀ TÀI Mục tiêu đề tài là: – Tiếp cận kiến thức Ontology, mối tương quan mơ hình sở liệu quan hệ Ontology – Tìm hiểu phương pháp chuyển đổi sở liệu quan hệ sang dạng Ontology đưa trước đó, hiệu chỉnh số quy tắc (nếu có) để hồn thiện thêm phương pháp chuyển đổi – Ứng dụng phương pháp chuyển đổi để tạo thuật tốn cài đặt chương trình RDB2OWL u cầu chương trình RDB2OWL chuyển đổi tự động sở liệu quan hệ sang dạng Ontology 40 liệu quan hệ Tập tin OWL tạo phải mở cơng cụ soạn thảo Ontology (Protégé) Để thực thi chương trình, máy tính cần có Microsoft Visual Studio 2012 Microsoft SQL Server 2012 3.3.2 Mơi trường cài đặt – Microsoft Visual Studio 2012 – Hệ quản trị sở liệu Microsoft SQL Server 2012 3.3.3 Giao diện chương trình Hình 3.3 Giao diện chương trình RDB2OWL Giao diện có nút, hiển thị danh sách tên sở liêu nhập chuỗi đường dẫn sở 41 nút giao diện gồm: – CONNECT DB: kết nối đến SQL Server – CREATE MTRDB: tạo tập tin mơ tả CSDL đầu vào – CREATE OWL FILE: thực việc chuyển đổi tạo tập tin OWL – OPEN OWL FILE: mở tập tin OWL tạo cơng cụ soạn thảo Protégé – RESET: xóa tập tin sau kết quay lại trạng thái ban đầu chương trình để người dùng bắt đầu với CSDL khác 3.3.4 Hướng dẫn sử dụng chương trình Bên thư mục bin thư mục chương trình RDB2OWL có chứa thư mục con: Debug, Interface, Release ServerSide – Thư mục Debug: chứa tập tin thực thi chương trình – Thư mục Interface: chứa hình giao diện chương trình – Thư mục Release: chứa tập tin tạo sau thực thi chương trình Các tập tin XML OWL tạo lưu thư mục – Thư mục ServerSide: chứa tập tin văn câu truy vấn CSDL chuỗi kết nối đến server Để thực thi chương trình, người dùng cần sửa lại chuỗi kết nối đến SQL Server tập tin connectionString.txt lưu thư mục ServerSide Sau sửa chuỗi kết nối đến SQL Server, người dùng tìm mở tập tin RDB2OWL.exe thư mục Debug để mở chương trình Ở trạng thái ban đầu, có nút CONNECT DB mở, lại bị khố, khơng thể nhấn 42 Hình 3.4 Giao diện chương trình RDB2OWL trạng thái ban đầu Thứ tự thực chương trình sau: Bước 1: Kết nối đến Server chọn CSDL Người dùng nhấn nút CONNECT DB để kết nối đến SQL Server máy tính Lúc này, CSDL có hệ quản trị CSDL hiển thị nút CREATE MTRDB mở Người dùng nhấn mũi tên xổ xuống để chọn CSDL muốn chuyển đổi nhập đường dẫn sở 43 Hình 3.5 Giao diện chương trình RDB2OWL sau bước Bước 2: Tạo tập tin mơ tả sở liệu Người dùng nhấn nút CREATE MTRDB để tạo mơ tả cho sở liệu Sẽ có tập tin XML tạo trog thư mực Release gồm: _Attributes.xml, _ClassPriority.xml, _PkeyInheritance.xml, _MTRDB.xml Mã nguồn tập tin minh họa phần phụ lục cuối báo cáo Sau tập tin XML tạo xong nút CREATE OWL FILE mở 44 Hình 3.6 Giao diện chương trình RDB2OWL sau bước 10 Hình 3.7 Các tập tin mơ tả CSDL tạo sau bước 11 45 Bước 3: Người dùng nhấn nút CREATE OWL FILE để chương trình thực việc tạo Ontology Sau nhấn CREATE OWL FILE, nút OPEN OWL FILE RESET mở, đồng thời tập tin Ontology.owl tạo thư mục Release Hình 3.8 Giao diện chương trình RDB2OWL sau bước 12 46 Hình 3.9 Tập tin Ontology tạo sau bước 13 Bước 4: Người dùng nhấn nút OPEN OWL FILE để khởi chạy tập tin Ontology.owl trình soạn thảo Protégé nhấn nút RESET để trở trạng thái ban đầu bắt đầu với CSDL khác 47 CHƯƠNG 4: KẾT LUẬN 4.1 KẾT QUẢ ĐẠT ĐƯỢC VÀ THẢO LUẬN Qua thời gian thực đồ án, tơi đạt số kết sau: – Tìm hiểu hồn thiện số quy tắc chuyển đổi sở liệu quan hệ sang dạng Ontology: So với phương pháp chuyển đổi tài liệu tham khảo, phương pháp tơi hồn thiện việc ánh xạ ràng buộc CHECK (dạng CHECK (attribute > 0), CHECK (attribute >= 0), CHECK (attribute < 0), CHECK (attribute 0), CHECK (attribute >= 0), CHECK (attribute < 0), CHECK (attribute [...]... thể hiện 14 2.4 PHƯƠNG PHÁP CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU QUAN HỆ SANG DẠNG ONTOLOGY Việc chuyển đổi dữ liệu từ dạng cơ sở dữ liệu quan hệ sang dạng Ontology được biểu diễn bằng các ngôn ngữ RDF và OWL Quá trình chuyển đổi bao gồm 2 bước: – Ánh xạ lược đồ: là bước trích xuất thông tin từ lược đồ cơ sở dữ liệu quan hệ, chuyển đổi chúng thành các khái niệm và tính chất trong Ontology Cụ thể là tạo ra các... kiểu dữ liệu (data property) từ các thuộc tính không phải khóa ngoại – Ánh xạ dữ liệu: là bước trích xuất dữ liệu trong cơ sở dữ liệu (các bản ghi) và tạo ra các thể hiện trong Ontology Quy tắc ánh xạ CSDL quan hệ 4 Ontology Hình 2.4 Phương pháp chuyển đổi CSDL quan hệ sang dạng Ontology 2.4.1 Bảng chuyển đổi kiểu dữ liệu OWL không có các kiểu dữ liệu được định nghĩa sẵn, mà nó sử dụng các kiểu dữ liệu. .. đồ tổng thể của bài toán chuyển đổi 6 – Đầu vào: cơ sở dữ liệu quan hệ – Đầu ra: dữ liệu dạng Ontology (tập tin *.owl) – Thuật toán gồm 2 bước: mô tả cơ sở dữ liệu và chuyển đổi CSDL sang dạng Ontology 3.2.1 Mô tả cơ sở dữ liệu Như đã trình bày trong mục 2.4.2, tôi phân các loại bảng trong CSDL thành 6 loại Phương pháp phân loại là xét số lượng các trường làm khóa, sự 26 tương quan giữa khóa chính và... LIÊN QUAN Việc trích xuất, biểu diễn và suy luận thông tin trong các cơ sở dữ liệu đòi hỏi sự chuyển đổi dữ liệu từ mô hình quan hệ sang mô hình ngữ nghĩa, và mô hình Ontology là một mô hình thích hợp đáp ứng được các yêu cầu này Hiện nay đã có nhiều phương pháp chuyển đổi cơ sở dữ liệu quan hệ sang dạng Ontology được đưa ra Lei Zhang và Jing Li [4] đã đề xuất một phương pháp xây dựng tự động Ontology. .. chúng trong cơ sở dữ liệu – RA là tập các thuộc tính trong cơ sở dữ liệu; bao gồm tên thuộc tính, kiểu dữ liệu và giá trị mặc định – RC là tập các ràng buộc trên thuộc tính trong cơ sở dữ liệu, bao gồm PRIMARY KEY, FOREIGN KEY, UNIQUE, NOT NULL, DEFAULT – RT là tập các bộ dữ liệu chứa trong cơ sở dữ liệu đó Một bộ dữ liệu biểu diễn thông tin của một đối tượng * Ontology (O): Cấu trúc của Ontology được... biên tập Ontology trên máy tính cá nhân, phiên bản mới nhất là 5.0 beta, tải về tại địa chỉ: http://protege.stanford.edu/products.php#desktop-protege 12 2.2 MỐI TƯƠNG QUAN GIỮA ONTOLOGY VÀ CƠ SỞ DỮ LIỆU QUAN HỆ * Cơ sở dữ liệu quan hệ (R): Cấu trúc của một cơ sở dữ liệu quan hệ được định nghĩa là bộ 4 thành phần như sau: R = Trong đó: – RS là tập các thực thể và mối quan hệ giữa chúng... trên thuộc tính, mục đích là để khi chuyển đổi, tôi có thể áp dụng hết các quy tắc đã trình bày ở phần 2.4 Tuy nhiên trong thực tế, không phải CSDL nào cũng có đầy đủ những yếu tố này, và thuật toán vẫn có thể áp dụng được cho những CSDL đó 3.2 THUẬT TOÁN CHUYỂN ĐỔI VÀ MINH HỌA TRÊN CƠ SỞ DỮ LIỆU MẪU THUẬT TOÁN ĐẦU VÀO Mô tả CSDL CSDL quan hệ Chuyển đổi CSDL sang dạng Ontology ĐẦU RA Tập tin *.owl Hình... sẽ được ánh xạ thành các thuộc tính kiểu dữ liệu có domain là lớp tương ứng của bảng chứa thuộc tính và range là kiểu dữ liệu tương ứng của chúng trong OWL 18 2.4.3 Các quy tắc ánh xạ ràng buộc trên thuộc tính Trong một cơ sở dữ liệu quan hệ, ràng buộc (constraint) là các qui tắc được áp đặt cho các cột dữ liệu trên các bảng Chúng được sử dụng để ràng buộc dữ liệu đầu vào của các bảng Ngôn ngữ SQL hỗ... 2.1.4 Ngôn ngữ biểu diễn Ontology OWL (Web Ontology Language) OWL (The Web Ontology Language) là một ngôn ngữ dùng để mô tả các hệ cơ sở tri thức, được viết theo cú pháp XML OWL là một ngôn ngữ đánh dấu dùng để xuất bản và chia sẻ dữ liệu trên Internet thông qua những mô hình dữ liệu gọi là ontology OWL là phần mở rộng về từ vựng của RDF và được kế thừa từ ngôn ngữ DAML+OIL Web Ontology OWL được xem... niệm trong ontology – A là tập các thuộc tính trong ontology – I là tập các thể hiện của lớp trong ontology – CD là tập các định nghĩa về các khái niệm trong ontology, nó định nghĩa sự phân cấp giữa các khái niệm – AD là tập các định nghĩa về thuộc tính trong ontology, nó định nghĩa giá trị của domain và range của thuộc tính 13 Như vậy, sự tương đồng giữa mô hình cơ sở dữ liệu quan hệ và Ontology thể

Ngày đăng: 28/11/2016, 15:54

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan