Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu người thiết kế

128 177 0
Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu người thiết kế

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN MS: ………………………. VÕ SỸ NAM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. HUỲNH QUYẾT THẮNG HÀ NỘI - 2006 Mục lục Danh mục từ viết tắt, thuật ngữ Error! Bookmark not defined. Danh mục bảng biểu Error! Bookmark not defined. Danh mục hình vẽ Error! Bookmark not defined. Mở đầu Error! Bookmark not defined. 1. Giới thiệu chung Error! Bookmark not defined. 2. Nội dung luận văn Error! Bookmark not defined. Chương 1 Đối sánh lược đồ Error! Bookmark not defined. 1.1 Tổng quan về đối sánh lược đồ Error! Bookmark not defined. 1.1.1 Các khái niệm cơ bản về đối sánh lược đồ Error! Bookmark not defined. 1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ Error! Bookmark not defined. 1.2 Các tiếp cận đối sánh lược đồ Error! Bookmark not defined. 1.2.1 Phân loại các tiếp cận đối sánh lược đồ Error! Bookmark not defined. 1.2.2 Các tiếp cận đối sánh lược đồ Error! Bookmark not defined. 1.2.3 Các phương pháp đối sánh lược đồ Error! Bookmark not defined. 1.3 Các hệ thống đối sánh lược đồ XML Error! Bookmark not defined. 1.3.1 Cupid (trung tâm nghiên cứu Microsoft) Error! Bookmark not defined. 1.3.2 Similarity Flooding (Đại học Stanford và đại học Leipzig) Error! Bookmark not defined. 1.3.3 LSD (Đại học Washington) Error! Bookmark not defined. 1.3.4 Clio (IBM Almaden và đại học Toronto) Error! Bookmark not defined. 1.3.5 Một số hệ thống đối sánh lược đồ khác Error! Bookmark not defined. 1.4 Kết chương Error! Bookmark not defined. Chương 2 Các định nghĩa hình thức Error! Bookmark not defined. 2.1 Vấn đề đối sánh lược đồ XML Error! Bookmark not defined. 2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp Error! Bookmark not defined. 2.1.2 Thông tin đầu vào của tiến trình đối sánh Error! Bookmark not defined. 2.1.3 Thông tin đầu ra của tiến trình đối sánh Error! Bookmark not defined. 2.1.4 Các định nghĩa hình thức Error! Bookmark not defined. 2.2 Mô hình hóa lược đồ XML Error! Bookmark not defined. 2.2.1 Các nút đồ thị lược đồ Error! Bookmark not defined. 2.2.2 Các cạnh đồ thị lược đồ Error! Bookmark not defined. 2.2.3 Các ràng buộc đồ thị lược đồ Error! Bookmark not defined. 2.2.4 Các định nghĩa hình thức Error! Bookmark not defined. 2.3 Ánh xạ nguồn–đích Error! Bookmark not defined. 2.4 Kết chương Error! Bookmark not defined. Chương 3 Đối sánh tự động lược đồ XML Error! Bookmark not defined. 3.1 Tổng quan về đối sánh tự động lược đồ XML Error! Bookmark not defined. 3.2 Đo độ tương đồng ngôn ngữ Error! Bookmark not defined. 3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ Error! Bookmark not defined. 3.2.2 Thuật toán của Hirst và St-Onge Error! Bookmark not defined. 3.2.3 Giải pháp của hệ thống Cupid Error! Bookmark not defined. 3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu người thiết kế Error! Bookmark not defined. 3.3.1 Xét tính tương thích kiểu dữ liệu lược đồ XML Error! Bookmark not defined. 3.3.2 Phân tích phân cấp kiểu người thiết kế Error! Bookmark not defined. 3.4 Đo độ tương đồng cấu trúc Error! Bookmark not defined. 3.4.1 Định nghĩa ngữ cảnh nút Error! Bookmark not defined. 3.4.2 Đo độ tương tự đường dẫn Error! Bookmark not defined. 3.4.3 Đo độ tương đồng ngữ cảnh nút Error! Bookmark not defined. 3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử Error! Bookmark not defined. 3.5.1 Đo độ tương đồng nút Error! Bookmark not defined. 3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh Error! Bookmark not defined. 3.6 Đánh giá tiến trình đối sánh lược đồ XML Error! Bookmark not defined. 3.6.1 Các phương pháp đánh giá Error! Bookmark not defined. 3.6.2 Đánh giá giải pháp Error! Bookmark not defined. 3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc Error! Bookmark not defined. 3.7.1 Tổng quan về tài liệu có cấu trúc Error! Bookmark not defined. 3.7.2 Chuyển đổi tự động tài liệu có cấu trúc Error! Bookmark not defined. 3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML Error! Bookmark not defined. 3.8 Kết chương Error! Bookmark not defined. Kết luận và hướng phát triển Error! Bookmark not defined. 1. Đóng góp chính của luận văn Error! Bookmark not defined. 2. Hướng phát triển Error! Bookmark not defined. Danh mục tài liệu tham khảo Error! Bookmark not defined. Phụ lục Error! Bookmark not defined. Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML Error! Bookmark not defined. Phụ lục B: Lược đồ XML Error! Bookmark not defined. Phụ lục C: Thuật toán của Hirst và St-Onge Error! Bookmark not defined. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC ®èi s¸nh tù ®éng l−îc ®å XML NGÀNH: CÔNG NGHỆ THÔNG TIN MS: ………………………. VÕ SỸ NAM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. HUỲNH QUYẾT THẮNG HÀ NỘI - 2006 i Đối sánh tự động lược đồ XML Luận văn cao học – ngành công nghệ thông tin Lời cảm ơn Luận văn này đánh dấu kết thúc hai năm cao học tại trường đại học Bách Khoa Hà Nội. Trong quãng thời gian tuy chưa dài nhưng cũng không phải là ngắn đó, tôi đã trưởng thành rất nhiều về kiến thức cũng như khả năng nghiên cứu. Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo – TS. Huỳnh Quyết Thắng, người đã hướng dẫn, giúp đỡ tôi hết sức tận tình trong quá trình thực hiện luận văn tốt nghiệp. Thầy là người đã cung cấp ý tưởng, tài liệu ban đầu về đề tài, các hướng dẫn quan trọng trong suốt quá trình thực hiện luận văn, dành thời gian đọc và sửa chữa báo cáo cũng như có những góp ý rất quan trọng cho tôi trong suốt quá trình hoàn thiện luận văn này. Tôi xin cám ơn thư viện trường EPFL, Thụy Sỹ đã cung cấp cho tôi một số tài liệu tham khảo bổ ích, xin cảm ơn các nhóm sinh viên K48 khoa Công nghệ thông tin, trường đại học Bách Khoa Hà Nội đã tận tình làm việc cùng tôi và góp nhiều công sức trong quá trình cài đặt thử nghiệm chương trình. Tôi xin gửi lời cám ơn sâu sắc tới các thầy giáo, cô giáo của trường đại học Bách Khoa Hà Nội, khoa Công nghệ thông tin đã tận tình giảng dạy, trang bị kiến thức cho chúng tôi, xin gửi lời cám ơn bộ môn Kỹ thuật hệ thống, khoa Công nghệ thông tin, trường đại học Xây dựng Hà Nội đã hết sức tạo điều kiện về thời gian cho tôi hoàn thành luận văn này. Tôi cũng xin gửi lời cám ơn tới các bạn của tôi, những người đã chia sẻ với tôi nhiệt huyết và niềm say mê học tập & nghiên cứu khoa học, chia sẻ với tôi kiến thức và phương pháp tìm hiểu vấn đề, cung cấp cho tôi các tài liệu thiết thực cũng như những ý tưởng bổ sung cho luận văn, góp phần giúp tôi thực hiện luận văn này trong sự cố gắng và nỗ lực cao nhất. Cuối cùng nhưng cũng là điều quan trọng nhất, cho tôi gửi lời cảm ơn sâu sắc tới bố, mẹ, em trai và những người thân của tôi, những người đã giúp đỡ tôi rất nhiều cả về vật chất lẫn tinh thần trong suốt quá trình học tập và công tác, động viên tôi trong những lúc khó khăn cũng như chia sẻ niềm vui với tôi những lúc thành công. Một lần nữa tôi xin chân thành cám ơn tất cả./. ii Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin Hà Nội, tháng 11 năm 2006 Võ Sỹ Nam Mục lục Danh mục từ viết tắt, thuật ngữ iv Danh mục bảng biểu iv Danh mục hình vẽ v Mở đầu 1 1. Giới thiệu chung 1 2. Nội dung luận văn 3 Chương 1 Đối sánh lược đồ 7 1.1 Tổng quan về đối sánh lược đồ 8 1.1.1 Các khái niệm cơ bản về đối sánh lược đồ 8 1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ 9 1.2 Các tiếp cận đối sánh lược đồ 15 1.2.1 Phân loại các tiếp cận đối sánh lược đồ 15 1.2.2 Các tiếp cận đối sánh lược đồ 16 1.2.3 Các phương pháp đối sánh lược đồ 19 1.3 Các hệ thống đối sánh lược đồ XML 21 1.3.1 Cupid (trung tâm nghiên cứu Microsoft) 22 1.3.2 Similarity Flooding (đại học Stanford và đại học Leipzig) 24 1.3.3 LSD (đại học Washington) 26 1.3.4 Clio (IBM Almaden và đại học Toronto) 27 1.3.5 Một số hệ thống đối sánh lược đồ khác 28 1.4 Kết chương 29 Chương 2 Các định nghĩa hình thức 31 2.1 Vấn đề đối sánh lược đồ XML 32 2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp 32 2.1.2 Thông tin đầu vào của tiến trình đối sánh 34 2.1.3 Thông tin đầu ra của tiến trình đối sánh 36 2.1.4 Các định nghĩa hình thức 37 iii Đối sánh tự động lược đồ XML Luận văn cao học – ngành công nghệ thông tin 2.2 Mô hình hóa lược đồ XML 38 2.2.1 Các nút đồ thị lược đồ 39 2.2.2 Các cạnh đồ thị lược đồ 39 2.2.3 Các ràng buộc đồ thị lược đồ 40 2.2.4 Các định nghĩa hình thức 42 2.3 Ánh xạ nguồn–đích 45 2.4 Kết chương 48 Chương 3 Đối sánh tự động lược đồ XML 50 3.1 Tổng quan về đối sánh tự động lược đồ XML 51 3.2 Đo độ tương đồng ngôn ngữ 52 3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ 53 3.2.2 Thuật toán của Hirst và St-Onge 53 3.2.3 Giải pháp của hệ thống Cupid 56 3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu người thiết kế 57 3.3.1 Xét tính tương thích kiểu dữ liệu lược đồ XML 57 3.3.2 Phân tích phân cấp kiểu người thiết kế 59 3.4 Đo độ tương đồng cấu trúc 60 3.4.1 Định nghĩa ngữ cảnh nút 60 3.4.2 Đo độ tương tự đường dẫn 61 3.4.3 Đo độ tương đồng ngữ cảnh nút 67 3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử 70 3.5.1 Đo độ tương đồng nút 70 3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh 72 3.6 Đánh giá tiến trình đối sánh lược đồ XML 73 3.6.1 Các phương pháp đánh giá 73 3.6.2 Đánh giá giải pháp 75 3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc 77 3.7.1 Tổng quan về tài liệu có cấu trúc 78 3.7.2 Chuyển đổi tự động tài liệu có cấu trúc 81 3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML 83 3.8 Kết chương 85 Kết luận và hướng phát triển 87 1. Đóng góp chính của luận văn 87 iv Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 2. Hướng phát triển 90 Danh mục tài liệu tham khảo 93 Phụ lục 95 Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML 96 Phụ lục B: Lược đồ XML 106 Phụ lục C: Thuật toán của Hirst và St-Onge 109 Danh mục từ viết tắt, thuật ngữ Từ viết tắt/ thuật ngữ Giải nghĩa Ghi chú CSDL Cơ sở dữ liệu TTNT Trí tuệ nhân tạo XML eXtended Markup Language DTD Document Type Definition XSD XML Schema Definition SGML Standard Generalized Markup Language LCS Longest Common Subsequence Danh mục bảng biểu Bảng 3. 1 Đặc điểm các lược đồ thử nghiệm 70 [...]... hạn như lược đồ quan Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 10 Chương 1: Đối sánh lược đồ hệ, lược đồ hướng đối tượng, DTD, lược đồ XML, v.v ) hoặc những ứng dụng mà các lược đồ chúng khai thác là không đồng nhất Đối sánh lược đồ cho phép thao tác trên các lược đồ, dịch dữ liệu và trả lời truy vấn qua các lược đồ không đồng nhất Nhiều ứng dụng khác nhau dựa trên đối sánh lược đồ đã xuất... pháp kết hợp hai tiếp cận trên để tích hợp các nguồn dữ liệu không đồng nhất [20] 1.1.2.3 Kho dữ liệu Một biến thể của vấn đề tích hợp dữ liệu là tập hợp các nguồn dữ liệu tích hợp vào một kho tập trung, gọi là kho dữ liệu Quá trình này đòi hỏi phải chuyển đổi dữ liệu từ định dạng nguồn thành định dạng kho dữ liệu, do đó có thể sử dụng đối sánh lược đồ để thực hiện các chuyển đổi này Với một nguồn dữ liệu. .. nguồn dữ liệu thành thể hiện của một lược đồ đích mà phản ánh dữ liệu nguồn chính xác đến mức có thể Tuy vấn đề trao đổi dữ liệu có một số điểm tương đồng với vấn đề tích hợp dữ liệu, vẫn có một số khác biệt quan trọng giữa hai vấn đề này Trong kịch bản chuyển đổi dữ liệu, lược đồ đích nhìn chung được tạo ra độc lập và có các ràng buộc của bản thân nó Còn trong tích hợp dữ liệu lược đồ tổng thể là một lược. .. ràng buộc phần tử và phân cấp cấu trúc Hệ thống Cupid [11] và Similarity Flooding [12] sử dụng các luật tính toán độ tương đồng giữa hai lược đồ như là tổng có trọng số của các độ tương đồng tên phần tử, kiểu dữ liệu và vị trí cấu trúc 1.2.2.3 Tiếp cận dựa trên siêu dữ liệu Một tiếp cận khác cho vấn đề đối sánh lược đồ là tiếp cận dựa trên siêu dữ liệu Các tiếp cận dựa trên siêu dữ liệu khai thác thêm... trong các lĩnh vực này 1.1.2.1 Tích hợp lược đồ Hầu hết các nghiên cứu về đối sánh lược đồ ban đầu là nhằm giải quyết vấn đề tích hợp lược đồ, là vấn đề hợp nhất các lược đồ tự trị và không đồng nhất thành một lược đồ tổng thể, gọi là lược đồ trung gian Vấn đề tích hợp lược đồ là một mối quan tâm chính trong hai thập kỷ qua trong lĩnh vực CSDL [17] Do các lược đồ là tự trị và được phát triển độc lập,... buộc lược đồ bao gồm kiểu dữ liệu, phạm vi giá trị, các ràng buộc đơn nhất và toàn vẹn, v.v Như ta biết, các khuyến nghị lược đồ thường cung cấp một tập các kiểu dữ liệu nguyên gốc, do vậy việc phân tích các kiểu dữ liệu này có thể cung cấp cho ta các ứng viên đối sánh Một ví dụ về hệ thống sử dụng tính tương thích kiểu dữ liệu là Cupid [11] Việc so sánh phạm vi giá trị số và/ hoặc mẫu ký tự cũng có... cảnh tương đồng Việc tính toán độ tương đồng cấu trúc có một sự đệ quy lẫn nhau: hai phần tử là tương đồng nếu các tập lá tương ứng của chúng là tương đồng, và sự tương đồng của các lá lại bị tác động bởi độ tương đồng của các nút trung gian Pha này kết thúc bằng việc tính toán trung bình có trọng số của độ tương đồng ngôn ngữ và cấu trúc * Pha thứ ba sẽ đưa ra ánh xạ cuối cùng giữa các phần tử lược đồ. .. độ tương đồng ngôn ngữ: sử dụng thuật toán của Hirst và StOnge để tính toán khoảng cách ngữ nghĩa dựa trên WordNet [7] Thuật toán này được thay Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 5 Mở đầu đổi để đưa ra hệ số tương đồng cũng như các quan hệ ngữ nghĩa (tương đương, rộng hơn, hẹp hơn, v.v ) + Xét tính tương thích kiểu dữ liệu: dựa trên việc phân tích các kiểu dữ liệu lược đồ XML để suy... động hóa tiến trình đối sánh lược đồ Tuy nhiên đây là một vấn đề khó và phức tạp do một số lý do cơ bản sau: [21] - Các phần tử lược đồ được đối sánh trên cơ sở ngữ nghĩa của chúng Ngữ nghĩa có thể được thể hiện từ một số nguồn thông tin như người thiết kế, tài liệu, lược đồ và thể hiện dữ liệu Thực tế cho thấy người thiết kế rất khó để nhớ được tất cả chi tiết lược đồ và tài liệu hiện có thì thường không... mô hình dữ liệu trừu tượng, còn gọi là các lược đồ (chẳng hạn như lược đồ quan hệ, lược đồ hướng đối tượng và gần đây là lược đồ XML) Trong những năm gần đây, sự phát triển mạnh mẽ của các nguồn dữ liệu Web với rất nhiều mô hình thông tin và cú pháp mã hóa khác nhau đã dẫn đến nhu cầu ngày càng cấp thiết của việc phát triển các phương pháp và công cụ hỗ trợ cho việc trao đổi và sử dụng lại dữ liệu, do

Ngày đăng: 01/09/2015, 09:00

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan