LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED

26 729 0
LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED

IJCNS tạp chí quốc tế về khoa học máy tính an ninh Network ,VOL Ngày 10 tháng 06 năm 2010 LẬP CHỈ MỤC TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED B.M.Monjurul Alom,Frans Henskens and Michael Hannaford Trường kỹ thuật máy tính.Khoa học đại học Newcastle,AUSTRALIA TÓM TẮT: Các dữ liệu đầy hứa hẹn tri phối hầu hết định dạng cho dữ liệu sử lý đại diện mạng internet là hình thức gọi dữ liệu XML semistructured,XML dữ liệu không lược đồ cố định ; có evolved thể tự mô tả mà kết quả quản lý khó khăn với ; ví dụ như dữ liệu quan hệ XML.Truy vấn khác nhau tại các truy vấn quan hệ trong đó các nguyên tắc thể hiện là những đường giẫn.Việc sử lý hiệu quả các mối quan hệ cấu trúc đã trở thành một yếu tố quan trọng trong prcessing . ít truy vấn XML , dó là một thách thức lớn cho cộng đồng sở dữ liệu để thiết kế các kỹ thuật sử lý truy vấn các phương pháp dữ liệu thể quảndữ liệu semistructured efficiently.Sự đóng góp của bài này là truy vấn dữ liệu bằng cách sử dụng semistructured bitmap để đại diện cho con đường giá trị mối quan hệ nén các bitmap để tiết kiệm không gian Bitmap trình bày lập chỉ mục ,đề án được gọi là truy vấn dữ liệu mà các cửa hàng BIQS con đường yếu tố.token của thuộc tính chữ một số tài liệu trong một cấu trúc ma trận tự động tạo ra,Chúng tôi sử dụng từ ngữ ,thuộc tính,đường giẫn để xây dựng cấu trúc bitmap .Bài viết này để mô tả một thuật toán để truy vấn dữ liệu semistructured trong thời gian một cách hiệu quả hơn được cung cấp bởi các quan hệ truy vấn kỹ thuật sử lý các quan hệ truy vấn semistructured . cấu BIQS trình bày cung cấp lưu trữ cải thiện hiệu suất truy vấn do nén dữ liệu semistructured. *Các từ khóa: Cơ cấu tham gia ,XQuery,Xpath,Bitmap,TwigStach,MySQL 1.GIỚI THIỆU: Sử lý truy vấn là một điều tất yếu bất kỳ loại hình sở dữ liệu nào cũng như semistructured (XML) sở dữ liệu [dữ liệu 1] semistructured một số cấu trúc .những cấu trúc này không phải là cứng nhắc nó thường xuyên hoàn chỉnh cấu theo yêu cầu của hệ thống quản lý hệ thống sở dữ liệu [20]. Việc sử dụng phổ biến hơn.Đặc biệt khi thực hiện nhiệm vụ như là sự thích hợp đơn giản của dữ liệu từ nguồn [21].sự tăng trưởng của các kho XML trên web đã dẫn đến nhiều nghiên cứu về lưu trữ tập chỉ mục cho truy vấn hiệu quả dữ liệu XML . Một tùy chọn để quảnsemistructured cũng như XML ,dữ liệu xây dựng một nhà quản lý chuyên ngành chứa một kho dữ liệu XML vào lõi [22] của nó .Thật khó để đạt được hiệu suất truy vấn cao,sử lý dữ liệu XML khó,kể từ khi truy vấn được trả lời bằng cách vượt qua các liên kết nhiều element-to- element ,cá nhân yêu cầu tra cứu chỉ số nhiều [23].Trong trường hợp dữ liệu XML các truy vấn phức tạp hơn bởi vì chúng thể chứa các biểu thức đường dẫn xuyên [24].Do sự linh hoạt bổ sung là cần thiết để đi qua các dữ liệu cấu trúc là một phần không thường xuyên hoặc chưa biết đến ngày sử dụng .Tùy chọn để quảndữ liệu semistructured là để lưu trữ .Và truy vấn với một sở dữ liệu quan hệ [22].Trong cộng đồng cơ sở dữ liệu nhiều nhà quản lý cho rằng quan hệ (và đối tượng quan hệ ) model dục đến hạn 1 thanh toán sử dụng rộng rãi,vẫn là tốt lựa chọn [25].Sử lý truy vấn XML là phức tạp hơn nhiêu so với phương pháp truyền thống truy vấn về cấu trúc lựa chọn trên nhiều yếu tố liên quan mật thiết của một cấu trúc cây tên là mô hình cây truy vấn (QTP) do đó trong QTP cần phân biệt thứ tự trong tài liệu XML, đây là một nhiệm vụ tốn kém khi các tài liệu rất lớn XML được tham.Các truy vấn được biết đến phương pháp chế biến gọi là structura tham gia được mô tả trong [2]. trong truy vấn cấu tham gia, được chia ra thành một số nhị phân tham gia hoạt động.Do đó, một khối lượng hhuge kết quả trung gian được sản xuất trong cành phương pháp tiếp cận toàn diện method.the tham gia [3] không phân hủy các truy vấn vào nhị phân của nó, cha mẹ trẻ em (cp) hoặc tổ tiên con cháu-(quảng cáo) các mối quan hệ mà họ cần đến phương pháp chế biến gọi là các lá của qtp thay vì chế biến thuộc các lá của qtp thay vì xử lý tất cả các nút trong các tài liệu xml. nhưng phương pháp này sử dụng một cấu trúc tên là hữu hạn nhà nước bộ chuyển đổi (FST) để giải mã các mã của các nút vào tên lành mạnh của con đường đi qua từ gốc mỗi nút, do đó, FST lãng phí rất nhiều thời gian. Sự đóng góp của bài này là truy vấn dữ liệu bằng cách sử dụng semistructured bitmap để đại diện cho con đường giá trị mối quan hệ nén các bitmap để tiết kiệm không gian. các BIQS trình hỗ trợ các cấu tham gia truy vấn, truy vấn Phath, cây BIQS kỹ thuật cũng hỗ trợ các loại truy vấnchỉ một portin của tên đường dẫn được đề cập trong câu truy vấn Bài viết trình bày những so sánh thời gian thực hiện truy vấn của BIQS đến XML thời gian xử lý truy vấn khác (Kết cấu Tham gia TwigStack) truy vấn quan hệ (Oracle, MySQL) thời gian xử lý. Thử nghiệm kết quả cho thấy rằng kỹ thuật đề xuất các truy vấn dữ liệu semistructhred trong một thời gian cách hiệu quả hơn được cung cấp bởi một số các XML hiện tại khác xử lý truy vấn quan hệ techniques.the giấy trình bày các thời gian "và không gian 'phức tạp của các vấn đề quan hệ (dữ liệu Semistructured ) truy vấn bằng cách sử dụng cấu trúc bitmap nén, từ đó, con đường, từ điển thuộc tính Cơ cấu bitmap cung cấp các thiết bị lưu trữ thông tin khổng lồ của các từ các đường dẫn vào từng tế bào thu hồi các dữ liệu thể được thực hiện hiệu quả với độ trễ thấp. Để hiểu được chức năng của các kỹ thuật được đề xuất, thuật toán cho thấy việc lưu trữ các từ mười sáu thông tin đường dẫn vào mỗi ô nhớ của một khối duy nhất bởi một giá trị thập phân cho các dữ liệu compression.But nén là thể cho tối đa cấu trúc trình bày các thông tin của ba mươi hai chữ các đường dẫn imto mỗi ô nhớ của một loe block.No duy nhất của bất kỳ thông tin xml luôn luôn duy trì các kỹ thuật đề xuất. Phần còn lại của bài này là tổ chức như sau: công việc liên quan trong phần 2, một frameword của phương pháp đề xuất được mô tả trong thuật toán 3.Thầu phần cho cấu trúc bitmap được trình bày trong 4 tìm kiếm truy vấn tài liệu được mô tả trong 5.section 6 thí nghiệm. kết quả, bài báo kết luận với một cuộc thảo luận nhận xét cuối cùng trong phần 7 2 2.Công việc liên quan Nhiều kĩ thuật xử lý truy vấn như phương pháp Holistic Twig Join đã được trình bày trong [6, 8, 13, 18] để quá trình truy vấn càng hiệu quả, tuy nhiên họ vẫn còn bị số lượng lớn chức năng không cần thiết. Một cách tiếp cận mới tên là Twig Stack + được trình bày trong [19] để giải quyết vấn đề này cái mà dựa trên các thuật toán tổng thể tham gia rất nhiều để cải thiện đáng kể hiệu suất xử lý truy vấn. Twig Stack+ được sử dụng để giảm chi phí truy vấn đơn giản bởi vì nó thể kiểm tra xem các yếu tố khác thể được xử lý cùng với hiện hành. Kỹ thuật đề xuất cũng được sử dụng để kiểm tra tính hữu ích của một phần tử từ hai phía trước sau. Kỹ thuật xỷ lý truy vấn XML khác được xây dựng trong [7, 9, 11, 15]. TSGeneric+[6] thực hiện các cải tiến về TwigStack bằng cách sử dụng XR-Tree để bỏ bớt một số thành phần vô ích đã mở rộng để giải pháp nhưng không tham gia vào bất kỳ giải pháp nào. TwigStackList [8] xử lý các vấn đề phụ tối ưu bằng cách gắn một danh sách các thành phần với mỗi nút truy vấn đến bộ nhớ catche của một số thành phần, TJFast [12] cải thiện hiệu suất xử ký truy vấn bằng cách quét các thành phần của các nút lá trong truy vấn để giảm chi phí I/O. Mặc các phương pháp hiện tại [6] thể đảm bảo tối ưu hoá thời gian của CPU và I/O khi chỉ cạnh AD tham gia vào các mô hình cây con, họ đều bị lớn số chức năng dự phòng (có gốc tiếp theo) yêu cầu. Một xử lý truy vấn cập nhật thuật ngữ kỹ thuật xử lý gọi là EXEL (mã hoá hiệu quả ghi nhãn XML) được trình bày trong [10]. SIGOPT (lược đồ thông tin đồ thị) để tối ưu hoá sự xử lý truy vấn XML được mô tả trong [17]. Các trình bày kĩ thuật khảo sát những hội cho các lược đồ thông tin ảnh hưởng đến việc đánh giá xử lý truy vấn. Đa cấp điều hành kết hợp xử lý truy vấn trong XML được mô tả trong [16], cái mà làm trau chuốt các tầm quan trọng để xem xét sự hoạt động ở từng cấp. Cụ thể, kĩ thuật xem xét ảnh hưởng của dự báo các hoạt động đặt trên các lựa chọn dựa trên mô hình ngăn chặn gia nhập. Hệ thống quản sở dữ liệu hỗ trợ lập chỉ mục (hiệu năng) truy vấn tốt hơn thực hiện truy vấn. Lập chỉ mục cung cấp linh hoạt, thống nhất hiệu quả chế đẻ truy nhập dữ liệu [22]. một số chỉ số đường dẫn như Strong DataGuide[26], Fabric Index, ToXin[27], APEX[28], Index [24], A(k) Index, Fix[29] cái mà được lập chỉ mục con đường của các nút của tài liệu để tạo điều kiện tiếp nhận với các nút yêu cầu trong kỹ thuật xử lý truy vấn XML . Đây là chỉ số là các loại phương pháp xử lý truy vấn đó là chống lại các cấu tham gia [2], cây con tham gia [3] phương pháp TJFast[12]. Hầu hết các đồ chỉ thể lập chỉ mục áp dụng cho một số công đoạn xử lý truy vấn hạn chế hoặc giới hạn lớp của các truy vấn. Để khắc phục nhữn hạn chế này mọôt đồ lập chỉ mục gọi là ToXin [27] đã được phát triển. ToXin phá toàn bộ cấu trúc đường dẫn chung của sở dữ liệu trong tất cả các giai đạn xử lý truy vấn bao gồm các chỉ số đường dẫn chỉ số giá trị. Một biitmap ba chiều đồ lập chỉ mục được đặt tên Bitcube [30] xem xet một bảng tần số phức tạp hơn đại diện cho một tậo hợp tài liệu kèm theo, đặt cả hai yếu tố đường dẫn một bộ từ cho mỗi đường dẫn. Một hệ thống mới để lập chỉ mục lưu trữ dữ liệu XML dựa trên một kế hoạch đánh số cho các phần tử được đề xuất trong [1]. Khả năng truy vấn được cung cấp qua cấu qua cấu tham gia cây con truy vấn, đó là các thành phần cốt lõi tiêu chuẩn của ngôn ngx truy vấn XML, ví dụ XPath[13] XQuery[32]. Kỹ thuật cũng tồn tại truy vấn dữ liệu XML như Lorel[21], XML-QL[33], XQL[34], UnQL[35], XML-GL[34], XSL[34],Quilt[25], tuy nhiên những ngôn ngữ truy vấn này sử dụng phức tạp một số hạn chế. Một lỗ lực đã được thựchiện trên lưu trữ truy vấn dữ liệu XML bằng cách sử dụng quan hệ dơ sở dữ liệu được mô tả trong [4, 7, 9, 15, 36-40] 3 [23, 36-48] cũng là một lỗ lực toàn diện đã được thực hiện trên sở dữ liệu XML nên được trinh bày trong [22]. 3.Khuôn khổ của đề xuất kỹ thuật. 3.1. Khiến trúc tổng thể của các hệ thống. Để hiểu được chức năng của các đề xuất kỹ thuật tổng thể kiến trúc được trình bày trong hình 1. Động xử lý dữ liệu được sử dụng để tạo ra một từ điển một từ điển đường dẫn và một thuộc tính từ điển mà cùng nhau trở thành sở của một ma trận bitmap để lưu trữ thông tin tài liệu XML. Các yếu tố đường dẫn được tính từ gốc đến yếu tố con lồng nhau trong tất cả các tài liệu XML. Các thuộc tính ghi lại tất cả các thuộc tính (không phân biệt các thuộc tính) bao gồm nội dung của từng thuộc tính các tài liệu số tương ứng. Từ điển ghi moọt số mã thông báo cho mỗi từ biệt. Con đường từ điển các cửa hàng tất cả các khác biệt con đường yếu tố bao gồm số con đường của mình. Nhiều cửa hàng cung cấp khối nén tất cả các thông tin nguyên liệu ở dạng nén. Mã thông báo cấu đường dẫn (TP) được sử dụng để đại diện cho các thẻ đường dẫn. Thứ cáp chỉ mục được sử dụng để tìm kiếm các mã thẻ số con đường từ cấu trúc mã thông báo và và đường dẫn để giảm thời gian tìm kiếm. cấu nén với từ điển TP (mã thông báo đường dẫn cấu trúc) được duy trì trên bộ nhớ chính. Nhập truy vấn thông qua người quảntruy vấn được áp dụng cho cấu trúc nén để được những truy vấn đầu ra. Cơ cấu phát triển không phải luôn luôn giống nhau nếu toàn bộ các tài liệu được coi là toàn bộ nhưng trật tự khác nhau. Trật tự khác nhau của các tài liệu cung cấp sự khác biệt của cấu trúc đó không nghĩa là cấu mất moọt số thông tin XML. Cấu trúc luôn duy trì các thông tin chính xác của các sở dữ liệu ban đầu cho các thiết lập của các tài liệu xẽmét theo thứ tự khác nhau hoặc cùng một thứ tự. Đối với bất kì thứ tự của các tài liệu, dữ liệu được lưu trữ trong một cấu trúc đa khối nén dẫn hiệu quả kém. Ngoài ra việc sử dụng các cấu trúc ma trận còn là hiệu quả của việc cập nhật không bị suy thoái. 3.2 Xây dựng cấu trúc bitmap. BIQS tạo ra một cấu trúc ma trận hai chiều đại diện cho dự tồn tại của các từ các yếu tố đường dẫn trong các tài liệu tương ứng. Các hàng đầu tiên của cấu trúc ma trận ghi lại tất cả các mã thông báo số lượng cho các từ tương ứng các đường dẫn liên quan đến số lượng cho các từ. Tất cả các thẻ tồn tại (được giới hạn) trong số đường dẫn tương ứng cuẩ họ trong hàn đầu tiên của cấu trúc BIQS. Chúng tôi sử dụng một dấu hiệu phủ nhận (-) trước tất các số đường dẫn để phân biệt với mã thông báo. Cột đầu tiên của ma trận số tài liệu. Các mục của việc sử dụng ma trận một giá trị bit (1/10) để đại diện cho tài liệu số sự tồn tại hay không của từ các phần tử trong phạm vi số tài liệu, yếu tố bên trong tài liệu số để đại diện cho một đường dẫn mới từ một tài liệu XML, phương pháp này bước đầu tạo ra một cấu trúc mới trong cấu trúc ma trận. Các dòng đầu tiên (entry) của cột cửa hàng số đường dẫn (từ đường dẫn từ điển) một giá trị 1 được đưa sang hàng tiếp theo của cột tạo ra các giá trị 1 biểu thị một sự tồn tại của đường dẫn trong tài liệu. Các thẻ (từ từ điển) của tất cả các từ trong số đường dẫn đã chọn được lưu trữ tương tự bằng cách tạo ra các cột mới trong cấu trúc ma trận. Một giá trị 1 được đưa vào các mục tiếp theotừng cột tạo ra cho các thẻ. Mỗi dòng của cơ cấu ma trận ghi lại tất cả các thông tin của từn tài liệu XML. Hệ thống này tương tự hoàn tất việc tạo ra ma trận cho tất cả các dữ liệu XML. BIQS không tạo ra các cột mới trong một đường dẫn hiện cho cùng một từ, ngay cả các tài liệu khác nhau. Kĩ thuật này luôn tạo ra các cột mới cho cùng một từ nhưng số đường dẫn khác nhau, bất kể số tài liệu nào. Chúng tôi xem xét các tài liệu XML được đưa trong hình 2, hình 3, hình 4 hình 5 để sử dụng trong chứng minh đề xuất của chúng tôi thực hiện xây dựng bitmap. 4 3.2. Xây dựng từ điển BIQS với ví dụ Từ điển, đường dẫn từ điển thuộc tính từ điển (bao gồm các bảng I, II, III) đã được tạo ra từ các tài liệu XML hình 2, hình 3, hình 4 hình 5. Các thuộc tính điền được đưa ra trong bảng III, cho thấy một khoá tên thuộc tính 4 giá trị khác nhau trong tài liệu khác nhau như 2 4. Trong đường dẫn từ điển, nasa.datasets.dataset.title dblp.msthesis.title đại diện cho hai con đường số khác nhau. Hệ thống này tạo ra một cột mơi trong cấu trúc ma trận (đưa ra trong bảng IV) để ghi tên con đường “nasa.datasets.dataset” từ dữ liệu (đưa ra trong hình 2) số lượng đường dẫn (-1) được giao hàng đầu tiên cột được tạo ra, giá trị 1 được giao cho các hàng tiếp theo của cột được tạo ra để chỉ sự tồn tại của tài lệu. Không từ ngữ trong số con đường này ngoại trừ một số thuộc tính. Do đó khồng mã thông báo được cập nhật trong số đường dẫn này. Tương tự như vậy cho con đường số 2 một cột mới được tạo ra trong cấu trúc. Đối với tất cả các từ trong số đường dẫn này, một cột mới được tạo ra riêng biệt giá trị 1 được giao cho hàng tiếp theo của cột được tạo ra cho thấy srj tồn tại của mình tương ứng với dữ liệu. Vì vậy các mã thông báo 1 đối với các chuyển động từ thích hợp được ghi lạ trong đường dẫn số 2. Giá trị một được giao hàng tiếp theo của cột được tạo ra chỉ sự tồn tại của chúng với tài liruj tương ứng. Trong bảng IV 1 là mã thông báo trong vòng 2 số đường dẫn. việc tạo ra ma trận cấu trúc sau khi giải nén tất cả các từ các đường dẫn từ dữ liệu để dữ liệu được đưa ra trong bảng V. 3.4. Phương pháp giải nén các bitmap. cấu tổ chức. Hệ thông cấu trúc BIQS chia thành hai cấu trúc để nén dữ kiệu XML. Hàng đầu tiên là một cấu trúc tên là Path Token sử dụng để đại diện cho các số thẻ đường dẫn. Hàng này được lập chỉ mục bắt đầu tuần tự từ 0. Sau đó, các chỉ số được sử dụng để tìm kiếm số thẻ đường dẫn từ các số thẻ đường dẫn cấu. Một cấu trúc tên là nén Bitmap Index (BIQS). Cơ cấu tổ chức bao gồm tất cả các hàng còn lại của ma trận (ngoại trừ hàng đầu tiên). Trong cấu trúc này mỗi hàng được chia thành các khối. Trong mỗi khối thông tin của 16 tế bào bit (từ đường dẫn) được nén. Vì mỗi hàng đại diện cho thông tin của mỗi tài liệu XML, thể một số khác nhau của khối cho mỗi tài liệu mỗi khối bao gồm các giá trị khác nhau cho các tài liệu khác nhau. Nén cũng thể sử dụng kcác tế bào 32 bit. Các cấu trúc mã thông báo đường dẫn được trinh bày trong bảng VI. Các nén cấu trúc bitmap được trình bày trong bảng IX. Các giá trị của mỗi tế bào 16 bit được ghi ở dạng thập phân. Nếu không đủ dữ liệu để hình thành một khối với tế bào 16 bit chung tôi thục hiện với số 0. Cơ cấu BIQS nén được đưa ra trong bảng VIII, cột đầu tiên của cấu trúc đại diện cho số tài liệu ba cột còn lại đại diện cho các khối. Giá trị của mỗi khối được tạo ra từ cấu trúc BIQS được đưa ra trong bảng V. Giá trị của các khối là 65472, 57, 0 39. Những giá trị này đại diện cho các thông tin nén dữ liệu cho các tài liệu XML lhác nhau. Nén này không bị mất bất kì thông tin. Chúng tôi sử dụng cấu trúc BIQS nén dữ liệu. Thực tế chúng ta không chuyển đổi giá trị nhị phân (từ bảng V) thành giá trị thập phân (vào bảng VIII) thay vì chúng ta lưu trữ thông tin cho 16 từ đường dẫn vào một tế bào đơn lẻ của môt khối. 5 Hình 1.: Cấu trúc của các phương pháp xử lý truy vấn. 6 <nasa> <datasets> <dataset subject="astronomy" xmlns:xlink="http://www.w3.org"> <title> ProperMotions </title> <altname type="ADC">I/1005 </altname> <altname type="CDS">I/5 </altname> <author> <firstname>Jack</firstname> <lastname>Spencer</lastname> </author> </dataset> </datasets> </nasa> Hình 2 : XML document-1 <dblp> <msthesis key="ms/Brown92"> <author>Brown </author. <title> DB System </title> <year>1992</year> <school>Madison</school> </msthesis> <msthesis key="ms/Yurek97"> <author>Yurek</author> <title>DataWarehouse</title> <year>1997</year> <school>california</school> </msthesis> </dblp> Hình 3 : XML document-2 <Yahoo> <listing> <seller_info> <seller_name>Katich</seller_name> <seller_rating>new</seller_rating> </seller_info> <item_info> <memory>128MB RAM</memory> <HD>40GB</HD> <cpu>Pentium-III</cpu> <item_info> </listing> <listing> <item_info> <memory>256MB RAM</memory> <HD>80GB</HD> <cpu>Pentium-IV</cpu> <item_info> </listing> </Yahoo> Hình 4 :XML Document-3 <dblp> <msthesis key="ms/Korth94"> <author>Korth</author. <title> DataMining </title> <year>1994</year> <school>MIT</school> </msthesis> <msthesis key="ms/Martin98"> <author>Martin</author> <title>DSP</title> <year>1998</year> <school>Texas</school> </msthesis> </dblp> Hình 5 : XML document-4 7 Bảng 1. . T ừ điển. Bảng 2: từ điển đường dẫn B ảng 3: Từ điển thuộc tính Attribute Name Content Doc Number Path Number subject astronomy 1 1 xmllns:xlink "http://www.w3. org" 1 1 t ype ADC 1 3 t ype CDS 1 3 key ms/brown92 2 6 key ms/yurek97 2 6 key ms/korth94 4 6 key ms/Martin98 4 6 Bảng 4: Cấu trúc sau khi hoàn thành Tài liệu -1 Word Token Path number -1 1 -2 2 3 -3 4 -4 5 -5 1 1 1 1 1 1 1 1 1 1 1 Presence of Word & Path T ừ Chỉ số ProperMotions 1 I/005 2 I/5 3 Jack 4 Spencer 5 Brown 6 DB 7 System 8 1992 9 Madison 10 Yurek 11 DataWarehouse 12 1997 13 california 14 Katic 15 new 16 128MB 17 40GB 18 Pentium-III 19 256MB 20 80GB 21 Pentium-IV 22 Korth 23 Dataminng 24 1994 25 MIT 26 martin 27 DSP 28 1998 29 Texas 30 Path number Path 1 nasa.dat ase t s.dat aset 2 nasa.datasets.dat aset .t it le 3 nasa.dat aset s.dat aset .altname 4 n asa.dat aset s.dat ase t .author.firstname 5 nasa.dataset s.dataset .author .lastname 6 dblp.msthesis 7 dblp.msthe sis.author 8 dblp.msthesis.t it le 9 dblp.msth esis.year 10 dblp.msthe sis.school 11 Yahoo.list ing.seller _info.seller_name 12 Yahoo.listing.seller _info.seller_rat ing 13 Yahoo. list ing.item_info.m emory 14 Yahoo.list ing. item_info.HD 15 Yahoo.list ing. item_info.cpu 8 Document number to corresponding document Bảng 5: cấu tổ chức BIQS - 1 1 - 2 2 3 - 3 4 - 4 5 - 5 - 6 6 1 1 2 3 2 7 - 7 7 8 1 2 2 4 2 8 - 8 9 1 3 2 5 2 9 - 9 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 1 1 1 1 0 0 1 1 1 0 0 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 0 0 1 1 1 0 0 1 1 1 10 24 26 30 - 10 15 - 11 16 - 12 17 20 - 13 1821 - 14 19 22 - 15 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 4 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 Bảng 6: Chỉ số cấu tổ chức đương dẫn. Ind ex 0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 - 1 1 - 2 2 3 - 3 4 - 4 5 - 5 - 6 6 1 1 2 3 2 7 - 7 7 8 1 2 2 4 2 8 - 8 9 1 3 2 5 2 9 - 9 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 10 14 26 30 - 10 15 - 11 16 - 12 17 20 - 13 18 21 - 14 19 22 -15 Bảng 7: Đường dẫn tìm kiếm từ mã thông báo cấu trúc đường dẫn Secondary Index Path No Toke n_Path_I ndex 1 -1 0 2 -2 2 5 7 9 10 15 21 26 31 33 35 38 41 N -P 44 9 Bảng 8: Mã thông báo tìm kiếm giữa hai con đường. 26 27 28 29 30 31 -9 10 14 26 30 -10 K be the number of tokens between any Two paths in Token and Path Structure Bảng 9: Cấu trúc nén BIQS. Document Number Block-0 Block-1 Block-2 1 65472 0 0 2 57 59193 0 3 0 0 65528 4 39 7399 0 4.Thuật toán của các kĩ thuật. Chúng tôi đã phát triển mộtthuật toán trong hình 6. Để hiểu được các thuật toán cấu trúc dữ liệu sau đây cần thiết: DPath: Đường dẫn riêng biệt; DPNumbe: Số dường dẫn riêng biệt; PDic[][]:Từ điển đường dẫn; DocNumber: số tài liệu; DWord: Từ khác biệt; WDic[][]:từ điển từ; ADic[][]: thuôc tính từ điển; Att: thuộc tính; NPath: Đường dẫn mới; BMS: Cấu trúc ma trận BIQS; NC: Cột mới; PIndex: Đường dẫn chỉ mục; NPIndex: Đường dẫn chỉ mục mới; FR:Dòng đầu tiên; TNumber: số chỉ số; WNPIndex: Từ đường dẫn chỉ mục mới; CBS:Khối cấu trúc nén; CIndex:Nén chỉ mục; TNDC: Tổng số cột tạo ra trong BMS; WPIndex: Từ đường dẫn chỉ mục; BIndex: Khối chỉ mục; BinDec():Nhị phân sang thập phân; SIndex:Chỉ số chung; CPnumber: Số đường dẫn hiện tại; IPCPath: Ngay trước đường dẫn của đường dẫn hiện tại; BN: Số khối; IToken: Chỉ số của số thẻ; OPos: Vị trí offset; TP: cấu trúc chỉ số đường dẫn; WPInfoVal: giá trị đường dẫn thông tin;. Dictionary_Construction (): Chức năng này được sử dụng để tạo ra từ đường dẫn thuộc tinh từ điển. Dynamic_Matrix_Structure(): Chức năng này xây dựng các cấu ma trận bao gồm tất cả các thẻ, đường dẫn các thuộc tính với các tài liệu liên quan của họ. Searching_Structure(): Chức năng này mô tả nén của thông tin XML chia thành khối lưu trữ dữ liệu XML vào nén cấu trúc bitmap Index: Được sử dụng để lưu trữ các số chỉ mục của các mã thông báo tìm kiếm từ mã thông báo và cấu trúc đường dẫn. //Block_no:.Mỗi hàng nhiều block_no mỗi khối bao gồm một tế bào thông tin 16 bit. //Offset position: Xác định vị trí cho sự tồn tại của từ hoặc đường dẫn hoặc thuộc tính trong tài liệu. Algorithm BIQS() Begin 10 [...]... khác kĩ thuật xử lí truy vấn semistructured Vi ệc trình bày BIQS hỗ trợ các truy vấn đường dẫn cấu tham gia truy vấn, cấu cây truy vấn Bài bao strình bày sự so sánh thời gian thực hiện truy vấn của BIQS với truy vấn XML khác Thử nghiện kết quả cho thấy các kĩ thuật đề xuất các truy vấn dữ liệu 21 semistructured một cách hiệu quả thời gian hơn là cung cấp bởi một số các hiện kkhác XML quan. .. dữ liệu thuận tiện cho semistructured trao đổi thông tin một số nhiệm vụ xử dữ liệu Các hoạt động khác, đặc biệt là tìm kiếm phân loại dữ liệu, được hỗ trợ tốt hơn nếu dữ liệu được biểu diễn trong một nhiều hơn cấu trúc hình thức, chẳng hạn như sử dụng sở dữ liệu Bài báo này mô tả các kĩ thuật BIQS để truy vấn dữ liệu semistructured trong một thời gian hiệu quả hơn là cung cấp bởi một số quan. .. chúng tạo ra sở dữ liệu tên cá nhân, thông tin bao gồm kích cỡ khác nhau (5.78 MB, 11 MB, 34.14, 53.03 MB, 104.46 MB, 130 MB )và bao gồm hàng trục bộ dữ liệu trong cơ sở dữ liệu quan hệ Chúng tôi đo thời gian (bằng giây) Đối với từng hoạt động của truy vấn bằng cách sử dụng các số khác nhau bằng cách sử dụng Java Eclipse kết nối với sở dữ liệu MySQL khác nhau để thực hiện hoặt động truy vấn (MySQL... lí truy vấn BIQS trình bày cung cấp cải thiện hiệu suất lưu trữ truy vấn do nén dữ liệu semistructured Thí nghiện của chúng tôi cho rằng XML nén dữ liệu gần như là 35-38% so sánh với dữ liệu uncompressed Thời gian thực hiện cũng cho thấy thơi gian của BIQS tốt hơn khi so sánh với vơi các tiên tri đánh giá cao Bitcube, Oracle, XQuery Các vấn đề như chức năng tổng hợp, cập nhật sở dữ liệu, truy. .. động Cũng thời gian truy vấn tăng do tăng số điều kiện hoặc các vị Đó là kết luận từ hình 7 hình 8 rằng ohải mất nhiều htơi gian hơn XQuery hoạt động hơn so với truy vấn quan hệ hoạt động Chúng tôi cũng sử dụng một cơ sở dữ liệu Oracled để đánh giá hiậu quả truy vấn cho các sở dữ liệu được tạo ra của chúng tôi đặt tên “thông tin cá nhân”, với kích thước file khác nhau Các truy vấn thời gian cho... Cây cấu trúc truy vấn của truy vấn ở trên là như sau: Theo BIQS truy vấn được biểu diễn như sau: Chọn tiêu đề Từ tài liệua Where (dblp.msthesis.author= “Korth”and dblp.msthesis.year=1994) Hệ thống hỗ trợ các loại truy vấn Các kĩ thuâth tìm kiếm tìm kiếm dấu hiệu của Korth từ, 1994 tìm thấy được 23 25 từ từ điển từ Số đường dẫn của “dplp.msthesis author” “dplp.msthesis.year” là 7 9 Chúng... so sánh của ngôn ngữ XQuery đề xuất kĩ thuật của chúng tôi bằng cách sử dụng tập tin BIQS với kích thước 004MB, 024MB, 5.78 MB, 11MB, 130MB, 683MB.Chúng tôi đã trình bày các loại truy vấn sử dụng cho các thí nghiệm của BIQS trong bảng 10 Chung tôi lấy tất cả trung bình của các lần đo cho các truy vấn khác nhau Để so sánh với cơ sở dữ liệu khác như MySQL, chúng tôi sử dụng ( tuỳ chỉnh) của chính... liệu Truy vấn này (đó là một ví dụ về cấu trúc tham gia 14 Các truy vấn trên là đại diện trong XPath như sau: Các cây cấu trúc của truy vấn trên như sau: Theo BIQS (hỗ trợ các loại truy vấn, một phần của tên đường dẫn) truy vấn được biểu diễnn như sau: Chọn HD Từ tài liệu Kĩ thuật BIQS tìm số đườnh dẫn (có phù hợp với đường dẫn từ điển hoặc là tên đường dẫn đầy đủ hoặc một phần của tên đường dẫn) và. .. thời gian thực hiện thực hiện các truy vấn của BIQS 16 Bitcube[30] như hình 14 Những thí nghiệm này được sử dụng 500, 1000, 1500, 2000 2500 phần đường dẫn (ePaths) mỗi tài liệu một loạt các từ trong yếu tố đường dẫn Đối với tất cả các số của mỗi tài liệu ePath, tất cả các số của tài liệu, tốt hơn BIQS Các phân tích so sánh để thời gian thực hiện truy vấn của BIQS sử dụng kích thước tập tin... gian thực hiện truy vấn Hình 14: Thời gian thực hiện wrt word/ePath/doc 19 Hình 15: So sánh thời gian thực hiện thực hiện truy vấn trên kích thước dữ liệu khác nhau sử dụng Q-7 (bảng 10) Hình 16: Tiền xử lí truy vấn thờ gian thực hiện cho BIQS Bảng 10: Truy vấn được thực hiện trong truy vấn của chúng tôi 20 Hình 7: Không nén để nén file XML bằng cách sử dụng cấu trúc BIQS 7.Kết luận làm việc trong . về khoa học máy tính và an ninh Network ,VOL Ngày 10 tháng 06 năm 2010 LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED B.M.Monjurul. ,XQuery,Xpath,Bitmap,TwigStach,MySQL 1.GIỚI THIỆU: Sử lý truy vấn là một điều tất yếu bất kỳ loại hình cơ sở dữ liệu nào cũng như semistructured (XML) cơ sở dữ liệu [dữ liệu 1] semistructured có

Ngày đăng: 15/03/2014, 16:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan