041_Tìm kiếm văn bản và ảnh trên cơ sở nội dung trong CSDL đa phương tiện

2 412 0
041_Tìm kiếm văn bản và ảnh trên cơ sở nội dung trong CSDL đa phương tiện

Đang tải... (xem toàn văn)

Thông tin tài liệu

- 18 - TÌM KIẾM VĂN BẢNẢNH TRÊN SỞ NỘI DUNG TRONG SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN Vũ Minh Hiếu - MSV: 0121902 Lê Khánh Dương –MSV: 0121841 Email: khoaluan@gmail.com Cán bộ hướng dẫn: PGS.TS. Đặng Văn Đức 1. Giới thiệu Hiện nay bất kỳ một tổ chức nào khi xây dựng sở dữ liệu cho mình cũng phải tính đến việc cho phép hệ thống khả năng mở rộng đối với dữ liệu đa phương tiện (trong phạm vi Khóa luận này chỉ đề cập tới hai loại dữ liệu là văn bản ảnh), cùng với nó là vấn đề xử lý hỗ trợ chỉ mụ c nhằm khai thác hiệu quả sở dữ liệu của tổ chức, để đạt mục đích đó cần xây dựng các sở lý thuyết về CSDL đa phương tiện. Đó cũng là mục đích mà Khóa luận này hướng tới. 2. Khái quát về sở dữ liệu đa phương tiện. Dữ liệu đa phương tiện tính chất yêu cầu đặc biệt, khác xa với loại dữ liệu chữ số. CSDL truyền thống không phù hợp trong việc quản lý dữ liệu đa phương tiện. Các kỹ thuật truy tìm thông tin thể giúp truy tìm đa phương tiện nhưng chúng chưa khả năng quản lý hiệu quả dữ liệu đa phương tiện. Vì vậy, một kỹ thuậ t mới dựa trên việc kết hợp các kỹ thuật quản trị sở dữ liệu DBMS, IR (Hệ thống tự động truy tìm thông tin) truy vấn trên sở nội dung để tạo thành Hệ thống chỉ mục truy tìm thông tin đa phương tiện MIRS (Multimedia Indexing & Retrieval System), một MIRS đầy đủ được gọi là Hệ quản trị CSDL đa phương tiện. Trên sở nghiên cứu mô hình nguyên tắc hoạt động của MIRS cung cấp cho ta cái nhìn tổng quan về một hệ quản trị sở dữ liệu đa phương tiện thấy được vai trò quan trọng của việc xử lý, lưu trữ truy vấn dữ liệu đa phương tiện. 3. Các vấn đề chỉ mục truy vấn dữ liệu đa phương tiện. Tài nguyên lưu trong sở dữ liệu được đánh chỉ mục hỗ trợ truy vấn, đó cũng là một yêu cầu bản đối với mọi sở dữ liệu. Các dữ liệu đa phương tiện thường rất lớn vì vậy vấn đề xử lý dữ liệu trước khi đánh chỉ mục là một giải pháp hữu hiệu nhằm gi ảm không gian lưu trữ tăng tốc độ tìm kiếm. Các kỹ thuật nén dữ liệu văn bản ảnh hiện nay đã phát triển rất phong phú cả về mặt thuật toán lẫn phạm vi áp dụng. Kỹ thuật chỉ mục dữ liệu đã đạt được những tiến bộ vượt bậc, một trong những minh chứng thuyết phục nhất là máy tìm kiếm Google vớ i hệ thống chỉ mục cho hơn một tỉ trang web đã đem lại lợi ích vô cùng to lớn trong việc tìm kiếm dữ liệu. Vì vậy, nghiên cứu kỹ thuật chỉ mục dữ liệu các phương pháp truy vấn là một trong những nội dung chính của Khóa luận này. 1) Nén dữ liệu văn bản ảnh Các kỹ thuật nén dữ liệu văn bản đã phát triển trong vòng vài thập kỷ qua, t ừ kỹ thuật nén Huffman, Arithmetic, nén từ điển,… đã đem lại những hiệu quả to lớn trong thực tế. Các kỹ thuật nén ảnh cũng đem lại những kết quả khả quan với tỉ lệ nén thể tới 80:1 (chuẩn JPEG) đã mở ra một hướng mới trong việc lưu dữ liệu ảnh trong các sở dữ liệu đa phương tiệ n, cũng như những ứng dụng trong nhiều lĩnh vực của cuộc sống. 2) Truy tìm văn bản ảnh trên sở nội dung Trích chọn đặc trưng dữ liệu đa phương tiện luôn là bài toán khó. Sự trừ tượng của dữ liệu đa phương tiện trên phương diện thể hiện đặc trưng của nó khiến cho việc chỉ mục đối với d ữ liệu đa phương tiện luôn là vấn đề phức tạp đòi hỏi nhiều công sức. Bản thân một loại dữ liệu đa phương tiện đã chứa đựng nhiều kỹ thuật khác nhau về trích trọn đặc trưng. Thí dụ, với dữ liệu ảnh thể dựa vào mô tả văn bản, sở màu, biểu đồ màu, sở hình dạ ng hay dựa vào các biến đổi rời rạc…để trích trọn đặc trưng của ảnh. Một vấn đề khác cũng rất quan trọng là tổ chức chỉ mục cho tài nguyên của CSDL đa phương tiện từ những đặc trưng của nó. Một kỹ thuật phổ biến đang được dùng cho các máy tìm kiếm hiện nay là sử dụng tệp chỉ mục. Đây - 19 - là một trong những nội dung chính của Khóa luận này. Cùng với kỹ thuật chỉ mục, kỹ thuật truy vấn dữ liệu văn bản ảnh trên sở nội dung cũng được đề cập tới với hai kỹ thuật chính đang phổ biến hiện nay là Boolean Ranked. 4. Môđun thử nghiệm. Dựa vào các sở lý thuyết đã trình bày trong Khóa luận, chúng em đã tiến hành xây dựng hai môđun thử nghiệm về nén dữ liệu văn bản truy tìm văn bản trên sở nội dung. Môđun nén dữ liệu văn bản sử dụng thuật toán nén Huffman. Môđun truy tìm văn bản sử dụng kỹ thuật chỉ mục nội dung ( tệp chỉ mục) kỹ thuậ t truy vấn Boolean. 5. Kết luận Trong Khóa luận này, đã trình bày các sở lý thuyết liên quan đến sở dữ liệu đa phương tiện, các kỹ thuật nén, chỉ mục truy vấn dữ liệu. Với các môđun thử nghiệm nhỏ cho kết quả phù hợp với các sở lý thuyết đã trình bày. Các vấn đề cần tiếp tục nghiên cứu: Hoàn thiện tiếp các sở lý thuyết liên quan đến hai loại d ữ liệu video audio. Tài liệu tham khảo [1] I.H. Witten, A. Moffat and T.C. Bell, Managing Gigabytes. 2 nd ed. Morgan Kaufmann, 1999. [2] Sangoh Jeong, Histogram-Based Color Image Retrieval, http://wang1.ist.psu.edu/ . - 18 - TÌM KIẾM VĂN BẢN VÀ ẢNH TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN Vũ Minh Hiếu - MSV: 0121902 Lê Khánh. liệu ảnh trong các cơ sở dữ liệu đa phương tiệ n, cũng như những ứng dụng trong nhiều lĩnh vực của cuộc sống. 2) Truy tìm văn bản và ảnh trên cơ sở nội dung

Ngày đăng: 06/10/2013, 19:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan