Bài giảng cơ sở dữ liệu kỹ thuật tìm kiếm nâng cao

43 322 0
Bài giảng cơ sở dữ liệu kỹ thuật tìm kiếm nâng cao

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài KỸ THUẬT TÌM KIẾM NÂNG CAO PGS.TS. Đặng Văn Đức dvduc@ioit.ac.vn Hà Nội-2005/12 Nội dung     dvduc-2005/12 Giới thiệu Giảm thiểu không gian tìm kiếm Cấu trúc liệu dạng Kết luận Bài 8: Nâng cao hiệu MMDBMS 2/42 1. Giới thiệu  Đã nghiên cứu phương pháp/kỹ thuật tìm véctơ đặc trưng đối tượng đa phương tiện (văn bản, âm thanh, hình ảnh video)  Đã nghiên cứu phương pháp ước lượng độ tương tự khoảng cách đối tượng sở véctơ đặc trưng   Véctơ đặc trưng đa chiều  Với văn bản: Tổng số chiều véctơ đặc trưng tổng số khái niệm văn  Tổng số chiều biểu đồ màu ảnh tổng số bins màu  Với âm thanh: Tổng số chiều tổng số đặc trưng sử dụng (tốc độ vượt qua 0, tỷ lệ câm, độ chói .). Tổng số chiều véctơ đặc trưng phụ thuộc vào phương pháp lựa chọn. dvduc-2005/12 Bài 8: Nâng cao hiệu MMDBMS 3/42 Giới thiệu  Quá trình đối sánh véctơ đặc trưng câu truy vấn với véctơ đặc trưng CSDL đòi hỏi phải nhanh  Mục đích kỹ thuật cấu trúc liệu  Chia không gian đặc trưng thành nhiều vùng nhỏ cho việc tìm kiếm cần thực hay vài vùng nhỏ.  Có ba loại truy vấn chủ yếu MMDBMS:  Truy vấn điểm   Tìm đối tượng có véctơ đặc trưng đối sánh xác với véctơ đặc trưng câu truy vấn. Truy vấn dải (range)  Câu truy vấn biểu diễn véctơ đặc trưng khoảng cách dải L. Mọi đối tượng có khoảng cách đến véctơ đặc trưng truy vấn [...]... một tập O1 dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS O3 O6 O7 O2 12/42 O5 O4 O8 Tìm kiếm ảnh trên cơ sở màu  Phương pháp tìm kiếm ảnh trên cơ sở biểu đồ màu cơ sở trình diễn ảnh trong CSDL và trong câu truy vấn bằng lược đồ với n bin màu  Khoảng cách giữa câu truy vấn và mỗi ảnh trong CSDL được tính toán bởi khoảng cách biểu đồ màu tương ứng  Vậy, có hai giải pháp nâng cao hiệu năng    Giảm... cơ sở d avg trước khi tính toán khoảng cách với biểu đồ màu đầy đủ dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS 14/42 Phương pháp LSI – Latent Sematic Indexing  Mô hình tìm kiếm thông tin không gian véctơ  Trong CSDL tài liệu: Tổng số tài liệu M và tổng số thuật ngữ N là rất lớn  Việc chỉ mục các tài liệu sẽ cần ma trận trọng số (MxN) rất lớn    Nếu thư viện có 1 triệu tài liệu với 10 000 thuật. .. tài liệu được tính bằng tích vô hướng hay hệ số cosine giữa qc và mỗi hàng của U  Tính toán với véctơ r chiều thay cho véctơ N chiều (r nhỏ hơn N nhiều lần) dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS 21/42 3 Cấu trúc dữ liệu  Tại sao phải sử dụng cấu trúc dữ liệu cây?   Tổ chức dữ liệu theo dạng cây nhằm giảm số lần xâm nhập đĩa   Hiệu năng hệ thống rất thấp khi phải tải khối lượng dữ liệu. .. lược như sau: As = U s xS s xVsT dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS 19/42 Kỹ thuật SVD và chỉ mục r r r Documents T V Terms S A = N U rxN rxr Mxr MxN Rút gọn s N s M As = Us Ss sxs N T V s sxN Document vectors MxN dvduc-2005/12 Mxs Term vectors Bài 8: Nâng cao hiệu năng MMDBMS 20/42 Chỉ mục và tìm kiếm  Chuyển véctơ truy vấn q trong không gian thuật ngữ sang véctơ q c trong không gian khái... phải là lá  Tất cả các lá đều ở cùng mức của cây dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS 34/42 Sử dụng cây R cho dữ liệu điểm credits 100 R1 A Q R3 R4 80 I 60 R5 E R2 R6 K 40 C J 20 R7 H B semester D 2 4 6 8 R1 10 R3 A I dvduc-2005/12 C G R2 E Bài 8: Nâng cao hiệu năng MMDBMS K R4 R5 B R6 F J L R7 D 35/42 H Sử dụng cây R cho dữ liệu vùng R1 R2 R3 R5 Cấu trúc của cây R: r7 r11 r8 rtnodetype =... lý Tìm kiếm tuần tự rất chậm Cấu trúc cây   Mỗi nút có nhiều cành con   Tầng, nút Tổng số lần xâm nhập đĩa tương ứng với “độ sâu” của cây Chú ý khi sử dụng cấu trúc cây  Mỗi nút trong và lá của cây có kích thước tương ứng một blốc I/O dữ liệu  Một hoặc hai tầng cây nên để thường trú trong bộ nhớ chính để tăng tốc độ xâm nhập dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS 22/42 Cấu trúc dữ liệu. .. hợp với bản ghi dữ liệu   Nút có giá trị khóa X, Là cây không cân đối Với cây k-d  Khóa là véctơ k - chiều, gọi các chiều của nó là Dim1, Dim2  Gọi mức của gốc cây là level1, con của nó là level2,  Xây dựng cây:   Cây rẽ nhánh tại level2 trên cơ sở giá trị Dim2  dvduc-2005/12 Cây rẽ nhánh tại level1 trên cơ sở giá trị Dim1 Tiếp tục với mọi chiều véctơ sau đó lặp lại Bài 8: Nâng cao hiệu năng... cây k-d  Là tiến trình phức tạp  Tìm nút sẽ xóa theo tiến trình tìm kiếm  Nếu nút là lá   Hủy và đánh dấu Nil Nếu nút không phải là lá    Tìm kiếm các nút cần hủy và đánh dấu Xây dựng lại cây k-d với các nút không bị đánh dấu Truy vấn dải  Dễ dàng cài đặt  Bản chất là tìm các véctơ đặc trưng với mỗi chiều trong khoảng nhất định dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS 33/42 Cây R ... Sử dụng lược đồ ít bin màu để chọn các đối tượng ứng viên  Sử dụng lược đồ đầy đủ để tính khoảng cách giữa câu truy vấn và các đối tượng ứng viên dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS 13/42 Tìm kiếm ảnh trên cơ sở màu  Lọc trên cơ sở màu trung bình của ảnh  Tính màu trung bình của ảnh x = ( Ravg , G avg , Bavg ) T P Ravg = ∑ R( p) p =1 P P , Gavg = ∑ G( p) p =1 P P , Bavg = ∑ B( p) p =1... dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS 31/27 Xây dựng cây 3-d (10,13,7), (9,14,8), (20,9,17), (7,13,6), (8,12,7), (6,10,9), (11,8,14), (15,13,11), (10,6,17), (16,12,21), (17,3,15) (10,13,7) Level 1 (9,14,8) Level 2 Level 3 (7,13,6) Level 5 dvduc-2005/12 (11,8,14) (8,12,7) Level 4 (20,9,17) (6,10,9) (15,13,11) (10,6,17) (16,12,21) (17,3,15) Bài 8: Nâng cao hiệu năng MMDBMS 32/42 Cây 3-d  Tìm kiếm  . Nội-2005/12 KỸ THUẬT TÌM KIẾM NÂNG CAO Bài 8 PGS.TS. Đặng Văn Đức dvduc@ioit.ac.vn dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS Nội dung  Giới thiệu  Giảm thiểu không gian tìm kiếm  Cấu trúc dữ liệu. O4 O2 O5 O8 O4 O1 O3 O6 O7 12/42 dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS Tìm kiếm ảnh trên cơ sở màu  Phương pháp tìm kiếm ảnh trên cơ sở biểu đồ màu cơ sở trình diễn ảnh trong CSDL và trong câu. lô. 5/42 dvduc-2005/12 Bài 8: Nâng cao hiệu năng MMDBMS 2. Giảm thiểu không gian tìm kiếm  Một số kỹ thuật hay được sử dụng  Lọc bằng phân lớp, thuộc tính có cấu trúc hay từ khóa  Lọc trên cơ sở bất đẳng

Ngày đăng: 27/09/2015, 08:14

Từ khóa liên quan

Mục lục

  • Slide 1

  • Nội dung

  • 1. Giới thiệu

  • Giới thiệu

  • Yêu cầu chung về cấu trúc dữ liệu

  • 2. Giảm thiểu không gian tìm kiếm

  • Lọc bằng phân lớp theo chủ đề, thuộc tính

  • Lọc trên cơ sở bất đẳng thức tam giác

  • Các bước áp dụng bất đẳng thức tam giác

  • Lọc trên cơ sở bất đẳng thức tam giác

  • Mô hình tìm kiếm trên cơ sở phân cụm

  • Thuật toán phân cụm

  • Tìm kiếm ảnh trên cơ sở màu

  • Tìm kiếm ảnh trên cơ sở màu

  • Phương pháp LSI – Latent Sematic Indexing

  • Mô hình LSI

  • Phương pháp LSI

  • Kỹ thuật SVD (Singular Value Decomposition)

  • Kỹ thuật SVD (Singular Value Decomposition)

  • Kỹ thuật SVD và chỉ mục

Tài liệu cùng người dùng

Tài liệu liên quan