kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện

60 945 2
kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU TRANG KỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN SỞ NỘI DUNG TRONG SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN LUẬN VĂN THẠC SỸ Hà Nội - 2010 3 MỤC LỤC DANH MỤC CÁC HIỆU, CÁC CHỮ VIẾT TẮT 5 DANH MỤC CÁC BẢNG 6 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7 MỞ ĐẦU 8 CHƯƠNG 1- TỔNG QUAN 11 1.1 Khái quát về sở dữ liệu (CSDL) đa phương tiện [1] [10] [12] 11 1.1.1 Giới thiệu 11 1.1.2 Mục tiêu chính 13 1.1.3 Mô hình dữ liệu đa phương tiện 13 1.2 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] 14 1.2.1 Trích chọn đặc trưng 15 1.2.2 Chỉ số hóa cấu trúc 16 1.2.3 Đo tính tương tự 17 1.3 Hệ thống truy tìm thông tin (IR-Information retrieval) [1] [3] [4] [9] [13] 17 1.3.1 Khái quát 17 1.3.2 Vấn đề truy tìm tài liệu văn bản (Text retrieval) 18 1.3.3 Phân biệt các hệ thống IR và DBMS (DataBase Manager System) 20 1.4 xếp hạng tài liệu (Ranking) [1] [8] 21 CHƯƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM 25 2.1 Các truy vấn Boolean và chỉ mục tài liệu [1] [5] [11] 25 2.1.1 Truy vấn Boolean 25 2.1.2 Cấu trúc tệp 26 2.1.3 Các từ dừng và từ gốc 27 2.1.4 Chỉ số hoá và bổ sung 28 2.1.5 Kỹ thuật nén chỉ số (index compression) 29 2.1.6 Chỉ mục tự động 31 2.2 Thước đo hiệu năng [1] [5] [8] 33 2.3 Mô hình truy tìm không gian vectơ [1] [11] 36 2.4 Mô hình truy tìm theo xác suất [1] [6] 37 2.5 Mô hình truy tìm trên sở cụm [1] [6] 38 2.6 Kỹ thuật phản hồi phù hợp [1] [11] 39 2.7 Mô hình LSI (Latent semantic indexing) [1] [5] [6] [7] [8] [9] 40 2.7.1 Ý tưởng bản của LSI 40 2.7.2 Một số khái niệm bản 42 4 2.7.3 Kỹ thuật SVD (singular value decomposition) 43 CHƯƠNG 3- CÀI ĐẶT THỰC NGHIỆM MÔ HÌNH LSI 54 3.1 Bài toán 54 3.2 Chức năng của chương trình 55 3.3 Hoạt động bản trong chương trình 56 KẾT LUẬN 60 TÀI LIỆU THAM KHẢO 61 5 DANH MỤC CÁC HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu viết tắt Tiếng Anh Tiếng Việt CSDL DataBase sở dữ liệu DBMS DataBase Manager System Hệ quản trị sở dữ liệu IDF Inverse Document Frequency Tần số xuất hiện tài liệu IR Information retrieval Truy tìm thông tin LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn MIRS Multimedia Information Retrieval System Hệ thống truy tìm thông tin đa phương tiện SVD Singular Value Decomposition Tách giá trị riêng TF Term Frequency Tần số xuất hiện thuật ngữ 6 DANH MỤC CÁC BẢNG Bảng 1.1 Ma trận tài liệu - thuật ngữ 23 Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF 24 Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu 24 Bảng 2.1 Kết quả recall và precision 35 Bảng 2.2 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu 44 7 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hinh 1.1 Mô hình dữ liệu đa phương tiện 14 Hình 1.2 Hệ thống IR tiêu biểu 19 Hình 1.3 Tiến trình truy vấn tài liệu 21 Hình 2.1 đồ duy trì các chỉ số trong tập hợp động 29 Hình 2.2 Mô tả recall 33 Hình 2.3 Mô tả Precision 34 Hình 2.4 Đồ thị so sánh hiệu năng 35 Hình 2.5 Sử dụng các khái niệm cho truy vấn 41 Hình 2.6 Biểu đồ 2-D của 12 thuật ngữ và 9 tài liệu từ tập mẫu 45 Hình 2.7 đồ SVD của một ma trận hình chữ nhật thuật ngữ- tài liệu 46 Hình 2.8 đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu 47 Hình 2.9 Đồ thị Recall – Precision của thuật toán LSI 53 Hình 3.1 đồ chức năng 55 Hình 3.2 Chức năng thêm tài liệu 56 Hình 3.3 Chức năng xóa tài liệu 56 Hình 3.4 Chức năng phân tích và tìm kiếm tại bước 1 57 Hình 3.5 Chức năng phân tích và tìm kiếm tại bước 2 57 Hình 3.6 Chức năng phân tích và tìm kiếm tại bước 3 58 Hình 3.7 Chức năng phân tích và tìm kiếm ở những bước cuối cùng 59 Hình 3.8 Đồ thị biểu diễn các vecto tài liệu và vecto truy vấn 59 8 MỞ ĐẦU Hàng nghìn năm trước con người đã nhận thức được tầm quan trọng của việc lưu trữ và tìm kiếm thông tin. Với sự phát triển của máy tính, việc máy tính khả năng lưu trữ thông tin với số lượng lớn và tìm kiếm thông tin ích từ các tập hợp trở nên cần thiết. Lĩnh vực truy tìm thông tin (Information Retrieval - IR) ra đời vào những năm 1950 vì nhu cầu thiết yếu này. Hơn 40 năm sau, lĩnh vực đó trưởng thành đáng kể, nhiều hệ thống IR được sử dụng phổ biến với sự đa dạng trạng thái của người sử dụng. Sự phát triển của lĩnh vực này trong những năm 1970 đến những năm 1980 dựa trên nền tảng của những năm trước đó, nhiều mô hình thực hiện truy tìm tài liệu khác nhau được phát triển và tiến bộ theo mọi khía cạnh của quá trình truy tìm. Những mô hình kỹ thuật mới được chứng minh qua thực nghiệm, hiệu quả trong những tập hợp văn bản nhỏ, thể dùng cho các nhà nghiên cứu ở thời gian đó. Tuy nhiên, vì không hiệu quả đối với những tập hợp văn bản lớn, câu hỏi hay không những mô hình và những kỹ thuật thể đáp ứng được với thể lớn hơn vẫn chưa được trả lời. Sự thay đổi lớn vào năm 1992, với sự khởi đầu bằng cuộc thảo luận về truy tìm văn bản, sau đó một loạt thảo luận kiểm định đứng đầu bởi nhiều hãng khác nhau của Mỹ dưới sự bảo hộ của Viện Tiêu chuẩn và Công nghệ quốc gia (NIST), nhằm vào việc khuyến khích nghiên cứu về hệ thống IR với những tập hợp văn bản lớn. Những thuật toán IR đã phát triển trong những năm từ năm 1996 đến năm 1998, là những kỹ thuật đầu tiên được dùng cho việc tìm kiếm trên mạng toàn cầu. Ngày nay, sự phát triển nhanh chóng của lĩnh vực thông tin và Internet đã tạo ra một khối lượng thông tin vô cùng lớn với sự phong phú, đa dạng và phức tạp của loại hình thông tin như: văn bản, hình ảnh, video, siêu văn bản, đa phương tiện… Tương ứng với khối lượng dữ liệu khổng lồ đó, người ta quan tâm nhiều đến sở dữ liệu đa phương tiện (Mutimedia Database) trong khoa học công nghệ và trong thực tiễn. Với hệ thống sở dữ liệu đa phương tiện, bao gồm dữ liệu dạng hình ảnh, video, audio và văn bản (text) đang xu thế thâm nhập vào rất nhiều lĩnh vực và đang dần trở thành hệ sở dữ liệu được quan tâm từ người sử dụng và các chuyên gia trong vấn đề lưu trữ, xử lý và ứng dụng. Cho đến nay, vấn đề tìm kiếm thông tin đa phương tiện vẫn được các chuyên gia nghiên cứu, trong việc truy tìm thông tin phù hợp với yêu cầu của một truy vấn đưa ra từ người sử dụng. Người sử dụng xu hướng tìm kiếm chủ yếu trong hệ sở dữ liệu đa phương tiện, ví dụ như tìm kiếm một loạt hình ảnh cổ vật liên quan đến nền văn hoá cổ Việt Nam, tìm kiếm dữ liệu âm thanh bản text kèm theo, tìm kiếm video bài giảng cho học sinh ôn thi đại học Để thực hiện được việc tìm kiếm đó trong sở dữ liệu đa phương tiện thì những người làm khoa học đã nghiên cứu ra các công cụ, 9 phương pháp, kỹ thuật tìm kiếm sao cho thuận tiện, chính xác và nhanh chóng đem lại được thông tin phù hợp với yêu cầu của người sử dụng. Văn bản là một trong số các dạng của dữ liệu đa phương tiện, nó được quan tâm từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ, điển hình như bảng nội dung của một cuốn sách. Ngày nay, sự lớn mạnh của thông tin với phần lớn là dạng văn bản, hơn nữa nó xuất phát từ nhu cầu thực tế sử dụng của con người. Tài liệu văn bản chiếm đa số trong mọi quan tổ chức, đặc biệt là trong thư viện và còn được sử dụng để mô tả các dạng khác của dữ liệu đa phương tiện như video, audio, hình ảnh. Số lượng tài liệu văn bản ngày càng lớn và vai trò vô cùng quan trọng, vì thế việc việc lưu trữ, xử lý và truy tìm thủ công trước đây không thể hoặc khó thể thực hiện được. Cùng với sự ra đời và phát triển của máy tính, các công cụ xử lý cũng ngày càng hoàn thiện dựa trên những kỹ thuật hiện đại phục vụ cho nhu cầu đó. Các mô hình truy tìm hay được sử dụng trong phạm vi này, đó là: Đối sánh chính xác, không gian vectơ, xác suất và trên sở cụm. Song, nhược điểm bản của các mô hình truy tìm thông tin hiện nay là những từ mà người tìm kiếm sử dụng, thường không giống với những từ đã được đánh chỉ mục trong thông tin tìm kiếm. Vấn đề này liên quan nhiều đến hai khía cạnh thực tế, đó là tính đồng nghĩa (synonymy)- cùng một thông tin nhưng được miêu tả bằng các từ khác nhau, phụ thuộc vào ngữ cảnh hay mức độ cần thiết, ví dụ như: nhìn, xem, trông, thấy cùng ý nghĩa; và tính đa nghĩa (polysemy) – cùng một từ nhiều ý nghĩa khác nhau trong ngữ cành khác nhau, ví dụ như: đi (có thể là chỉ chuyển động hay chỉ sự mất mát). Kết quả truy tìm thể gồm những tài liệu không liên quan, đơn giản vì những thuật ngữ xuất hiện ngẫu nhiên trong nó giống với thuật ngữ trong truy vấn và mặt khác, những tài liệu liên quan thể bị bỏ qua bởi không chứa các thuật ngữ xuất hiện trong truy vấn (do tính đồng nghĩa). Một ý tưởng thú vị xem liệu việc truy tìm thể dựa vào các khái niệm có hiệu quả hơn so với truy tìm trực tiếp trên các thuật ngữ. Mô hình LSI (Latent Semantic Indexing) ra đời, là một giải pháp hữu hiệu cho vấn đề truy tìm thông tin dựa trên sở nội dung tài liệu văn bản, tìm kiếm trên sở những khái niệm (không phải trên các thuật ngữ đơn). Trước khi truy tìm, các tài liệu được coi như danh sách các từ và chúng phải được đánh chỉ mục. một thực tế là không phải tất cả các từ đều ý nghĩa, vì vậy việc loại đi danh sách các từ không nghĩa vô cùng quan trọng và các từ không ý nghĩa sẽ không được đánh chỉ mục. Từ thông tin tóm lược của người sử dụng biểu thị qua truy vấn, thuật toán truy tìm phải đảm bảo rằng, chiến lược xếp hạng tập các tài liệu trong câu trả lời luôn ưu tiên cho những thông tin ích và phù hợp với truy vấn người sử dụng đưa ra. Hơn thế nữa, một kỹ thuật được đánh giá là tốt phải dựa trên việc xếp hạng các tài liệu này, tức là những tài liệu phù hợp và được coi là “gần” với 10 câu truy vấn nhất sẽ được xếp lên trên các tài liệu ít phù hợp hơn trong danh sách tài liệu trả lời. Đánh giá chất lượng IR còn phụ thuộc vào thước đo hiệu năng thực hiện của kỹ thuật đó dựa vào các tham số chủ yếu là độ chính xác (precison) và số tài liệu được gọi lại (recall). Trên sở đó, cấu trúc luận văn gồm phần mở đầu, kết luận, tài liệu tham khảo và phần nội dung gồm ba chương và được trình bày theo thứ tự sau: Chương 1. Giới thiệu tổng quan về sở dữ liệu đa phương tiện, xếp hạng tài liệu và các yếu tố bản phục vụ cho việc tìm kiếm thông tin. Khái quát về một hệ thống truy tìm thông tin (IR) tiêu biểu và cụ thể là truy tìm tài liệu văn bản. Chương 2. Đề cập đến vấn đề chỉ mục tài liệu và thước đo hiệu năng. Nghiên cứu một số mô hình tìm kiếm như: Boolean, không gian vectơ, phân cụm, dựa trên xác suất, phản hồi phù hợp và LSI. Chương 3. Cài đặt thực nghiệm mô hình LSI. Nội dung luận văn đi từ tổng quan về sở dữ liệu đa phương tiện, hệ thống tìm kiếm đa phương tiện đến kỹ thuật chỉ mục, xử lý tài liệu, trích lọc thông tin đến chi tiết vấn đề tìm kiếm trên tài liệu văn bản. Đặc biệt, nghiên cứu các mô hình tìm kiếm và đi sâu nghiên cứu mô hình LSI- tìm kiếm văn bản trên sở nội dung. 11 CHƯƠNG 1 - TỔNG QUAN 1.1 Khái quát về sở dữ liệu (CSDL) đa phương tiện [1] [10] [12] 1.1.1 Giới thiệu Trên thế giới tồn tại một lượng rất lớn dữ liệu số, các dữ liệu từ tivi, internet, qua phương tiện truyền thông hay được từ nhiều phương tiện khác nhau như máy quay (video) kỹ thuật số Các dòng dữ liệu số càng ngày càng tăng, các loại dữ liệu đa phương tiện kết hợp của dữ liệu hình ảnh, âm thanh, văn bản… Hiện nay, chúng ta đều biết internet đang được phát triển như thế nào, rõ ràng trong quá trình tương tác và trao đổi thông tin, người sử dụng xu hướng chủ yếu xử lý trên kiểu dữ liệu đa phương tiện và chúng ta thấy được sự phát triển của kiểu dữ liệu này trong cuộc sống hiện đại. Tầm quan trọng của việc sử dụng thông tin sẽ dần dần thay đổi từ thông tin dạng số và rõ tới thông tin ở dạng đa phương tiện: dữ liệu hình ảnh, âm thanh và tài liệu văn bản. Vì thế, đa phương tiện là thông điệp cho xã hội thông tin ngày nay. Sự tương tác của người sử dụng tự nhiên hơn với thông tin và các thiết bị truyền thông, trong phạm vi rộng sẽ tạo ra một xã hội giá trị về mọi mặt. Vì thế, thể dự đoán được đa phương tiện sẽ thâm nhập vào tất cả các hệ thống thông tin, từ công việc hàng ngày tới thương mại, công việc văn phòng chuyên nghiệp, giao tiếp với khách hàng, giáo dục, khoa học, trong nghệ thuật và được truyền đi rộng rãi qua internet. Đa phương tiện thể trở thành dạng giao tiếp tự nhiên, nhưng nó không hoàn toàn tự do. Ngữ nghĩa của một thông điệp trong thông tin số và xác thực hơn là dòng bit của hình ảnh và âm thanh. Trong đó, tín hiệu hình ảnh biểu thị cái gì, ý nghĩa của văn bảnnói gì về âm thanh là không dễ dàng lập luận với một máy tính. Những điều thuộc về ngữ nghĩa đó cần được xử lý từ dữ liệu thô bằng việc tổ chức, chuyển đổi, phân tích và phân lớp. Khai thác đa phương tiện (multimedia) đầy đủ yêu cầu sử dụng video, tranh ảnh, âm thanh và ngôn ngữ. Nó bao gồm sự tương tác của máy với dạng đa phương thức. Thêm vào đó, kiến thức và sự hiểu biết về các dạng đa phương tiện sẽ được hiểu biết về bản chất của các dòng thông tin đa phương tiện. Các hệ thống thông tin đa phương tiện sẽ lưu và cung cấp truy cập đến các dòng dữ liệu, hệ thống ứng dụng thông tin trên tất cả các dạng. Trong phạm vi vấn đề này, đa phương tiện thể được mô tả như mọi ứng dụng của dữ liệu thông tin trên một máy tính qua các dạng như hình ảnh, ngôn ngữ tự nhiên và âm thanh. Một số mô hình ứng dụng đa phương tiện như các thiết bị điện tử, hệ thống lưu trữ các kho chứa đa phương tiện lớn, sử dụng các tài liệu điện tử của đa phương tiện, y [...]... văn bản (Text retrieval) Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật truy tìm thông tin (IR) Các hệ thống IR cổ điển chủ yếu là làm việc trên văn bản (text) và kỹ thuật IR trong hệ thống đa phương tiện rất quan trọng vì hai lý do chính sau đây: 19 - Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện Văn bản là tài nguyên rất quan trọng đối với các quan, tổ chức Điều đó... thuộc tính này được quản lý bằng kỹ thuật DBMS (Trong một số tài liệu cho rằng metadata bao gồm toàn bộ các mức đặc trưng và thuộc tính đang mô tả tại đây) Mô tả bằng văn bản: Mô tả nội dung đối tượng bằng văn bản Mô tả dưới hình thức nhiều từ khóa hay văn bản thông thường Chỉ mục và tìm kiếm trên sở mô tả bằng văn bản được quản lý bằng kỹ thuật IR Mặc mô tả bằng văn bản hạn chế là còn tính chủ... ngữ j trong tài liệu i, tfij là tần số của thuật ngữ j trong tài liệu i, N là tổng số tài liệu trong tập hợp, dfj là số tài liệu chứa thuật ngữ j Trọng số trên tỷ lệ với tần số thuật ngữ và tỷ lệ nghịch với tần số tài liệu, công thức này thường được gọi là tf-idf [idf=log(N/dfi)] Trên sở công thức trên, nếu thuật ngữ xuất hiện trong toàn bộ tài liệu (dfj = N) thì trọng số của thuật ngữ bằng 0 (thuật. .. công nghiệp giải trí rất nhiều định nghĩa khác nhau về CSDL đa phương tiện: Theo nghiên cứu EURESCOM thì CSDL đa phương tiện là một CSDL hiệu năng cao, sức chứa lớn với khả năng hỗ trợ các kiểu dữ liệu đa phương tiện cũng như các kiểu dữ liệu chữ số bản khác và nó thể quản lý một khối lượng rất lớn thông tin đa phương tiện Dữ liệu âm thanh (audio data): Tín hiệu âm thanh bao gồm tiếng nói,... toán sẽ cho thấy điều này Truy tìm dựa trên sở nội dung (Content- based retrieval): Người sử dụng thể chỉ rõ các điều kiện lựa chọn dựa trên những nội dung của các đối tượng đa phương tiện Ví dụ, người sử dụng tìm kiếm ảnh, sử dụng truy vấn như: Tìm tất cả các ảnh giống với ảnh này” và Tìm tất cả các ảnh chứa ít nhất 3 máy bay” Các hình ảnh được thêm vào sở dữ liệu, DBMS (DataBase Manager... cho toàn bộ nội dung văn bản Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể Bởi vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử dụng để mô tả các bản ghi lưu trữ, do vậy cần phải nhiều cố gắng để tập trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ khóa, chỉ mục Ở đây, sẽ không thực tế nếu coi trọng truy vấn trên sở đối sánh... hai hệ thống truy tìm văn bản (IR) và DBMS giúp ta hiểu rõ các kỹ thuật truy tìm văn bản - DBMS: Chứa các bản ghi cấu trúc đồng nhất Mỗi bản ghi được đặc trưng bởi tập các thuộc tính Các giá trị thuộc tính được gán cho bản ghi để mô tả bản ghi này một cách rõ ràng và đầy đủ Truy vấn ở đây dựa trên sở đối sánh chính xác giữa câu truy vấn và các giá trị thuộc tính trong bản ghi Mỗi bản ghi truy vấn... để tìm kiếm các hình ảnh thoả mãn với một truy vấn đưa ra Một cách tiếp cận khác, người sử dụng muốn tìm các tài liệu mà mình quan tâm thể sử dụng các kỹ thuật truy tìm thông tin và tìm kiếm từ khoá Nó vẫn không thực sự rõ ràng là làm thế nào để truy tìm các miền cụ thể đó và các kỹ thuật tìm kiếm có thể được kết hợp hiệu quả với các truy vấn DBMS truyền thống 1.3.2 Vấn đề truy tìm tài liệu văn bản. .. nhiều tài liệu lưu trữ trong tệp, thông thường trong mã ASCII hay EBCDIC, không chỉ mục tài liệu Tìm kiếm tệp phẳng thông qua tìm kiếm mẫu Trong UNIX, khi lưu trữ tập hợp các tài liệu người ta lưu trữ mỗi tài liệu trong một tệp, trong danh mục Các tệp này thể tìm kiếm nhờ các công cụ tìm kiếm theo mẫu như “grep”, “awk” Tiệm cận này không hiệu quả vì mỗi lần truy vấn thì toàn bộ tập hợp tài liệu phải... là số ID của thuật ngữ chỉ mục i, Recordi (i = 1, 2, 3, 4) là số ID của bản ghi (record) i hay tài liệu i Dòng 1 nghĩa rằng Record1 và Record3 chứa Term1 Các dòng khác ý nghĩa tương tự Việc tìm kiếm sẽ được thực hiện nhanh chóng trong các tệp mục lục Chỉ các hàng chứa thuật ngữ tìm kiếm mới được truy tìm Không cần tìm mọi bản ghi trong CSDL Quy tắc tìm kiếm bằng mô hình Bool trên sở các tệp . HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU TRANG KỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG. đến cơ sở dữ liệu đa phương tiện (Mutimedia Database) trong khoa học công nghệ và trong thực tiễn. Với hệ thống cơ sở dữ liệu đa phương tiện, bao gồm dữ

Ngày đăng: 17/02/2014, 12:35

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan