Một số kĩ thuật tìm kiếm văn bản theo nội dung

80 579 1
Một số kĩ thuật tìm kiếm văn bản theo nội dung

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG ĐỖ TẤT HƢNG MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG ĐỖ TẤT HƢNG MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC CHỦ TỊCH HỘI ĐỒNG TS TRƢƠNG HÀ HẢI PGS TS NGÔ QUỐC TẠO Thái Nguyên - 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iii LỜI CAM ĐOAN Em xin cam đoan : Luận văn tha ̣c si ̃ Khoa học máy tính “Một số kỹ thuật tìm kiếm văn theo nội dung” công trình nghiên cứu thực cá nhân em, đƣợc thực sở nghiên cứu lý thuyết và dƣới hƣớng dẫn khoa học Tiến sĩ Trƣơng Hà Hải, Trƣờng Đại học Công nghệ Thông tin Truyền thông Em xin chiụ trách nhiê ̣m về lời cam đoan này Thái Nguyên, ngày tháng năm 2015 Tác giả Đỗ Tất Hƣng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iv LỜI CẢM ƠN Để hoàn thành luận văn, em xin chân thành cảm ơn Trƣờng Đại học Công nghệ Thông tin Truyền thông, Phòng Đào tạo, thầy, cô giáo giảng dạy lớp cao học Khoa học máy tính K12E quan tâm, tạo điều kiện thuận lợi, tận tình giảng dạy giúp đỡ em thời gian theo học trƣờng Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến TS Trƣơng Hà Hải, ngƣời dành nhiều thời gian, tâm huyết hƣớng dẫn em suốt trình nghiên cứu hoàn thành luận văn Em xin cảm ơn cán bộ, giảng viên đồng nghiệp Trƣờng Đại học Hùng Vƣơng tạo điều kiện thời gian để em học tập hoàn thành luận văn Mă ̣c dù đã cố gắ ng hế t sƣ́c hoàn thiê ̣n luâ ̣n văn, nhiên luận văn vẫn nhiều thiếu sót, rấ t mong sƣ̣ góp ý quý báu quí thầy cô bạn đồng nghiệp! Xin trân trọng cảm ơn! Thái Nguyên, ngày tháng năm 2015 Tác giả Đỗ Tất Hƣng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ v MỤC LỤC Trang LỜI CAM ĐOAN iii LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC BẢNG viii DANH MỤC HÌNH VẼ ix MỞ ĐẦU CHƢƠNG I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN 1.1 Cơ sở liệu (CSDL) đa phƣơng tiện 1.1.1 Giới thiê ̣u 1.1.2 Mục tiêu 1.1.3 Mô hin ̀ h dƣ̃ liê ̣u đa phƣơng tiê ̣n 1.1.4 Trích chọn đặc trƣng, mục đo tính tƣơng tự 1.1.5 Hệ thống tìm kiếm thông tin (IR) 13 1.1.6 Xếp hạng tài liệu (Ranking) 19 1.2 Bài toán tìm kiếm văn 23 CHƢƠNG II MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 26 2.1 Mô hình Boolean 26 2.2 Mô hình tìm kiế m không gian vector 27 2.3 Mô hình tìm kiế m theo xác suất 30 2.4 Mô hình tìm kiếm dựa sở cụm 30 2.5.1 Ý tƣởng LSI 33 2.5.2 Một số khái niệm 39 2.5.3 Kỹ thuật phân tích SVD 41 CHƢƠNG III ỨNG DỤNG THỬ NGHIỆM 55 3.1 Bài toán 55 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vi 3.2 Chức chƣơng trình thử nghiệm 57 3.3 Hoạt động chƣơng trình 65 3.4 So sánh mô hình tìm kiếm 67 KẾT LUẬN 69 Kết luận 69 Hƣớng phát triển 69 TÀI LIỆU THAM KHẢO 71 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vii DANH MỤC TỪ VIẾT TẮT CSDL Cơ sở liệu IDF Inverse Document Frequency IR Information Retrieval LSI Latent Semantic Indexing MDMS MultiMedia DataBase Manager System MIRS Multimedia Information Retrieval System SVD Singular value decomposition TF Term Frequency Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ viii DANH MỤC BẢNG Bảng 1.1 Ma trận tài liệu - thuật ngữ 21 Bảng 1.2 Ma trận kết tài liệu - thuật ngữ TF-IDF 22 Bảng 1.3 Kết khoảng cách từ truy vấn Q với tài liệu 23 Bảng 2.1 Số lần xuất thuật ngữ tài liệu 43 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ix DANH MỤC HÌNH VẼ Hình 1.1 Mô hình liệu đa phƣơng tiện Hình 1.2 Mô hình xử lý cho hệ thống lập mục 11 Hình 1.3 Mô hình tổng quát tìm kiêm thông tin 15 Hình 1.4 Tiến trình truy vấn tài liệu 17 Hình 1.5 Hệ thống IR tiêu biểu 25 Hình 2.1 Sử dụng khái niệm cho truy vấn 34 Hình 2.2 Các vector văn theo mô hình LSI 39 Hình 2.3 Biểu diễn ma trận xấp xỉ Ak có hạng k 42 Hình 2.4 Biểu đồ 2-D 16 thuật ngữ 17 tài liệu từ tập mẫu 44 Hình 2.5 Sơ đồ SVD ma trận hình chữ nhật thuật ngữ- tài liệu 45 Hình 2.6 Sơ đồ SVD đƣợc giảm lƣợc ma trận thuật ngữ-tài liệu 46 Hình 2.7 Đồ thị Recall – Precision thuật toán LSI 54 Hình 3.1 Kiến trúc mô hình tìm kiếm LSI 65 Hình 3.2 Giao diện cấu hình 66 Hình 3.3 Giao diện tìm kiếm 66 Hình 3.4 Giao diện kết tìm kiếm 67 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Việc tìm kiếm lƣu trữ thông tin từ xa xƣa đƣợc ngƣời trọng quan tâm Ngày nay, với phát triển nhanh chóng lĩnh vực thông tin Internet tạo khối lƣợng thông tin vô lớn với phong phú, đa dạng phức tạp loại hình nhƣ: văn bản, hình ảnh, video, siêu văn bản, đa phƣơng tiện…Vấn đề tìm kiếm thông tin đa phƣơng tiện đƣợc chuyên gia nghiên cứu việc truy tìm thông tin phù hợp với yêu cầu ngƣời sử dụng Văn số dạng liệu đa phƣơng tiện Nó đƣợc quan tâm từ hàng nghìn năm trƣớc việc tổ chức, xếp lƣu trữ loại hình tài liệu Cho đến nay, tài liệu dƣới dạng văn chiếm đa số quan, tổ chức, đặc biệt thƣ viện Đồng thời, văn đƣợc sử dụng để mô tả dạng khác liệu đa phƣơng tiện nhƣ video, audio, hình ảnh Xuất phát từ nhu cầu thực tế sử dụng, số lƣợng tài liệu văn dạng số hóa ngày lớn đƣợc sử dụng phổ biến Vì việc lƣu trữ, xử lý truy tìm thủ công trƣớc gặp nhiều khó khăn, khó thực tìm kiếm đƣợc, tìm kiếm đƣợc nhƣng hiệu không cao Chính vậy, việc tìm kiếm văn theo nội dung có vai trò quan trọng Cùng với đời phát triển máy tính, công cụ xử lý ngày hoàn thiện dựa kỹ thuật phục vụ cho nhu cầu Các mô hình truy tìm thƣờng đƣợc sử dụng phạm vi này, là: Đối sánh xác, không gian vector, xác suất sở cụm Song, nhƣợc điểm mô hình truy tìm thông tin từ mà ngƣời tìm kiếm sử dụng, thƣờng không giống với từ đƣợc đánh mục thông tin tìm kiếm Vấn đề liên quan nhiều đến hai khía cạnh thực tế: Thứ tính đồng nghĩa (synonymy)- thông tin Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 57 3.2 Chức chƣơng trình thử nghiệm Chƣơng trình đƣợc xây dựng với hai chức nhƣ sau:  Tạo mục - Lấy nội dung từ tài liệu có thƣ mục: Với tài liệu: Đọc từ có tài liệu (Sử dụng thư viện miễn phí EPocalipse.IFilter.dll để hỗ trợ đọc tệp doc, docx) Lọc từ vô nghĩa cách so sánh với Stopword Với từ: Sử dụng thuật toán Poster Stemmer để đƣa từ gốc (với văn tiếng Anh) Đƣa từ đƣợc lọc vào wordlist - Tạo ma trận Term - Document - Tạo ma trận trọng số Term - Document - Tính SVD A = USVT - Lƣu tính toán vào index.bin để sử dụng trình tìm kiếm - Hiển thị kết tìm kiếm cho ngƣời dùng sau đƣợc xếp hạng mức độ liên quan câu truy vấn tài liệu Code : private void IndexThings() { string progressLabel = @"Đánh mục nội dung "; lsiReader oReader = new lsiReader(); oReader.UpdateStatus += new lsiReader.LsiEventHandler(IndexThingsUpdateStatus); oReader.IndexDirectory(LSICommon.Instance.LSIConfig.document_directory); m_oWorker.ReportProgress(2, progressLabel); Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 58 DotNetMatrix.GeneralMatrix oLocalWeights = new DotNetMatrix.GeneralMatrix(oReader.WordList.Count, oReader.DocList.Count); DocWordRelation oDocWord; foreach (DictionaryEntry oRow in oReader.WordList) { foreach (DictionaryEntry oCol in oReader.DocList) { oDocWord.DocID = (int)oCol.Key; oDocWord.WordID = (int)oRow.Value; if (oReader.DocWordRelation.ContainsKey(oDocWord)) { oLocalWeights.Array[(int)oRow.Value][(int)oCol.Key] = (int)oReader.DocWordRelation[oDocWord]; } else { oLocalWeights.Array[(int)oRow.Value][(int)oCol.Key] = 0; } } } m_oWorker.ReportProgress(30, progressLabel); double[] oGlobalTermWeights = new double[oReader.WordList.Count]; double[] oDocNormFactors = new double[oReader.DocList.Count]; for (int i = 0; i < oLocalWeights.Array.Length; i++) { int sum = 0; double Fi = 0; for (int j = 0; j < oLocalWeights.Array[i].Length; j++) { if (oLocalWeights.Array[i][j] > 0) { sum+=1; Fi += oLocalWeights.Array[i][j]; } Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 59 } if (sum > 0) oGlobalTermWeights[i] = Math.Log(oReader.DocList.Count/ (double)sum); else oGlobalTermWeights[i] = 0; } m_oWorker.ReportProgress(40, progressLabel); for (int j = 0; j < oLocalWeights.Array[0].Length; j++) { double sum = 0; for (int i = 0; i < oLocalWeights.Array.Length; i++) { sum += (oGlobalTermWeights[i] * oLocalWeights.Array[i][j]) * (oGlobalTermWeights[i] * oLocalWeights.Array[i][j]); } oDocNormFactors[j] = / Math.Sqrt(sum); } m_oWorker.ReportProgress(50, progressLabel); DotNetMatrix.GeneralMatrix oWTDM = new DotNetMatrix.GeneralMatrix(oReader.WordList.Count, oReader.DocList.Count); for (int i = 0; i < oWTDM.Array.Length; i++) { for (int j = 0; j < oWTDM.Array[i].Length; j++) { oWTDM.Array[i][j] = oLocalWeights.Array[i][j] * oGlobalTermWeights[i] * oDocNormFactors[j]; } } m_oWorker.ReportProgress(60, progressLabel); DotNetMatrix.SingularValueDecomposition svd = new DotNetMatrix.SingularValueDecomposition(oWTDM); Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 60 int svd_rank = (int)(oReader.DocList.Count * ((double)LSICommon.Instance.LSIConfig.k_percent_for_rank_approx)); if (svd_rank == || svd_rank > oReader.DocList.Count) svd_rank = oReader.DocList.Count; DotNetMatrix.GeneralMatrix sk = new DotNetMatrix.GeneralMatrix(svd_rank, svd_rank); for (int i = 0; i < svd_rank; i++) { for (int j = 0; j < svd_rank; j++) { sk.Array[i][j] = svd.S.Array[i][j]; } } m_oWorker.ReportProgress(70, progressLabel); DotNetMatrix.GeneralMatrix skinv = sk.Inverse(); DotNetMatrix.GeneralMatrix u = svd.GetU(); // U DotNetMatrix.GeneralMatrix uk = new DotNetMatrix.GeneralMatrix(u.Array.Length, svd_rank); for (int i = 0; i < u.Array.Length; i++) { for (int j = 0; j < svd_rank; j++) { uk.Array[i][j] = u.Array[i][j]; } } m_oWorker.ReportProgress(80, progressLabel);  Tìm kiếm - Lấy liệu từ file index.bin để phục vụ cho trình tìm kiếm - Lấy nội dung câu truy vấn, lọc từ dừng - Tạo vector qT làm danh sách từ - Tính vector truy vấn q = qT × Uk × Sk (vector đơn vị) - Tạo vector văn bản: Với văn Tạo vector dT Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 61 Tính vector d = dT × Uk × Sk (vector đơn vị) - Tính toán độ tƣơng đồng câu truy vấn tài liệu Với tài liệu Lấy vector “d”   Tính cosin (q,d) - Hiển thị danh sách kết theo chiều giảm dần mức độ liên quan Code: private void FindThings() { Hashtable WordList = new Hashtable(); Hashtable DocList = new Hashtable(); DotNetMatrix.GeneralMatrix uk=null; DotNetMatrix.GeneralMatrix skinv = null; DotNetMatrix.GeneralMatrix oWTDM = null; DocIndex oDocIndex; oDocIndex.DocList = null; oDocIndex.WordList= null; oDocIndex.uk = null; oDocIndex.WTDM = null; oDocIndex.skinv = null; string index_path = LSICommon.Instance.LSIAppPath + @"\index.bin"; bool bRead=false; BinaryFormatter bf = new BinaryFormatter(); if (File.Exists(index_path)) { try { FileStream f = File.Open(LSICommon.Instance.LSIAppPath + @"\index.bin", FileMode.Open); oDocIndex = (DocIndex)bf.Deserialize(f); f.Close(); bRead = true; } catch { bRead = false; } } else Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 62 { bRead = false; } if (!bRead) { MessageBox.Show("Chưa tạo mục! Hãy bấm nút Chỉ mục!"); return; } for (int i = 0; i < oDocIndex.WordList.Length; i++) { WordList.Add(oDocIndex.WordList[i].key, oDocIndex.WordList[i].value); } for (int i = 0; i < oDocIndex.DocList.Length; i++) { DocList.Add(oDocIndex.DocList[i].key, oDocIndex.DocList[i].value); } uk = new DotNetMatrix.GeneralMatrix( oDocIndex.uk); skinv = new DotNetMatrix.GeneralMatrix(oDocIndex.skinv); oWTDM = new DotNetMatrix.GeneralMatrix(oDocIndex.WTDM); string newquery = txtQuery.Text; string[] newqwords = LSICommon.Instance.GetWords(newquery); DotNetMatrix.GeneralMatrix qt = new DotNetMatrix.GeneralMatrix(1, WordList.Count); for (int i = 0; i < WordList.Count; i++) qt.Array[0][i] = 0; PorterStemmer oStemmer = new PorterStemmer(); for (int i = 0; i < newqwords.Len agth; i++) { newqwords[i] = oStemmer.stemTerm(newqwords[i]); if (WordList.ContainsKey(newqwords[i])) { qt.Array[0][(int)WordList[newqwords[i]]] += 1; } } double qtmax = 0; for (int i = 0; i < qt.Array[0].Length; i++) if (qt.Array[0][i] > qtmax) qtmax = qt.Array[0][i]; Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 63 double[] simarray = new double[DocList.Count]; if (qtmax != 0) { for (int i = 0; i < qt.Array[0].Length; i++) { qt.Array[0][i] = (qt.Array[0][i] / qtmax); } DotNetMatrix.GeneralMatrix qt_uk = qt.Multiply(uk); // DotNetMatrix.GeneralMatrix q = qt_uk.Multiply(skinv); for (int l = 0; l < DocList.Count; l++) { DotNetMatrix.GeneralMatrix d_v = new DotNetMatrix.GeneralMatrix(WordList.Count, 1); for (int k = 0; k < WordList.Count; k++) { d_v.Array[k][0] = oWTDM.Array[k][l]; } DotNetMatrix.GeneralMatrix dt = d_v.Transpose(); DotNetMatrix.GeneralMatrix dt_uk = dt.Multiply(uk); DotNetMatrix.GeneralMatrix d = dt_uk.Multiply(skinv); simarray[l] = 0; simarray[l] = calculate_cosine_sim(q.Array[0], d.Array[0]); } } else { MessageBox.Show("Không tìm thấy!"); } DataTable oResTable = new DataTable(); DataRow oResDR = null; oResTable.Columns.Add("filename", typeof(string)); oResTable.Columns.Add("val", typeof(double)); for (int i = 0; i < simarray.Length; i++) { oResDR = oResTable.NewRow(); oResDR["val"] = (Math.Round(simarray[i],6)); Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 64 oResDR["filename"] = DocList[i].ToString(); oResTable.Rows.Add(oResDR); } dataGridView1.DataSource = oResTable; dataGridView1.Sort(dataGridView1.Columns["val"], ListSortDirection.Descending); dataGridView1.Columns["val"].HeaderText = "Đánh giá"; dataGridView1.Columns["filename"].HeaderText = "Đường dẫn"; dataGridView1.Columns["val"].AutoSizeMode = DataGridViewAutoSizeColumnMode.AllCells; dataGridView1.Columns["filename"].AutoSizeMode = DataGridViewAutoSizeColumnMode.Fill; dataGridView1.RowHeadersVisible = false; DataGridViewCellStyle oCellStyle = new DataGridViewCellStyle(); oCellStyle.BackColor = Color.AliceBlue; dataGridView1.AlternatingRowsDefaultCellStyle = oCellStyle; try { foreach (DataGridViewRow oRow in dataGridView1.Rows) { double rank = 0; double.TryParse(oRow.Cells["val"].Value.ToString(),out rank); if (rank > 0) { string filePath = oRow.Cells["filename"].Value.ToString().Trim(); oRow.Cells["filename"].ToolTipText = ReadShortTextContent(filePath); oRow.DefaultCellStyle.BackColor = System.Drawing.ColorTranslator.FromHtml("#fbfb37"); } } } catch { } } Dƣới kiến trúc mô hình tìm kiếm theo mô hình LSI sử dụng kỹ thuật SVD: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 65 Tập văn Câu truy vấn Tạo listwords Tạo Term – Document Matrix A Vector hoá Tính SVD(A) Chọn hệ số k  = UkSk V Tính A  A k T Xử lý truy vấn Index.bin Xếp hạng kết Danh sách tập tin văn Hình 3.1 Kiến trúc mô hình tìm kiếm LSI Với: - listword: Danh sách từ sau loại bỏ từ dừng 3.3 Hoạt động chƣơng trình Giao diện tìm chƣơng trình gồm có chức chính: Cấu hình, mục, tìm kiếm Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 66 Hình 3.2 Giao diện cấu hình Trƣớc tìm kiếm, ngƣời dùng chọn chức cấu hình để lựa chọn thƣ mục tìm kiếm nhập hệ số k (đã phân tích chương II) Hình 3.3 Giao diện tìm kiếm Sau lựa chọn thƣ mục tìm kiếm hệ số k, ngƣời dùng kích chọn nút Chỉ mục để mục tài liệu Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 67 Hình 3.4 Giao diện kết tìm kiếm Ở giao diện hiển thị kết quả, văn đƣợc hiển thị theo chiều tăng dần mức độ liên quan đến câu truy vấn đƣợc “tô vàng” với văn có rank >0 3.4 So sánh mô hình tìm kiếm Do tính hiệu thấp mô hình Boolean, mô hình tìm kiếm theo xác suất nên mô hình tìm kiếm theo không gian vector mô hình LSI đƣợc nghiên cứu phục vụ cho việc xây dựng hệ thống IR đại Mô hình LSI đƣợc đƣa để khắc phục hạn chế mô hình không gian vector vấn đề đồng nghĩa đa nghĩa từ Hiệu mô hình LSI đƣợc đánh giá cao mô hình không gian vector - Về không gian lƣu trữ liệu mục: Giả sử, ta phải lƣu trữ ma trận A(M  N) với M = 1.000.000, N = 1.000.000, mô hình không gian vector ta phải sử dụng: M  N = 10GB (mỗi giá trị 1byte) Trên sở SVD, lƣu trữ ma trận U, S, V Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 68 thay cho A, với k = 500, ta có không gian lƣu trữ cần dùng 1000.000  500 + 500  500 + 1.000.000  500 = 505.25 MB Giá trị nhỏ so với 10GB - Về thời gian thực thi thủ tục truy vấn: Trong mô hình LSI, lƣợng liệu lƣu trữ mục nhiều so với mô hình không gian vector nên việc tính toán cho thủ tục truy vấn nhanh nhiều Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 69 KẾT LUẬN Kết luận Kỹ thuật tìm kiếm thông tin hệ thống sở liệu đa phƣơng tiện vấn đề mang tính thời Công nghệ thông tin Bản luận văn đề cập đƣợc số vấn đề mang tính chất sở CSDL đa phƣơng tiện số kỹ thuật tìm kiếm văn theo nội dung CSDL đa phƣơng tiện nhƣ mô hình Bool sở, mô hình không gian vector, số kỹ thuật nâng cao tìm kiếm nhƣ: kỹ thuật tìm kiếm theo xác suất, kỹ thuật phân cụm đặc biệt sâu vào tìm hiểu kỹ thuật mục ngữ nghĩa tiềm ẩn (LSI - Latent Semantic Indexing) Bản luận văn xây dựng chƣơng trình thử nghiệm, demo chức lập mục số kỹ thuật tìm kiếm văn đơn giản Đây sở cho việc tiếp tục xây dựng đánh giá tính hiệu kỹ thuật nâng cao tìm kiếm sau Bên cạnh đó, luận văn số nhƣợc điểm nhƣ: Chƣơng trình mô tả đƣợc thuật toán tìm kiếm, chƣa mô tả đƣợc hoàn thiện chƣơng trình tìm kiếm Chƣa so sánh đƣợc chi tiết phƣơng pháp tìm kiếm nêu ra; chƣa đánh giá đƣợc hiệu tìm kiếm phƣơng pháp tập liệu cụ thể Do eo hẹp thời gian nhƣ hạn chế tài liệu trình độ lập trình yếu nên luận văn chƣa thể sâu vào việc xây dựng cài đặt chƣơng trình thử nghiệm áp dụng kỹ thuật nâng cao tìm kiếm văn theo nội dung nhƣ mong muốn Hƣớng phát triển Đây đề tài có tính thực tế cao Với nhiệm vụ nghiên cứu, luận văn đáp ứng đƣợc số yêu cầu đặt ra.Tuy nhiên để áp dụng kỹ thuật nâng cao tìm kiếm vào chƣơng trình ứng dụng cụ thể cho ngƣời sử dụng đòi hỏi phải có thêm thời gian nghiên cứu không với kỹ thuật Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 70 tìm kiếm mà số kỹ thuật khác liên quan đến việc truy tìm cho đạt hiệu tốt Do hƣớng phát triển luận văn nhƣ sau: + Thêm chức tự thu thập tài liệu định kì tự động cập nhập mục; + Cài đặt chƣơng trình tìm kiếm văn sử dụng kỹ thuật nâng cao; + Phát triển ứng dụng có áp dụng kỹ thuật nâng cao tìm kiếm để cung cấp máy tìm kiếm hiệu cho ngƣời sử dụng (cụ thể áp dụng vào hệ thống thƣ viện số Trƣờng Đại học Hùng Vƣơng) Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 71 TÀI LIỆU THAM KHẢO Tiếng Việt [1] PGS.TS Đặng Văn Đức (2004-2008), Bài giảng Cơ sở liệu đa phương tiện Tiếng Anh [2] Cherukuri Aswani Kumar, Suripeddi Srinivas (2006) , “Latent Semantic Indexing Using Eigenvalue Analysis for Efficient Information Retrieval”, Int J Appl Math Comput Sci., 2006, Vol 16, No 4, pp 551–558 [3] Edel Garcia (2006), Latent Semantic Indexing (LSI) A Fast Track Tutorial [4] Guojun Lu, Multimedia Database Management Systems, Artech House Boston – London [5] Grossman and Frieder (2004), Information Retrieval, Springer Science & Business Media [6] Jamie Callan (2008), Information Retrieval, Carnegie Mellon University [7] Karl Aberer (2003), Data Mining, Laboratoire de systèmeses d’informations répartis [8] Marcel Worring, Multimedia Information Systems, Lecture Notes, University of Amsterdam [9] Ricardo Baeza, Berthier Ribeiro (1999), Modern Information Retrieval, ACM Press New York Website [10] http://www.anupshinde.com [11] http://www.miislita.com [12] http://vi.wikipedia.org Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ [...]... Luâ ̣n văn này tập trung nghiên cứu về lớp bài toán tìm kiếm nội dung văn bản, một số kỹ thuật tìm kiếm văn bản, cài đặt chƣơng trình mô phỏng mô hình tìm kiếm văn bản theo nội dung dựa trên phân tích SVD và ứng dụng vào công việc xử lý, tìm kiếm văn bản tại Trƣờng Đại học Hùng Vƣơng Bố cục của luận văn bao gồm các chƣơng sau: Luận văn đƣợc trình bày thành 3 phần bao gồm: phần mở đầu, phần nội dung. .. vấ n đề về tìm kiế m văn bản theo nô ̣i dung : Đề cập đến vấn đề chỉ mục tài liệu và thước đo hiệu năng Nghiên cứu một số mô hình tìm kiếm như: Boolean, không gian vector, mô hình truy tìm theo xác suất, phương pháp LSI, kỹ thuật phân tích ma trận SVD Chương 3 Ứng dụng thử nghiệm: Cài đặt thử nghiệm một số mô hình tìm kiếm văn bản ứng dụng cho công việc tìm kiếm văn bản tại Trường Đại học Hùng... hiện tìm kiếm theo mô hình boolean Có thể nói DTSearch là điển hình tìm kiếm văn bản theo mô hình boolean khá tốt hiện nay Hệ tìm kiếm văn bản Lucene: Hệ tìm kiếm văn bản Lucene là hệ tìm kiếm mã nguồn mở Hệ thống đƣợc phát triển cả trên nền Net và cả trên ngôn ngữ Java Hệ thống hiện cũng đƣợc khá nhiều lập trình viên phát triển 1.1.6 Xếp hạng tài liệu (Ranking) [1][4] Một truy vấn Boolean cho một. .. tạo lập, tiêu đề đối tƣợng Không mô tả hay diễn giải nội dung của đối tƣợng Các thuộc tính này đƣợc quản lý bằng kỹ thuật DBMS Mô tả bằng văn bản: Mô tả nội dung đối tƣợng bằng văn bản Mô tả dƣới hình thức nhiều từ khóa hay văn bản thông thƣờng Chỉ mục và tìm kiếm trên cơ sở mô tả bằng văn bản đƣợc quản lý bằng kỹ thuật IR Mặc dù mô tả bằng văn bản có hạn chế là còn tính chủ quan và chƣa đầy đủ, nhƣng... gồm các bản ghi không có cấu trúc Chúng không chứa các thuộc tính cố định Nó chỉ đơn thuần là tài liệu văn bản Các tài liệu này có thể chỉ mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục Mỗi thuật ngữ chỉ mục đƣợc sử dụng để mô tả nội dung văn bản chỉ theo một khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội dung văn bản Nhiều thuật ngữ chỉ mục đƣợc gắn theo tài... tìm kiếm thường được sử dụng hiện nay: Google Desktop: Google desktop search giúp cho chúng ta có thể tìm kiếm một cách dễ dàng trong máy tính của mình giống nhƣ việc tìm kiếm trên web của google Google Desktop là một ứng dụng cung cấp cho chúng ta tìm kiếm một văn bản với từ khóa đầy đủ trong mail, các file, âm nhạc, ảnh, chat, Gmail, và các trang web nằm trong máy mình.Bằng việc làm cho có thể tìm. .. file dữ liệu, hay chính văn bản chúng ta đang đọc Kỹ thuật truy vấn tài liệu văn bản đƣợc gọi chung là kỹ thuật truy tìm thông tin (IR) Các hệ thống IR cổ điển chủ yếu là làm việc trên văn bản (text) và kỹ thuật IR trong hệ thống đa phƣơng tiện rất quan trọng vì hai lý do chính sau đây: - Đang tồn tại số lƣợng lớn tài liệu văn bản trong các thƣ viện Văn bản là tài nguyên rất quan trọng đối với các cơ quan... nghĩa) Một ý tƣởng thú vị xét xem liệu việc truy tìm có thể dựa vào các khái niệm có hiệu quả hơn là trên các thuật ngữ, đó là mô hình LSI (Latent Semantic Indexing) dựa trên kỹ thuật phân tích ma trận SVD (singular value decomposition), là các giải pháp hữu hiệu cho vấn đề truy tìm thông tin dựa trên cơ sở nội dung tài liệu văn bản, tìm kiếm trên cơ sở những khái niệm (không phải trên các thuật ngữ... video và những đối tƣợng đa phƣơng tiện khác.” Tìm kiếm thông tin là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp giúp ngƣời sử dụng có thể tìm thấy các thông tin mình cần trong một khối lƣợng lớn dữ liệu Nhiệm vụ của một hệ thống tìm kiếm thông tin tƣơng tự nhƣ nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu của một thƣ viện Một hệ thống tìm kiếm thông tin có hai chức năng chính: lập chỉ... cùng, chúng ta xét đến đầu ra thƣờng là một tập trích dẫn hoặc các tài liệu Trong một hệ thống hoạt động đây là phần còn lại Tuy nhiên, một hệ thống thực nghiệm có thể cho phép thực hiện việc đánh giá Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 26 CHƢƠNG II MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 2.1 Mô hình Boolean [4][6][9] Mô hình Boolean là mô hình cổ điển và đơn giản ... truy tìm thông tin dựa sở nội dung tài liệu văn bản, tìm kiếm sở khái niệm (không phải thuật ngữ đơn) Luâ ̣n văn này tập trung nghiên cứu lớp toán tìm kiếm nội dung văn bản, số kỹ thuật tìm kiếm. .. Hệ thống tìm kiếm thông tin (IR) 13 1.1.6 Xếp hạng tài liệu (Ranking) 19 1.2 Bài toán tìm kiếm văn 23 CHƢƠNG II MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG ... thuật tìm kiếm văn bản, cài đặt chƣơng trình mô mô hình tìm kiếm văn theo nội dung dựa phân tích SVD ứng dụng vào công việc xử lý, tìm kiếm văn Trƣờng Đại học Hùng Vƣơng Bố cục luận văn bao gồm

Ngày đăng: 16/12/2015, 15:24

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan