Bộ công cụ tìm kiếm thông tin trên mạng

96 1K 4
Bộ công cụ tìm kiếm thông tin trên mạng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bộ công cụ tìm kiếm thông tin trên mạng

MỤC LỤCLỜI MỞ ĐẦU 4PHẦN I: MỞ ĐẦU 61. Tính cấp thiết của luận văn .62. Mục đích, nhiệm vụ của luận văn .72.1 Mục đích của luận văn 72.2 Nhiệm vụ của luận văn 73. Phạm vi nghiên cứu 74. Nội dung luận văn 8PHẦN II: NỘI DUNG 9CHƯƠNG I: GIỚI THIỆU BỘ CÔNG CỤ TÌM KIẾM THÔNG TIN .91.1 Khái niệm bộ công cụ tìm kiếm thông tin 91.2 Bộ công cụ tìm kiếm thông tin trên mạng 131.3 Mô hình bộ công cụ tìm kiếm thông tin truyền thống 181.4 cấu trúc dữ liệu trong tổ chức và tìm kiếm thông tin .201.4.1 Bảng băm .201.4.1.1 Khái niệm hàm băm 201.4.1.2 Khái niệm bảng băm 221.4.1.3 Giải quyết xung đột 231.4.2 Cây cân bằng nhiều đường B - Tree 271.4.2.1 Định nghĩa cây B - Trees 271.4.2.2 Cây B* - Tree .291.4.2.3 Cây B+ - Tree 291 1.4.2.4 Cây BLink – Trees .311.4.2.5 Lựa chọn phương pháp dữ liệu tần số .32CHƯƠNG II: CÁC CÔNG CỤ TÌM KIẾM CƠ BẢN .332.1 Thu hồi trang Web 332.1.1 Web Crawler .332.1.2 Chọn lựa các trang .342.2 Lưu trữ .382.2.1 Sự phân tán trang theo các nút 392.2.2 Các phương pháp tổ chức trang vật lý .402.2.3 Các chiến thuật cập nhật 402.3 Lập chỉ mục 432.1.1 Cấu trúc của bảng chỉ mục .452.1.2 Một số thách thức 462.3.3 Chia bảng chỉ mục 462.4 Sắp xếp và phân tích liên kết 482.4.1 Phương pháp PageRank .492.4.2 Phương pháp HIST 54CHƯƠNG III: THIẾT KẾ CÁC CÔNG CỤ TÌM KIẾM THÔNG TIN TRÊN MẠNG .613.1 Mô đun lập chỉ mục 623.1.1 Khái niệm chỉ mục 623.1.1 Các cấu trúc lưu chỉ mục 623.1.2 Các bước xây dựng chỉ mục theo phương pháp Inverted files 683.1.4 Lập chỉ mục với nguồn dữ liệu đầu vào .763.2 Mô đun tìm kiếm 772 3.2.1 Các dạng truy vấn .803.2.2 Phân tích pháp truy vấn .813.2.3 Các phương pháp giải quyết vấn đề 833.3 Mô đun sắp xếp 82Các mô hình sắp xếp và đánh giá 821. Mô hình Boolean .832. Mô hình không gian vector .84PHẦN III: KẾT LUẬN .901. Kết quả đạt được trong luận văn .902. Hướng phát triển trong tương lai 91TÀI LIỆU THAM KHẢO 94PHỤ LỤC .983 DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ TIẾNG ANHThuật ngữ tiếng anh Tiếng Việt Viết tắtCONTENT INDEX Chỉ mục nội dungCRAWLER Bộ thu hồiCOLLECTION ANALYSIS MODULE Mô đun phân tích tập hợpMATCHING PROCESS Quá trình đối sánhFULL - TEXT INDEX Chỉ mục toàn văn bảnHASHING SCHEME Sơ đồ bămREVLEVANCE Mức độ liên quanINDEX Bảng chỉ mụcINVERTED FILE Tập tin đảoINVERTED INDEX Chỉ mục ngượcINFORMATION RETRIEVAL Hệ thống tìm kiếm IRPAGERANKSTRUCTURE INDEX Cấu trúc bảng chỉ mụcS EARCH ENGINE Hệ tìm kiếmSIGNATURE FILESTANDFORD WEBBSEQUERY FORMULATION PROCESS Biểu diễn truy vấnQUERY ENGINE Công cụ truy vấnUniform Resource LocationĐịa chỉ một trạm trên InternetURLUSER Người sử dụngUTILYTI INDEX Bảng chỉ mục tiện íchWEB CRAWLER Bộ thu hồiDANH MỤC CÁC HÌNH VẼ4 Hình 1: Quy trình tìm kiếm thông tinHình 2: Bộ công cụ tìm kiếm trang WedHình 3: Mô hình bộ công cụ tìm kiếm truyền thốngHình 4: Cấu trúc bảng bămHình 5: Giải thuật tìm kiếm và chèn một khóa vào bảng bămHình 6: Cấu trúc cây B- treeHình 7: Cấu trúc cây B+ - TreeHình 9: Kiến trúc cây lưu trữHình 10: Mô hình lập chỉ mục WebHình 11: Minh họa các giá trị PageRankHình 12: Thuật toán HITSHình 13: Mô hình tạo nhã với mỗi khối LôgícHình 14: Cấu trúc File dạng SSFHình 15: Inverted File sử dụng mảng sắp xếpHình 16: Khái quát mô hình lập chỉ mụcHình 17: Mô hình bộ phân tíchHình 18: Cấu trúc bộ đệm chỉ mục5 LỜI MỞ ĐẦUTrong xã hội phát triển thông tin thực sự trở thành nguồn tài nguyên quan trọng, nguồn của cải to lớn của xã hội. Các mối quan hệ, tính trật tự của tổ chức là những thuộc tính căn bản của mọi hệ thống kinh tế - xã hội. Hệ thống càng phát triển tức là càng có nhiều yếu tố tạo thành mối quan hệ giữa chúng càng phức tạp do đó lượng thông tin càng phong phú. Chính vì vậy mà ngày nay cùng với sự phát triển của Công nghệ Thông tin cũng như sự phát triển nhanh chóng của mạng máy tính toàn cầu và sự bùng nổ thông tin, các kho dữ liệu số đã được hình thành ở khắp mọi nơi và không ngừng gia tăng về dung lượng, nhưng thông tin thì vẫn luôn là cần thiết thậm chí thiếu với họ. Các kho dữ liệu này ẩn chứa một hàm lượng thông tin vô cùng lớn. Nhưng vấn đề đặt ra là làm thế nào để “khai thác, tìm kiếm” tổng hợp kho thông tin đó để cho nó trở nên hiệu quả và có giá trị đối với người dùng. Những thông tin này được lưu trữ và biểu diễn ở rất nhiều dạng khác nhau như văn bản, âm thanh, hình ảnh vv . có thể nói : “khối lượng dữ liệu khổng lồ mà người sử dụng có thể truy xuất nếu không được tổ chức lưu trữ tốt và kèm theo một phương thức xử lý hiệu quả để có thể khai thác và tìm kiếm lượng thông tin trong đó thì chúng cũng chỉ là những thông tin chết chứ không mang lại chút lợi ích nào cả ”. Để giải quyết vấn đề này, người ta đã xây dựng các hệ thống tìm kiếm thông tin. Nó giúp con người tìm kiếm và chọn lọc ra những tài liệu có chứa thông tin cần thiết. Do người sử dụng luôn yêu cầu kết quả tìm kiếm chính 6 xác, đầy đủ và với các vận tốc tìm kiếm nhanh nên các hệ thống tìm kiếm thông tin luôn được nghiên cứu và phát triển cùng với các kỹ thuật, thuật toán tìm kiếm hiệu quả và tối ưu nhất.Luận văn “Bộ công cụ tìm kiếm thông tin trên mạng ” không đặt mục tiêu chính là xây dựng một hệ thống hoàn chỉnh, mà trình bày phần lý thuyết để đảm bảo cho một hệ thống tìm kiếm. Với hy vọng là tìm hiểu các chiến thuật, thuật toán để tổ chức một bộ công cụ tìm kiếm tối ưu, đưa ra đáp ứng người dùng với thời gian ngắn nhất và các kết quả có độ liên quan tới truy vấn cao nhất và có nhiều lựa chọn để người dùng có thể can thiệp vào hệ thống.Để xây dựng được luận văn này em đã được sự quan tâm hướng dẫn chỉ bảo tận tình của PGS – TS KH Vũ Đình Hòa, cùng với sự giúp đỡ của bạn bè đã tạo điều kiện thuận lợi cho em được hoàn thành nhiệm vụ. Em xin trân thành cảm ơn sự giúp đỡ quý báu này.Hà Nội, ngày tháng năm 2006 Người thực hiện Bùi Thị Minh Tuyết7 PHẦN I : MỞ ĐẦU1.Tính cấp thiết của luận văn:Ngày nay, do nhu cầu học tập, giải trí, trao đổi thông tin của con người là rất lớn. Để đáp ứng nhu cầu đó thì con người đã đạt được những tiến bộ công nghệ cùng với sự phát triển của những lý thuyết trong lĩnh vực xử lý thông tin đã giải quyết được phần nào các vấn đề đặt ra.Chẳng hạn, như các bài toán trong xử lý văn bản như tìm kiếm, phân lớp, phân cụm văn bản, vv . Information retrieval (IR) là một trong vấn đề quan tâm hiện nay. Nghiên cứu về vấn đề IR có rất nhiều khó khăn, bởi ngay cả với những hệ tìm kiếm nổi tiếng mà chúng ta thấy thường xuyên trên mạng Internet như Gooogle, Altaarista, Yahoo, . là các hệ tìm kiếm tự động nhưng vai trò của người dùng rất hạn chế, các hạn chế tiêu biểu thường gặp có thể được liệt kê ra như sau: Khi người sử dụng đưa ra một vấn đề truy vấn, thì hệ thống sẽ trả ra kết quả thường là hàng nghìn tài liệu hoặc thậm trí là lớn hơn rất nhiều, khi đó người sử dụng sẽ phải mất thời gian đọc nội dung của từng loại tài liệu để tìm kiếm thông tin mà mình quan tâm và đặc biệt người sử dụng không thể can thiệp để có thể tìm kiếm tài liệu theo ý muốn của mình.Một bài toán khác trong tìm kiếm thông tin - Vấn đề sắp xếp các tài liệu theo độ liên quan (Relevancy ranking) cũng là một vấn đề đang được quan tâm và phát triển. Đặc biệt trong những năm gần đây cùng với sự gia tăng của các nguồn thông tin điện tử sẵn dùng đã dẫn đến việc tìm kiếm tài liệu phù hợp nhất trong tập tài liệu nguồn ngày càng trở nên khó khăn đối với con người và máy tính.8 2. Mục đích , nhiệm vụ của luận văn2.1. Mục đích của luận văn: Luận văn tập chung nghiên cứu các mô hình tìm kiếm thông tin truyền thống và mô hình tìm kiếm thông tin trên mạng bên cạnh đó cũng tập chung nghiên cứu và phân tích các đặc tính cấu trúc chung của một mô hình tìm kiếm thông tin dựa trên cơ sở lý thuyết.2.2. Nhiệm vụ của luận văn:Luận văn phải thực hiện được các nhiệm vụ sau:2.2.1.Nghiên cứu về bộ công cụ tìm kiếm thông tin .2.2.2.Nghiên cứu các mô hình bộ công cụ tìm kiếm thông tin truyền thống.2.2.3.Nghiên cứu các mô hình bộ công cụ tìm kiếm thông tin trên mạng.3. Phạm vi nghiên cứuKết quả đề tài là bước đầu nghiên cứu, tổng hợp các vấn đề lý thuyết tron bài toán “Bộ công cụ tìm kiếm thông tin trên mạng”. Dựa vào mô hình lý thuyết để tiến hành cài đặt một số chức năng hỗ trợ cho việc thiết kế bộ công cụ tìm kiếm trên mạng.4. Nội dung luận văn :Luận văn gồm 3 chươngCHƯƠNG 1: GIỚI THIỆU BỘ CÔNG CỤ TÌM KIẾM THÔNG TIN Gồm các nội dung sau : 1. Kh¸i niÖm bé c«ng cô t×m kiÕm th«ng tin 9 3. Mô hình bộ công cụ tìm kiếm thông tin truyền thống4. Mô hình bộ công cụ tìm kiếm thông tin trên mạng5. Cấu trúc dữ liệu trong tổ chức lu trữ và tìm kiếm thông tinCHNG 2: CC CễNG C C BN Gm cỏc ni dung sau : 1. Thu hồi trang Web2. Lu trữ3. Lập chỉ mục4. Sắp xếp và phân tích liên kếtCHNG 3 :THIT K CC CễNG C H TR TèM KIM THễNG TIN TRấN MNG Gm cỏc ni dung sau : 1. Môđul tìm kiếm2. Môđun sắp xếp 3. Môđul lập chỉ mục10 [...]... Chỉ số tài liệu, Chỉ số trường Từ, trọng số Cơ Sở Dữ Liệu Tìm Kiếm Tập tài liệu liên quan Chuẩn hóa từ Hoạt động Boolean Tập tài liệu thu hồi đư Từ truy vấn Phân tích pháp truy vấn Sắp xếp Truy vấn Tập tài liệu đã sắp xếp Giao diện sử dụng Phản hồi độ liên quan Truy vấn Tập tài liệu tìm kiếm Người sử dụng Hình 3 : Mô hình bộ công cụ tìm kiếm truyền thống 21 Khi xõy dng c s d liu, ni dung ca tp ti... chỉ mục WW W Mô dule Phân tích tập hợp Công cụ tìm kiếm Kết quả Sắp xếp Điều khiển Thu Hồi Bảng chỉ mục : Văn Bản Cấu trúc Tiện ích Phản hồi Hỡnh 2 : B cụng c tỡm kim trang Web 17 hỡnh trờn em a ra mụ hỡnh tng quan ca mt b cụng c tỡm kim Web Mi b cụng c u s dng mt mụ un Crawler thu hi ti liu cung cp cho cỏc hot ng ca nú B thu hi l mt nhúm cỏc chng trỡnh thay mt b cụng c duyt cỏc trang Web, tng t nh... thụng tin bao gm ba quỏ trỡnh c bn sau: Biu din ni dung cỏc ti liu, biu din yờu cu ca ngi s dng v so sỏnh hai biu din ny Bài toán thông tin Văn bản Biểu diễn Biểu diễn Truy vấn Văn bản đã chỉ số hoá So sánh Phản hồi Các văn bản được tìm kiếm Hình 1: Quy trình tìm kiếm thông tin 12 Quỏ trỡnh biu din ti liu c gi l quỏ trỡnh ch s húa (indexing) Quỏ trỡnh ny th lu tr thc s cỏc ti liu trong h thng, thụng... thng tỡm kim thụng tin v sau ú s nhng ỏnh giỏ khỏc nhau v mc liờn quan trờn cỏc ti liu ó tỡm c Tỡm kim trờn cỏc thụng tin núi chung gii quyt cỏc vn nh biu din, lu tr, t chc v truy cp n cỏc mc thụng tin Vic t chc v biu din thụng tin giỳp ngi s dng d dng truy cp thụng tin m mỡnh quan tõm Nhng mụ t c im thụng tin yờu cu ca ngi s dng khụng phi d dng Vỡ th, h thng tỡm kim thụng tin bao gm ba quỏ trỡnh... trc ht cỏc vn bn v truy vn dng ngụn ng t nhiờn phi c tin x lý v chun húa Mt mụ hỡnh ca quỏ trỡnh thit lp truy vn c chun húa thnh hai vn : u tiờn l chn cỏc ternm truy vn v th hai l la chn cỏc phộp toỏn truy vn Di õy em a ra hai mụ hỡnh chi tit cho b cụng c tỡm kim thụng tin truyn thng v b cụng c tỡm kim thụng tin trờn mng 1.2 B cụng c tỡm kim thụng tin trờn mng Do cỏc trang Web phõn tỏn trờn mi ni nờn... mt lnh vc c th t c hiu qu ỏp ng thụng tin yờu cu ca ngi dựng, h thng IR phi bng cỏch no hiu c cỏc ni dung ca thụng tin (cỏc vn bn) trong mt tp hp v sp xp chỳng theo mc phự hp vi truy vn S hiu bit v ni dung vn bn ny bao gm s trớch chn cỳ phỏp v ng ngha thụng tin t vn bn v s dng thụng tin ny so khp vi thụng tin ngi dựng Cỏi khú l khụng ch hiu trớch chn thụng tin ny nh th no m cũn l hiu cỏch s dng...PHN II: NI DUNG CHNG I GII THIU B CễNG C TèM KIM THễNG TIN 1.1 Khỏi nim b cụng c tỡm kim thụng tin Thut ng tỡm kim thụng tin xut hin t khỏ sm, cỏc thụng tin th hin nhiu dng khỏc nhau, th l dng vn bn, õm thanh hoc hỡnh nh,vv M ph bin nht l tỡm kim vn bn (bao gm vic tỡm kim hoc sp xp vn bn), c bit l trong cỏc cụng c tỡm kim Nhiu lỳc, thut ng ny c dựng nh l ton b quỏ trỡnh t vic x... ra cỏc bng ch mc tin ớch khỏc h tr cho quỏ trỡnh thu hi thụng tin Bng ch mc tin ớch (Utilyti index) c to ra bi mụun phõn tớch tp hp Bng ch mc tin ớch th cho phộp vic truy cp ti cỏc trang vi di cho trc, hoc l cỏc trang mc quan trng no ú, hoc l cỏc trang vi mt s cỏc hỡnh nh trong chỳng Mụun phõn tớch tp hp th s dng cỏc bng ch mc vn bn hoc bn ch mc cu trỳc to ra bn ch mc tin ớch Trong sut... kinh khng hn, kớch thc ca trang Web s tng lờn gp ụi trong vũng hai nm v t l ú s tip tc tng WW W trong hai nm tip theo Module Lập chỉ mục Xong bờn cnh cỏc trang va Mô dule Phân tích tập hợp c to Công cụ tìm kiếm Sắp xếp ra thỡ cỏc trang ang tn ti cng luụn luụn c cp nht, chng hn, theo dừi hn na triu trang trong cỏc min nh .com thỡ phi n 40% cỏc trang c thay i hng Điều khiển ngy Cng vi kớch thc rt... vn ngi dựng mc dự vic tỡm kim th a ra mt ti liu khụng thớch hp 14 Vy, khụi phc thụng tin l mt quỏ trỡnh nhn dng, xỏc nh v ch ra cỏc ti liu liờn quan da trờn mụ t yờu cu thụng tin ca ngi s dng Vic tỡm kim cỏc ti liu da trờn ni dung thc s ca vn bn m khụng ph thuc vo cỏc t khúa gn vi vn bn ú Cỏc cụng c vn bn ni ting hin nay nh Google, Altaavista, Yohoo, l nhng h tỡm kim a ra danh sỏch cỏc vn bn theo . chi tiết cho bộ công cụ tìm kiếm thông tin truyền thống và bộ công cụ tìm kiếm thông tin trên mạng. 1.2 Bộ công cụ tìm kiếm thông tin trên mạngDo các trang. THIỆU BỘ CÔNG CỤ TÌM KIẾM THÔNG TIN. ......91.1 Khái niệm bộ công cụ tìm kiếm thông tin. ...........................................91.2 Bộ công cụ tìm kiếm

Ngày đăng: 02/11/2012, 11:15

Hình ảnh liên quan

INDEX Bảng chỉ mục - Bộ công cụ tìm kiếm thông tin trên mạng

Bảng ch.

ỉ mục Xem tại trang 4 của tài liệu.
Hình 1: Quy trình tìm kiếm thông tin - Bộ công cụ tìm kiếm thông tin trên mạng

Hình 1.

Quy trình tìm kiếm thông tin Xem tại trang 12 của tài liệu.
Bảng chỉ mục: Tiện ích - Bộ công cụ tìm kiếm thông tin trên mạng

Bảng ch.

ỉ mục: Tiện ích Xem tại trang 17 của tài liệu.
Hình 3: Mô hình bộ công cụ tìm kiếm truyền thống - Bộ công cụ tìm kiếm thông tin trên mạng

Hình 3.

Mô hình bộ công cụ tìm kiếm truyền thống Xem tại trang 21 của tài liệu.
phần tử của bảng băm được gắn với một danh sỏch liờn kết, cỏc bản ghi cú cựng giỏ trị băm của khúa được đặt vào danh sỏch liờn kết đú - Bộ công cụ tìm kiếm thông tin trên mạng

ph.

ần tử của bảng băm được gắn với một danh sỏch liờn kết, cỏc bản ghi cú cựng giỏ trị băm của khúa được đặt vào danh sỏch liờn kết đú Xem tại trang 25 của tài liệu.
Giải thuật tỡm kiếm và chốn một bản ghi vào bảng băm được tổ chức theo phương phỏp Chaining: - Bộ công cụ tìm kiếm thông tin trên mạng

i.

ải thuật tỡm kiếm và chốn một bản ghi vào bảng băm được tổ chức theo phương phỏp Chaining: Xem tại trang 26 của tài liệu.
Phương phỏp này sẽ tiến hành kiểm tra nhiều phõn tử của bảng băm, việc kiểm tra được thực hiện với từng phần tử  một cho đến khi  hoặc là khúa  K cần tỡm được hoặc là tỡm thấy một vị trớ trống trong bảng băm (void) - Bộ công cụ tìm kiếm thông tin trên mạng

h.

ương phỏp này sẽ tiến hành kiểm tra nhiều phõn tử của bảng băm, việc kiểm tra được thực hiện với từng phần tử một cho đến khi hoặc là khúa K cần tỡm được hoặc là tỡm thấy một vị trớ trống trong bảng băm (void) Xem tại trang 27 của tài liệu.
Hình 6: Giải thuật tìm kiếm và chèn một khoá vào bảng băm - Bộ công cụ tìm kiếm thông tin trên mạng

Hình 6.

Giải thuật tìm kiếm và chèn một khoá vào bảng băm Xem tại trang 28 của tài liệu.
* Mỗi khúa trong bảng chỉ mục cú thể chứa đựng một con trỏ tới một khối lưu trữ dữ liệu tần xuất ở bờn ngoài - Bộ công cụ tìm kiếm thông tin trên mạng

i.

khúa trong bảng chỉ mục cú thể chứa đựng một con trỏ tới một khối lưu trữ dữ liệu tần xuất ở bờn ngoài Xem tại trang 34 của tài liệu.
Để xõy dựng bảng chỉ mục ngược cho Web đũi hỏi một kiến trỳc bảng chỉ mục phõn tỏn và rộng lớn - Bộ công cụ tìm kiếm thông tin trên mạng

x.

õy dựng bảng chỉ mục ngược cho Web đũi hỏi một kiến trỳc bảng chỉ mục phõn tỏn và rộng lớn Xem tại trang 49 của tài liệu.
Sau đõy em xin đưa ra một phương phỏp khỏc để tổ chức bảng chỉ mục, đú là phương phỏp Inverted File. - Bộ công cụ tìm kiếm thông tin trên mạng

au.

đõy em xin đưa ra một phương phỏp khỏc để tổ chức bảng chỉ mục, đú là phương phỏp Inverted File Xem tại trang 66 của tài liệu.
một vị trớ trong bảng băm cho hai khoỏ khỏc nhau, khi đú ta cú một xung đột. trong chương trỡnh giới thiệu bộ cụng cụ em đó trỡnh bày cỏch giải quyết  xung đột này. - Bộ công cụ tìm kiếm thông tin trên mạng

m.

ột vị trớ trong bảng băm cho hai khoỏ khỏc nhau, khi đú ta cú một xung đột. trong chương trỡnh giới thiệu bộ cụng cụ em đó trỡnh bày cỏch giải quyết xung đột này Xem tại trang 69 của tài liệu.
Như đó trỡnh bày ở trờn, cấu trỳc tối ưu nhất cho bộ đệm đú là bảng băm và được tổ chức như sau: - Bộ công cụ tìm kiếm thông tin trên mạng

h.

ư đó trỡnh bày ở trờn, cấu trỳc tối ưu nhất cho bộ đệm đú là bảng băm và được tổ chức như sau: Xem tại trang 74 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan