Search Engine

34 626 5
Search Engine

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phát triển từ một dự án quân đội Hoa Kỳ, chỉ trong vòng 30 năm đặc biệt là thập kỷ gần đây Internet đã phát triển mạnh mẽ,

THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN MỤC LỤC LỜI NĨI ĐẦU Chương 1: Các phương pháp thu thập thông tin5 1.1 Sự phát triển internet yêu cầu tìm kiếm thơng tin5 1.2 Tìm kiếm thơng tin6 1.2.1 Giới thiệu6 1.2.2 Phương pháp tìm kiếm văn cổ điển7 a.Quét toàn tài liệu7 b.Sử dụng tệp ký hiệu8 c.Sử dụng file nghịch đảo10 d.Tìm kiếm theo mơ hình vec tơ phân nhóm 1.2.3 Phương pháp sử dụng thơng tin ngữ nghĩa a Phương pháp sử dụng phân tích cú pháp ngôn ngữ tự nhiên b Phương pháp sử dụng mục ngữ nghĩa c Phương pháp sử dụng mạng Neural 1.4 Đánh giá độ quan trọng từ khố 1.5 Kết luận phương pháp tìm kiếm thông tin Chương 2: Tổng quan Search Engine 2.1 Khái niệm Search Engine 2.2 Kiến trúc chế hoạt động Search Engine 2.2.1 Kiến trúc Search Engine 2.2.2 Cơ chế hoạt động Search Engine 2.3 Phân loại Search Engine 2.3.1 Search Engine sử dụng phương pháp thông thường 2.3.2 Meta Search Engine 2.4 Các vấn đề liên quan tới Search Engine 2.4.1 Vấn đề thu thập thơng tin 2.4.2 Vấn đề tìm kiếm thơng tin THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN 2.5 Đánh giá Search Engine 2.6 Giới thiệu số Search Engine điển hình 2.6.1 Search Engine Altavista 2.6.2 Search Engine Harvest Chương 3: Xây dựng mơ hình tìm kiếm thơng tin theo Search Engine 3.1 Kiến trúc chương trình 3.1.1 Tạo mục 3.1.2 Tìm kiếm 3.2 Giới thiệu thư viện Jakata Lucene 3.3 Hướng dẫn sử dụng chức Kết luận THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Lời nói đầ u Phát triển từ dự án quân đội Hoa Kỳ, vòng 30 năm đặc biệt thập kỉ gần Internet phát triển mạnh mẽ, len lỏi vào hầu hết lĩnh vực sống, khối lượng thông tin internet ngày trở nên đồ sộ hơn, người nhận thơng tin mong muốn từ Internet, nhiên đồ sộ làm cho người khó đinh vị vị trí thơng tin cần, nhận thơng tin muốn, u cầu tất yếu đặt phải xây dựng hệ thống tìm kiếm thoả mãn yêu cầu người dùng Các Search Engine đời nhằm giải yêu cầu Chúng ta thường đặt u cầu khơng rõ ràng, câu truy vấn thiếu cấu trúc mang tính chất ngơn ngữ tự nhiên nhên lại muốn nhận lại thơng tin xác, hay nói cách khác muốn nhận thông tin muốn thông tin yêu cầu cho máy tính để xây dựng Search Engine hồn thiện u cầu gặp nhiều khó khăn liên quan đến nhiều ngành khoa học: phân tích ngơn ngữ tự nhiên, tìm kiếm thơng tin, Luận văn đưa nghiên cứu mang tính chất tổng quan sở khoa học để xây dựng Search Engine vậy, đồng thời giới thiệu số công nghệ sử dụng năm gần đây, với tư tưởng luận văn có bố cục sau: Chương 1: Các phương pháp thu thập thơng tin Trình bày sở tốn học cho việc Index liệu , thuật toán tìm kiếm tương ứng với phương pháp Index khác Chương 2: Tổng quan Search Engine Trình bày cấu trúc chế hoạt động Search Engine điển hình, phân tích vấn đề liên quan đến Search Engine giới thiệu số Search Engine sử dụng rộng rãi Chương 3: Xây dựng mơ hình tìm kiếm thơng tin theo Search Engine THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Đưa bước để xây dựng hệ thống tìm kiếm hồn chỉnh theo mơ hình Search Engine với ví dụ cụ thể : Hệ thống tìm kiếm Sách điện tử theo yêu cầu Phần kết luận: Nêu kết đạt được, hạn chế luận văn, hướng phát triển mơ hình tìm kiếm tương lai Luận văn hồn thành với giúp đỡ nhiệt tình thầy cô bạn bè Chân thành cảm ơn thầy giáo khoa Toán tin trang bị kiến thức suốt bốn năm học vừa qua, cảm ơn động viên bạn bè, gia đình giúp đỡ tơi hồn thành luận văn THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Chương 1: Các phương pháp thu thập thông tin 1.1 Sự phát triển internet u cầu tìm kiếm thơng tin Mạng Internet đời từ năm 1970 với tên ban đầu ARPANET, mạng quốc phòng Mỹ.Với tiện dụng tính khả thi mạng ARPANET phát triễn mạnh mẽ thu hút tham gia nhiều tổ chức giới Cho tới có hàng triệu máy chủ khác tham gia mạng tồn cầu –Internet hình 1: Sự kết nối mạng máy tính THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Sự thuận tiện Internet thể tiềm dịch vụ sẵn có như: Telnet, FTP, Web Sự đời Web đánh dấu bước thay đổi quan trọng phát triễn Internet.Web hay gọi World Wide Web hệ thống tài liệu liên kết máy khác nhau.Web hệ thống đa phương tiện, tài liệu bao gồm âm thanh, hình ảnh phương tiện truyền thơng khác Đó tài liệu html (Hyper Text Make up Language) Sự tiện dụng Web chứng minh qua thực tế với hàng loạt công ty, tổ chức tham gia phát triển Internet phát triển mạnh mẽ, sâu vào lĩnh vực sống Sự phát triển làm cho khối lượng thơng tin Internet ngày trở nên đồ sộ hơn, người nhận thơng tin họ mong muốn Tuy nhiên phát triển làm cho người sử dụng khó khăn việc tìm vị trí thơng tin cần thiết lựa chọn thơng tin thích hợp Để giải vấn đề nhiều công ty cung cấp dịch vu Internert phát triển hệ thống tìm kiếm đánh giá thơng tin.Các “máy tìm kiếm”Search Engine xây dựng công cụ để giải vấn đề Trong chương ta nghiên cứu vấn đề liên quan đến tìm kiếm thơng tin, sở tốn học cốt yếu để thiết kế lên Search Engine phục vụ u cầu tìm kiếm thơng tin 1.2 Tìm kiếm thơng tin 1.2.1 Giới thiệu: Thông tin khái niệm trừu tượng khơng định nghĩa, thơng tin âm hình ảnh kiện.Chúng ta phân tích vấn đề tìm kiếm thơng tin sở liệu dạng text hai nguyên nhân:  Sự hiểu biết phương pháp hữu dụng coi thông tin tảng cho phát triễn  Sự phát triển mở rộng phương pháp trọng tâm cho phương pháp khác THƯ VIỆN ĐIỆN TỬ TRỰC TUYEÁN Giả sử cần tài liệu chủ đề, biết từ khóa đặc trưng cho vấn đề đó, từ chuỗi từ khóa nhập vào yêu cầu xác định tài liệu có chứa chuỗi từ Đây u cầu đặt cho Search Engine mà nghiên cứu chương luận văn, nghiên cứu sở khoa học cho việc tìm kiếm 1.2.2 Phương pháp tìm kiếm văn cổ điển Các phương pháp tìm kiếm gắn liền với cách biễu diễn mục tài liệu, xem xét chúng song song nhau: a.Quét toàn tài liệu: Phương pháp trực tiếp để xác định tài liệu có chứa chuỗi kí tự cần tìm kiếm cụ thể tìm kiếm tồn tài liệu Một thuật tốn đơn giản để thực điều này:  Xuất phát từ ký tự tài liệu, trích chuỗi kí tự đó, so sánh chuỗi với chuỗi nguồn cần so sánh  Nếu có khác biệt dịch chuỗi tài liệu kí tự sang bên phải tài liệu  Lặp lại tìm chuỗi thỏa mãn duyệt hết tài liệu, kết luận chuỗi khơng có tài liệu Thuật tốn đơn giản chậm Nếu m chiều dài chuỗi cần tìm kiếm n chiêu dài văn số phép so sánh tối đa mà thuật toán cần thực m*(n-m) phép so sánh Đã có nhiều cải tiến cho phương pháp này: thực tiền sử lý chuỗi cần tìm kiếm nhằm tăng số bước dịch chuyển sau lần so sánh, sử dụng Automate trạng thái so sánh lúc nhiều xâu Các thuật tốn khơng u cầu chi phí khơng gian nhiên tài liệu cập nhật, thay đổi chúng lại phải đánh lại mục từ đầu vậy, phương pháp qt tồn thích hợp để tạo mục tài liệu văn học thiết kế cho phần cứng chun dụng THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN b.Sử dụng tệp ký hiệu Phương pháp sử dụng file kí hiệu tài liệu tạo mục Có nhiều phương pháp tạo file kí hiệu đè xuất Phương pháp đơn giản kể đến Bitstring Mỗi tài liệu cần tạo mục cho ứng với chuỗi bít xác định xuất từ tài liệu.Giả sử tài liệu có từ t gồm nhiều kí tự, quan tâm đến s kí tự từ ứng với kí tự quan tâm biểu diễn chuỗi bít có độ dài s, cách đơn giản cho tương ứng mã ASCII kí tự với chuỗi bit nhị phân có chiều dài s, ứng với từ tài liệu ta biểu diễn s chuỗi bit nhị phân, chuỗi có độ dài w định trước.Ví dụ quan tâm tới kí tự từ sau ta có Các ký tự có mã ASCII dạng octal bảng sau: Từ Ký tự thứ Kí tự thứ hai Kí tự thứ ba Nor 116 157 162 Her 150 145 162 Hunger 150 165 156 Eased 145 141 163 Sử dụng hàm chuyển f(c) = ( c mod ) chuyển ký tự dạng chuỗi nhị phân có chiều dài bit: Từ Chuyển thành chuỗi bit nhị phân Nor 01 000 000 10 000 000 Her 00 000 001 00 100 000 Hunger 00 000 001 00 100 000 00 000 100 00 000 100 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Eased 00 100 000 00 000 010 00 100 000 00 001 000 Khơng có phân biệt từ giống tài liệu, điều có nghĩa là: từ giống tài liệu có chung giá trị bit Thông thường trước tạo file kí hiệu từ tài liệu phân tích loại bỏ từ vơ nghĩa, chuẩn hóa từ biến dạng từ gốc, ta có tập thuật ngữ (term) Mỗi câu truy vấn phân tích tài liệu, so sánh xảy chuỗi bít tạo theo quy tắc Để giảm thời gian xử lý tìm kiếm file ký hiệu người ta đề xuất phương pháp Bitslice ý tưởng phương pháp tạo file ký hiệu cho toàn sở liệu text ( Cơ sở liệu text sở liệu chứa tài liệu dạng text, ghi coi danh sách từ thuộc tài liệu sở liệu) Giả sử ta có N tài liệu sở liệu, với từ có xuất tài liệu ta xây dựng chuỗi bit có chiều dài N (các slice), chuỗi bít thứ i xác định có mặt từ tài liệu thứ i sở liệu Phương pháp Bitslice trở nên khơng thích hợp sở liệu lớn, giả sử sở liệu text có hàng triệu ghi, chiều dài chuỗi bit (slice) file ký hiệu lớn Phương pháp Blocked Signature File phát triễn để giải vấn đề Theo phương pháp bit bitslice thể xuất từ mà biễu diễn nhóm tài liệu xác định trước Vấn đề dặt là: yêu cầu tìm kiếm tài liệu chứa tất từ câu truy vấn (Disconjunctive query) khối thỏa mãn u cầu tìm kiếm khơng có tài liệu khối thỏa mãn u cầu tìm kiếm Chúng ta giảm tình trạng cách xếp tài liệu vào nhiều khối khác nhau, tài liệu thuộc THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN khối 1, khôi 2, Giả sử từ xuất tài liệu cần biểu diễn chuỗi bit có chiều dài w, ph c ó K block chứa từ đó, có w k side tệp kí hiệu biễu diễn từ Phưương pháp Block File Signature ơng pháp đề xuất giảm phần sai sót (false match) khơng đảm bảo chắn sai xót khơng xảy Chúng ta xem xét mơ hình tốn học áp dụng cho việc đánh giá mức độ xác phương pháp tạo file kí hiệu Giả sử văn có t thuật ngữ khác nhau, ứng với thuật ngữ ta dùng s chuỗi bít để tạo tệp kí hiệu, chuỗi bít có chiều dài w, Khi ta cần xác định s*t chuỗi bít cho tệp kí hiệu Gọi p(w,s,t) giá trị định khả tài liệu thỏa mãn yêu cầu truy vấn tìm tệp ký hiệu, khơng phải tài liệu thỏa mãn Dựa vào tính tốn khoa học ta có P(w,s,t) = 1  (1  w)  s*t s Ví dụ: tài liệu có 150 thuật ngữ khác nhau, thuật ngữ biễu diễn chuỗi bit, chuỗi có chiều dài 5000, sử dụng công thức ta tính mức độ sai lệch kết tìm kiếm là: 1100000 c.Sử dụng file nghịch đảo Khác với phương pháp sử dụng tệp ký hiệu, phương pháp sử dụng tệp nghịch đảo ( inverted file ) tạo danh sách từ khóa có sở liệu, câu truy vấn xử lý cách so sánh với danh sách từ khóa tìm tài liệu chứa từ khóa thỏa mãn câu truy vấn Một file nghịch đảo bao gồm hai phần: danh sách từ khóa index chứa tài liệu danh sách trỏ tới tài liệu chứa từ khóa Để thu gọn kích thước file nghịch đảo tài liệu sở liệu gán định danh (docID), liên kết tới tài liệu đơn giản lưu định danh tài liệu tương ứng Quá trình tạo tệp nghịch đảo bao gồm bước:  Document File: Xác định từ tài liệu index, từ có ý nghĩa, từ khóa, loại bỏ từ khơng cần thiết, chứa đựng thơn tin: THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Thơng tin thứ hai nội dung cua trang Web, thông tin chuyển cho phần Indexer.Search Engine không nhứng cập nhật liệu URL từ URL tìm thấy trang Web, cho phép cập nhật trực tiếp từ người quản trị.Điều cho phép sở liệu cập nhật nhanh đầy đủ hơn, mặt khác cịn mang tính thương mại cao, chủ Web site muốn quảng bá trang Web cần phải trả tiền để Search Engine cập nhật địa Với quan điểm coi toàn mạng Internet đồ thị lớn, đỉnh trang Web, chúng nối với thông qua địa liên kết dùng thuật toán duyệt đồ thị cổ điển ta dễ dàng duyệt toàn trang Web Internet Ứng với hai phương pháp duyệt đồ thị thông thường ta có hai phương pháp tìm kiếm Search Engine: Tìm theo chiều sâu (Depth in First ) tìm theo chiều rộng (Breadth in First).Thep phương pháp thứ – tìm kiếm theo chiều sâu, Web Clawler xác định địa liên kết site thời, truy cập truy cập tới địa liên kết site mới, tiếp tục không truy cập thi quay lại Với phương pháp Web Clawler tìm kiếm chun sâu vấn đề mà site cung cấp.Nếu sử dụng phương pháp tim kiếm theo chiều rộng Web Clawler truy cập địa liên kết site thời truy cập địa liên kết site Phương pháp làm cho Web Clawler thu thập thông tin nhiều lĩnh vực khác Tuỳ theo yêu cầu khác mà định phương pháp tìm kiếm Tốc độ tìm kiếm theo hai phương pháp phụ thuộc vào tốc độ đường truyền khả đáp ứng yêu cầu site Nhìn chung tốc độ truy cập Web Crawler theo phương pháp tìm kiếm theo chiều sâu ổn định phương pháp tìm kiếm theo chiều rộng liên tục tìm kiếm Web site có hỗ trợ tốc độ khác Các thông tin Web Clawler thu thập qua số bước tiền xử lý: định dạng, loại bỏ thông tin dư thừa phân loại nội dung chuyển cho Indexer để tạo mục Các Search Engine khác thực thao tác tiền xử lý khác Ngoài định dạng tài liệu quen thuộc (*.html, *.txt, ) số Search Engine ... Đánh giá Search Engine 2.6 Giới thiệu số Search Engine điển hình 2.6.1 Search Engine Altavista 2.6.2 Search Engine Harvest Chương 3: Xây dựng mơ hình tìm kiếm thơng tin theo Search Engine 3.1... Index khác Chương 2: Tổng quan Search Engine Trình bày cấu trúc chế hoạt động Search Engine điển hình, phân tích vấn đề liên quan đến Search Engine giới thiệu số Search Engine sử dụng rộng rãi Chương... Chương 2: Tổng quan Search Engine 2.1 Khái niệm Search Engine Search Engine định nghĩa công cụ tin học giúp người việc tìm kiếm trả thơng tin cần thiết Internet Một Search Engine phải đáp ứng

Ngày đăng: 19/04/2013, 14:36

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan