đề tài tìm hiểu nguyên lý se framework lucene và ứng dụng nutch

50 996 3
đề tài tìm hiểu nguyên lý se framework lucene và ứng dụng nutch

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đề tài: Tìm hiểu nguyên SE framework Lucene & ứng dụng Nutch GVHD: Ths Hoàng Anh Việt Nguyễn Thế Anh 20080070 Trần Anh Thơ 20082569 Nguyễn Vương Quyền 20082142 Nguyễn Văn Hưng 20081293 Nhóm sinh viên: 1 Nội dungNguyên mô hình SE (Search engine)  LuceneNutch 2 Nguyên mô hình SE 3 1. Giới thiệu 4 1. Giới thiệu  SE là phần mềm nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng.  Crawler-Based Search Engines: lần tìm các trang trên mạng, rồi tự động phân tích các trang lấy về đưa vào cơ sở dữ liệu của nó.  Human-Powered Directories: các thư mục Internet hoàn toàn phụ thuộc vào sự quản của con người. 5 2. Phân loại 2.1. Máy tìm kiếm thông thường  Tìm kiếm theo qui trình thu thập tài liệu, phân loại tạo chỉ mục.  Gồm hai loại, Search Engine sử dụng thư mục chủ đề Search Engine tạo chỉ mục tự động.  Các Search Engine sử dụng thư mục chủ đề phân lớp sẵn các trang trên Internet vào các thư mục chủ đề theo các cấp chi tiết hơn của chủ đề. 6 2. Phân loại 2.2. Máy siêu tìm kiếm 7 2. Phân loại 2.2. Máy siêu tìm kiếm  Là loại máy truy tìm ảo, hoạt động dựa trên sự tồn tại của các Search Engine sẵn có.  Không có cơsở dữ liệu của riêng mình.  Khi có yêu cầu tìm kiếm gửi từ khóa đến các Search Engine khác phân tích phân hạng lại các kết quả tìm được. 8 3. Nguyên 9 3. Nguyên  Robot đi thu thập thông tin trên mạng.  Robots phải liên tục cập nhật các site cũ.  Tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục & trả về những tài liệu thoả yêu cầu. 10 [...]... Ngoài chiến lược tìm chính xác theo từ khoá, các search engine còn cố gắng hiểu ý nghĩa thực sự của câu hỏi 21 4 Mô hình 4.5 Phân hạng trang 22 Lucene  Giới thiệu  Lucene trong các thành phần của ứng dụng tìm kiếm  Các lớp chính trong Lucene  Demo 23 Giới thiệu  Lucene là một thư viện mã nguồn mở viết bằng java cho phép dễ dàng tích hợp thêm chức năng tìm kiếm đến bất cứ ứng dụng nào  Được phát... phát triển bởi Dough Cutting (cũng là tác giả của Hadoop, Nutch )  Cung cấp các API hỗ trợ cho việc đánh chỉ mục tìm kiếm  Hiện tại, Lucene đã được mở rộng ra nhiều ngôn ngữ khác nhau như C#, PHP, C, C++, Python, Ruby… 24 Giới thiệu (tiếp)  Lucene có thể được sử dụng để tích hợp chức năng tìm kiếm vào ứng dụng sẵn có hoặc xây dựng một search engine hoàn chỉnh  Hỗ trợ thực hiện  Phân tích dữ... câu truy vấn tìm kiếm trong chỉ mục: Build query, run query 25 Lucene trong ứng dụng tìm kiếm Users Search user interface Build Query Build Query Render result Render result Run query Run query Các chức năng Lucene hỗ trợ Index Index Document Index Document Analyze Document Analyze Document Build Document Build Document Acquire content Acquire content Raw content 26 Acquire content  Sử dụng một crawler... query.setBoost() 31 Run query  Tìm kiếm chỉ mục lấy ra các kết quả được xếp hạng  Có 3 mô hình tìm kiếm  Pure boolean model: Các tài liệu chỉ có một trong 2 trạng thái là khớp không khớp với truy vấn, không được đánh trọng số  Vector space model: Truy vấn tài liệu được mô hình hóa như các vector trong không gian vector Tìm kiếm dựa vào khoảng cách giữa các vector  Probabilistic model: Tìm. .. số xuất hiện của mục từ trong toàn bộ tài liệu  Lập chỉ mục tự động cho tài liệu là xác định tự động mục từ chỉ mục cho các tài liệu  Bước tiếp theo là chuẩn hoá mục từ 20 4 Mô hình 4.4 Bộ tìm kiếm thông tin Search engine tương tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận & trả về những tài liệu thoả yêu cầu của user  Tìm kiếm theo từ khóa là tìm kiếm các trang mà những từ trong câu... chứa chỉ mục của Lucene  Analyzer: Xử lý, biến đổi text thành các tokens trước khi đánh chỉ mục  Document: Đặc trưng cho một tài liệu  Field: Các thuộc tính của một tài liệu 35 Các lớp tìm kiếm  IndexSearcher: Tìm kiếm chỉ mục  Term: Là một đơn vị cơ bản của tìm kiếm  Query: Là lớp trừu tượng mô tả truy vấn  TopDocs: Là lớp chứa danh sách các tham chiếu đến tài liệu trả về Các tài liệu trả về...4 Mô hình 4.1 Bộ tìm duyệt Crawler Page selection  Interest Driven: dựa vào mức độ quan tâm của người sử dụng với các trang đó  Popularity Driven: dựa vào mức độ phổ biến của trang  Location Driven: xác định mức độ quan trong của trang P dựa vào địa chỉ của nó 11 4 Mô hình 4.1 Bộ tìm duyệt Crawler Mô hình crawler  Crawl & stop:Trong số k trang... addition/insertion), truy cập tuần tự tốc độ cao, truy cập ngẫu nhiên  Cách tổ chức các trang theo kiểu vật tại mỗi nút chính là việc xem xét xem mức độ hỗ trợ mỗi thao tác trên của nút đó 16 4 Mô hình 4.2 Kho dữ liệu repository Chiến lược cập nhật Batch-mode:  Được xử định kỳ mỗi tháng một lần, cho phép duyệt một số lần nhất định Steady Crawler:  Nó liên tục cập nhật bổ xung các... Probabilistic model: Tìm kiếm dựa trên xác suất  Lucene kết hợp mô hình Vector space model Pure boolean model 32 Render result  Trả lại các kết quả phù hợp với truy vấn  Các kết quả được phân hạng theo mức độ phù hợp 33 Một số lớp chính trong Lucene  Các lớp đánh chỉ mục  IndexWriter  Directory  Analyzer  Document  Field  Các lớp tìm kiếm  IndexSearcher  Term  Query  TopDocs 34 Các lớp... Indexer Xác định mục từ quan trọng  Dựa vào chính nội dung của văn bản đó, hoặc tiêu đề hay tóm tắt nội dung của văn bản đó  Các bước:  Cho một tập hợp n tài liệu, thực hiện tính toán tần số xuất hiện của các mục từ trong tài liệu đó  Xác định tổng tần số xuất hiện TFk (Total Frequency) cho mỗi từ bằng cách cộng những tần số của mỗi mục từ duy nhất trên tất cả n tài liệu 19 4 Mô hình 4.3 Bộ lập chỉ . 20081293 Nhóm sinh viên: 1 Nội dung  Nguyên lý và mô hình SE (Search engine)  Lucene  Nutch 2 Nguyên lý và mô hình SE 3 1. Giới thiệu 4 1. Giới thiệu  SE là phần mềm nhằm tìm ra các trang trên mạng. Đề tài: Tìm hiểu nguyên lý SE framework Lucene & ứng dụng Nutch GVHD: Ths Hoàng Anh Việt Nguyễn Thế Anh 20080070 Trần Anh Thơ. chủ đề và Search Engine tạo chỉ mục tự động.  Các Search Engine sử dụng thư mục chủ đề phân lớp sẵn các trang trên Internet vào các thư mục chủ đề và theo các cấp chi tiết hơn của chủ đề. 6 2.

Ngày đăng: 27/05/2014, 12:33

Từ khóa liên quan

Mục lục

  • Bài tập lớn xử lý ngôn ngữ tự nhiên

  • Nội dung

  • Nguyên lý và mô hình SE

  • 1. Giới thiệu

  • Slide 5

  • 2. Phân loại

  • Slide 7

  • Slide 8

  • 3. Nguyên lý

  • Slide 10

  • 4. Mô hình

  • Slide 12

  • Slide 13

  • Slide 14

  • Slide 15

  • Slide 16

  • Slide 17

  • Slide 18

  • Slide 19

  • Slide 20

Tài liệu cùng người dùng

Tài liệu liên quan