Hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm

3 278 0
Hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm

Đang tải... (xem toàn văn)

Thông tin tài liệu

H thng tỡm kim thụng tin v thut toỏn i sỏnh a mu trong h thng tỡm kim Nguyn Th Kim Phng Trng i hc Cụng ngh Lun vn Thc s ngnh: Cụng ngh thụng tin; Mó s: 1.01.10 Ngi hng dn: PGS.TS. on Vn Ban Nm bo v: 2003 Abstract: Lun vn trỡnh by tng quan v h tỡm kim thụng tin trờn Internet. Gii thiu mt s thut toỏn i sỏnh mu trong vn bn v xut thut toỏn i sỏnh nhanh a mu ci t vo h thng tỡm kim thụng tin Keywords: H tỡm kim thụng tin; Internet; Mng; Tin hc; Tỡm kim thụng tin Content mở đầu Ngày nay, nhu cầu về thông tin của con ng-ời trong cuộc sống rất lớn. Trong thực tế, thông tin đáp ứng nhu cầu của con ng-ời không chỉ ngày càng nhiều mà còn đa dạng. Với sự đa dạng và l-ợng thông tin khổng lồ hiện nay, con ng-ời cần có sự hỗ trợ của các hệ thống phần mềm để nhận ra và tìm đ-ợc thông tin chính xác đầy đủ mà con ng-ời cần. Đáp ứng nhu cầu đó, ng-ời ta đã đ-a ra nhiều hình thức cung cấp thông tin, hay nói cách khác có nhiều nguồn cung cấp thông tin theo nhu cầu của con ng-ời. Và ngày nay, nguồn cung cấp l-ợng thông tin vô cùng to lớn và đa dạng đó là Internet. Sự phát triển nhanh chóng và không ngừng của Internet đã mang lại một l-ợng thông tin ngày càng hữu ích, phong phú đa dạng và đầy đủ hơn. Đó là một nguồn dữ liệu đ-ợc tập hợp từ nhiều nơi, nhiều ng-ời, nhiều tổ chức khác nhau trên toàn cầu. Vì thế, các thông tin đó có mặt rải rác, phân tán khắp nơi, không phân biệt ranh giới địa lý, trải khắp trên toàn cầu. Thông tin không những phân tán, phức tạp, đồ sộ mà còn thuộc nhiều lĩnh vực khác nhau nh-: quản lí, sản xuất, kinh doanh, giáo dục, nghiên cứu khoa học, vui chơi giải trí,Và hầu hết các thông tin trên Internet đ-ợc l-u trữ d-ới dạng các tài liệu văn bản. Khối l-ợng và sự đa dạng của thông tin đã mang lại không ít khó khăn trong việc thu thập, chọn lọc thông tin. Để giải quyết vấn đề này, ng-ời ta đã xây dựng các hệ thống tìm kiếm thông tin _IRS. Công cụ hỗ trợ cho phép ng-ời dùng chọn lọc, thu thập thông tin trên Internet là máy tìm kiếm thông tin, chúng trợ giúp tìm và chọn lọc ra những tài liệu có chứa thông tin cần thiết. Ng-ời dùng luôn yêu cầu kết quả tìm kiếm phải chính xác, đầy đủ và với tốc độ tìm kiếm nhanh. Yêu cầu đó đ-ợc đáp ứng chỉ khi các hệ thống tìm kiếm sử dụng các kỹ thuật, thuật toán hiệu quả, tối -u nhất. Do vậy, chúng tôi chọn đề tài Hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm để làm luận văn tốt nghiệp cao học. Luận văn đ-ợc tổ chức thành 3 ch-ơng và phần kết luận. 2 Ch-ơng 1: Trình bày tổng quan về hệ tìm kiếm thông tin trên Internet. Ch-ơng này giới thiệu chung môi tr-ờng, sự phát triển của hệ tìm kiếm, các khái niệm, định nghĩa cơ bản và qui trình hoạt động của hệ tìm kiếm cùng một số tiêu chuẩn để đánh giá các hệ tìm kiếm. Ch-ơng 2: Giới thiệu chi tiết các kỹ thuật, phân tích, xây dựng và đánh giá hai thành phần cơ bản của hệ tìm kiếm là bộ tìm duyệt và bộ tạo chỉ mục. Ch-ơng 3: Trên cơ sở phân tích các cấu trúc cũng nh- quy trình hoạt động của hệ tìm kiếm trong hai ch-ơng tr-ớc. Ch-ơng này tập trung nghiên cứu một số thuật toán đối sánh mẫu trong văn bản. Phân tích, cài đặt và đánh giá các thuật toán đối sánh đa mẫu nh- Aho_Crasick, Boyer Moore_Horspool và đề xuất thuật toán đối sánh nhanh đa mẫu dựa vào hai thuật toán trên để cài đặt vào hệ thống tìm kiếm thông tin. References Tài liệu tiếng việt 1. Nguyễn Hoàng Long (2002), Hệ thống tìm kiếm thông tin theo chủ đề dựa trên cơ sở lý thuyết tập mờ, Luận văn tốt nghiệp cao học, Hà Nội, tr.15-35. 2. Bùi Quang Minh (2002), Máy tìm kiếm VietSeek, Báo cáo kết quả nghiên cứu thuộc đề tài khoa học đặc biệt cấp ĐHQG Hà Nội, mã số QG-02-02. 3. Phạm Thanh Nam (2003), Một số giải pháp cho bài toán tìm kiếm trong cơ sở dữ liệu Hypertext, Luận văn tốt nghiệp cao học, Hà Nội, tr.23-40. Tài liệu tiếng anh 4. Amihood Amir, Moshe Lewenstein, ElyForat (2000), Faster Algorithms for string Matching with k mismatches, Proceedings of the eleventh annual ACM-SIAM symposium on Discrete algorithms Bar-Ilan University and Georgia Tech, Weizmann Institute San Francisco, 5 California, United States, ISBN:0-89871-453-2, pp.794 803. 5. Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke, Sriram Raghavan (2001), Searching the Web, Technical Report Computer Science Department, Standfort University TOIT 1(1), pp.2-43. http://rose.cs.ucla.edu/~cho/papers/cho-toit01.pdf 6. A Nayak (2003), World wide Web, Data Mining for Web-Enabled Electronic Business Applications, pp.128-138. http:zSzzSzwww.eng.auburn.eduzSz~wenchenzSzpaper.pdf/world-wide-web-search.pdf 7. C.J Van Rjjsbergen (1992), Information Retrieval, Deparment of computing Science - University of Glasgow, 2nd edn Butterworths London, ISBN:0-89791-523-2, pp.37-50. 8. Christian Charras Thierry Lecroq (2002), Hand book of Exact String-Matching Algorithms, pp.165-343. http:zSzzSzwww-igm.univ-lv.frzSz~lecroqzSzcpm98.pdf/charras98very.pdf 3 9. Hosam M.Mahmoud, Robert T.Smythe, Mireille Regnier (1997), “Analysis of Boyer– Moore-Horspool String–matching Heuristic”. Deparment of Statistics, The George Washington University, Washington, USA, pp.169-186. 10. Kin Kolyshkin, Alexander F.Avdonkin (2002), ASPSeck User’s Guide, SWSoft. http://www.aspseek.org/man/manual.pdf 11. Maxime Crochemore, Institut Gaspard Monge (2003), “Pattern Matching in String” UniversitÐ de Marne-la-vallÐe Christophe Hancart, Laboratoire d’Informatique de Rouen, UniversitÐ de Rouen. 12. Michael W.Berry and Murray Browne (1999), “World Wide Web Seach Technologies’. 13. Robert Sedgewick (1988), Second Edition Algorithms, Princeton University. 14. Sunny Lam (2001), “The Overview of The Web search Engine”, Department of computer Science University of Waterloo Canada. 15. Sun Wu (1994), “A Fast Algorithms for Multi-Pattern Searching”, Department of Computer Science Chung-Cheng University Chia-Yi, Taiwan. 16. Sergey Brin and Lawrence Page (2000), “The Anatomy of a Large –Seale Hypertextual, Stanford, USA. http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm . các hệ thống tìm kiếm sử dụng các kỹ thuật, thuật toán hiệu quả, tối -u nhất. Do vậy, chúng tôi chọn đề tài Hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm. số thuật toán đối sánh mẫu trong văn bản. Phân tích, cài đặt và đánh giá các thuật toán đối sánh đa mẫu nh- Aho_Crasick, Boyer Moore_Horspool và đề xuất thuật toán đối sánh nhanh đa mẫu dựa vào. nhanh đa mẫu dựa vào hai thuật toán trên để cài đặt vào hệ thống tìm kiếm thông tin. References Tài liệu tiếng việt 1. Nguyễn Hoàng Long (2002), Hệ thống tìm kiếm thông tin theo chủ đề dựa trên

Ngày đăng: 25/08/2015, 11:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan