CHUYÊN ĐỀ PHÂN TÍCH, SO SÁNH, ĐÁNH GIÁ CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN

39 2.4K 12
CHUYÊN ĐỀ PHÂN TÍCH, SO SÁNH, ĐÁNH GIÁ CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  Họ và tên tác giá báo cáo chuyên đề NGUYỄN VĂN TIẾN CHUYÊN ĐỀ: PHÂN TÍCH, SO SÁNH, ĐÁNH GIÁ CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 GVHD: GS. TSKH Hoàng Kiếm Thành phố Hồ Chí Minh - Năm 2014 Mục Lục 2 Danh mục các ký hiệu và từ viết tắt SEO: Search Engine Optimization Tối ưu hóa công cụ tìm kiếm SERP: Search Engine Results Page Trang kết quả tìm kiếm URL: Uniform Resource Locator Liên kết xác định tài nguyên trên Internet MSN: MicroSoft Network Search Engine Công cụ tìm kiếm của Microsoft CNTT: Công nghệ thông tin IR: Information Retrieval Truy tìm thông tin DN: Doanh Nghiệp 3 Danh mục các bảng 4 Danh mục các hình, đồ thị 5 Chương 1. Giới thiệu 1.1 Đặt vấn đề Với sự bùng nổ thông tin trên mạng Internet thì công cụ tìm kiếm thông tin trên mạng Internet ngày càng có tầm quan trọng cao. Các công cụ/hệ thống tìm kiếm thông tin cung cấp cho mọi người cơ hội để tìm thông tin một cách dễ dàng và nhanh chóng và đã trở thành một phần của cuộc sống hàng ngày của người sử dụng mạng Internet. Trong bài báo cáo này, các câu hỏi sau đây sẽ được tiếp tục được làm sáng tỏ: Tại sao công cụ tìm kiếm lại thành công? Sự khác biệt chính của các công cụ tìm kiếm thành công nhất hiện nay là gì? Siêu công cụ tìm kiếm là gì và cách thức hoạt động của nó ra sao? Siêu công cụ tìm kiếm có thể tối ưu hóa các truy vấn tìm kiếm hay không? Và cuối cùng, là những yêu cầu cần phải có của một hệ thống tìm kiếm lý tưởng? 1.2 Mục tiêu Một trong những mục tiêu của bài báo cáo này là cung cấp cho một cái nhìn tổng quan về truy tìm thông tin và chỉ ra sự khác nhau trong cách làm việc của các công cụ tìm kiếm. Thông qua phân tích công cụ tìm kiếm web để so sánh các công cụ tìm kiếm thông dụng trên Internet hiện nay. Ngoài ra, một mục tiêu khác là giới thiệu và mô tả chức năng của siêu công cụ tìm kiếm. Mục tiêu chính là để kiểm tra giả thuyết rằng sử dụng nhiều công cụ tìm kiếm có thể tốt hơn sử dụng một công cụ tìm kiếm đơn khi đã tối ưu hóa các truy vấn hay không. Bài báo cáo tập trung tìm hiểu về các chức năng của công cụ tìm kiếm. Tuy nhiên, các khía cạnh kinh doanh cũng được trình bày sơ qua. 1.3 Phương pháp tiếp cận Bài báo cáo này được chia làm hai phần khác nhau. Phần đầu tiên, trình bày lý thuyết mô tả truy vấn thông tin nói chung cũng như mô tả những đặc điểm và chức năng của công cụ tìm kiếm. Trong đó sẽ giải thích lý do tại sao công cụ tìm kiếm thành công. Trong phần thứ hai, phân tích kết quả của ba công cụ tìm kiếm phổ biến nhất hiện nay là Google, Yahoo và Bing từ đó trình bày những điểm mạnh và điểm yếu chính 6 của từng công cụ tìm kiếm. Trong phần hai, chúng ta cũng tiến hành so sánh các công cụ tìm kiếm hiện nay với siêu công cụ tìm kiếm để tìm ra công cụ tìm kiếm hữu ích nhất. 7 Chương 2. Truy tìm thông tin Có rất nhiều phương pháp cho việc tìm kiếm thông tin, nhưng một trong những cách hàng đầu là thông qua công cụ tìm kiếm. Hiên nay, tất cả mọi người sử dụng công cụ tìm kiếm, chủ yếu cho nghiên cứu, học tập, kinh doanh, mua sắm hoặc giải trí. Công cụ tìm kiếm có thể xem là trình điều khiển lưu lượng truy cập trên web lớn nhất trên Internet, nó có ảnh hưởng lớn và liên tục được phát triển. Để biết được công cụ tìm kiếm hoạt động như thế nào,chúng ta cần có kiến thức tổng quan về kỹ thuật truy tìm thông tin mà các công cụ tìm kiếm sử dụng. Theo Langville & Meyer [2006] thì Truy tìm thông tin (IR) là “quá trình tìm kiếm trong một bộ sưu tập tài liệu dựa trên một đặc điểm của thông tin cần tìm”. Khác biệt giữa truy tìm thông tin truyền thống và tìm kiếm thông tin trên web là: truy vấn thông tin truyền thống hoặc cổ điển là tìm kiếm trong kho dữ liệu nhỏ hơn, kho dữ liệu được kiểm soát và không liên kết. Những bộ sưu tập tài liệu được lưu trữ dưới hình thức vật lý. Ví dụ của truy tìm thông tin truyền thống là tìm kiếm thông tin trong cuốn sách của một thư viện công cộng. Tuy nhiên, ngày nay, hầu hết các tài liệu được lưu trữ trên máy vi tính có thể được truy tìm dễ dàng với sự hỗ trợ của các kỹ thuật trên máy tính, các kỹ thuật truy tìm thông tin trên máy tính còn được gọi là mô hình truy tìm thông tin hoặc các phương pháp truy tìm thông tin. Truy tìm thông tin trên web thì khác hơn so với tìm kiếm truyền thống,Vì khi đó chúng ta thực hiện tìm kiếm trong kho dữ liệu trên Internet gồm nhiều tài liệu có liên quan và được liên kết với nhau và kho dữ liệu trên Internet thì rất lớn và khó kiểm soát. Hiện nay có các dịch vụ tìm kiếm nổi tiếng trên Internet như Google hay Yahoo.Trong các chương tiếp theo sẽ trình bày chi tiết về truy tìm thông tin web, và các dịch vụ tìm kiếm thông tin trên web. 8 Chương 3. Các dịnh vụ tìm kiếm trên web Tìm kiếm thông tin trên web thường được ưa thích hơn các nguồn thông tin khác. Một cuộc khảo sát trên Internet được Pew Internet thực hiện, cho thấy rằng 92% người sử dụng Internet truy cập các trang web đọc các thông tin hàng ngày [Manning, Raghavan, Schütze, 2009]. Có một vài yếu tố giải thích tại sao các trang web tìm kiếm thì thành công. Một trong những lý do là tính thuận tiện của dịch vụ web. Ngày nay, công cụ tìm kiếm web cho phép thông tin được dễ dàng truy cập, bất cứ nơi nào và bất cứ lúc nào, và nó luôn có sẵn để bất cứ ai có Internet là có thể truy cập. Thử tưởng tượng không có dịch vụ tìm kiếm web, thì web có thực sự có nhiều ý nghĩa cho mọi người làm việc trực tuyến hay không? Tất cả mọi người có thể sẽ đồng ý rằng các sản phẩm và dịch vụ từ các công cụ tìm kiếm làm cho việc sử dụng các trang web dễ dàng hơn nhiều, tiết kiệm thời gian,và hiệu quả hơn. Vì hầu hết người dùng khám phá các trang web thông qua các dịch vụ tìm kiếm. Để tiếp cận đối tượng mong muốn, quản trị web cố gắng tạo ra các trang web tốt, hiệu quả, và nổi tiếng. Nhờ vào sự giúp đỡ của công cụ tìm kiếm, nhiều người sẽ có thể tìm thấy trang web của họ hoặc ít nhất cũng thấy rằng website thực sự tồn tại. Người quản trị web có thể cải tiến trang web với mục đích kinh doanh trong chiến lược kinh doanh trực tuyến. Người quản trị web nỗ lực tối ưu hóa công cụ tìm kiếm (SEO) hoặc tăng khả năng tìm thông tin cho các công cụ tìm kiếm trên website của họ. Nói cách khác, một trang web được xây dựng "thân thiện" với công cụ tìm kiếm, thì lưu lượng truy cập của trang web đó có khả năng tăng lên đáng kể. Một nghiên cứu tiến hành bởi một tổ chức nghiên cứu và được khởi sướng bởi Thurow [2003], chỉ ra rằng, khả năng người dùng mua một sản phẩm hoặc dịch vụ sau khi tìm thấy trên web thông qua một công cụ tìm kiếm, cao hơn gấp năm lần là thông qua một banner quảng cáo trên các website. Thurow cũng chỉ ra rằng có thể tối đa hóa khả năng được tìm kiếm của một trang web với chi phí hợp lý và nếu thực hiện đúng chiến dịch tiếp thị thông qua công cụ tìm kiếm có thể đem lại một lợi nhuận to lớn, dài hạn cho doanh nghiệp (DN) . 9 Với lợi ích của công cụ tìm kiếm đem lại, chúng ta cần hiểu rõ cách thức công cụ tìm kiếm làm việc cũng như nền tảng kỹ thuật cơ bản của các dịch vụ tìm kiếm. Về cơ bản, có hai phương pháp khác nhau cho công cụ tìm kiếm đó là dựa vào Thư mục web (Web Directory) và các công cụ tìm kiếm (Search Engines) sẽ được trình bày dưới đây. 3.1 Search Engines Khi một người thực hiện tìm kiếm trên web, thực sự anh ta không phải đang tìm trên tất cả các trang web mà đang tìm kiếm trong chỉ mục của công cụ tìm kiếm. Vì lý do tốc độ, chi phí, và khả năng nên không thể thực hiện tìm kiếm trên tất cả các trang web mỗi khi người dùng click vào nút search trên một công cụ tìm kiếm. Một thủ tục truy vấn tìm kiếm nói chung có thể được tóm tắt trong bốn bước: (1) Người sử dụng web gửi một truy vấn bằng cách gõ một thuật ngữ, từ hoặc cụm từ trong textbox tìm kiếm. (2) Tương ứng với truy vấn đó, công cụ tìm kiếm tìm trong tất cả các trang mà nó giữ trong cơ sở dữ liệu của nó. (3) Công cụ tìm kiếm tìm ra các trang web có liên quan với nội dung tìm kiếm (4) Kết quả được liệt kê trên trang kết quả tìm kiếm (Search Engine Results Page - SERP) với một trật tự, bắt đầu với kết quả có độ chính xác/liên quan cao nhất với yêu cầu tìm kiếm. Toàn bộ quá trình tìm kiếm thường chỉ kéo dài một phần nhỏ của một giây, nhưng những gì diễn ra trong bộ máy tìm kiếm thì phức tạp hơn rất nhiều. Công cụ tìm kiếm web bao gồm ba thành phần cơ bản: Web thu thập thông tin (web crawler), chỉ mục (indexer), và xử lý truy vấn (query processor). Các thành phần, nhiệm vụ của công cụ tìm kiếm web, được minh họa trong Hình 1 dưới đây. 10 [...]... tin kết quả của các nguồn tìm kiếm Meta-Search Engine chỉ khác nhau ở chổ chọn nguồn tìm kiếm nào, số lượng các nguồn tìm kiếm là bao nhiêu và cách thức trình bày kết quả Hình 5.Siêu công cụ tìm kiếm Dogpile 17 Chương 4 Phân tích, so sánh các hệ thống tìm kiếm thông tin 4.1 Các hệ thống tìm kiếm thông tin phổ biến Khi mọi người tìm kiếm thông tin, họ thường có ít nhất một công cụ tìm kiếm ưa thích mà... cần ở công cụ tìm kiếm này và không tìm thấy thông tin chúng ta cần ở công cụ tìm kiếm khác Vậy cách tốt nhất là chúng ta phải tìm kiếm trên nhiều công cụ khác nhau Vậy làm sao để tiết kiệm thời gian cho việc tìm kiếm trên nhiều công cụ khác nhau ? Cách giải quyết là chúng ta có thể sử dụng siêu công cụ tìm kiếm như đã đề cập đến ở chương 3.3 Siêu công cụ tìm kiếm sẽ hợp nhất kết quả tìm kiếm từ nhiều... nhu cầu tìm kiếm của họ Theo About.com, hầu hết các hệ thống tìm kiếm thông tin cần có ba tính năng chính, cụ thể là kết quả phải thích hợp, gọn gàng, giao diện dễ đọc và có các tùy chọn hữu ích để thắt chặt hoặc mở rộng kết quả tìm kiếm Do đó, công cụ tìm kiếm phổ biến sẽ có các tính năng nói trên Ngoài ra các công cụ tìm kiếm phổ biến có dữ liệu được duy trì tốt và thường xuyên được cập nhật Các nhà... web tìm kiếm của Microsoft đã tăng 70% lượt tìm kiếm trong năm 2009 so với năm 2008 Tiến bộ nhất là công cụ tìm kiếm Yandex của Nga với 91% Tuy nhiên, hiện tại nó không được biết đến trên toàn thế giới 18 Bảng 1 Thống kê số lượt tìm kiếm của các hệ thống tìm kiếm phổ biến trên thới giới năm 2008 - 2009 Theo nghiên cứu Hitslink của Net Applications cho thấy bảng xếp hạng thị phần của các công cụ tìm kiếm. .. trình thu thập thông tin Yahoo Slurp để cập nhật một cách ngẫu nhiên [Theo Lewandowski, 2005] 23 4.2.3 Khả năng tìm kiếm Công cụ tìm kiếm cho phép tìm kiếm bằng cách nhập một số từ khóa đơn giản cho một truy vấn, nhưng nó cũng có chức năng thu hẹp tìm kiếm để nhận được kết quả chính xác hơn, chẳng hạn như chức năng tìm kiếm cơ bản và tìm kiếm nâng cao được cung cấp bởi các công cụ tìm kiếm Mặc dù chức... hạng các kết quả Các thử nghiệm cho thấy độ trể khi tìm kiếm thông tin trên các công cụ tìm kiếm càng cao thì số lượng kết quả trả về càng thấp Một công cụ tìm kiếm tốn cáng ít thời gian truy tìm thông tin của câu truy vấn thì được người dùng đánh giá cao hơn công cụ tìm kiếm khác Trong khi Google tuyên bố rằng một truy vấn bình thường tốn ít hơn 0,5 giây để trả về kết quả thì Yahoo và Bing không có thông. .. cả các công cụ tìm kiếm Siêu công cụ tìm kiếm sẽ thực hiện công việc này và nó có thể gợi ý người dùng lựa chọn thêm các công cụ tìm kiếm mà trước đó người dùng không quan tâm Bằng cách thực hiện một truy vấn tìm kiếm, Siêu công cụ tìm kiếm gửi thông tin cần tìm đến nhiều công cụ tìm kiếm cùng một lúc Multi-Search engine không thu thập dữ liệu hoặc duy trì cơ sở dữ liệu riêng của nó như một công cụ tìm. .. cheo kết quả của các công cụ tìm kiếm của Dogpile chỉ ra rằng với 4 công cụ tìm kiếm Google, Yahoo, Live (bây giờ là Bing) và Ask sự chồng chéo thông tin của trang đầu tiên trong kết quả tìm kiếm là 0.6% cho mỗi truy vấn Điều đó cho thấy còn rất nhiều các trang web có thông tin hữu ích chưa được các công cụ tìm kiếm nhìn thấy và đánh giá phù hợp Siêu công cụ tìm kiếm thu thập các kết quả tốt nhất kể cả... Google là công cụ tìm kiếm được sử dụng nhiều nhất trên thế giới: Trong năm 2009, Google thống trị 66,8% các tìm kiếm trên toàn thế giới với 87.809 triệu lượt tìm kiếm, theo sau là Yahoo! với 9.444 triệu lượt tìm kiếm, công cụ tìm kiếm Trung Quốc Baidu với 8534 triệu lượt tìm kiếm, và Bing xếp thứ tư với 4.094 triệu lượt tìm kiếm [comScore, 2010] Bảng 1 dưới đây cho thấy tổng số tìm kiếm trên toàn thế... Hiện tại Bing cũng cung cấp các tùy chọn tìm kiếm nâng cao cũng như tìm kiếm trên một trang web xác định và Bing hỗ trợ 42 ngôn ngữ Tuy nhiên Bing không chứa nhiều tùy chọn như Google và Yahoo Tất cả ba công cụ tìm kiếm đều cung cấp các dịch vụ tìm kiếm khác, cụ thể như tìm kiếm hình ảnh, bản đồ, tin tức, audio và video 4.2.4 Công nghệ Liên quan đến công nghệ của công cụ tìm kiếm, hai khía cạnh cần xem . TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  Họ và tên tác giá báo cáo chuyên đề NGUYỄN VĂN TIẾN CHUYÊN ĐỀ: PHÂN TÍCH, SO SÁNH, ĐÁNH GIÁ CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN Chuyên ngành: KHOA HỌC MÁY. nguồn tìm kiếm nào, số lượng các nguồn tìm kiếm là bao nhiêu và cách thức trình bày kết quả. Hình 5.Siêu công cụ tìm kiếm Dogpile 17 Chương 4. Phân tích, so sánh các hệ thống tìm kiếm thông tin 4.1. tổng quan về truy tìm thông tin và chỉ ra sự khác nhau trong cách làm việc của các công cụ tìm kiếm. Thông qua phân tích công cụ tìm kiếm web để so sánh các công cụ tìm kiếm thông dụng trên Internet

Ngày đăng: 18/05/2015, 23:03

Từ khóa liên quan

Mục lục

  • Mục Lục

  • Danh mục các ký hiệu và từ viết tắt

  • Danh mục các bảng

  • Danh mục các hình, đồ thị

  • Chương 1. Giới thiệu

    • 1.1 Đặt vấn đề

    • 1.2 Mục tiêu

    • 1.3 Phương pháp tiếp cận

    • Chương 2. Truy tìm thông tin

    • Chương 3. Các dịnh vụ tìm kiếm trên web

      • 3.1 Search Engines

      • 3.2 Web Directories

      • 3.3 Meta-Search Engines

      • Chương 4. Phân tích, so sánh các hệ thống tìm kiếm thông tin

        • 4.1 Các hệ thống tìm kiếm thông tin phổ biến

          • 4.1.1 Google

          • 4.1.2 Yahoo!

          • 4.1.3 Bing

          • 4.2 So sánh Google, Yahoo và Bing

            • 4.2.1 Kích thước cơ sở dữ liệu

            • 4.2.2 Khả năng cập nhật dữ liệu

            • 4.2.3 Khả năng tìm kiếm

            • 4.2.4 Công nghệ

            • 4.3 Thách thức của công cụ tìm kiếm

            • 4.4 Sáp nhập Kết quả tìm kiếm cho hiệu suất tốt nhất?

              • 4.4.1 Chồng chéo giữa các công cụ tìm kiếm

Tài liệu cùng người dùng

Tài liệu liên quan