Nghiên cứu phần mềm thu thập xử lý dữ liệu tự động trên internet

TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Tìm kiếm tự động thông tin phù hợp có giá trị Web chủ đề quan trọng đồ án em, nhằm tìm kiếm, phân loại xử lý nguồn liệu Đồ án tập trung vào hướng biểu diễn thông tin trả máy tìm kiếm thành chuyên đề cụ thể từ nhiều nguồn trang web khác người dùng dễ dàng nắm bắt thông tin cách súc tích, nhanh chóng tiết kiệm thời gian, đồng thời tìm thông tin mà cần MỤC LỤC TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP MỤC LỤC LỜI CAM ĐOAN Error! Bookmark not defined LỜI CẢM ƠN Error! Bookmark not defined MỞ ĐẦU CHƯƠNG CÁC PHƯƠNG PHÁP TÌM KIẾM THU THẬP THÔNG TIN TRÊN INTERNET 1.1 Công cụ tìm kiếm .8 1.1.1 Tổng quan công cụ tìm kiếm 1.1.2 Các phận cấu thành hệ thống máy tìm kiếm search engine 1.2 Xem xét Web 10 1.3 Khởi đầu công cụ tìm kiếm 11 1.3.1 Bọ tìm kiếm .12 1.3.2 Tách lọc nội dung 12 1.3.3 Tốc độ tìm kiếm 13 1.3.4 Yếu tố quan trọng 13 1.3.5 Phương pháp đánh số 13 1.4 Các thẻ Meta 14 1.4.1 Phân tích khai báo thẻ Meta .14 1.4.2 Thẻ Meta loại trừ Robot 14 1.5 Xây dựng mục 15 1.5.1 Lưu trữ liệu mục tìm kiếm 15 1.5.2 Phân loại mục tìm kiếm .15 1.5.3 Xây dựng mục tìm kiếm .16 1.6 Xây dựng truy vấn tìm kiếm 16 1.7 Tìm kiếm tương lai 17 1.8 Hoạt động cỗ máy tìm kiếm .18 1.8.1 Hệ thống tìm kiếm tự động 18 1.8.2 Các thư mục người quản lý cập nhật 19 1.8.3 Các hệ thống tìm kiếm tổng hợp 19 1.8.4 Các thành phần cỗ máy tìm kiếm tự động 19 1.8.5 Các cỗ máy tìm kiếm – Giống khác .20 1.9 Tìm hiểu tìm kiếm robots thu thập thông tin 20 1.9.1 Ứng dụng Robots 20 1.9.2 Robot mục 21 1.9.3 Các chiến thuật thu thập liệu .22 1.10 Máy tìm kiếm Cuil 24 CHƯƠNG ỨNG DỤNG THU THẬP LẤY TIN TỰ ĐỘNG TRÊN INTERNET .27 2.1 Định nghĩa .27 2.2 Nhu cầu 27 2.3 Quy trình lấy tin tự động 28 2.4 Những khó khăn lấy tin tự động 31 2.5 Các dạng liệu 32 2.5.1 Fulltext 32 2.5.2 Hypertext 32 2.6 Kỹ thuật hỗ trợ xây dựng chương trình - Ngôn ngữ Php 35 2.6.1 Giới thiệu 35 2.6.2.Một số cú pháp PHP 38 2.6.3 Kiểu 40 2.7 Hệ quản trị sở liệu MySQL 44 2.7.1 Giới thiệu MySQL 44 2.7.2 Các đặc trưng MySQL 44 2.7.3 Một số thao tác sở liệu MySQL 46 2.7.4 Các lệnh thao tác CSDL 47 2.8 Các hàm PHP thao tác với CSDL MySQL .48 2.8.1 Mysql_affected_rows 48 2.8.2 Mysql_change_user 49 2.8.3 Mysql_close 49 2.8.4 Mysql_connect 49 2.8.5 Mysql_create_db .50 2.8.6 Mysql_data_seek .50 2.8.7 Mysql_db_name 50 2.8.8 mysql_query( ) 51 2.8.9 Mysql_result 51 2.8.10 Mysql_select_db 52 2.8.11 Mysql_tablename 52 CHƯƠNG CHƯƠNG TRÌNH THỰC NGHIỆM 53 3.1 Bài toán 53 3.2 Các khái niệm tầm quan trọng toán 53 3.3 Phân tích thiêt kế sở liệu 55 3.3.1 Ràng buộc toàn vẹn 55 3.3.2 Phụ thuộc hàm 56 3.3.3 Xác định loại thực thể thuộc tính 56 3.3.4 Xây dựng mô hình thực thể liên kết 57 3.3.5 Xác định khoá 58 3.3.6 Chuẩn hoá lược đồ quan hệ thành dạng chuẩn 59 3.4 Chương trình thực nghiệm .64 KẾT LUẬN .68 TÀI LIỆU THAM KHẢO 70 PHỤ LỤC 72 MỞ ĐẦU Trong kỷ nguyên Công nghệ thông tin, việc phát triển ứng dụng Công nghệ thông tin (CNTT) Truyền thông (TT) phục vụ cho việc phát triển kinh tế - xã hội diễn hầu hết quốc gia giới Tuỳ thuộc vào trình độ phát triển quốc gia mà việc ứng dụng khác theo cấp độ Hầu hết quốc gia tồn hệ thống cung cấp thông tin tri thức tự động phục vụ cho phát triển kinh tế Đặc biệt, nước phát triển việc ứng dụng CNTT TT quan tâm triển khai sớm Còn nước nay, nhà khoa học, nhóm nghiên cứu tiến hành nghiên cứu vấn đề liên quan trực tiếp với xây dựng hệ thống thu thập, xử lý thông tin tự động Internet Năm 2001, nhóm tác giả Hà Quang Thuỵ chủ trì tiến hành nghiên cứu lĩnh vực khai phá văn khai phá Web World Wide Web (WWW) kho chứa liệu thông tin lớn biết đến rộng rãi siêu văn Các tài liệu siêu văn chứa đựng văn thường nhúng liên kết đến tài liệu khác phân bố Web Ngày nay, Web bao gồm hàng tỷ tài liệu hàng triệu tác giả tạo phân tán qua hàng triệu máy tính kết nối qua đường dây điện thoại, cáp quang, sóng radio… Web ngày sử dụng phổ biến nhiều lĩnh vực báo trí, phát thanh, truyền hình, hệ thống bưu điện, trường học, tổ chức thương mại, phủ… Chính tìm kiếm tự động thông tin phù hợp có giá trị Web chủ đề quan trọng đồ án em.Các phương pháp lấy tin tự động hay nói ngắn gọn máy tìm kiếm Web thông thường trả lại danh sách tài liệu phân hạng mà người dùng phải tốn công chọn lọc trang Web khác Internet để có tài liệu phù hợp Ngoài thông tin thường phong phú, đa dạng liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng gây khó khăn cho người sử dụng việc lấy thông tin cần thiết Có nhiều hướng tiếp cận khác để giải vấn đề này, hướng thường ý giảm nhập nhằng phương pháp chọn lọc hay thêm tùy chọn để cắt bớt thông tin Do vấn đề đặt làm để tìm kiếm, phân loại xử lý từ nguồn liệu văn Rõ ràng, phải hiểu rõ chất liệu văn bản, hiểu rõ đặc trưng liệu loại để có phương pháp luận cần thiết có công cụ tự động hóa trợ giúp việc tìm kiếm, phân loại xử lý thông tin Đồ án tập trung vào hướng biểu diễn thông tin trả máy tìm kiếm thành chuyên đề thông tin chứng khoán, thời tiết, giá vàng tỷ giá hối đoái, …từ nhiều nguồn trang web khác người dùng dễ dàng tìm thông tin mà cần Mục đích nghiên cứu Trong báo cáo này, em trình bày kiến thức sở thu thập, tìm kiếm lấy tin tự động Internet Nội dung báo cáo tập trung nghiên cứu vào việc tìm hiểu lấy tin tự động số lĩnh vực phổ biến lấy tin chứng khoán, thời tiết, giá vàng tỷ giá hối đoái… Nội dung thực  Tìm hiểu công cụ tìm kiếm, SEO, bọ tìm kiếm spider, thu thập lấy tin tự động Internet  Các kỹ thuật hỗ trợ lấy tin tự động  Một số kết thực nghiệm  Đề xuất hướng phát triển Giới hạn nghiên cứu Mặc dù đồ án mẻ song trước lựa chọn em xem xét tính khả thi toán thực tế Mặt khác chương trình làm lấy tin tự động đáp án cuối mà nhiều yếu tố cần quan tâm đánh giá theo thời gian Và thu kiến thức kỹ thuật thử nghiệm lấy tin tự động số lĩnh vực phổ biến lấy tin chứng khoán, thời tiết, giá vàng tỷ giá hối đoái …từ trang web khác hứa hẹn phát triển ứng dụng phương pháp lấy tin tự động nhiều lĩnh vực khác Internet tương lai Cấu trúc đồ án bao gồm chương chính: Chương 1: Các phương pháp tìm kiếm thu thập thông tin mạng Internet Chương 2: Ứng dụng thu thập lấy tin tự động Internet Chương 3: Chương trình thực nghiệm CHƯƠNG CÁC PHƯƠNG PHÁP TÌM KIẾM THU THẬP THÔNG TIN TRÊN INTERNET Internet World Wide Web có đến hàng trăm triệu website có sẵn mang thông tin nhiều chủ đề khác Tuy nhiên hầu hết chúng đặt tiêu đề theo ý thích tác giả, đặt máy chủ với tên khó hiểu Khi bạn cần biết chủ đề phải đọc trang nào? Phần lớn người băn khoăn vấn đề họ sử dụng công cụ tìm kiếm Internet (Search Engine) 1.1 Công cụ tìm kiếm 1.1.1 Tổng quan công cụ tìm kiếm Search Engine Internet hay công cụ tìm kiếm site đặc biệt web, thiết kế để giúp người tìm kiếm thông tin lưu site khác Có nhiều cách khác cách tìm kiếm này, tất chúng thực ba nhiệm vụ bản: Tìm kiếm Internet – chọn mẩu thông tin Internet – dựa từ quan trọng; Giữ mục cho từ tìm thấy với địa tìm thấy chúng; Cho phép người dùng tìm kiếm từ cụm từ tìm kiếm mục Các công cụ tìm kiếm trước giữ mục hàng trăm ngàn trang web tài liệu, chúng thường nhận hai nghìn yêu cầu tìm kiếm ngày Ngày nay, công cụ tìm kiếm hàng đầu đánh mục hàng trăm triệu trang đáp trả đến hàng chục triệu yêu cầu ngày Trong muốn giới thiệu nhiệm vụ thực nào, cách công cụ tìm kiếm xử lý phép bạn tìm thông tin cần thiết web 1.1.2 Các phận cấu thành hệ thống máy tìm kiếm search engine a Bộ thu thập thông tin – Robot Robot chương trình tự động duyệt qua cấu trúc siêu liên kết để thu thập tài liệu cách đệ quy nhận tất tài liệu có liên kết với tài liệu Robots biết đến nhiều tên gọi khác : spider, web wanderer web worm,… Những tên gọi gây nhầm lẫn, từ ‘spider’, ‘wanderer’ làm người ta nghĩ robot tự di chuyển từ ‘worm’ làm người ta liên tưởng đến virus Về chất robot chương trình duyệt thu thập thông tin từ site theo giao thức web Những trình duyệt thông thường không xem robot thiếu tính chủ động, chúng duyệt web có tác động người b Bộ lập mục – Index Hệ thống lập mục hay gọi hệ thống phân tích xử lý liệu, thực việc phân tích, trích chọn thông tin cần thiết (thường từ đơn , từ ghép , cụm từ quan trọng) từ liệu mà robot thu thập tổ chức thành sở liệu riêng để tìm kiếm cách nhanh chóng, hiệu Hệ thống mục danh sách từ khoá, rõ từ khoá xuất trang nào, địa c Bộ tìm kiếm thông tin – Search Engine Search engine cụm từ dùng toàn hệ thống bao gồm thu thập thông tin, lập mục & tìm kiếm thông tin Các hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn mặt liệu độc lập với mặt hoạt động Search engine tương tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận trả tài liệu thoả yêu cầu user Nói nôm na, tìm kiếm từ tìm kiếm trang mà từ câu truy vấn (query) xuất nhiều nhất, ngoại trừ stopword (các từ thông dụng mạo từ a, an, the,…) Một từ xuất nhiều trang trang chọn để trả cho người dùng Và trang chứa tất từ câu truy vấn tốt trang không chứa từ Ngày nay, hầu hết search engine hỗ trợ chức tìm nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm đề mục, tiêu đề, đoạn văn giới thiệu trang web,… Ngoài chiến lược tìm xác theo từ khoá, search engine cố gắng ‘ hiểu ‘ ý nghĩa thực câu hỏi thông qua câu chữ người dùng cung cấp Điều thể qua chức sửa lỗi tả, tìm hình thức biến đổi khác từ Ví dụ : search engine tìm từ speaker, speaking, spoke người dùng nhập vào từ speak 1.2 Xem xét Web Khi hầu hết người nói công cụ máy tìm kiếm Internet, họ cho công cụ tìm kiếm World Wide Web Tuy nhiên trước Web trở thành phần dễ thấy Internet thực có công cụ tìm kiếm để giúp người tìm thông tin mạng Các chương trình với tên “Gopher” “Archie” giữ số file lưu máy chủ kết nối với Internet, giảm cách rõ rệt số lượng thời gian cần thiết để tìm kiếm chương trình tài liệu Vào năm cuối thập kỷ 80, việc có giá trị quan trọng từ Internet có nghĩa biết cách sử dụng Gopher, Archie, Veronica số chương trình tương tự khác Ngày nay, hầu hết người dùng Internet chưa hiểu nhiều cách tìm kiếm họ Web, giới thiệu vấn đề cách tập trung vào nội dung trang web 10  Dạng chuẩn 2NF:lược đồ quan hệ đạt 2NF đạt 1NF tất thuộc tính không khoá phụ thuộc hàm đầy đủ vào khoá  Dạng chuẩn 3NF:lược đồ quan hệ đạt 3NF đạt 2NF tất thuộc tính không khoá không phụ thuộc hàm bắc cầu vào khoá  Dạng chuẩn BCNF:lược đồ quan hệ đạt BCNF đạt 1NF phụ thuộc hàm không hiển nhiên X  Y Є F+ vế trái X siêu khoá Vậy với mục đích xây dựng tập lược đồ quan hệ cho phép ta lưu trữ thông tin thuận lợi ,sao cho tránh thông tin dư thừa không cần thiết khai thác liệu dễ dàng Cùng với mục đích ta xây dựng lược đồ quan hệ sở liệu “Lấy tin tự động “ theo dạng chuẩn BCNF.Quá trình chuẩn hoá thực sau: *Xét quan hệ : Content_sources ( id, content_type_code, source_code, source_name, content, last_change, status) có khóa id Có tập phụ thuộc hàm F1={id→source_code;idcontent_type_code;idsource_name;id,source_name content; id,contentlast_change ,status} Xét id,contentlast_change ,status Giả sử content dư thừa TacóF11={id→source_code;idcontent_type_code;idsource_name;id,source_ namecontent; idlast_change ,status} Kiểm tra idlast_change ,status F1+ ? (id)+F1 =id,source_code,content_type_code,source_name,content,last_change,status last_change,status → idlast_change ,status  F1 + Id,contentlast_change ,status F11 ? 60 (id,content)+F11= id,source_code,content_type_code,source_name,content,last_change,status last_changee,status → Id,contentlast_change ,status  F+11 Vậy content dư thừa  Fc = F11={id→source_code;idcontent_type_code;idsource_name;id,source_name content; idlast_change ,status} Từ tập phụ thuộc hàm F11 ta thấy quan hệ content_sources chưa đạt chuẩn BCNF id, source_name siêu khóa Xét quan hệ id,source_namecontent Giả sử source_name dư thừa →F12={id→source_code;idcontent_type_code;idsource_name;idcontent; idlast_change ,status} Kiểm tra idcontent  F+12 ? (id)+F11= id,source_code,content_type_code,source_name,content,last_change,status content → id content  F+11 id,source_namecontent F12 ? (id,source_name) = id,source_code,content_type_code,source_name,content,last_change,status content  id,source_namecontent F+12 Vậy source_name dư thừa  Fc1= 61 F12={id→source_code;idcontent_type_code;idsource_name;idcontent; idlast_change ,status} Vậy từ tập phụ thuộc hàm F12 ta thấy id→source_code id siêu khóa idcontent_type_code id siêu khóa idsource_name id siêu khóa idcontent id siêu khóa idlast_change ,status id siêu khóa Vậy quan hệ content_sources đạt dạng chuẩn BCNF với tập phụ thuộc hàm F12 *Xét quan hệ Crawler_contents ( id, type_code, name, description, last_crawler_time Có tập phụ thuộc hàm F2={idtype_code; id name; id, name description, last_crawler_time} Xét id, name description, last_crawler_time Giả sử name dư thừa → F21={idtype_code; id name; id description, last_crawler_time} Kiểm tra id description, last_crawler_time  F+2 ? (id)+F2= id,type_code,name,description,last_crawler_time  description,last_crawler_time → id description, last_crawler_time  F+2 id, name description, last_crawler_time  F+21? (id,name)+F21= id,type_code,name,description,last_crawler_time  description,last_crawler_time → id, name description, last_crawler_time  F+21 62 Vậy name dư thừa Fc2= F21={idtype_code; id name; id description, last_crawler_time} Vậy từ tập phụ thuộc hàm F21 ta thấy idtype_code id siêu khóa id name id siêu khóa id description, last_crawler_time id siêu khóa Vậy quan hệ crawler đạt dạng chuẩn BCNF với tập phụ thuộc hàm F21 63 3.4 Chương trình thực nghiệm Màn hình trang chủ thiết kế gồm có frame Bên frame có chứa phần header.Frame bên phải chứa số hình ảnh, Frame bên trái chứa chức chương trình, : Thông tin chứng khoán lấy từ trang web http://www.vnexpress.net trang http://www.vcbs.com.vn Thông tin thời tiết lấy từ trang web http://www.nchmf.gov.vn Thông tin giá vàng lấy từ trang web http://www.sjc.com.vn/ Thông tin tỉ giá hối đoái lấy từ trang web http://www.vietcombank.com.vn/exchangerates/ Sau em xin trình bày số giao diện chương trình lấy tin tự động mà em làm được: 64 65 66 67 KẾT LUẬN Sau thời gian tìm hiểu, phân tích thiết kế xây dựng chương trình thu thập lấy tin tự động Tuy chưa hoàn chỉnh xong đáp ứng đầy đủ yêu cầu đặt ra.Với cách tiếp cận nhằm tìm phương pháp hiệu đáp ứng yêu cầu toán lấy tin tự động Trong chương trình bày khái quát công cụ tìm kiếm Internet hoạt động cỗ máy tìm kiếm Search engine tìm kiếm web crawler Chương hai nêu lên kỹ thuật hỗ trợ việc thu thập lấy tin tự động chương trình viết PHP hệ quản trị sở liệu MySQL nên chạy nhiều hệ điều hành khác ổn định Ngoài cách thiết kế kỹ thuật hỗ trợ lấy tin tự động lựa chọn có nhiều tính ưu việt nên chương trình dễ dàng tích hợp với hệ thống khác Chương trình viết môi trường mạng nên chương trình thực thông qua mạng Qua thử nghiệm mạng cho thấy chương trình hoạt động tốt, đáp ứng mặt tốc độ chất lượng chương trình Chương ba kết thực nghiệm chương trình Chương trình thực nghiệm giải yêu cầu đặt thu kết sau: - Lấy thông tin tự động tin dự báo thời tiết từ trang web trung tâm khí tượng thủy văn quốc gia http://www.nchmf.gov.vn - Lấy thông tin tự động thị trường chứng khoán từ trang web http://vnexpress.net/GL/Home/ - Lấy thông tin tự động giá vàng từ trang web http://www.sjc.com.vn/ 68 - Lấy thông tin tỷ giá hối đoái từ trang web ngân hàng châu http://www.vietcombank.com.vn/exchangerates/ - Ngoài em lấy thêm thông tin số trang web khác nhằm làm phong phú thêm cho chương trình thực nghiệm Hướng phát triển Đồ án thu kiến thức kỹ thuật thử nghiệm bước đầu lấy tin tự động số lĩnh vực phổ biến lấy tin chứng khoán, thời tiết, giá vàng, tỷ giá hối đoái… từ trang web khác hứa hẹn phát triển ứng dụng phương pháp lấy tin tự động nhiều lĩnh vực khác Internet tương lai Do nội dung thông tin trang web thường phong phú, đa dạng liên quan đến nhiều đối tượng khác điều tạo nên nhập nhằng gây khó khăn cho người sử dụng việc lấy thông tin cần thiết Trong phương pháp lấy tin tự động đưa thông tin phân loại xử lý thông tin theo chuyên đề cho người dùng dễ dàng cập nhật thông tin mà quan tâm người dùng đỡ tốn công chọn lọc trang Web khác Internet mà nội dung quan tâm thường xuyên cập nhật liên tục Trong tương lai việc lọc tin tức Internet quan trọng giúp cho người sử dụng dễ dàng tìm muốn Internet ngày lớn mạnh có nghĩa lượng thông tin ngày nhiều trở nên hỗn độn Hy vọng có nhiều website tốt cho người dùng Internet 69 TÀI LIỆU THAM KHẢO Cụm từ điển giải thích thuật ngữ tiếng Anh có liên quan Search Engine Cỗ máy tìm kiếm thông tin Robot Bộ thu thập thông tin Index Bộ lập mục Open Directory Project Dự án thư mục mở Spider Bọ tìm kiếm Analysis, Statistical Phân tích, thống kê Mirroring Ánh xạ địa web Resource Discovery Phát tài nguyên Maintenance Duy trì siêu liên kết Combined uses Kết hợp công dụng ExchangeRate Tỷ giá hối đoái Hypertext Document Tài liệu siêu văn Weather Thời tiết Hypertext Link Liên kết siêu văn Securities Chứng khoán GoldPrice Giá Vàng ……………… ………………… 70 Tài liệu tham khảo Giáo trình SQL - Trần Nguyên Phong - Đ ại học Khoa học Huế, 2004 Giáo Trình Nhập Môn PHP & MySQL - Xây Dựng Ứng Dụng Web Phương Lan - Nhà xuất Lao động - Xã hội, 2005 Bài giảng sở liệu – Đặng Thị Thu Hiền – NXB Giao Thông Danh mục website sử dụng http://www.php.com PHP Manual http://www.mysql.com MySQL Manual http://www.vnexpress.net http://vnexpress.net/GL/Home/ http://www.sjc.com.vn/ http://www.vietcombank.com.vn/exchangerates/ 71 PHỤ LỤC Mã nguồn chương trình - function get_securities_result(){ $content = $this->saveMarqueeHtml('http://www.vcbs.com.vn/'); $data['content'] = $content; $values = array( 'content_type_code'=> 'securities', 'source_code'=> 'securities_result', 'source_name'=> 'Kết chứng khoán', 'content'=> $data['content'], 'status'=> 1, 'last_change'=>time() ); $this->db->query_insert("content_sources", $values); // $this->db->query_update("content_sources", $data, "source_code='securities_result'"); } -function get_securities_result(){ $content = $this->saveMarqueeHtml('http://www.vcbs.com.vn/'); $data['content'] = $content; $values = array( 'content_type_code'=> 'securities', 'source_code'=> 'securities_result', 'source_name'=> 'Kết chứng khoán', 'content'=> $data['content'], 'status'=> 1, 'last_change'=>time() ); $this->db->query_insert("content_sources", $values); 72 // $this->db->query_update("content_sources", $data, "source_code='securities_result'"); } - function get_gold_price(){ $handle = fopen("http://www3.tuoitre.com.vn/transweb/giavang.htm", "r"); $contents = ''; while (!feof($handle)) { $contents = fread($handle, 8192); } $contents=substr($contents,stripos($contents,"[...]... DỤNG THU THẬP LẤY TIN TỰ ĐỘNG TRÊN INTERNET 2.1 Định nghĩa  Lấy tin tự động là quá trình tìm kiếm các thông tin có giá trị trong các khối dữ liệu lớn  Là việc trích (lấy) một cách không tầm thường các thông tin từ các trang Web mà có nội dung mình quan tâm 2.2 Nhu cầu Thông tin bao gồm tất cả những trang Web, hình ảnh hay bất cứ một kiểu file nào trên mạng .Thu thập thông tin là quá trình thu thập, ... do đó các bài toán về xử lý văn bản đã được đặt ra khá lâu và hiện nay vẫn là một trong những vấn đề trong khai phá dữ liệu Text, trong đó có những bài toán đáng chú ý như tìm kiếm văn bản, phân loại văn bản, phân cụm văn bản hoặc dẫn đường văn bản Cơ sở dữ liệu Fulltext là một dạng cơ sở dữ liệu phi cấu trúc mà dữ liệu bao gồm các tài liệu và thu c tính của tài liệu Cơ sở dữ liệu Full_Text thường... việc xử lý sau này được dễ dàng, đơn giản, thu n tiện, chính xác so với việc xử lý trực tiếp trên văn bản thô mà ảnh hưởng ít đến kết quả xử lý Bao gồm: Xóa các thẻ trong HTML và các loại thẻ khác để trích ra các từ/cụm từ Chuyển các ký tự hoa thành các ký tự thường Xóa bỏ các dấu câu, xóa các ký tự trắng dư thừa… b.Xóa bỏ các từ dừng Trong văn bản có những từ mang ít thông tin trong quá trình xử lý, ... kiếm tự động thì không kèm theo một thư mục Internet và ngược lại Nhưng hiện nay, hầu hết hệ thống tìm kiếm đều là sự tổng hợp của hệ thống tìm kiếm tự động và một thư mục do con người quản lý Ví dụ, Yahoo có Yahoo Directory, Google có Google directory (dựa trên thư mục Dmoz), MSN và các hệ thống tìm kiếm khác cũng vậy 1.8.4 Các thành phần của một cỗ máy tìm kiếm tự động Những cỗ máy tìm kiếm tự động. .. đặt ra một vấn đề là làm thế nào để có thể tìm kiếm, phân loại và xử lý từ nguồn dữ liệu văn bản Rõ ràng, chúng ta phải hiểu rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có thể có được những phương pháp luận cần thiết và có được những công cụ tự động hóa trợ giúp trong việc tìm kiếm, phân loại và xử lý thông tin Tuy nhiên để tập hợp được các tất cả các thông tin... Một máy tìm kiếm thường có 3 thành phần chính:  Thứ nhất là thành phần chuyên thu thập các trang web tồn tại trên Internet (crawling);  Thứ hai là thành phần đánh chỉ mục (indexing) : Thành phần này rút trích các đặc trưng của các các trang web (ví dụ tiêu đề, từ khóa tiêu biểu) và lưu trữ vào cơ sở dữ liệu để phục vụ cho nhu cầu tìm kiếm sau này;  Thứ ba là thành phần tìm các trang web phù hợp/liên... động thông thường đều được thực hiện qua các bước như sau:  Bước 1: Tìm hiểu về lĩnh vực và xác định các vấn đề có liên quan  Bước 2: Thu thập và tiền xử lý dữ liệu Đây là bước rất quan trọng, chiếm phần lớn thời gian và sức lực (70  80%) trong cả tiến trình  Bước 3: Lấy tin tự động trích chọn ra các mẫu, các thông tin có ý nghĩa Bước này gồm các phương thức để tạo ra các thông tin hữu ích từ dữ. .. vực nghiên cứu tìm kiếm là tìm kiếm dựa trên khái niệm Một số nghiên cứu này liên quan đến việc sử dụng phân tích thống kê về các trang chứa từ hoặc cụm từ mà bạn tìm kiếm, để tìm ra các trang khác có thể bạn quan tâm Rõ ràng các thông tin được lưu trong mỗi trang thực sự rất quan trọng cho tìm kiếm dựa trên khái niệm, và xa hơn nữa là việc xử lý được yêu cầu cho mỗi tìm kiếm Nhiều nhóm nghiên cứu. .. trích chọn ra các mẫu, các thông tin có ý nghĩa Bước này gồm các phương thức để tạo ra các thông tin hữu ích từ dữ liệu  Bước 4: Đưa các thông tin ra hiển thị Ở bước 2: Tiền xử lý dữ liệu chính là quá trình làm sạch dữ liệu và chuyển dịch các tài liệu thành các dạng biểu diễn thích hợp dữ liệu Giai đoạn này bao 28 gồm các công việc sau: Chuẩn hóa văn bản, xóa bỏ các từ dừng, kết hợp các từ có cùng nguồn... trong môi trường mạng Robot sẽ giúp thu thập tài liệu, tạo và duy trì cơ sở dữ liệu, phát hiện và xoá bỏ các liên kết hỏng nếu có, kết hợp với công cụ tìm kiếm cung cấp thông tin cần thiết cho con người Kết hợp các công dụng trên- Combined uses Một robot có thể đảm nhận nhiều chức năng Ví dụ RBSE Spider [4] vừa thống kê số lượng tài liệu thu được vừa tạo cơ sở dữ liệu Tuy nhiên những ứng dụng như thế

Nghiên cứu phần mềm thu thập xử lý dữ liệu tự động trên internet

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan