LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx

71 639 1
LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Tiến Thành BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Tiến Thành BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S. Trần Thị Oanh Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ HÀ NỘI – 2009 Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh, Cử nhân Trần Mai Vũ đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập nghiên cứu tại tr ường Đại Học Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc thu thập xử lý dữ liệu. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA K50CHTTT đã ủng hộ khuyến khích tôi trong suốt quá trình học tập tại trường. Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình b ạn bè, những người thân yêu luôn bên cạnh động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Vũ Tiến Thành i Tóm tắt nội dung Trích xuất thông tin từ dữ liệu bán cấu trúc là một bài toán được sự quan tâm tại nhiều hội nghị lớn trên thế giới [9], [10], [12], [13]. Bài toán này là một thành phần không thể thiếu trong các ứng dụng về thu thập trích xuất thông tin hiện nay. Một trong những ứng dụng đó là trích xuất thông tin của sản phẩm từ các trang thương mại điện tử để xây dựng hệ thống tìm kiếm giá cả, nhằm cung cấp thông tin tố t nhất đến người tiêu dùng. Khóa luận này tập trung nghiên cứu bài toán trích xuất thông tin từ dữ liệu web áp dụng để xây dựng hệ thống tìm kiếm giá cả sản phẩm. Khóa luận xác định một tập luật để giải quyết bài toán trích xuất giá khi cho biết tên sản phẩm, trên cơ sở đó, bài toán tự động trích xuất thông tin về tên giá của sản phẩm được giải quyết. Khóa luận đưa ra các bước xây dự ng hệ thống tìm kiếm giá cho sản phẩm trên các trang web tiếng Việt, tiến hành các thực nghiệm trên hệ thống đánh giá kết quả. Kết quả thực nghiệm cho thấy các thông tin được trích xuất từ hệ thống là có độ tin cậy. ii Mục lục Tóm tắt nội dung i Mục lục ii Bảng các kí hiệu chữ viết tắt v Danh sách các hình vi Danh sách bảng biểu viii Giới thiệu 1 Chương 1. Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 3 1.1 Bài toán trích xuất thông tin 3 1.1.1 Giới thiệu bài toán 3 1.1.2 Dữ liệu của bài toán 3 1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin 4 1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 6 1.2.1 Vấn đề đặt ra với bài toán 6 1.2.2 Một số phương pháp trích xu ất thông tin cho dữ liệu bán cấu trúc 6 1.2.3 Phương pháp đánh giá 7 1.2.4 Ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 8 Chương 2. Một số phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 10 2.1 Trích xuất thông tin dựa vào cây DOM 10 2.1.1 Khái nhiệm cây DOM 10 2.1.2 Xây dựng cây DOM 10 2.1.3 Sử dụng cây DOM để trích xuất thông tin 12 2.2 Trích xuất thông tin dựa theo các mẫu biểu thức chính qui 13 iii 2.2.1 Khái niệm biểu thức chính qui 13 2.2.2 Sử dụng biểu thức chính qui để trích xuất thông tin 14 2.3 Một số giải thuật trích xuất thông tin cho dữ liệu bán cấu trúc 14 2.3.1 Hai kiểu biểu diễn của các trang giàu dữ liệu 14 2.3.2 Một số giải thuật điển hình 15 Chương 3. Áp dụng bài toán trích xuất thông tin bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả sản phẩm 21 3.1 Khái quát hệ thống tìm kiếm giá cả củ a sản phẩm 21 3.1.1 Khái niệm 21 3.1.2 Các phương pháp xây dựng 21 3.1.3 Các hệ thống hiện tại 22 3.2 Cơ sở thực tiễn 23 3.3 Cơ sở khoa học 25 3.3.1 Phân loại trang kinh doanh 26 3.3.2 Bài toán trích xuất thông tin giá cả của một sản phẩm xác định. 27 3.3.3 Bài toán tự động trích xuất thông tin về tên giá của sản phẩm trong các trang kinh doanh sản phẩm 33 3.4 Các bước xây dựng hệ thống 37 3.4.1 Mô hình hệ thống 37 3.4.2 Khả năng mở rộng củ a hệ thống 40 Chương 4. Thực nghiệm đánh giá kết quả 41 4.1 Môi trường phần cứng phần mềm 41 4.1.1 Cấu hình phần cứng 41 4.1.2 Công cụ phần mềm 41 4.2 Kết quả thực nghiệm 44 iv 4.2.1 Thực nghiệm trích xuất giá của một sản phẩm cho trước 44 4.2.2 Thực nghiệm xác định website kinh doanh 49 4.2.3 Thực nghiệm thu thập trích xuất thông tin từ một website 52 4.2.4 Thực nghiệm khả năng thu thập thông tin của hệ thống 53 Kết luận 55 Tài liệu tham khảo 57 v Bảng các kí hiệu chữ viết tắt Kí hiệu Diễn giải HTML HyperText Markup Language URL Uniform Resource Locator XPath XML Path DOM Document Object Model W3C World Wide Web Consortium vi Danh sách các hình Hình 1. Ví dụ về tính cấu trúc của trang web bán cấu trúc 4 Hình 2. Ví dụ về bài toán nhận dạng thực thể 5 Hình 3. Ví dụ về trích xuất nội dung chính của trang Web 8 Hình 4. Ví dụ về hệ thống tìm kiếm giá cả 9 Hình 5. Ví dụ xây dựng cây DOM sử dụng hộp ảo 12 Hình 6. Dạng biểu diễn của trang list page 15 Hình 7. Dạng biểu diễn của trang detail page 15 Hình 8. Chuyển đổi từ mã HTML sang cây EC 16 Hình 9. Ví dụ giải thuật RoadRunner [12] 20 Hình 10. Trang giới thiệu sản phẩ m HP CQ60-203TX 24 Hình 11. Trang giới thiệu sản phẩm HP CQ60-101TX 24 Hình 12. Biểu diễn cây DOM của mã HTML hai trang về sản phẩm HP 25 Hình 13. Ví dụ về trang kinh doanh thông thường 26 Hình 14. Ví dụ về trang rao vặt 27 Hình 15. Ví dụ về trích xuất giá trong một trang web 27 Hình 16. Ví dụ về sản phẩm chứa những giá không đúng 29 Hình 17. Ví dụ về trích xuất giá thực của trang sản phẩm 29 Hình 18. Tập luật trích xuất giá sản phẩm 32 Hình 19. Luật trích xuất ảnh sản phẩm 33 Hình 20. Luật trích xu ất thông tin bảo hành sản phẩm 33 Hình 21. Kết quả google trả về với truy vấn "nokia 1200" 35 Hình 22. Kết quả trả về của google với query "nokia 1200" + "vnđ OR usd" 36 Hình 23. Mô hình tổng quan của hệ thống 38 Hình 24. Module xác định các website kinh doanh sản phẩm các mẫu trích xuất 39 vii Hình 25. Module Thu thập dữ liệu trích xuất thông tin 40 Hình 26. Trích xuất các URL liên quan 45 Hình 27. Trang Web có sự nhập nhằng giá cả 48 Hình 28. Trang Web có giá cả rõ ràng 49 [...]... xuất giá cả sản phẩm Phần kết luận tóm lược nội dung chính của khóa luận nêu định hướng phát triển trong thời gian tới 2 Chương 1 Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc Chủ đề chính của khóa luậnáp dụng bài toán trích xuất thông tin cho dữ liệu bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả Chương này sẽ giới thiệu bài toán trích xuất thông tin nói chung bài toán. .. qua miền dữ liệu (có cấu trúc, không cấu trúc bán cấu trúc) giới thiệu bài toán trích chọn thông tin cho dữ liệu bán cấu trúc , phương pháp đánh giá khả năng trích xuất thông tin thông qua độ hồi tưởng (R), độ tin cây (P) các ứng dụng thực tiễn của bài toán Chương 2 Một số phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc giới thiệu về các sử dụng cây DOM biểu... tin cho dữ liệu bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả sản phẩm là vấn đề quan trọng nhất của khóa luận Trong chương này khóa luận sẽ đề cập đến khái niệm của hệ thống tìm kiếm giá cả, phương pháp xây dựng hệ thống cách đánh giá các hệ thống đang tồn tại 3.1 Khái quát hệ thống tìm kiếm giá cả của sản phẩm Trong phần này khóa luận sẽ đề cập tới khái niệm về hệ thống tìm kiếm giá cả, các phương... bài toán trích xuất thông tin cho dữ liệu bán cấu trúc nói riêng, từ đó đưa ra một số ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc, đồng thời cũng giới thiệu về phương pháp đánh giá khả năng trích xuất thông qua độ hồi tưởng (R), độ tin cậy (P) 1.1 Bài toán trích xuất thông tin 1.1.1 Giới thiệu bài toán Trích xuất thông tinbài toán nhận dạng những thành phần thông tin cụ thể... trình trích xuất thông tin sẽ dựa vào đường đi từ gốc đến node chứa thông tin cần trích xuất 1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 1.2.1 Vấn đề đặt ra với bài toán Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc là rất hữu dụng bởi vì nó cho phép chúng ta thu được tích hợp dữ liệu từ nhiều nguồn để cung cấp cho những dịch vụ giá trị gia tăng như : thu được những thông tin. .. Hình 3 Ví dụ về trích xuất nội dung chính của trang Web 8 • Hệ thống tìm kiếm giá cả sản phẩm Hệ thống cho phép người sử dụng so sánh được giá cả của sản phẩm mà họ muốn mua Hệ thống này phải duyệt qua các trang web kinh doanh sản phẩm để trích xuất các thông tin hữu dụng về sản phẩm Hình 4 dưới đây là ví dụ về một hệ thống tìm kiếm giá cả sản phẩm Hình 4 Ví dụ về hệ thống tìm kiếm giá cả 9 Chương 2... với bài toán trích xuất thông tin từ dữ liệu bán cấu trúc để xây dựng cơ sở lý thuyết để trích xuất thông tin giá cả của sản phẩm, đưa ra mô hình của hệ thống nêu được tính mở của hệ thống đề xuất Chương 4 Thực nghiệm đánh giá kết quả để đánh giá các bài toán nêu ở phần cơ sở lý thuyết tại chương 3 về trích xuất giá cả của sản phẩm Kết quả thực nghiệm cho thấy được hiệu quả của phương pháp trích. .. phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc Chương 2 sẽ giới thiệu hướng tiếp cận trích xuất sử dụng cây DOM [15],[6] biểu thức chính qui [2] Đồng thời chương cũng trình bày hai giải thuật trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc cũng như các ưu nhược điểm của nó Đây cũng chính là những tiền đề để xây dựng phương pháp trích xuất giá cả sản phẩm. .. giống nhau Hình 1 Ví dụ về tính cấu trúc của trang web bán cấu trúc 1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin Các bài toán trích xuất thông tin thông thường được tiếp cận theo dữ liệubài toán đó xử lý Vì vậy có những dạng bài toán như sau: 4 • Dữ liệucấu trúc Đối với dữ liệucấu trúc, việc trích xuất thông tin là khá đơn giản Vì các thông tin đã được biểu diễn theo những... hiện nay Có rất nhiều bài toán được đề xuất theo phương thức tiếp cận thứ ba để xây dựng hệ thống tìm kiếm giá cả như: - Andrew Carlson Charles Schafer áp dụng [1] để trích xuất tự động các thông tin ở các website du lịch kinh doanh nhà đất, nhằm xây dựng hệ thống tìm kiếm giá cả về nhà đất du lịch - “Elwin Chai, Rick Jones áp dụng [3] để xây dựng hệ thống tìm kiếm giá cả tự động PriceHunter . quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc Chủ đề chính của khóa luận là áp dụng bài toán trích xuất thông tin cho dữ liệu bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả. . bài toán trích xuất thông tin nói chung và bài toán trích xuất thông tin cho dữ liệu bán cấu trúc nói riêng, từ đó đưa ra một số ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu. chứa thông tin cần trích xuất. 1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 1.2.1 Vấn đề đặt ra với bài toán Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc là rất hữu dụng

Ngày đăng: 27/06/2014, 22:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan