Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF

46 558 5
Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Họ và tên: Nguyễn Cao Phong TÊN KHÓA LUẬN: ỨNG DỤNG SEMANTIC WEB ĐỂ XÂY DỰNG CÔNG CỤ TỔNG HỢP RSS TỪ CÁC TRANG MẠNG XÃ HỘI VÀ LƯU TRỮ DƯỚI DẠNG RDF Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01.01 KHÓA LUẬN TỐT NGHIỆP THẠC SĨ Thành Phố. Hồ Chí Minh – Năm 2015 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Họ và tên: Nguyễn Cao Phong TÊN KHÓA LUẬN: ỨNG DỤNG SEMANTIC WEB ĐỂ XÂY DỰNG CÔNG CỤ TỔNG HỢP RSS TỪ CÁC TRANG MẠNG XÃ HỘI VÀ LƯU TRỮ DƯỚI DẠNG RDF Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01.01 GIẢNG VIÊN PHỤ TRÁCH: GS.TSKH HOÀNG VĂN KIẾM Thành Phố. Hồ Chí Minh – Năm 2015 MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 1 DANH MỤC CÁC BẢNG 2 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 3 MỞ ĐẦU 4 Chương 1 – TỔNG QUAN SEMATIC WEB 6 1.1.Tổng quan về web ngữ nghĩa 6 1.2. Web ngữ nghĩa là gì 7 1.3. Văn bản và cơ sở dữ liệu 9 1.4. Tài liệu XML với miền đơn 10 1.5. Kiến trúc web ngữ nghĩa 10 Chương 2 – MÔ HÌNH RSS 12 2.1. Giới thiệu về RSS 12 2.2. Giới thiệu về chuẩn RDF 12 2.3. Quá trình hình thành của các phiên bản RSS 13 2.4. Vấn đề không tương thích giữa các phiên bản RSS 16 2.5. Cấu trúc của RSS feed 16 2.5.1. RSS 0.91 17 2.5.2. RSS 0.92 21 2.5.3. RSS 1.0 25 2.5.4. RSS 2.0 29 2.5.5. Ánh xạ một số thành phần của RSS 0.9x/2.0 sang RSS 1.0 35 2.5.6. Sự biến đổi của các thành phần qua các phiên bản RSS 36 Chương 3 – CÀI ĐẶT VÀ THỬ NGHIỆM 38 3.1. Giới thiệu 38 3.2. Hướng dẫn sử dụng 38 3.2.1. Chuyển dữ liệu RSS 2.0 sang RDF (RSS 1.0) 39 Chương 4 – KẾT LUẬN 41 TÀI LIỆU THAM KHẢO 42 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT RSS 0.91: Rich Site Summary RSS 0.9 và 1.0: RDF Site Summary RSS 2.0.0: Really Simple Syndication 1 DANH MỤC CÁC BẢNG Bảng 1. So sánh RSS 0.9x/2.0 sang RSS 1.0 Bảng 2. Sự biến đổi của các thành phần qua các phiên bản RSS 2 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Cấu trúc một tài liệu RSS 1.0 đơn giản Hình 2: Một RDF đơn giản Hình 3. Một đề xuất nguồn gốc Web với CERN (CERN-Hội đồng Châu Âu nghiên cứu hạt nhân) Hình 4. Sơ đồ phát triển tính thông minh của dữ liệu Hình 5. Kiến trúc của web ngữ nghĩa Hình 6. Cây cấu trúc các thành phần của RSS 0.91 Hình 7. Cây cấu trúc các thành phần của RSS 0.92 Hình 8. Cây cấu trúc các thành phần của RSS 1.0 Hình 9. Cây cấu trúc các thành phần của RSS 2.0 Hình 10. Giao diện chính của chương trình Hình 11. Giao diện hiển thị nội dung tập tin RDF Hình 12. Nội dung tâp tin RSS 2.0 Hình 13. Kết quả tổng hợp từ trang vnexpress.net, vietnamnet.vn, tuoitre.vn 3 MỞ ĐẦU RSS là một công nghệ internet giúp người dùng có thể đọc được những tin tức cập nhật mới nhất từ một hoặc nhiều website cùng lúc mà không cần vào trực tiếp trang web đó. RSS có thể là từ viết tắt của một trong các thuật ngữ sau: Really Simple Syndication: Dịch vụ cung cấp thông tin đơn giản. Rich Site Summary, RDF Site Summary: Tóm tắt thông tin phong phú, tóm tắt thông tin theo định dạng RDF. RDF – Resource Discovery Framework: là định dạng của phiên bản RSS 1.0. RSS là một tiêu chuẩn dựa trên định dạng XML cung cấp nội dung cập nhật thường xuyên. Các nhà cung cấp nội dung web sử dụng RSS để tạo ra dữ liệu và phân phối nguồn dữ liệu đến độc giả. Một tập tin RSS đơn giản chỉ là một danh sách các đối tượng được mô tả, gồm có: tiêu đề (title), nội dung tóm lược (description), và một liên kết đến trang chính (link) của nó. Những thông tin khác như ngày tháng, tác giả, cũng có thể được thêm vào. Một số phiên bản của RSS: Các phiên bản của RSS gồm có 0.90 và 0.91 (tạo bởi Netscape), 1.0 (bởi RSS-DEV), 0.9x và 2.0 (bởi UserLand Software). Hình 1: Cấu trúc một tài liệu RSS 1.0 đơn giản 4 RDF là ngôn ngữ nền tảng của của Semantic Web. Nó là một ngôn ngữ được sử dụng để mô tả data, metadata, hay thẩm chí là ngôn ngữ dữ liệu khác. RDF sử dụng một định dạng dữ liệu đồ thị (graph). RDF dựa trên ý tưởng là mỗi mẫu dữ liệu (data item) sẽ có một định dang web duy nhất, gọi là URI (Uniform Resource Identifier), và mỗi mẫu dữ liệu có thể kết nối với các item khác. Hình 2: Một RDF đơn giản 5 Chương 1 – TỔNG QUAN SEMATIC WEB 1.1.Tổng quan về web ngữ nghĩa Web ngữ nghĩa là thế hệ Web mới, đang được phát triển và sẽ xuất hiện trong tương lai gần. Hệ thống Web mới này sẽ dần thay thế Web hiện tại song không có nghĩa là hoàn toàn khác hệ thống Web hiện tại. Web ngữ nghĩa được phát triển trên hệ thống Web hiện tại bằng cách bổ sung thêm ngữ nghĩa cho các tài nguyên Web mà máy tính có thể hiểu và tăng khả năng xử lý tự động. World Wide Web (gọi tắt là Web) đã trở thành một kho tàng thông tin khổng lồ của nhân loại và một môi trường chuyển tải thông tin không thể thiếu được trong thời đại công nghệ thông tin ngày nay. Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng. Muốn vậy, trước hết máy tính phải hiểu được thông tin trên các tài liệu Web, trong khi ở thế hệ Web hiện tại thông tin được biểu diễn dưới dạng chỉ con người mới đọc hiểu được. Các chuyên gia dự đoán, bề nổi của web (surface web) chứa khoảng 1 đến 2 tỷ trang tài liệu trong khi, ở phần sâu của web thì chứa đến 550 tỷ trang tài liệu. Có khoảng 200.000 website có tầng thông tin sâu, khoảng hơn 1/2 số thông tin này nằm trong các cơ sở dữ liệu có chủ đề riêng biệt. Khoảng 95% thông tin trong các website có tầng thông tin sâu cho phép đa số người dùng có thể khai thác miễn phí. Nhưng hiện nay, hầu hết các công cụ tìm kiếm tài liệu trên web được coi là tìm kiếm hiệu quả cũng chủ yếu tìm kiếm được trên bề nổi của web. Trong khi ở tầng sâu của web chứa một khối lượng thông tin khổng lồ và thường rất có giá trị cho các nhà nghiên cứu, các học giả hay đơn thuần là những người thích tìm hiểu. Bên cạch đó, các trang web hiện nay có rất ít đường liên kết với các trang web khác nên việc tìm kiếm là khó khăn. Ngoài ra, thông tin tìm kiếm được không theo chủ đề mà chỉ là vấn đề tìm thoả theo từ khoá đơn thuần, kết quả tìm kiếm phải do con người chọn lại theo chủ đề mong muốn. Chính những vấn đề này đã thúc đẩy sự ra đời của ý tưởng Web ngữ nghĩa (Semantic Web), một thế hệ mới của Web, mà chính cha đẻ của World Wide Web là Tim Berners-Lee đề xuất vào năm 1998. Web ngữ nghĩa là sự 6 [...]... Chương 2 – MÔ HÌNH RSS 2.1 Giới thiệu về RSS RSS là một định dạng tập tin thuộc họ XML dùng trong việc chia sẻ tin tức web (web syndication), được dùng bởi nhiều website tin tức và weblog • RSS gồm các phiên bản sau: • Rich Site Summary (RSS 0.91) • RDF Site Summary (RSS 0.9 và 1.0) • Really Simple Syndication (RSS 2.0.0) Định dạng RSS cung cấp nội dung web, tóm lược nội dung web cùng với các liên kết đến... dùng các công cụ tìm kiếm như: Google, Altavista, Vinaseek…Việc thực hiện tìm kiếm thông tin trên Internet của các công cụ này hoàn toàn dựa trên sự xuất hiện các từ tìm kiếm trong tài liệu và kết 12 hợp với dự đoán một cách thông minh các ý đồ tìm kiếm của người sử dụng để đưa ra các kết quả tìm kiếm phù hợp Và việc thực hiện này được thực hiện hoàn toàn tự động nhờ các phần mềm, các robots dùng để. .. nguồn gốc Web của Tim Berners-Lee Cái nhìn này rất phức tạp và phức tạp hơn nhiều so với việc lọc ra các trang HTML từ các dịch vụ Web hiện tại Nhưng trong hình này, có các mối quan hệ giữa các thông tin như: "includes", "describes", "rote", đây là các mối quan hệ giữa các tài nguyên mà trong web hiện tại không có Và chính các quan hệ này đưa vào web ngữ nghĩa là cần thiết, để máy có thể hiểu và xử lý... Wide Web Bất kỳ một người nào cũng có thể tạo một URI, và sở hữu chúng và chúng là một công nghệ cơ sở để xây dựng một 10 hệ thống Web toàn cầu Hệ thống World Wide Web được xây dựng trên chúng và bất kỳ cái gì mà có một URI thì được coi là "trên Web" URL (Uniform Resource Locator) là một dạng đặc biệt của URI, cụ thể nó là một địa chỉ trên mạng URIref (URI reference) là một URI cùng với một phần nhận dạng. .. một cuộc cách mạng 2.4 Vấn đề không tương thích giữa các phiên bản RSS Như đã nói ở trên, có nhiều phiên bản khác nhau của RSS bao gồm: • RDF hay RSS 1.*, bao gồm các phiên bản sau đây: • RSS 0.90 là phiên bản của Netscape Bản RSS này được gọi là: tóm lược thông tin định dạng RDF, nhưng được dựa trên bản nháp lúc đầu của chuẩn RDF, và nó không tương thích với chuẩn RDF cuối cùng • RSS 1.0 và 1.1 là... tin tự động trên web Các quan hệ này được gọi là các siêu dữ liệu Công nghệ để có được các siêu dữ liệu này là công nghệ RDF (Resource Description Framework) Để có thể tạo ra web có dữ liệu mà máy có thể xử lý được, trước hết phải thay đối mô hình trong cách chúng ta nghĩ về dữ liệu Từ trước đến nay, dữ liệu bị khoá ngay trong 8 các ứng dụng độc quyền Dữ liệu được coi như thứ yếu để xử lý dữ liệu Thái... hướng và đồng bộ dữ liệu đa hướng xuyên suốt nhiều ứng dụng Một điều cần lưu ý là Microsoft mới chỉ phát hành đặc tả SSE, hiện thời chưa có sản phẩm nào của Microsoft cũng như các hãng khác ứng dụng công nghệ này Tuy nhiên, một số công ty cũng đang hứa hẹn sẽ triển khai ứng dụng mới của họ trên SSE 15 SSE là một bước tiến lớn của RSS Khả năng cung cấp nguồn tin đa hướng và đồng bộ dữ liệu giữa các ứng dụng. .. Ví dụ: các chuẩn XML trong chăm sóc sức khoẻ, công nghiệp bảo hiểm, hoặc công nghiệp bất động sản 1.5 Kiến trúc web ngữ nghĩa Web ngữ nghĩa được xây dựng trên nền hệ thống web hiện tại Web ngữ nghĩa được coi là sự mở rộng của Web hiện tại có bổ sung thêm ngữ nghĩa vào dữ liệu trên web Hình 1.3 chỉ ra sơ đồ kiến trúc của Web ngữ nghĩa Hình 5 Kiến trúc của web ngữ nghĩa Từ sơ đồ kiến trúc của Web ngữ... định dạng mở của nhóm RSS- DEV Working Group, thay thế RSS 0.90 RSS 1.0 là một khuôn dạng RDF như RSS 0.90 nhưng dựa trên chuẩn RDF cuối cùng • Các phiên bản RSS 2.* (khởi tạo bởi UserLand, bây giờ là Harvard) bao gồm các phiên bản sau: • RSS 0.91 là phiên bản đơn giản hóa được phát hành bởi Netscape Phiên bản này gọi là: Rich Site Summary Nó không phải là định dạng RDF nhưng mà khá dễ sử dụng RSS 0.91... hỗ trợ RSS cho người dùng không và, nếu có, hiển thị những bài viết cập nhật nhất mà nó tìm thấy từ website đó Trên các trang web, RSS feeds thường được liên kết bằng một hình chữ nhật màu cam , có thể kèm theo các kí tự XML hay RSS 2.2 Giới thiệu về chuẩn RDF RDF viết tắt của Resource Description Framework, là một chuẩn dùng để mô tả thông tin do W3C đưa ra nhằm tạo ra các metadata Hiện nay để tra . MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Họ và tên: Nguyễn Cao Phong TÊN KHÓA LUẬN: ỨNG DỤNG SEMANTIC WEB ĐỂ XÂY DỰNG CÔNG CỤ TỔNG HỢP RSS TỪ CÁC TRANG MẠNG XÃ HỘI VÀ LƯU TRỮ DƯỚI DẠNG RDF Chuyên ngành:. MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Họ và tên: Nguyễn Cao Phong TÊN KHÓA LUẬN: ỨNG DỤNG SEMANTIC WEB ĐỂ XÂY DỰNG CÔNG CỤ TỔNG HỢP RSS TỪ CÁC TRANG MẠNG XÃ HỘI VÀ LƯU TRỮ DƯỚI DẠNG RDF Chuyên ngành:. chuẩn RDF cuối cùng. • RSS 1.0 và 1.1 là một định dạng mở của nhóm RSS- DEV Working Group, thay thế RSS 0.90. RSS 1.0 là một khuôn dạng RDF như RSS 0.90 nhưng dựa trên chuẩn RDF cuối cùng. • Các

Ngày đăng: 04/07/2015, 03:37

Từ khóa liên quan

Mục lục

  • DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

  • MỞ ĐẦU

  • Chương 1 – TỔNG QUAN SEMATIC WEB

    • 1.1.Tổng quan về web ngữ nghĩa

    • 1.2. Web ngữ nghĩa là gì

    • 1.3. Văn bản và cơ sở dữ liệu

    • 1.4. Tài liệu XML với miền đơn

    • 1.5. Kiến trúc web ngữ nghĩa

    • Chương 2 – MÔ HÌNH RSS

      • 2.1. Giới thiệu về RSS

      • 2.2. Giới thiệu về chuẩn RDF

      • 2.3. Quá trình hình thành của các phiên bản RSS

      • 2.4. Vấn đề không tương thích giữa các phiên bản RSS

      • 2.5. Cấu trúc của RSS feed

        • 2.5.1. RSS 0.91

        • 2.5.2. RSS 0.92

        • 2.5.3. RSS 1.0

        • 2.5.4. RSS 2.0

        • 2.5.5. Ánh xạ một số thành phần của RSS 0.9x/2.0 sang RSS 1.0

        • 2.5.6. Sự biến đổi của các thành phần qua các phiên bản RSS

        • Chương 3 – CÀI ĐẶT VÀ THỬ NGHIỆM

          • 3.1. Giới thiệu

Tài liệu cùng người dùng

Tài liệu liên quan