Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay và quá trình chuyển động

4 326 0
Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay và quá trình chuyển động

Đang tải... (xem toàn văn)

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ NGỌC ANH NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ CẦM TAY (PDAS & SMARTPHONES) LUẬN VĂN THẠC SỸ HÀ NỘI - 2006 Kênh tin tức điện tử cho các thiết bị cầm tay 1 MỤC LỤC TRANG PHỤ BÌA Trang LỜI CAM ĐOAN MỤC LỤC TÓM TẮT 3 CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 4 CHÚ GIẢI KÝ HIỆU VÀ MÔ HÌNH 5 CÁC HÌNH MINH HỌA 6 MỞ ĐẦU 7 CHƢƠNG 1. XÂY DỰNG KÊNH CUNG CẤP TIN ĐIỆN TỬ TRÊN THIẾT BỊ CẦM TAY 10 1.1. Báo điện tử và công nghệ Internet không dây 10 1.1.1. Báo điện tử - một thành tựu của Internet 10 1.1.2. Sự phát triển của các thiết bị cầm tay 11 1.1.3. Công nghệ kết nối internet không dây 12 1.2. Bài toán xây dựng kênh tin tức điện tử trên thiết bị cầm tay 13 1.2.1. Mô tả bài toán 13 1.2.2. Mô tả các chức năng cơ bản của hệ thống 14 1.3. Hƣớng tiếp cận giải quyết bài toán 14 Chƣơng 2. THUẬT TOÁN RTDM VÀ ỨNG DỤNG TRONG TRÍCH XUẤT TIN 16 2.1. Khái niệm “Chi phí chuyển đổi cây” 16 2.2. Thuật toán RTDM 20 2.3. Áp dụng RTDM trích xuất tin tức tự động 27 2.3.1 Phân cụm trang 29 2.3.2 Trích xuất mẫu chung 30 2.3.3 Khớp dữ liệu 33 Kênh tin tức điện tử cho các thiết bị cầm tay 2 2.3.4 Gán nhãn dữ liệu 35 Chƣơng 3 . PHÂN TÍCH THIẾT KẾ HỆ THỐNG 37 3.1.Giới thiệu 37 3.2. Mô hình Use Case: 38 3.2. Mô hình lớp 43 3.4. Danh sách các thực thể 45 3.5. Mô hình thực thể liên kết 45 Chƣơng 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 46 4.1. Giới thiệu chung về hệ thống 46 4.2. Thực nghiệm và đánh giá kết quả 46 KẾT LUẬN 50 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC. MÔ TẢ CHI TIẾT CÁC THỰC THỂ 54 Kênh tin tức điện tử cho các thiết bị cầm tay 3 TÓM TẮT Luận văn quan tâm nghiên cứu các giải pháp trích chọn thông tin trên Web nhằm xây dựng một hệ thống cung cấp tin tức trên các thiết bị cầm tay thông minh mà tin tức này được trích chọn từ các báo điện tử tiếng Việt. Luận văn sử dụng thuật toán RTDM (Restricted Top-Down Mapping) do Davi de Castro Reis và các đồng tác giả đề xuất [28], một thuật toán được đánh giá rất hiệu quả trong việc trích chọn tin tức tức tự động thông qua việc phân tích cấu trúc cây. Hiện nay RTDM được dùng như là thành phần lõi chính của hệ thống trích xuất tin tức có tên là AkwanClipping (Akwan Information Technologies, http://www.akwan.com, thuộc công ty Google tại Braxin) cung cấp tin tức hàng ngày của các tờ báo phổ biến nhất tại Braxin. Luận văn đã tiến hành chi tiết và hoàn thiện các phần nội dung không công bố của thuật toán RTDM, đồng thời tiến hành xây dựng một hệ thống kênh cung cấp tin điện tử trên các thiết bị cầm tay thông minh. Hệ thống thử nghiệm việc trích chọn tin tức trên các báo điện tử tiếng Việt phổ dụng hiện nay và đã cho kết quả đáng khích lệ. Chúng tôi đang tiến hành cải tiến tốc độ làm việc của hệ thống nhằm tiến tới đưa hệ thống vào hoạt động thực tế. . tử tiếng Việt. Luận v n sử dụng thuật toán RTDM (Restricted Top-Down Mapping) do Davi de Castro Reis v các đồng tác giả đề xuất [28], một thuật toán được đánh giá rất hiệu quả trong việc trích. THUẬT NGỮ V CÁC TỪ VIẾT TẮT 4 CHÚ GIẢI KÝ HIỆU V MÔ HÌNH 5 CÁC HÌNH MINH HỌA 6 MỞ ĐẦU 7 CHƢƠNG 1. XÂY DỰNG KÊNH CUNG CẤP TIN ĐIỆN TỬ TRÊN THIẾT BỊ CẦM TAY 10 1.1. Báo điện tử v công nghệ. thống thử nghiệm việc trích chọn tin tức trên các báo điện tử tiếng Việt phổ dụng hiện nay v đã cho kết quả đáng khích lệ. Chúng tôi đang tiến hành cải tiến tốc độ làm việc của hệ thống nhằm

Ngày đăng: 29/07/2015, 19:10

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan