Tìm hiểu bài toán khai phá dữ liệu văn bản

53 1 0
  • Loading ...
1/53 trang

Thông tin tài liệu

Ngày đăng: 15/03/2019, 09:58

LỜI CẢM ƠN Em xin bày tỏ lời cảm ơn sâu sắc tới PGS.TS Đỗ Năng Toàn, thầy tận tình hƣớng dẫn giúp đỡ em nhiều trình làm tốt nghiệp để tìm hiểu, nghiên cứu đề tài “Tìm hiểu tốn khai phá liệu văn bản” đƣợc giao để em hồn thành tốt đề tài tốt nghiệp Em xin chân thành cảm ơn dạy bảo thầy cô giáo khoa CNTT – Trƣờng ĐHDLHP trang bị cho em kiến thức để em hồn thành tốt đề tài tốt nghiệp Tuy có nhiều cố gắng trình làm đề tài nhƣng em khơng tránh khỏi sai sót Em mong thầy giáo dẫn, đóng góp cho em ý kiến quý báu để giúp em hoàn thiện đề tài nhƣ để phát triển mở rộng đề tài sau Em xin chân thành cảm ơn! Hải Phòng, ngày Sinh viên Bùi Thị Mây tháng năm Tìm hiểu tốn khai phá liệu văn MỤC LỤC LỜI NÓI ĐẦU CHƢƠNG – KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khai phá liệu 1.2 Quá trình khai phá liệu 1.3 Các tốn thơng dụng khai phá liệu CHƢƠNG – KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG PHẦN I: Lấy tin tự động Định nghĩa Quy trình lấy tin tự động PHẦN II: Khai phá liệu lấy tin tự động Tìm hiểu XML 1.1 Nguồn gốc mục đích 1.2 Đặc điểm 1.3 Cấu trúc 1.4 Ứng dụng XML Tìm hiểu RSS 2.1 Tổng quan RSS 2.2 Lịch sử đời RSS 2.3 Quy định RSS 2.4 Cú pháp RSS Tìm hiểu toán khai phá liệu văn 2.5 Các phần tử RSS 2.6 Các phần tử RSS CHƢƠNG 3: PHÂN TÍCH THIẾT KẾ CHƢƠNG TRÌNH 3.1 Tổng quan chƣơng trình 3.2 Khảo sát, phân tích đánh giá yêu cầu 3.2.1 Khảo sát số chƣơng trình hỗ trợ đọc tin tức RSS 3.2.2 Tổng hợp yêu cầu ngƣời dùng 3.2.3 Đánh giá lựa chọn giải pháp 3.3 Phân tích chức hệ thống 3.3.1 Biểu đồ Use Case 3.3.2 Đặc tả Use - case 3.3.3 Biểu đồ (Sequence Diagram) 3.4 Thiết kế sở liệu 3.4.1 Đặc tả chi tiết bảng liệu 3.4.2 Mơ hình quan hệ CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH 4.1 Quy trình tự động lấy đƣờng dẫn tới tập tin RSS 4.2 Quy trình đọc tập tin RSS 4.3 Một số hình giao diện đạt đƣợc KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TÀI LIỆU THAM KHẢO PHỤ LỤC Tìm hiểu tốn khai phá liệu văn LỜI NĨI ĐẦU Trong thời đại ngày nay, thơng tin nhu cầu thiết yếu ngƣời lĩnh vực Mỗi phút trôi qua hàng triệu triệu trang web đƣợc đẩy lên nhằm làm giàu nguồn tài nguyên vô tận Vấn đề đặt ta nắm bắt, cập nhật, chia sẻ thơng tin cách tổng qt, nhanh chóng dễ dàng khối lƣợng thông tin khổng lồ nhƣ Do đòi hỏi phải khai phá nguồn liệu để lấy đƣợc thơng tin có ích cách tự động Trên giới nay, nhiều website cung cấp tập tin RSS để chia sẻ cập nhật thông tin cách dễ dàng nhanh chóng Một số website hỗ trợ đọc tin RSS nhƣ: Google Reader, Yahoo,…và số phần mềm nhƣ: RSSReader, FeedDemon Còn Việt Nam, có số phần mềm hỗ trợ Tìm hiểu tốn khai phá liệu văn đọc tin nhƣ: Vietspider, iCA website hỗ trợ đọc tin RSS trực tuyến chƣa nhiều Chính đề tài “Tìm hiểu toán khai phá liệu văn bản” đƣợc đƣa nhằm ứng dụng khai phá liệu vào việc xây dựng hệ thống thu thập tin tức từ nhiều nguồn website khác giúp cho ngƣời dùng nắm bắt thông tin cách dễ dàng tiết kiệm thời gian Nội dung đề tài gồm phần sau: Chƣơng – Khái quát khai phá liệu Tìm hiểu khái niệm, q trình tốn khai phá liệu Chƣơng - Khai phá liệu lấy tin tự động Nội dung chƣơng tìm hiểu lấy tin tự động ứng dụng khai phá liệu lấy tin tự động (tìm hiểu ngơn ngữ XML cơng nghệ RSS ) Chƣơng – Phân tích thiết kế chƣơng trình Nội dung chƣơng trình khảo sát, phân tích thiết kế chi tiết cho chƣơng trình hỗ trợ đọc tin RSS Chƣơng – Xây dựng chƣơng trình Nêu lớp, phƣơng thức để xây dựng website hỗ trợ đọc tin RSS Và cuối đƣa số hình giao diện đạt đƣợc Kết luận phƣơng hƣớng phát triển Phần cuối kết luận kết đạt đƣợc ƣu nhƣợc điểm đề tài Bên cạnh đó, phần nêu phƣơng hƣớng để tiếp tục phát triển đề tài tƣơng lai nhằm ngày hoàn thiện đáp ứng đƣợc nhu cầu ngày cao ngƣời sử dụng CHƢƠNG – KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU Nội dung chƣơng gồm : Phần 1: Khái niệm khai phá liệu Phần 2: Quá trình khai phá liệu Phần 3: Các tốn thơng dụng khai phá liệu Tìm hiểu toán khai phá liệu văn 1.1 Khái niệm khai phá liệu Khai phá liệu – Data mining: Là bƣớc tiến trình khai phá tri thức (KDD) KDD - Knowledge discovery in database: Thuật ngữ tổng quát gồm bƣớc nhƣ tiền xử lý, KPDL, hậu xử lý 1.2 Quá trình khai phá liệu a Tìm hiểu nghiệp vụ liệu  Nhà tƣ vấn nghiên cứu kiến thức lĩnh vực áp dụng, bao gồm tri thức cấu trúc hệ thống, nguồn liệu hữu, ý nghĩa, vai trò tầm quan trọng thực thể liệu b Chuẩn bị liệu  Giai đoạn sử dụng kỹ thuật tiền xử lý để biến đổi cải thiện chất lƣợng lƣợng liệu để thích hợp với yêu cầu giải thuật học:  Các giải thuật tiền xử lý bao gồm:  Xử lý liệu bị thiếu / mất: Các liệu bị thiếu đƣợc thay giá trị thích hợp  Khử trùng lặp: Các đối tƣợng liệu trùng lặp bị loại bỏ Kỹ thuật không đƣợc sử dụng cho tác vụ có quan tâm đến phân bổ liệu  Giảm nhiễu: Nhiễu đối tƣợng tách rời khỏi phân bố chung bị loại khỏi liệu  Chuẩn hóa: Miền giá trị liệu đƣợc chuẩn hóa  Rời rạc hóa: Các liệu số đƣợc biến đổi giá trị rời rạc  Rút trích xây dựng đặc trƣng từ thuộc tính có  Giảm chiều: Các thuộc tính chứa thơng tin đƣợc loại bỏ bớt c Mơ hình hóa liệu Tìm hiểu tốn khai phá liệu văn  Các giải thuật học sử dụng liệu đƣợc tiền xử lý giai đoạn hai để tìm kiếm quy tắc ẩn chƣa biết d Hậu xử lý đánh giá mơ hình  Dự đánh giá ngƣời dùng sau kiểm tra tập thử, mơ hình đƣợc tinh chỉnh kết hợp lại cần Chỉ mơ hình đạt đƣợc mức u cầu ngƣời dùng đƣa triển khai thực tế  Trong giai đoạn này, kết đƣợc biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ dễ hiểu cho ngƣời dùng e Triển khai tri thức  Các mơ hình đƣợc đƣa vào hệ thống thông tin thực tế dƣới dạng môđun hỗ trợ việc đƣa định  Mối quan hệ chặt chẽ giai đoạn trình KPDL quan trọng cho việc nghiên cứu KPDL Một giải thuật KPDL đƣợc phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thƣờng đƣợc xây dựng để giải mục tiêu cụ thể  Quá trình đƣợc lặp lại nhiều lần hay nhiều giai đoạn dựa phản hồi từ kết giai đoạn sau 1.3 Các tốn thơng dụng KPDL  Phân lớp (Classification): Với tập liệu huấn luyện cho trƣớc huấn luyện ngƣời,các giải thuật phân loại học phân loại (classifier) dùng để phân liệu vào lớp (còn gọi loại) đƣợc xác định trƣớc  Dự đoán (Prediction) học dự đốn Khi có liệu đến, dự đốn dựa thơng tin có để đƣa giá trị số học cho hàm cần dự đốn  Tìm luật liên kết (Association Rule) tìm kiếm mối liên kết thành phần từ liệu Tìm hiểu tốn khai phá liệu văn  Phân cụm (Clustering) nhóm đối tƣợng liệu có tính chất giống vào nhóm Tìm hiểu tốn khai phá liệu văn CHƢƠNG KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG Nội dung chƣơng gồm:  Phần 1: Lấy tin tự động ( Định nghĩa lấy tin tự động quy trình lấy tin tự động )  Phần 2: Khai phá liệu lấy tin tự động (Tìm hiểu XML RSS) PHẦN I: LẤY TIN TỰ ĐỘNG Định nghĩa  Lấy tin tự động trình tìm kiếm thơng tin có giá trị khối liệu lớn  Là việc trích lấy thơng tin từ trang Web có nội dung cần quan tâm tới Quy trình lấy tin tự động Với loại liệu khác nhau, trình lấy tin tự động thông thƣờng đƣợc thực qua bƣớc sau:  Bƣớc 1: Tìm hiểu lĩnh vực xác định vấn đề có liên quan  Bƣớc 2: Thu thập tiền xử lý liệu Đây bƣớc quan trọng, chiếm phần lớn thời gian sức lực (70 ÷ 80%) tiến trình Bƣớc 3: Lấy tin tự động trích chọn mẫu, thơng tin có ý nghĩa Bƣớc gồm phƣơng thức để tạo thông tin hữu ích từ liệu  Bƣớc 4: Đƣa thơng tin hiển thị  Tìm hiểu toán khai phá liệu văn PHẦN II: KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG Đặt vấn đề: Sự phát triển nhanh chóng mạng Internet Intranet sinh khối lƣợng khổng lồ liệu dạng siêu văn ( liệu Web) Cùng với thay đổi phát triển hàng ngày hàng nội dung nhƣ số lƣợng trang Web Internet vấn đề tìm kiếm thơng tin ngƣời sử dụng lại ngày khó khăn Có thể nói trang Web nhƣ từ điển bách khoa tồn thƣ Thơng tin trang Web đa dạng mặt nội dung nhƣ hình thức, nói Internet nhƣ xã hội ảo, bao gồm thơng tin mặt đời sống kinh tế, xã hội đƣợc trình bày dƣới dạng văn bản, hình ảnh , âm thanh,….Tuy nhiên với đa dạng số lƣợng lớn thông tin nhƣ nảy sinh vấn đề tải thông tin Ngƣời ta khơng thể tự tìm kiếm địa trang Web chứa thơng tin mà cần yêu cầu đặt làm để lấy đƣợc thơng tin mà cần khối lƣợng thơng tin khổng lồ Do ngƣời ta ứng dụng khai phá liệu để lấy tin tự động Tìm hiểu XML 1.1 Nguồn gốc mục đích XML (Extensible Markup Language) tức ngôn ngữ đánh dấu mở rộng đời vào tháng 2/1998, W3C đề xuất XML tập SGML (Standardized Generalized Makup Language) XML đƣợc thiết kế để chuyển tải lƣu trữ liệu Mục đích XML đơn giản hoá việc chia sẻ liệu hệ thống khác nhau, đặc biệt hệ thống đƣợc kết nối Internet 1.2 Đặc điểm XML dùng văn (text) để mô tả thông tin XML không phụ thuộc vào ứng dụng, phần mềm phần cứng Tìm hiểu tốn khai phá liệu văn CHƢƠNG – XÂY DỰNG CHƢƠNG TRÌNH Nội dung chƣơng bao gồm: Phần 1: Mơ tả qui trình lấy link RSS tự động, đọc tập tin RSS Phần 2: Một số hình giao diện đạt đƣợc Phần ta xác định đƣợc yêu cầu chức chƣơng trình Để đáp ứng đƣợc chức ta cần làm nhƣ sau 4.1 Qui trình tự động lấy đƣờng dẫn tới tập tin RSS Khi ngƣời dùng nhập đƣờng dẫn tới webisite (chẳng hạn: http://vietnamnet.vn ), nhiệm vụ hệ thống lấy tất file RSS mà webisite cung cấp Bước 1: Ta phải tải nội dung trang HTML website Bước 2: Ta sử dụng đến biểu thức qui (Regular Expression) để lọc thẻ chứa đƣờng dẫn tới file RSS Bước 3: Lọc đƣờng dẫn tới file RSS, ta dùng biểu thức qui để match() đƣợc href chứa đƣờng dẫn tới file RSS Bước 4: Sau lấy đƣợc đƣờng dẫn tới file RSS, lƣu vào CSDL Tiếp theo, đọc file RSS 4.2 Qui trình đọc tập tin RSS Ngƣời dùng nhập trực tiếp đƣờng dẫn tới file RSS Nhiệm vụ hệ thống trích rút liệu từ file RSS Để trích rút liệu ta làm nhƣ sau: Bước 1: Trƣớc tiên thiết kế lớp RSSItem để chứa liệu mà ta trích rút từ file RSS Bước 2: Đọc file RSS Tìm hiểu tốn khai phá liệu văn 4.3 Một số hình giao diện đạt đƣợc Hình 18 – Giao diện trang đăng nhập Hình 19 – Giao diện trang quản lý ngƣời dùng 40 Tìm hiểu tốn khai phá liệu văn Hình 20 – Giao diện blog 41 Tìm hiểu tốn khai phá liệu văn Hình 21 – Giao diện thƣ mục RSS cung cấp sẵn 42 Tìm hiểu tốn khai phá liệu văn Hình 22 – Giao diện trang lấy link RSS tự động Hình 23 – Giao diện trang tin tức lấy 43 Tìm hiểu tốn khai phá liệu văn Hình 24 – Giao diện trang quản lý nhóm tin 44 Tìm hiểu tốn khai phá liệu văn KẾT LUẬN VÀ PHƢƠNG HƢỚNG PHÁT TRIỂN Trong trình tìm hiểu số cơng nghệ XML, em thấy XML chuẩn thân thiện, dễ đọc hiểu, tảng để phát triển nhiều ngôn ngữ khác có ứng dụng cao có RSS Hiện nhiều website chia sẻ tin tức dùng chuẩn RSS, nên việc xây dựng chƣơng trình hỗ trợ đọc tin RSS điều cần thiết Với nỗ lực cố gắng, đồ án đạt đƣợc kết sau: Kết đạt đƣợc Hiểu biết cách sử dụng tài liệu XML vấn đề chia sẻ liệu Biết cách đọc ghi tài liệu XML Hiểu biết cách sử dụng biểu thức qui việc tìm kiếm chuỗi Xây dựng đƣợc website hỗ trợ đọc tin RSS với chức Hiểu nắm đƣợc kiến thức XML NET Biết cách lập trình với ngơn ngữ C# Bên cạnh đó, chƣơng trình có hạn chế Cách xếp, tổ chức tin tức chƣa đƣợc tốt Chƣơng trình chƣa trau truốt vào giao diện Chức chƣơng trình hạn chế Hƣớng phát triển đề tài Khắc phục hạn chế chƣơng trình Tìm hiểu thêm cơng nghệ AJAX, NET Framework 3.5, tìm hiểu cách xây dựng PORTAL , trọng tâm PERSONAL PORTAL Đây xu hƣớng phổ dụng giới Một số ví dụ điển hình nhƣ : iGoogle, My Yahoo,… Với kiến thức tảng cơng nghệ đó, em phát triển chƣơng trình thành PERSONAL PORTAL Một PERSONAL PORTAL nơi để ngƣời chia sẻ đƣợc thơng tin,dữ liệu với nhau: nhƣ tin tức, tranh ảnh, video, thời tiết, số chứng khốn, …… 45 Tìm hiểu toán khai phá liệu văn TÀI LIỆU THAM KHẢO [1] Dƣơng Quang Thiện .NET toàn tập - Tập 5: Lập trình Web dùng ASP.NET C# - Nhà xuất Tổng hợp TP.HCM [2] Nguyễn Ngọc Bình Phƣơng – Thái Thanh Phong Ebook: Các giải pháp lập trình C# Nhà sách Đất Việt Website [3] http://www.w3schools.com/xml/ [4] http://msdn.microsoft.com/ [5] http://www.xml.com/ [6] http://www.codeproject.com [7] http://www.asp.net PHỤ LỤC Phụ lục A - PHẦN CODE CHÍNH CỦA CHƢƠNG TRÌNH Lớp Channel namespace mayRSS { public class Channel { / khai bao truong, thuoc tinh, ham tao private String _Link; public String Link { get { return _Link; } set { Link = value; } } public Channel(String link) { _Link = link; } } } 46 Tìm hiểu tốn khai phá liệu văn Lớp RSSItem using System; using System.Collections.Generic; using System.Text.RegularExpressions; namespace mayRSS { public class RSSItem { / khai bao fields private string _Title; private string _Link; private string _Description; private string _Image; private string _Enclosure; // mp3, audio private DateTime? _PubDate; private string _AuthorName; / ham tao constructor public RSSItem(string title, string link, string desc, string img, string enclosure, DateTime? pubDate, string authorName) { _Title = title; _Link = link; _Description = desc; _Image = img; _Enclosure = enclosure; _PubDate = pubDate; _AuthorName = authorName; } // khai bao thuoc tinh properties public string Title { get{ return _Title; } set{ _Title = value;} } public string Link { get{ return _Link; } set{ _Link = value;} } public string Description { ge{ return _Description;} 47 Tìm hiểu tốn khai phá liệu văn set{ _Description = value;} } public string Image { get{ return _Image;} set{ _Image = value;} } public string Enclosure { get { return _Enclosure; } set { _Enclosure = value; } } public DateTime? PubDate { get { return _PubDate; } set { _PubDate = value; } } public string AuthorName { get { return _AuthorName; } set { _AuthorName = value; } } } } Lớp LoadURL: lấy link RSS tự động using using using using using using System; System.Text.RegularExpressions; System.Collections.Generic; System.Net; System.IO; System.Data; namespace mayRSS { public class LoadURL { // khai bao field private bool _success = false; / khai bao thuoc tinh public bool Success { get { return _success; } 48 Tìm hiểu toán khai phá liệu văn } public Channel[] listChannel; // ham tao contructor public LoadURL(string linkWebsite) { Regex RegX = new Regex("
- Xem thêm -

Xem thêm: Tìm hiểu bài toán khai phá dữ liệu văn bản , Tìm hiểu bài toán khai phá dữ liệu văn bản

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay