Tìm hiểu bài toán khai phá dữ liệu văn bản

55 310 0
Tìm hiểu bài toán khai phá dữ liệu văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Em xin bày tỏ lời cảm ơn sâu sắc nhất tới PGS.TS. Đỗ Năng Toàn, thầy đã tận tình hướng dẫn và giúp đỡ em rất nhiều trong quá trình làm tốt nghiệp để tìm hiểu, nghiên cứu đề tài “Tìm hiểu bài toán khai phá dữ liệu văn bản” được giao để em có thể hoàn thành tốt đề tài tốt nghiệp của mình. Em xin chân thành cảm ơn sự dạy bảo của các thầy cô giáo khoa CNTT – Trường ĐHDLHP đã trang bị cho em những kiến thức cơ bản để em có thể hoàn thành tốt đề tài tốt nghiệp. Tuy có nhiều cố gắng trong quá trình làm đề tài nhưng em không tránh khỏi sai sót. Em rất mong thầy cô giáo chỉ dẫn, đóng góp cho em những ý kiến quý báu để giúp em hoàn thiện hơn đề tài của mình cũng như là để phát triển mở rộng đề tài sau này. Em xin chân thành cảm ơn! Hải Phòng, ngày tháng năm Sinh viên Bùi Thị Mây. Tìm hiểu bài toán khai phá dữ liệu văn bản MỤC LỤC LỜI NÓI ĐẦU .6 CHƯƠNG 1 – KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU .7 1.1 Khái niệm khai phá dữ liệu .7 1.2. Quá trình khai phá dữ liệu .7 a. Tìm hiểu nghiệp vụ và dữ liệu 7 b. Chuẩn bị dữ liệu 8 CHƯƠNG 2 10 KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG 10 PHẦN I: LẤY TIN TỰ ĐỘNG .10 1. Định nghĩa .10 Lấy tin tự động là quá trình tìm kiếm các thông tin có giá trị trong các khối dữ liệu lớn 10 Là việc trích lấy các thông tin từ các trang Web có nội dung cần quan tâm tới 10 2. Quy trình lấy tin tự động .10 Với các loại dữ liệu khác nhau, quá trình lấy tin tự động thông thường đều được thực hiện qua các bước sau: .10 Bước 1: Tìm hiểu về lĩnh vực và xác định các vấn đề có liên quan 10 Bước 2: Thu thập và tiền xử lý dữ liệu. Đây là bước rất quan trọng, chiếm phần lớn thời gian và sức lực (70 ÷ 80%) trong cả tiến trình .10 2 Tìm hiểu bài toán khai phá dữ liệu văn bản Bước 3: Lấy tin tự động trích chọn ra các mẫu, các thông tin có ý nghĩa. Bước này gồm các phương thức để tạo ra các thông tin hữu ích từ dữ liệu 10 Bước 4: Đưa các thông tin ra hiển thị 10 PHẦN II: KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG 11 Đặt vấn đề: .11 Sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản ( dữ liệu Web). Cùng với sự thay đổi và phát triển hàng ngày hàng giờ về nội dung cũng như số lượng các trang Web trên Internet thì vấn đề tìm kiếm thông tin đối với người sử dụng lại ngày càng khó khăn .11 Có thể nói trang Web như là cuốn từ điển bách khoa toàn thư. Thông tin trên các trang Web đa dạng về mặt nội dung cũng như hình thức, có thể nói Internet như một xã hội ảo, nó bao gồm các thông tin về mọi mặt của đời sống kinh tế, xã hội được trình bày dưới dạng văn bản, hình ảnh , âm thanh,….Tuy nhiên cùng với sự đa dạng và số lượng lớn thông tin như vậy đã nảy sinh vấn đề quá tải thông tin. Người ta không thể tự tìm kiếm địa chỉ trang Web chứa thông tin mà mình cần do vậy yêu cầu đặt ra là làm thế nào để lấy được thông tin mà mình cần trong khối lượng thông tin khổng lồ đó. Do vậy người ta đã ứng dụng khai phá dữ liệu để lấy tin tự động 11 1. Tìm hiểu XML .11 1.1. Nguồn gốc và mục đích 11 1.3. Cấu trúc của XML 12 1.4. Ứng dụng của XML .13 2. Tìm hiểu về RSS .14 2.1. Tổng quan về RSS 14 2.5. Các phần tử trong RSS <channel> .18 2.6. Các phần tử trong RSS <item> 18 CHƯƠNG 3 – PHÂN TÍCH THIẾT KẾ CHƯƠNG TRÌNH .19 3.1. Tổng quan về chương trình 20 3.2. Khảo sát, phân tích và đánh giá yêu cầu 20 3 Tìm hiểu bài toán khai phá dữ liệu văn bản 3.2.1. Khảo sát một số chương trình hỗ trợ đọc tin tức RSS 20 3.2.2. Tổng hợp yêu cầu của người dùng .25 3.2.3. Đánh giá và lựa chọn giải pháp 25 Sử dụng WinForm: 25 Sử dụng WebForm: 26 3.3. Phân tích chức năng hệ thống 26 3.3.1. Biểu đồ Use Case 26 3.3.2. Đặc tả các Use - case .27 Đặc tả Use – case đăng nhập .27 Tóm tắt .27 Dòng sự kiện chính 27 Dòng sự kiện khác .27 Các yêu cầu đặc biệt 28 Điều kiện tiên quyết .28 Post condition 28 Điểm mở rộng 28 Đặc tả Use-case quản lý tin tức .28 Tóm tắt .28 Dòng sự kiện 28 Dòng sự kiện chính 28 Các yêu cầu đặc biệt 28 Điểu kiện tiên quyết .28 Điểm mở rộng 29 Đặc tả Use- case quản lý người dùng 29 Tóm tắt .29 Dòng sự kiện chính 29 Đặc tả Use-case tìm kiếm tin tức .30 Tóm tắt .30 Dòng sự kiện 30 Dòng sự kiện chính 30 4 Tìm hiểu bài toán khai phá dữ liệu văn bản Dòng sự kiện phụ .30 Các yêu cầu đặc biệt 30 Điều kiện tiên quyết .30 Post conditions .31 3.3.3. Biểu đồ tuần tự (Sequence Diagram) 31 3.4. Thiết kế cơ sở dữ liệu 37 3.4.1. Đặc tả chi tiết các bảng dữ liệu .37 3.4.2. Mô hình quan hệ .40 CHƯƠNG 4 – XÂY DỰNG CHƯƠNG TRÌNH 41 4.1. Qui trình tự động lấy đường dẫn tới tập tin RSS .41 4.2. Qui trình đọc tập tin RSS .42 4.3. Một số màn hình giao diện đạt được .42 KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN .47 Kết quả đã đạt được .47 Bên cạnh đó, chương trình còn có hạn chế .47 Hướng phát triển của đề tài 47 TÀI LIỆU THAM KHẢO .48 PHỤ LỤC 48 5 Tìm hiểu bài toán khai phá dữ liệu văn bản LỜI NÓI ĐẦU Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Vấn đề đặt ra là làm sao ta có thể nắm bắt, cập nhật, chia sẻ thông tin một cách tổng quát, nhanh chóng và dễ dàng trong một khối lượng thông tin khổng lồ như vậy. Do đó đòi hỏi phải khai phá nguồn dữ liệu đó để lấy được những thông tin có ích một cách tự động. Trên thế giới hiện nay, rất nhiều website cung cấp tập tin RSS để chia sẻ và cập nhật thông tin một cách dễ dàng và nhanh chóng. Một số website hỗ trợ đọc tin RSS như: Google Reader, Yahoo,…và một số phần mềm như: RSSReader, FeedDemon. Còn hiện tại ở Việt Nam, có một số phần mềm hỗ trợ đọc tin như: Vietspider, iCA và website hỗ trợ đọc tin RSS trực tuyến thì chưa nhiều. Chính vì vậy đề tài “Tìm hiểu bài toán khai phá dữ liệu văn bản” được đưa ra nhằm ứng dụng khai phá dữ liệu vào việc xây dựng hệ thống thu thập tin tức từ nhiều nguồn website khác giúp cho người dùng có thể nắm bắt thông tin một cách dễ dàng và tiết kiệm thời gian. Nội dung đề tài gồm các phần chính sau: Chương 1 – Khái quát về khai phá dữ liệu Tìm hiểu khái niệm, quá trình và các bài toán trong khai phá dữ liệu. Chương 2 - Khai phá dữ liệu trong lấy tin tự động Nội dung của chương 2 là tìm hiểu về lấy tin tự động và ứng dụng khai phá dữ liệu trong lấy tin tự động (tìm hiểu ngôn ngữ XML và công nghệ RSS ) 6 Tìm hiểu bài toán khai phá dữ liệu văn bản Chương 3 – Phân tích thiết kế chương trình Nội dung của chương 3 là quá trình khảo sát, phân tích và thiết kế chi tiết cho chương trình hỗ trợ đọc tin RSS. Chương 4 – Xây dựng chương trình Nêu ra các lớp, phương thức cơ bản để xây dựng website hỗ trợ đọc tin RSS. Và cuối cùng là đưa một số màn hình giao diện đạt được. Kết luận và phương hướng phát triển Phần cuối cùng này sẽ là những kết luận về kết quả đạt được và các ưu nhược điểm của đề tài. Bên cạnh đó, phần cùng này cũng nêu ra các phương hướng để có thể tiếp tục phát triển đề tài trong tương lai nhằm ngày một hoàn thiện và đáp ứng được nhu cầu ngày một cao của người sử dụng. CHƯƠNG 1 – KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU Nội dung chương 1 gồm : • Phần 1: Khái niệm khai phá dữ liệu • Phần 2: Quá trình khai phá dữ liệu • Phần 3: Các bài toán thông dụng trong khai phá dữ liệu. 1.1 Khái niệm khai phá dữ liệu • Khai phá dữ liệu – Data mining: Là một bước của tiến trình khai phá tri thức (KDD) • KDD - Knowledge discovery in database: Thuật ngữ tổng quát gồm các bước như tiền xử lý, KPDL, hậu xử lý. 1.2. Quá trình khai phá dữ liệu a. Tìm hiểu nghiệp vụ và dữ liệu  Nhà tư vấn nghiên cứu kiến thức về lĩnh vực áp dụng, bao gồm các tri thức cấu trúc về hệ thống, các nguồn dữ liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu. 7 Tìm hiểu bài toán khai phá dữ liệu văn bản b. Chuẩn bị dữ liệu  Giai đoạn này sử dụng các kỹ thuật tiền xử lý để biến đổi và cải thiện chất lượng dữ lượng dữ liệu để thích hợp với những yêu cầu của các giải thuật học:  Các giải thuật tiền xử lý bao gồm:  Xử lý dữ liệu bị thiếu / mất: Các dữ liệu bị thiếu sẽ được thay thế bởi các giá trị thích hợp.  Khử sự trùng lặp: Các đối tượng dữ liệu trùng lặp sẽ bị loại bỏ đi. Kỹ thuật này không được sử dụng cho các tác vụ có quan tâm đến phân bổ dữ liệu.  Giảm nhiễu: Nhiễu và các đối tượng tách rời khỏi phân bố chung sẽ bị loại đi khỏi dữ liệu.  Chuẩn hóa: Miền giá trị của dữ liệu sẽ được chuẩn hóa.  Rời rạc hóa: Các dữ liệu số sẽ được biến đổi ra các giá trị rời rạc.  Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có.  Giảm chiều: Các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt. c. Mô hình hóa dữ liệu  Các giải thuật học sử dụng các dữ liệu đã được tiền xử lý trong giai đoạn hai để tìm kiếm các quy tắc ẩn và chưa biết. d. Hậu xử lý và đánh giá mô hình  Dự trên đánh giá của người dùng sau khi kiểm tra trên các tập thử, các mô hình sẽ được tinh chỉnh và kết hợp lại nếu cần. Chỉ các mô hình đạt được mức yêu cầu cơ bản của người dùng mới đưa ra triển khai trong thực tế.  Trong giai đoạn này, các kết quả được biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ và dễ hiểu hơn cho người dùng. e. Triển khai tri thức  Các mô hình được đưa vào hệ thống thông tin thực tế dưới dạng các môđun hỗ trợ việc đưa ra quyết định. 8 Tìm hiểu bài toán khai phá dữ liệu văn bản  Mối quan hệ chặt chẽ giữa các giai đoạn trong quá trình KPDL là rất quan trọng cho việc nghiên cứu trong KPDL. Một giải thuật trong KPDL không thể được phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường được xây dựng để giải quyết một mục tiêu cụ thể.  Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên phản hồi từ kết quả của các giai đoạn sau. 1.3. Các bài toán thông dụng trong KPDL  Phân lớp (Classification): Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người,các giải thuật phân loại sẽ học ra bộ phân loại (classifier) dùng để phân các dữ liệu mới vào trong những lớp (còn gọi là loại) đã được xác định trước.  Dự đoán (Prediction) sẽ học ra các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đưa ra một giá trị số học cho hàm cần dự đoán.  Tìm luật liên kết (Association Rule) tìm kiếm các mối liên kết giữa các thành phần từ dữ liệu.  Phân cụm (Clustering) sẽ nhóm các đối tượng dữ liệu có tính chất giống nhau vào cùng một nhóm. 9 Tìm hiểu bài toán khai phá dữ liệu văn bản CHƯƠNG 2 KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG PHẦN I: LẤY TIN TỰ ĐỘNG 1. Định nghĩa  Lấy tin tự động là quá trình tìm kiếm các thông tin có giá trị trong các khối dữ liệu lớn.  Là việc trích lấy các thông tin từ các trang Web có nội dung cần quan tâm tới. 2. Quy trình lấy tin tự động Với các loại dữ liệu khác nhau, quá trình lấy tin tự động thông thường đều được thực hiện qua các bước sau:  Bước 1: Tìm hiểu về lĩnh vực và xác định các vấn đề có liên quan.  Bước 2: Thu thập và tiền xử lý dữ liệu. Đây là bước rất quan trọng, chiếm phần lớn thời gian và sức lực (70 ÷ 80%) trong cả tiến trình.  Bước 3: Lấy tin tự động trích chọn ra các mẫu, các thông tin có ý nghĩa. Bước này gồm các phương thức để tạo ra các thông tin hữu ích từ dữ liệu.  Bước 4: Đưa các thông tin ra hiển thị. 10 Nội dung chương 2 gồm:  Phần 1: Lấy tin tự động ( Định nghĩa lấy tin tự động và quy trình lấy tin tự động ).  Phần 2: Khai phá dữ liệu trong lấy tin tự động (Tìm hiểu về XML và RSS).

Ngày đăng: 21/12/2013, 20:21

Hình ảnh liên quan

Thứ hai, nó được ứng dụng trong mô hình ADO.NET của Microsoft với vai trò lưu trữ và chuyển dữ liệu. - Tìm hiểu bài toán khai phá dữ liệu văn bản

h.

ứ hai, nó được ứng dụng trong mô hình ADO.NET của Microsoft với vai trò lưu trữ và chuyển dữ liệu Xem tại trang 13 của tài liệu.
Hình 2– Giao diện của iCA - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 2.

– Giao diện của iCA Xem tại trang 21 của tài liệu.
Hình 3– Giao diện trang chủ Google Reader - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 3.

– Giao diện trang chủ Google Reader Xem tại trang 22 của tài liệu.
Hình 3– Giao diện trang chủ của iGoogle - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 3.

– Giao diện trang chủ của iGoogle Xem tại trang 23 của tài liệu.
Hình 4– Giao diện trang chi tiết của Google Reader - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 4.

– Giao diện trang chi tiết của Google Reader Xem tại trang 23 của tài liệu.
Hình 5– Giao diện trang Gagdet của iGoogle - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 5.

– Giao diện trang Gagdet của iGoogle Xem tại trang 24 của tài liệu.
Hình 8- Biểu đồ User – case 3.3.2. Đặc tả các Use - case - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 8.

Biểu đồ User – case 3.3.2. Đặc tả các Use - case Xem tại trang 27 của tài liệu.
Hình 9- Biểu đồ tuần tự - Toàn cảnh hệ thống - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 9.

Biểu đồ tuần tự - Toàn cảnh hệ thống Xem tại trang 32 của tài liệu.
Hình 10 - Biểu đồ tuần tự - Đăng ký tài khoản - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 10.

Biểu đồ tuần tự - Đăng ký tài khoản Xem tại trang 33 của tài liệu.
Hình 11 - Biểu đồ tuần tự - Đăng nhập hệ thống - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 11.

Biểu đồ tuần tự - Đăng nhập hệ thống Xem tại trang 33 của tài liệu.
Hình 12 - Biểu đồ tuần tự - Thêm đường dẫn link - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 12.

Biểu đồ tuần tự - Thêm đường dẫn link Xem tại trang 34 của tài liệu.
Hình 14 - Biểu đồ tuần tự - Sắp xếp nhóm tin - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 14.

Biểu đồ tuần tự - Sắp xếp nhóm tin Xem tại trang 35 của tài liệu.
Hình 13 - Biểu đồ tuần tự - Thêm nhóm tin Sắp xếp, phân loại nhóm tin: - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 13.

Biểu đồ tuần tự - Thêm nhóm tin Sắp xếp, phân loại nhóm tin: Xem tại trang 35 của tài liệu.
Hình 16 - Biểu đồ tuần tự - Quản lý người dùng - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 16.

Biểu đồ tuần tự - Quản lý người dùng Xem tại trang 36 của tài liệu.
Hình 15 - Biểu đồ tuần tự - Tìm kiếm thông tin - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 15.

Biểu đồ tuần tự - Tìm kiếm thông tin Xem tại trang 36 của tài liệu.
Bảng 3- Bảng Items (tin tức) - Tìm hiểu bài toán khai phá dữ liệu văn bản

Bảng 3.

Bảng Items (tin tức) Xem tại trang 38 của tài liệu.
Bảng Group: chứa thông tin về nhóm tin của mỗi người sử dụng - Tìm hiểu bài toán khai phá dữ liệu văn bản

ng.

Group: chứa thông tin về nhóm tin của mỗi người sử dụng Xem tại trang 38 của tài liệu.
3.4.2. Mô hình quan hệ - Tìm hiểu bài toán khai phá dữ liệu văn bản

3.4.2..

Mô hình quan hệ Xem tại trang 40 của tài liệu.
Bảng 5- Bảng UserBlog (kho tin tức của mỗi người dùng) - Tìm hiểu bài toán khai phá dữ liệu văn bản

Bảng 5.

Bảng UserBlog (kho tin tức của mỗi người dùng) Xem tại trang 40 của tài liệu.
4.3. Một số màn hình giao diện đạt được - Tìm hiểu bài toán khai phá dữ liệu văn bản

4.3..

Một số màn hình giao diện đạt được Xem tại trang 42 của tài liệu.
Hình 20 – Giao diện blog - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 20.

– Giao diện blog Xem tại trang 43 của tài liệu.
Hình 19 – Giao diện trang quản lý người dùng - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 19.

– Giao diện trang quản lý người dùng Xem tại trang 43 của tài liệu.
Hình 21 – Giao diện thư mục RSS cung cấp sẵn - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 21.

– Giao diện thư mục RSS cung cấp sẵn Xem tại trang 44 của tài liệu.
Hình 22 – Giao diện trang lấy link RSS tự động - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 22.

– Giao diện trang lấy link RSS tự động Xem tại trang 45 của tài liệu.
Hình 24 – Giao diện trang quản lý nhóm tin - Tìm hiểu bài toán khai phá dữ liệu văn bản

Hình 24.

– Giao diện trang quản lý nhóm tin Xem tại trang 46 của tài liệu.
tố đơn lẻ đối với các yếu tố được trình bày trong bảng này. - Tìm hiểu bài toán khai phá dữ liệu văn bản

t.

ố đơn lẻ đối với các yếu tố được trình bày trong bảng này Xem tại trang 55 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan