Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG lý thuyết tập thô trong khai phá dữ liệu

21 472 0
Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG lý thuyết tập thô trong khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH CÔNG NGHỆ TRI THỨC & ỨNG DỤNG GVHD: GS. TSKH. HOÀNG VĂN KIẾM HVTH: ĐOÀN VĂN HUYÊN CH1301091 TP HCM, tháng 10 năm 2014 Ứng dụng lý thuyết tập thô trong khai phá dữ liệu CH1301091 – Đoàn Văn Huyên 2 NHẬN XÉT CỦA GIẢNG VIÊN Ứng dụng lý thuyết tập thô trong khai phá dữ liệu CH1301091 – Đoàn Văn Huyên 3 MỤC LỤC Lời mở đầu trang 4 I. LÝ THUYẾT TẬP THÔ trang 5 1. Giới thiệu trang 5 2. Các khái niệm cơ bản trang 6 2.1. Hệ thông tin trang 6 2.2. Bảng quyết định trang 7 2.3. Phân lớp tương đương trang 7 2.4. Không gian xấp xỉ trang 8 2.5. Sự phụ thuộc các thuộc tính trang 10 2.6. Rút gọn các thuộc tính trang 11 3. Ứng dụng của tập thô trong khai phá dữ liệu trang 13 II. ỨNG DỤNG TÌM LUẬT SUY DIỄN TĂNG GIẢM CHỈ SỐ VN-INDEX trang 13 1. Công cụ triển khai trang 13 2. VN-Index là gì? trang 14 3. Giới thiệu ứng dụng trang 14 4. Bảng quyết định thử nghiệm trang 14 5. Kết quả thử nghiệm trang 17 6. Kiểm chứng trang 18 7. Kết luận trang 19 III. KẾT LUẬN, HƯỚNG PHÁT TRIỂN trang 20 Tài liệu tham khảo trang 21 Ứng dụng lý thuyết tập thô trong khai phá dữ liệu CH1301091 – Đoàn Văn Huyên 4 LỜI MỞ ĐẦU Ngày nay, sự phát triển vượt bậc của công nghệ thông tin. Mọi vấn đề khó khăn dường như đơn giản hóa khi có sự hỗ trợ từ máy tính. Sự bùng nổ của internet, đã mang lại nhiều thuận lợi cho việc thu thập thông tin và dữ liệu. Nhưng song song đó vẫn có nhiều thách thức, nhất là trong việc sử dụng nguồn thông tin, dữ liệu tìm được đó. Khai phá dữ liệu trở thành một ngành rất được quan tâm. Nó giúp con người lấy được thông tin từ nguồn dữ liệu khổng lồ, vô tận. Không có khai phá dữ liệu thì nguồn dữ liệu vô tận ấy cũng không có ý nghĩa. Các công cụ toán học bắt đầu phát huy thế mạnh trong khai phá dữ liệu. Bằng những công cụ được xây dựng trên những nền tảng lý thuyết vững chắc, toán học tạo tiền đề giải quyết các vấn đề về khai phá dữ liệu. Trong số đó, lý thuyết tập thô đóng góp một phần các công cụ hỗ trợ cho vấn đề khai phá dữ liệu, khai phá tri thức. Ứng dụng lý thuyết tập thô trong khai phá dữ liệu CH1301091 – Đoàn Văn Huyên 5 I. LÝ THUYẾT TẬP THÔ 1. Giới thiệu - Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 đã được ứng dụng ngày càng rộng rãi trong lĩnh vực khoa học máy tính. - Lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng… - Đặc biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn, không đầy đủ. Lý thuyết tập thô có nhiều công cụ toán học khác nhau được dùng để xử lý tri thức không đầy đủ. - Các phương pháp của lý thuyết tập thô tỏ ra hết sức quan trọng đối với lĩnh vực Trí tuệ nhân tạo và các ngành khoa học liên quan đến nhận thức (máy học, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng,…). - Triết lý của tập thô dựa trên nhận định rằng mọi đối tượng trong vũ trụ đều gắn với môt loại thông tin nào đó (dữ liệu, tri thức, ). Ví dụ nếu các đối tượng là các bệnh nhân bị một căn bệnh nào đó, thì các triệu chứng của bệnh tạo nên thông tin về bệnh nhân. - Các phép toán cơ bản của lý thuyết tập thô được sử dụng để phát hiện các mẫu cơ sở (fundamental pattern) trong dữ liệu. Do đó, với một ý nghĩa nhất định phương pháp lập luận thô cũng chính là máy học (machine learning), phát hiện tri thức (knowledge discovery), suy diễn thống kê (statistic inference) và suy diễn quy nạp(inductive inference). - Lý thuyết tập thô ngày càng được ứng dụng nhiều, nhất là trong khai phá dữ liệu, tìm luật, dự báo, dự đoán,… [...]... Huyên 12 Ứng dụng lý thuyết tập thô trong khai phá dữ liệu 3 Ứng dụng của tập thô trong khai phá dữ liệu - Lý thuyết tập thô ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực Nhất là những ngành khoa học máy tính, trí tuệ nhân tạo, khai phá tri thức, … - Với đặc tính xử lý trên dữ liệu không đầy đủ, không chắn chắn, lý thuyết tập thô nhanh chóng được ứng dụng rộng rãi trong các hệ nhận dạng, xử lý âm... quả của các luật III KẾT LUẬN, HƯỚNG PHÁT TRI N 1 Kết luận - Ứng dụng lý thuyết tập thông ngày càng rộng rãi Và trong khai phá dữ liệu, lý thuyết tập thô cung cấp đầy đủ các công cụ giúp chúng ta đơn giản hóa việc khai phá - Vẫn còn nhiều vấn đề trong lý thuyết tập thô cần được nghiên cứu và cải tiến - Cần phải kết hợp lý thuyết tập thô với các lý thuyết khác như: logic mờ, giải tích ngẫu nhiên, mạng... một giải pháp tối ưu cho một vấn đề 2 Hướng phát tri n - Cần nghiên cứu nhiều hơn các công cụ toán học của lý thuyết tập thô để đưa vào ứng dụng giải quyết các bài toán về khai phá dữ liệu, rút luật,… CH1301091 – Đoàn Văn Huyên 19 Ứng dụng lý thuyết tập thô trong khai phá dữ liệu - Phát tri n ứng dụng dự báo thị trường chứng khoán, không riêng gì chỉ số VN-Index mà là một số hoặc tất cả các chứng khoán... Chức, Ứng dụng lý thuyết tập thô trong khai phá dữ liệu, http://bis.net.vn, tháng 02/2013 [6] Phạm Văn Long, Luận văn thạc sĩ: Khai phá dữ liệu theo tiếp cận tập thô và cây quyết định - ứng dụng trong phân lớp năng khiếu học sinh”, 2012 [7] Andrzej Skowron, Ning Zhong, Rough Sets in KDD Tutorial Notes [8] Dữ liệu tỷ giá USD, http://vietcombank.com.vn [9] Dữ liệu giá vàng, http://vietbao.vn [10] Dữ liệu. .. xử lý và kiểm chứng nhiều hơn để đưa ra tập luật tối ưu 7 Kết luận - Bằng cách ứng dụng lý thuyết tập thô trong khai phá dữ liệu, tìm luật suy diễn ta có thể thu được tập luật, phục vụ cho việc dự báo, dự đoán - Dữ liệu thu thập càng nhiều, tập luật thu được càng hiệu quả, càng chính xác - Sự đa dạng của các thuộc tính trong tập thô cũng góp phần tăng hiệu quả của các luật III KẾT LUẬN, HƯỚNG PHÁT TRI N... - Lý thuyết tập thô cũng được xử dụng rộng rãi trong các hệ hỗ trợ ra quyết định, nhằm phân tính dữ liệu và đưa ra quyết định bằng các luật quyết định II ỨNG DỤNG TÌM LUẬT SUY DIỄN TĂNG GIẢM CHỈ SỐ VN-INDEX 1 Công cụ tri n khai - Có rất nhiều công cụ được phát tri n để xử lý tập thô Trong số đó công cụ ROSE2 là đơn giản và dễ sử dụng cũng như đa dạng về chức năng Từ việc rút gọn tập luật, tìm tập lõi.. .Ứng dụng lý thuyết tập thô trong khai phá dữ liệu 2.6 Rút gọn các thuộc tính Một hệ thông tin thông thường với nhiều thuộc tính có thể được thu thập từ nhiều nguồn khác nhau Do đó không thể tránh khỏi một số thuộc tính dư thừa khi khai phá dữ liệu theo một phân hoạch nhất định Lý thuyết tập thô cho ta những khái niệm giúp ta có thể rút gọn các thuộc... ra quyết định thông minh (Intelligent Decision Support Systems), được phát tri n bởi Poznań University of Technology - Có thể nói đây là một công cụ hỗ trợ mạnh mẽ để tìm ra tập luật suy diễn Từ đó có thể sử dụng các luật ấy cho việc lập trình ra các ứng dụng hữu ích mà không phải bỏ nhiều công sức tạo ra ứng dụng để xử lý tập thô, khai phá dữ liệu thô nữa - Chỉ cần cung cấp cho ROSE2 dữ liệu bảng quyết... được chuẩn bị trước hoặc tự tạo ra trong quá trình sử dụng công cụ Mọi vấn đề về xử lý tập thôi dường như trở nên đơn giản vô cùng - ROSE2 còn cung cấp một giao diện người dùng thân thiện, dễ sử dụng CH1301091 – Đoàn Văn Huyên 13 Ứng dụng lý thuyết tập thô trong khai phá dữ liệu 2 VN-Index là gì? - VN-Index là chỉ số chứng khoán Việt Nam VN - Index xây dựng căn cứ vào giá trị thị trường của tất cả các... VNINDEX 16 Ứng dụng lý thuyết tập thô trong khai phá dữ liệu 5 Kết quả thử nghiệm - Ứng dụng hiện tại chỉ mang tính chất thử nghiệm nên nguồn dữ liệu thu thập chưa nhiều và chưa đa dạng các thuộc tính Do đó độ chính xác chưa cao Cần phải thu thập nhiều dữ liệu hơn, trong một khoảng thời gian dài, khi đó độ tin cậy của các luật sẽ cao hơn, đưa ra quyết định chính xác hơn - Kết quả rút gọn tập thuộc tính: . vấn đề khai phá dữ liệu, khai phá tri thức. Ứng dụng lý thuyết tập thô trong khai phá dữ liệu CH1301091 – Đoàn Văn Huyên 5 I. LÝ THUYẾT TẬP THÔ 1. Giới thiệu - Lý thuyết tập thô (Rough. lý thuyết tập thô trong khai phá dữ liệu CH1301091 – Đoàn Văn Huyên 2 NHẬN XÉT CỦA GIẢNG VIÊN Ứng dụng lý thuyết tập thô trong khai phá dữ liệu. thông tin từ nguồn dữ liệu khổng lồ, vô tận. Không có khai phá dữ liệu thì nguồn dữ liệu vô tận ấy cũng không có ý nghĩa. Các công cụ toán học bắt đầu phát huy thế mạnh trong khai phá dữ liệu.

Ngày đăng: 20/05/2015, 10:28

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan