Ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế tài chính

14 297 0
Ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế   tài chính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ————————— NGUYỄN VIỆT HÀ ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG KHAI PHÁ DỮ LIỆU KINH TẾ – TÀI CHÍNH LUẬN VĂN THẠC SĨ Ngành: Công nghệ thông tin Mã số: 1.01.10 NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS Hồ Thuần HÀ NỘI - 2007 MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT Error! Bookmark not defined DANH MỤC CÁC BẢNG Error! Bookmark not defined DANH MỤC CÁC HÌNH VẼ Error! Bookmark not defined MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC 1.1 Tổng quan khai phá liệu phát tri thức 1.2 Một số khái niệm Error! Bookmark not defined 1.3 Một số vấn đề KDD kinh tế - tài Error! Bookmark not defined 1.4 Tổng kết chương Error! Bookmark not defined CHƢƠNG PHÁT HIỆN TRI THỨC VÀ ỨNG DỤNG TRONG CÁC BÀI TOÁN KINH TẾ - TÀI CHÍNH Error! Bookmark not defined 2.1 Rời rạc hoá liệu số chuyển chuỗi thời gian vào đối tượng tập thô Error! Bookmark not defined 2.2 Lựa chọn thuộc tính phân lớp dựa quan hệ giá trị gần –VCR (valued closeness relation) Error! Bookmark not defined 2.3 Ứng dụng tập thô đánh giá công ty Error! Bookmark not defined 2.4 Đánh giá sách tín dụng ngân hàng Error! Bookmark not defined 2.5 Đánh giá chiến lược thị trường Error! Bookmark not defined 2.6 Nhận xét thảo luận số vấn đề sử dụng lý thuyết tập thô ứng dụng kinh tế - tài Error! Bookmark not defined 2.7 Tổng kết chương Error! Bookmark not defined CHƢƠNG PHÁT HIỆN TRI THỨC QUA LẬP TRÌNH LOGIC QUY NẠP VÀ ỨNG DỤNG TRONG PHÁT HIỆN CÁC DẦU HIỆU TÀI CHÍNH BẤT THƢỜNG Error! Bookmark not defined 3.1 Giới thiệu Error! Bookmark not defined 3.2 Lập trình logic qui nạp (Inductive logic programming - LLP)[27] Error! Bookmark not defined 3.3 Thuật toán FOIL FOCL [20, 21] Error! Bookmark not defined 3.4 Thuật toán MMDR Error! Bookmark not defined 3.5 Ứng dụng MDDR phát điểm bất thường Error! Bookmark not defined 3 3.6 Tổng kết chương Error! Bookmark not defined KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 MỞ ĐẦU Trong năm gần đây, có nhiều công cụ hỗ trợ đắc lực cho việc thu thập, lưu trữ, khai thác liệu, song với bùng nổ thông tin thu thập vượt khả người để nắm bắt khai thác cách hiệu quả, nhiều trường hợp định đưa không dựa vào thông tin liệu thu thập chủ yếu dựa vào nhận thức, suy đoán người định Bên cạnh khiếm khuyết công cụ hỗ trợ đem lại cho người dùng tình trạng tri thức lấy từ lượng liệu lớn lại thiếu thông tin Từ phát sinh yêu cầu tự nhiên tìm kiếm kỹ thuật có đặc tính thông minh khả tự động để hỗ trợ người chắt lọc thông tin hữu ích khối liệu lớn Xuất phát từ thực tiễn đó, lý thuyết tập thô khởi xướng từ thập niên tám mươi kỷ trước, song ngày ứng dụng cách rộng rãi việc phát tri thức, phân tích định, quy luận quy nạp nhận dạng mẫu Nó dường đặc biệt quan trọng cho hệ thống trợ giúp định khai phá liệu Thực tế cách tiếp cận cho việc phân tích liệu Từ vấn đề đó, nội dung đề tài tập trung vào vấn đề lý thuyết tập thô ứng dụng toán kinh tế, sở liệu thị trường, việc tìm kiếm yếu tố bất thường lĩnh vực tài ngân hàng Mục tiêu nhiệm vụ phạm vi nghiên cứu Nắm vững sở lý thuyết, khái niệm bản, khái quát phương pháp ứng dụng lý thuyết tập thô khai phá liệu; nghiên cứu mô hình tập thô toán kinh tế: phương pháp, mô hình phân tích lượng liệu lớn sở lý thuyết tập thô, với ví dụ điển hình ứng dụng lý thuyết tập thô để giải vấn để hỗ trợ định lĩnh vực: đánh giá công ty, sách tài ngân hàng, chiến lược thị trường Tìm hiểu ứng dụng mô hình tập thô nghiên cứu thị trường qua sở liệu, khám phá yếu tố, điểm bất thường lĩnh vực tài sử dụng lập trình suy luận quy nạp Bố cục luận văn - Chương 1: Trình bày tổng quan khai phá liệu phát tri thức, giới thiệu khái niệm, nhiệm vụ khai phá liệu phát tri thức Trình bày chi tiết lý thuyết tập thô bao gồm: hệ thống thông tin, quan hệ không phân biệt được, xấp xỉ tập, rút gọn lõi tập thuộc tính, hàm thành viên thô, độ xác chất lượng xấp xỉ Giới thiệu số vấn đề khai phá liệu - phát tri thức lĩnh vực kinh tế tài - Chương : Trình bày ứng dụng cách tiếp cận tập thô dự báo kinh tế - tài chính, bao gồm: lựa chọn rời rạc hoá thuộc tính giá trị dạng số, hệ thống thông tin biểu thị thời gian, chuyển đổi chuỗi thời gian vào đối tượng tập thô, chuỗi dẫn xuất, lựa chọn thuộc tính để qui nạp luật định dựa tập thô, trình phân lớp đối tượng theo luật định dựa quan hệ giá trị gần – VCR, giới thiệu ứng dụng toán kinh tế: đánh giá công ty, đánh giá sách tín dụng chiến lược thị trường - Chương : Tập trung tìm hiểu phương pháp khai phá liệu quan hệ dựa lập trình logic qui nạp (ILP) Giới thiệu mô hình khai phá liệu quan hệ, luật logic cấp 1, thuật toán khai phá liệu quan hệ FOIL, FOCL, thuật toán MMDR để khám phá yếu tố bất thường lĩnh vực kinh tế 6 Chƣơng TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC 1.1 Tổng quan khai phá liệu phát tri thức 1.1.1 Những tiến công nghệ CSDL [2] Nhu cầu tích luỹ xử lý liệu nảy sinh công việc, hoạt động người, vấn đề từ kỹ thuật, kinh tế xã hội đến hoạt động quản lý Thập niên 1960 gắn liền với sản phẩm hệ quản trị tệp, xuất nhớ ngoài, nhớ lý tưởng [2] Giữa năm 60, hệ đầu hệ quản trị sở liệu đánh dấu việc phân rõ, mô tả liệu chương trình ứng dụng ngôn ngữ truy nhập bên trong, lệnh hỏi phi thủ tục, người ta truy nhập liệu, tìm đến ghi thay phải theo cấu trúc lưu trữ vật lý liệu (Hệ QTCSDL mạng) Thập niên 1970, mô hình liệu quan hệ, cài đặt hệ quản trị CSDL quan hệ Mô hình quan hệ giúp đơn giản hoá việc truy nhập liệu người sử dụng bên Thập niên 1980, xuất hệ QTCSDL quan hệ, mô hình liệu nâng cao (quan hệ mở rộng, hướng đối tượng, suy diễn, v.v.) hệ quản trị CSDL hướng ứng dụng (không gian, khoa học, cộng nghệ, vv ) Từ thập niên 1990 - năm 2000: khai phá liệu (data mining) kho liệu (data warehouse), sở liệu đa phương tiện, sở liệu web 1.1.2 Dữ liệu, Thông tin Tri thức [14 ]  Dữ liệu (data): Chúng ta thường thu thập nhìn thấy hàng ngày, ví dụ: chuỗi bit, số, kí tự, biểu tượng, hay đối tượng,  Thông tin (Information): Là ―dữ liệu‖ loại bỏ phần dư thừa, không cần thiết Thông tin mô tả đặc trưng, thuộc tính ―dữ liệu‖ với chi phí nhỏ  Tri thức (Knowledge) : o Là tích hợp ―thông tin‖ bao gồm quan hệ, đàn kiểm nghiệm, khám phá, hiểu biết, o Nói cách khác tri thức xem liệu mức cao của trình trừu tượng hóa khái quát hoá 1.1.3 Khai phá liệu phát tri thức Nếu cho điện tử sóng diện từ chất công nghệ điện tử truyền thống liệu, thông tin tri thức dang tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) [3] Phát tri sở liệu thức (Knowledge discovery in Database - KDD) tiến trình nhận diện dạng/các mô hình hiểu được, có giá trị, lạ, nhiều tiềm hữu ích Khai phá liệu (Data mining) bước tiến trình phát tri thức, bao gồm số thuật toán khai phá liệu cụ thể theo vài giới hạn tính toán chấp nhận được, nhằm tìm dạng, mô hình liệu [14, 20, 311] Nói cách khác, mục tiêu phát tri thức khai phá liệu tìm dạng mô hình quan tâm chứa đựng sở liệu mà che dấu tập lớn liệu Khai phá liệu khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy (regularities) tập liệu Thuật ngữ khai phá liệu (data mining) ám việc tìm kiếm tập hợp nhỏ có giá trị từ số lượng lớn liệu thô Có nhiều thuật ngữ dùng có nghĩa tương tự với từ data mining knowledge mming (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/pattern analysis (Phân tích liệu/mẫu), data archaeology (khảo cồ liệu), data dredging (nạo vét liệu) Hiện nay, thuật ngữ khai phá liệu (data mining) dùng quen thuộc người ta thường đồng với thuật ngữ Knowledge Discovery in Databases (KDD) Còn nhà thống kê xem khai phá liệu qui trình phân tích thiết kế để thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hoá kết tìm cách áp dụng mẫu phát cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dò, xây dựng mô hình định nghĩa mẫu, hợp thức/kiểm chứng [3] 9  Trích chọn liệu: chọn lọc liệu từ nguồn liệu nhằm phục vụ mục đích khai phá tri thức theo tiêu chí xác định Ví dụ, từ CSDL bán hàng, ta chọn liệu khách hàng, đơn đặt hàng, hoá đơn,  Tiền xử lý: làm làm giàu liệu Làm đầy đủ liệu, xử lý nhiễu, vấn đề không quán, v.v Ví dụ, khách hàng lưu nhiều ghi có tên, địa khác nhau, cần phải chỉnh sửa để đảm bảo quán xác khách hàng Những liệu khác khuôn dạng, đơn vị đo lường, v.v cần phải có qui định thống cách chuyển dạng chung  Biến đổi liệu: thực bước mã hoá liệu chạy chương trình tiện ích nhằm tự động hoá việc kết xuất, biến đổi di chuyển liệu để khai phá liệu  Khai phá liệu: thực phân tích định Đây bước áp dụng kỹ thuật khai thác để khai phá, trích chọn mẫu tin, mối quan hệ đặc biệt kho  Biểu diễn tri thức đánh giá: kết khai thác tổng hợp dạng báo cáo nhằm hỗ trợ cho trợ giúp định Các dạng biểu diễn thường phải trực quan, dạng đồ hoạ, cây, bảng biểu, hay luật v.v 1.1.4 Các bước trình khai phá liệu Các giải thuật khai phá liệu thường miêu tả chương trình hoạt động trực tiếp tệp liệu Với phương pháp học máy thống kê trước đây, thường bước giải thuật nạp toàn tệp liệu vào nhớ Khi chuyển sang ứng dụng công nghiệp liên quan đến việc khai phá kho liệu lớn, mô hình đáp ứng Không nạp hết liệu vào 10 nhớ mà khó chiết xuất liệu tệp đơn giản để phân tích Quá trình xử lý khai phá liệu bắt đầu cách xác định xác vấn đề cần giải Sau xác định liệu liên quan dùng để xây dựng giải pháp Bước thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu Về lý thuyết đơn giản thực thực trình khó khăn, gặp phải nhiều vướng mắc như: liệu phải nhiều (nếu chiết xuất vào tệp), quản lý tập tệp, tệp liệu, phải lặp lặp lại nhiều lần toàn trình (nếu mô hình liệu thay đổi), v.v Có nhiều giải thuật khai phá liệu thực dựa thống kê tóm tắt đơn giản CSDL, mà toàn thông tin CSDL dư thừa mục đích việc khai phá liệu Bước chọn thuật toán khai phá liệu thích hợp thực việc khai phá liệu để tìm hình mẫu (pattern) có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa (thường biểu diễn dạng luật xếp loại, định, luật sản xuất, biểu thức hồi quy, ) Đặc điểm mẫu phải (ít hệ thống đó) Độ đo tương ứng với độ thay đổi liệu cách so sánh giá trị với giá trị trước giá trị mong muốn), tri thức (mối liên hệ phương pháp tìm phương pháp cũ nào) Thường độ mẫu đánh giá hàm logic hàm đo độ mới, độ bất ngờ mẫu Ngoài ra, mẫu phải có khả sử dụng tiềm tàng Các mẫu sau xử lý diễn giải phải dẫn đến hành động có ích đánh giá hàm lợi ích.Với giải thuật nhiệm vụ khai phá liệu 11 khác nhau, dạng mẫu chiết xuất da dạng Dạng mẫu chiết xuất được phân loại kiểu mẫu liệu mà mô tả Kỹ thuật khai phá liệu thực chất Nó kế thừa, kết hợp mở rộng kỹ thuật nghiên cứu từ trước học máy, nhận dạng, thống kê (hồi quy, xếp loại, phân cụm), mô hình đồ thị, mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia, v.v Tuy nhiên, với kết hợp tài tình khai phá liệu, kỹ thuật có ưu hẳn phưng pháp trước đó, đem lại nhiều triển vọng việc ứng dụng phát triển nghiên cứu khoa học làm tăng mức lợi nhuận hoạt động kinh doanh 1.1.5 Nhiệm vụ khai phá liệu [14, 31] Rõ ràng mục đích khai phá liệu tri thức chiết xuất sử dụng cho lợi ích cạnh tranh thương trường lợi ích nghiên cứu khoa học Do đó, ta coi mục đích khai phá liệu mô tả (description) dự đoán (prediction) Các hình mẫu mà khai phá liệu phát nhằm vào mục đích Dự đoán liên quan đến việc sử dụng biến trường sở liệu để chiết xuất hình mẫu dự đoán giá trị chưa biết giá trị tương lai biến quan tâm Mô tả tập trung vào việc tìm kiếm hình mẫu mô tả liệu mà người hiểu Để đạt hai mục đích này, nhiệm vụ khai phá liệu bao gồm sau [14, 31] Phân lớp (Classification): - Phân lớp việc tự học hàm, hàm ánh xạ (hay phân loại) mục liệu vào số lớp xác định trước (Hand 1981; Weiss & Kulilowski 1992) 12 TÀI LIỆU THAM KHẢO Tiếng Việt Hồ Thuần, Hồ Cẩm Hà (2004, 2005), Các hệ sở liệu: Lý thuyết thực hành, NXB Giáo dục Nguyễn Thanh Thuỷ (2003), Phát trị thức khai phá liệu: Công cụ, phương pháp ứng dụng Nguyễn Trung Tuấn (2004), "Kỹ thuật phát tri thức khai phá liệu, ứng dụng toán dự báo thông tin kinh tế - xã hội"; Tạp chí Bưu viễn thông Tiếng Anh Adam Mrozek, Krzysztof Skabek (1998), "Rough sets in Economic applications" AI Dimitras, R.Slowinski, R.Susmaga, C Zopounidis (1999) "Business failure prediction using rough sets" Andrzej Skowron (2001), "Rough sets in KDD" Boris Kovalerchuk, Evgenii Vityaev (2004), Chapter - Data Mining for Financial Applications Boris Kovalerchuk, Evgenii Vityaev (1998), "Inductive logic programming for financial regularities" Boris Kovalerchuk, Evgenii Vityaev (1998 ), ―Symbolic Methodology in Numeric Data Mining: Relational Techniques for Financial Applications" 10 Boris Kovalerchuk, Evgenii Vityaev (2000), Data mining In Finance Advances in Relational and Hybrid Methods - Kluwer Academic Publishers 11 D.Poel (1998), "Rough sets for Database marketing" 12 Dimitri Pissarenko (2002), Neural networks for financial time series prediction 13 13 Francis E H, Lixiang Shen (2001), "Economic and Financial prediction using rough sets model" 14 Ho Tu Bao (1996) Introduction to Knowledge discovery and Data mining Institute of Information Technology, National Center for' Natural Science and Technology 15 Huan Liu and Rudy Setiono (1995), ―Chi2: Feature selection and Discretization of Numeric Attributes" 16 Hung Son Nguyen, Sinh Hoa Nguyen (1998), "Discretization Methods in Data Mining" 17 Jan C.Bioch and Viara Popova (2001), "Bankrupcy Prediction with rough sets" 18 Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej Skowron (1995), ―rough Sets : A Tutorial" 19 Jerzy W.Grzymala-busse (2004), "Three Approachs to missing attributes values - A rough set Perspective" 20 J.K Baterzen (1996), An attempt to predict stock market data : a rough sets approach, Diploma thesis 21 Jitender S Deogun, "Data mining : Research Trends, Challenges, and Applications" 22 Lixiang Shen (2001), data mining techniques based on rough set theory, Doctoral Thesis, national university of singapore 23 Lixiang Shen, Han Tong Loh (2003), "Applying Rough sets to Market timing decisions" 24 Maria C Femlandez-baizán - Emestina Menasalvas Ruiz - José M.Pena Sánchez , Integrating RDMS and Data mining capabilities using Rough sets 25 M.J Segovia, J.A Gil, A.Hera, J.L Vilar, A.Sanchis (2003), "Using Rough sets to Predict Insovenlcy of Spanish non-life insurance companies" 14 26 M Zhang, J.T Yao(2001) , "A rough sets based approach to feature selection" 27 Nada Lavrac (2001), "Relational data mining and subgroup discovery" 28 Ning Zhong, Juzhen Dong (2001), "Using rough sets with heuristic for feature selection" 29 Ronald Braciman: "The Process of knowledge Discovery In Databases" 30 Stefan Zemke (2003), Data Mining for Prediction: Financial Series Case - Doctoral Thesis -The Royal Institute of Technology Department of Computer and Systems Sciences -December 2003 31 Usima N Fayyad, Gregory Piatetsky Shapno, Padhraic Smyth: ―From Data mining to Knowledge Discovery : An Overview" 32 Vijay V Raghavan, "State of Rough sets for Database Mining Appplications" 33 Y.Y Yao (1996), ―two views of theory of Rough sets in Finite Universes" 34 Zdzislaw Pawlak (1995), "Rough sets Present state and further Prospects" 35 [DL92]: Reduct System, Inc: DataLogic/R reference Manual, Regina, Canada (1992) 36 [Sijach 93]:Sierpinska, M, Jacha: The company evaluation according to international standard, Wydawnnictwo Naukowe, Warszawa (1993) 37.[Skabek 96] Skabek, K.: Computer supporting credit decision The Master thesis, silesian Technical University, Gliwice (1996) 38.[Debski94] Debski,W.: Bank risk Bank i Kredyt 10 (1994) [...]... dữ liệu: Lý thuyết và thực hành, NXB Giáo dục 2 Nguyễn Thanh Thuỷ (2003), Phát hiện trị thức và khai phá dữ liệu: Công cụ, phương pháp và ứng dụng 3 Nguyễn Trung Tuấn (2004), "Kỹ thuật phát hiện tri thức và khai phá dữ liệu, ứng dụng trong bài toán dự báo thông tin kinh tế - xã hội"; Tạp chí Bưu chính viễn thông Tiếng Anh 4 Adam Mrozek, Krzysztof Skabek (1998), "Rough sets in Economic applications" 5... phưng pháp trước đó, đem lại nhiều triển vọng trong việc ứng dụng phát triển nghiên cứu khoa học cũng như làm tăng mức lợi nhuận trong các hoạt động kinh doanh 1.1.5 Nhiệm vụ chính của khai phá dữ liệu [14, 31] Rõ ràng mục đích của khai phá dữ liệu là các tri thức chiết xuất sẽ được sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích trong nghiên cứu khoa học Do đó, ta có thể coi mục đích chính. .. khai phá dữ liệu là mô tả (description) và dự đoán (prediction) Các hình mẫu mà khai phá dữ liệu phát hiện được nhằm vào các mục đích này Dự đoán liên quan đến việc sử dụng các biến hoặc các trường trong cơ sở dữ liệu để chiết xuất ra các hình mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai của các biến quan tâm Mô tả tập trung vào việc tìm kiếm các hình mẫu mô tả dữ liệu. .. vụ chính của khai phá dữ liệu bao gồm như sau [14, 31] Phân lớp (Classification): - Phân lớp là việc tự học một hàm, hàm này ánh xạ (hay phân loại) một mục dữ liệu vào một trong số các lớp đã xác định trước (Hand 1981; Weiss & Kulilowski 1992) 12 TÀI LIỆU THAM KHẢO Tiếng Việt 1 Hồ Thuần, Hồ Cẩm Hà (2004, 2005), Các hệ cơ sở dữ liệu: Lý thuyết và thực hành, NXB Giáo dục 2 Nguyễn Thanh Thuỷ (2003), Phát... loại bởi kiểu mẫu dữ liệu mà nó mô tả Kỹ thuật khai phá dữ liệu thực chất không có gì mới Nó là sự kế thừa, kết hợp và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu từ trước như học máy, nhận dạng, thống kê (hồi quy, xếp loại, phân cụm), các mô hình đồ thị, mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia, v.v Tuy nhiên, với sự kết hợp tài tình của khai phá dữ liệu, kỹ thuật này

Ngày đăng: 16/11/2016, 21:03

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan