Tiểu luận môn Hệ hỗ trợ quyết định KHAI THÁC DỮ LIỆU TÀI CHÍNH VÀ KẾ TOÁN

22 400 0
Tiểu luận môn Hệ hỗ trợ quyết định KHAI THÁC DỮ LIỆU TÀI CHÍNH VÀ KẾ TOÁN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thông Tin BÀI THU HOẠCH HỆ HỖ TRỢ QUYẾT ĐỊNH ĐỀ TÀI: KHAI THÁC DỮ LIỆU TÀI CHÍNH VÀ KẾ TOÁN GVHD: PGS.TS Đỗ Phúc Người thực hiện: Lê Minh Tuấn Mã số: CH1301069 TP.HCM – 2014 Tài liệu tham khảo 1 B Back, J Toivonen, H Vanhatanta and A Visa: “Comparing Numerical Data and Text Information from Annual Reports Using Self-organizing Maps”, International Journal of Accounting Information Systems, Volume 2, Issue 4, December , 2001, pp 249-269 2 M.J Beynon and M.J Peel: “Variable Precision Rough Set Theory and Data Discretisation: an Application to Corporate Failure Prediction”, Omega The International Journal of Management Science, Volume 29, Is-sue 6, December, 2001, pp 561-576 3 T.G Calderon and J.J Cheh: “A Roadmap for Future Neural Networks Research in Auditing and Risk Assessment”, International Journal of Ac-counting Information Systems, Volume 3, Issue 4, December, 2002, pp 203-236 4 A.I Dimitras, R Slowinski, R Susmaga and C Zopounidis: “Business Failure Prediction using Rough Sets”, European Journal of Operational Research, Volume 114, Issue 2, April, 1998, pp 263-280 5 I.A.M Fraser, D.J Hatherly, K.Z Lin: “An empirical investigation of the use of analytical review by external auditors”, The British Accounting Review, Volume 29, Issue 1, March, 1997, pp.35-47 Page 2 6 Z Huang, H Chen, C.J Hsu, W.H Chen and S Wu: “Credit Rating Analysis with Support Vector Machines and Neural Networks: a Market Comparative Study”, Decision support Systems, In Press, 2003 7 M.J Kim and I Han: “The Discovery of Experts’ Decision Rules from Qualitative Bankruptcy Data using Genetic Algorithms”, Expert Systems with Applications, Volume 15, Issue 4, November, 2003, pp.637-646 8 A Kloptchenko, T Eklud, J Karlsson, B Back, H Vanharanta and A Visa: “Combining Data and Text Mining Techniques for Analyzing Finan-cial Reports”, Intelligent Systems in Accounting, Finance and Manage-ment, Volume 12, Issue 1, January/March, 2004, pp 29-41 9 H.C Koh, “Going Concern Prediction using Data Mining Techniques”, Managerial Auditing Journal, Volume 19, No 3, 2004, pp 462-476 10 H Konno and H Kobayashi: “Failure Discrimination and Rating of Enterprises by Semi-Definite Programming”, Asia-Pacific Financial Markets, Volume 7, Issue 3, September, 2000, pp.261-273 11 E Koskivaara, “Artificial Neural Networks in Analytical Review Procedures”, Managerial Auditing Journal, Volume 19, No 2, 2004, pp 191-223 12 M Lam: “Neural Network Techniques for Financial Performance Predic-tion: Integrating Fundamental and Technical Analysis”, Decision Support Systems, In Press, 2003 Page 3 13 F.Y Lin and S McClean: “A Data Mining Approach to the Prediction of Corporate Failure”, Knowledge-Based Systems, Volume 14, Issues 3-4, June, 2001, pp 189-195 14 T McKee: “Rough Sets Bankruptcy Prediction Models vs Auditor Signal-ling Rates”, Journal of Forecasting, Volume 22 Issue 8, December, 2003, pp.569-586 15 C Mues, B Baesens, C.M Files and J Vanthienen: “Decision Diagrams in Machine Learning: an Empirical Study on Real-life Credit-risk Data”, Ex-pert Systems with Applications, In Press, 2004 16 C.S Park and I Han: “A Case-base Reasoning with the Feature Weights Derived by Analytic Hierarchy Process for Bankruptcy Prediction”, Expert Systems with Applications, Volume 23, Issue3, October, 2002, pp.255-264 17 K.S Shin and Y.J Lee: “A Genetic Algorithm Application in Bankruptcy Prediction Modeling”, Expert Systems with Applications, Volume 23, Issue 3, October, 2002, pp.321-328 18 C Spathis: “Detecting False Financial Statements Using Published Data: some Evidence from Greece”, Managerial Auditing Journal, Volume 17, No 4, 2002, pp.179-191 19 C.N.W Tan and H Dihardjo: “A Study on Using Artificial Neural Networks Page 4 to Develop an Early Warning Predictor for Credit Union Financial Distress with Comparison to the Probit Model”, Managerial Finance, Volume 27, No 4, 2001, pp.56-77 20 W.L Tung, C Quek and P Cheng: “GenSO-EWS: a Novel Neural Fuzzy Based Early Warning System for Predicting Bank Failures”, Neural Net-works, Volume 17, Issue 4, May, 2004, pp 567-587 KHAI THÁC DỮ LIỆU TÀI CHÍNH VÀ KẾ TOÁN: TỔNG QUAN VỀ XU HƯỚNG NGHIÊN CỨU HIỆN TẠI Tóm tắt Những công cụ khai thác dữ liệu trở nên quan trọng trong ngành tài chính và kế toán Phân loại và dự đoán khả năng của nó được sử dụng cho các mục đích về dự báo phá sản.Dự báo tình trạng khủng hoảng tài chính, phát hiện gian lận tài chính, dự đoán rủi ro tính dụng, dự đoán hiệu suất của công ty Nghiên cứu này nhằm mục đích phát triển cao nhất của khoa học kỹ thuật ở một giai đoạn nhất định Giới thiệu Khai thác dữ liệu (DM) là một lĩnh vực thú vị của Khoa học Máy tính Nó xuất hiện vào cuối thập niên 80 bằng cách sử dụng các khái niệm và phương pháp từ các lĩnh vực trí tuệ nhân tạo., hệ thống cơ sở dữ liệu và thống kê, khai thác dữ liệu nhằm mục đích khám phá giá trị, phức tạp và không dể dàng che giấu thông tin từ một lượng lớn dữ liệu Ví dụ một thuật ngữ tương đương trong khai thác dữ liệu là khám phá tri thức trong cơ sở dữ liệu, nó thường gặp trong các tài liệu khác Dữ liệu tài chính được thu thập bởi nhiều tổ chức như ngân hàng, cơ quan chứng khoán, cơ quan thuế, kế toán, kiểm toán và các cơ quan chuyên 1 Page 5 ngành, trong một số trường hợp được công bố công khai Áp dụng kỹ thuật khai thác dữ liệu có thể góp phần phân loại và dự đoán thuận lợi và khó khăn trong quá trình ra quyết định Ví dụ điển hình của ngành tài chính là vấn đề phá sản, rủi ro tính dụng, và các báo cáo, dự đoán được khủng hoảng tài chính và năng suất của doanh nghiệp Tầm quan trong của khai thác dự liệu trong tài chính và kế toán đã được công nhận bời nhiều tổ chức Viện Kế toán công Mỹ đã xác định khai thác dữ liệu là một trong mười công nghệ hàng đầu cho tương lai và Viện Kiểm toán nội bộ đã liệt kê khai thác dữ liệu là một trong bốn ưu tiên nghiên cứu Nghiên cứu khai thác dữ liệu trong ngành tài chính và kế toán và áp dụng nó trong các lĩnh vực nghiên cứu mới Mục đích của nghiên cứu này là áp dụng những cái tốt nhất về khai thác dữ liệu trong ngành tài chính và kế toán Đánh giá này giới thiệu người đọc chủ đề cụ thể liên quan đến mục tiêu và phương pháp làm việc nghiên cứu Đặc biệt nghiên cứu này cố gắng giải quyết các câu hỏi sau Cụ thể lĩnh vực tài chính mà phương pháp khai thác dữ liệu sẽ áp dụng đem lại cái gì? Phương pháp khai thác dữ liệu đem lại cái gì và mở ra cái gì? Nó có tốt hơn phương pháp truyền thống hay không? Những loại dữ liệu nào được áp dụng? cở mẫu đạt yêu cầu? lựa chọn phương pháp nào? Những quan hệ gì liên quan? Một nghiên cứu như vậy giúp các nhà nghiên cứu không bị chồng chéo và để cho chúng ta phát triển lên.Mục đích của nghiên cứu này để chỉ ra hướng mới cho lĩnh vực nghiên cứu trong tương lai Phần còn lại của công việc này được tổ chức như sau Phần hai đề cặp tới các nguồn tài liệu Phần ba cho mô tả ngắn gọn của phương pháp khai thác dữ liệu áp dụng trong các tài liệu thu thập được Phần bốn đề cập đến các ứng dụng cụ thể và nghiên cứu Cuối cùng phần năm đánh giá và hướng nghiên cứu và ghi lại các báo cáo Phần sáu là phần kết luận Tìm kiếm tài liệu Trong việc tìm kiếm nghiên cứu liên quan đến việc áp dụng các kỹ thuật khai thác dữ liệu trong tài chính và kế toán chúng ta đã tìm hiểu các tạp chí của bốn nhà xuất bản Elsevier, Emerald, Kluwer and Wiley Bài viết liên quan đã được tìm thấy trong các tạp chí: 2 Page 6 Thị trường tài chính Châu Á Thái Bình Dương, Hệ thống hỗ trợ quyết định, Tạp chí nghiên cứu của Châu Âu, Các ứng dụng của hệ chuyên gia, Các hệ thông minh trong tài chính, kế toán và quản lý, Tập chí quốc tế về hệ thống thông tin kế toán, Tạp chí Dự báo, Hệ thống kiến thức cơ bản, Quyết định quản lý, Tạp chí quản lý kiểm toán, Quản lý tài chính, Mạng neural, và Tạp chí quốc tế Omega về khoa học quản lý 3 Các phương pháp ứng dụng Thuật ngữ Phương pháp khai thác dữ liệu là viết tắt của một số lượng lớn các thuật toán,các mô hình và các kỹ thuật xuất phát từ số liệu thống kê, máy học, cơ sở dữ liệu và trực quan Một số các phương pháp đã được áp dụng để kiểm tra dữ liệu tài chính Phương pháp khai thác dữ liệu phổ biến được đề cập đến trong nghiên cứu này là mạng Neural , thuật toán di truyền, cây quyết định, lý thuyết Rough Set, cơ sở lý luận và lập trình toán học 3.1 Mạng Neural Mạng Neural là kỹ thuật công nghệ mới được thành lập từ lý thuyết và vùng ứng dụng công nhận Một Mạng Neural bao gồm một số tế bào Neural, tức là đơn vị xử lý kết nối Liên kết với mỗi kết nối là một giá trị số được gọi là “weight” Mỗi tế bào Neural nhận được tín hiệu từ tế bào Neural kết nối Nếu đầu vào cường độ tín hiệu kết hợp vượt quá ngưỡng, sau đó các tế bào neural cháy Giá trị đầu vào được chuyển bởi các chức năng chuyển giao các tế bào neural Các tế bào neural được sắp xếp thành các lớp Một lớp mạng gồm có ít nhất một đầu vào và đầu ra Giữa các lớp đầu vào và đầu ra có thể tồn tại một hoặc nhiều lớp ẩn Các loại khác nhau của mạng neural có một số lượng khác nhau của các lớp Sơ đồ tổ chức (SOM) chỉ có một lớp đầu vào và đầu ra, trong khi một lan truyền ngược của mạng neural có thêm một hoặc nhiều lớp ẩn Sau khi các kiến trúc mạng được xác định, mạng phải được huấn luyện Mô hình mạng lan truyền ngược được áp dụng cho các lớp đầu vào và đầu ra cuối cùng được xác định là lớp ra Đầu ra được so sánh với kết quả • • • • • • • • • • • • • Page 7 mong muốn và các lỗi được truyền ngược trở lại trong mạng neural bằng cách điều chỉnh trọng lượng của các kết nối Quá trình này lặp đi lặp lại cho đến khi tỷ lệ lỗi chấp nhận Các mạng neural lan truyền ngược đã trở nên phổ biến cho các dự đoán và phân loại các vấn đề Sơ đồ tổ chức là một phương pháp phân nhóm và trực quan của việc học không giám sát Đối với mỗi vector đầu vào, đầu ra chỉ có một tế bào neural sẽ được kích hoạt Vector đó được cập nhật để tương ứng với vector đầu vào Như vậy, đầu vào tương tự sẽ được ánh xạ tới các tế bào neural đầu ra tương tự hoặc lân cận tạo thành cụm Hai cấu trúc liên kết SOM thường được sử dụng là lưới hình chữ nhật, trong đó mỗi tế bào neural có bốn người hàng xóm và mạng tinh thể hình lục giác, nơi mỗi tế bào neural có sáu người hàng xóm Một bất lợi quan trọng của Mạng Neural là chúng hoạt động như hộp đen vì nó là khó khăn đối với con người để giải thích cách Mạng Neural đưa ra quyết định Tuy nhiên thuật toán này cung cấp trích xuất dễ hiểu từ các luật của mạng neural Một nhược điểm khác trên Mạng Neural là một số thông số như các cấu trúc liên kết mạng phải được xác định theo kinh nghiệm Có vẻ như Mạng Neural thu hút sự quan tâm của nhiều nhà nghiên cứu trong các lĩnh vực mà họ quan tâm Cấu trúc và nguyên tắc làm việc cho phép họ để đối phó với những vấn đề mà làm ảnh hưởng đến thuật toán thì nó không được áp dụng Kể từ khi họ học hỏi từ các ví dụ và khái quát để quan sát mới có thể phân loại các mô hình trước đó chưa thấy Họ có khả năng để đối phó với không đầy đủ, không rõ ràng và ồn ào của dữ liệu Không giống như các kỹ thuật thống kê truyền thống chúng không mang ưu thế về các tính chất phân phối dữ liệu, không lệ thuộc vào giá trị đầu vào Thuật toán di truyền Thuật toán di truyền (GA) áp dụng ý tưởng từ sự tiến hóa thích hợp nhất của các cá thể tồn tại trong tự nhiên Quy luật liên quan đến một vấn đề được mã hóa như một tập hợp các chuỗi trong số đó bao gồm các bit Các chuỗi này hình thành một dân số GA cho phép các chuỗi với giá trị tập thể cao nhất để tồn tại và sinh sôi nảy nở đổi mới dân số Một nhiễm sắc thể là một chuỗi ký tự đại diện cho một điểm trong không gian Dân số là một tập hợp các nhiễm sắc thể SAu khi tạo ngẫu 3.2 Page 8 nhiên dân số ban đầu mỗi nhiễm sắc thể được đánh giá sử dụng đúng chức năng Vai trò chức năng phù hợp là đánh giá hoạt động của nhiễm sắc thể.Ba toán tử được áp dụng trong nhiễm sắc thể là: Tái tạo, nơi các cá nhân tự sinh sôi nảy nở bằng cách tái tạo bản thân với khả năng tương tự như giá trị ban đầu Crossover, nơi hai nhiễm sắc thể cùng trao đổi một số bit để tạo nhiễm sắc thể mới Sự biến đổi, mà hoạt động trên một nhiễm sắc thể duy nhất bằng cách thay đổi một hoặc nhiều bit Xác suất đột biến là rất thấp Cây Quyết định Cây quyết định sử dụng phương pháp phân loại và dự đoán mà liên tục phân chia thành nhóm và loại trừ lẫn nhau Phương pháp tìm kiếm các thuộc tính là tách mẫu trong các lớp cá thể Các nhóm nhỏ được phân chia liên tục cho đến khi nhóm quá nhỏ hay là không thống kê được tồn tại giữa các tập con ứng viên Nếu cây quyết định trở nên quá lớn thì cuối cùng nó được cắt bớt 3.4 Lý thuyết tập thô Lý thuyết tập thô (RST) do Pawlak đề xuất vào năm 1982 RST là tập mở rộng với khái niện phần tử là thành viên của tập Cho một lớp C, xấp xỉ dưới của C bao gồm các mẫu đó chắc chắn thuộc về C Xấp xỉ trên của C bao gồm các mẫu mà không thể được định nghĩa là không thuộc C RST có thể được sử dụng để mô tả phụ thuộc giữa các thuộc tính, để đánh giá tầm quan trọng của các thuộc tính, để đối phó với các dữ liệu không phù hợp và xử lý không chắc chắn 3.5 Lập luận theo tình huống Lập luận theo tình huống (CBR) là một phương pháp giải quyết vấn đề theo lý luận Để giải quyết một vấn đề CBR cố gắng để lấy một trường hợp tương tự từ một trường hợp được căn cứ Vấn đề quan trọng trong CBR là biện pháp tương tự và việc thu lại các trường hợp tương tự Kỹ thuật phổ biến phù hợp với nó là k -láng giềng gần nhất (k-NN), học tập theo quy nạp và hướng dẫn kiến thức Trong phiên bản đơn giản nhất, k-NN đánh giá sự giống nhau của hai trường hợp bằng cách tính toán khoảng cách Euclide của họ Cách tiếp cận này giả định rằng tất cả các tính năng này đều có liên quan Vì đây không phải là luôn luôn như vậy, thuật toán được cải tiến theo đề xuất 3.3 Page 9 Lĩnh vực áp dụng và nghiên cứu cụ thể Do khả năng phân loại và dự đoán của nó, Kỹ thuật DM đã được sử dụng để tạo thuận lợi cho quá trình kiểm toán, dự đoán hiệu suất của công ty và để tạo điều kiện ước lượng rủi ro tín dụng Trong lĩnh vực kiểm toán, Kỹ thuật DM phát triển như là một đóng góp đầy hứa hẹn Các sự kiện gần đây cho thấy vấn đề đáng kể trong quá trình kiểm toán Sự sụp đổ của Enron và Arthur Andersen và những nơi khác và "cuốn sách nấu ăn" kế toán thực hành áp dụng dường như rộng rãi, cung cấp bằng chứng cho việc thay đổi nhu cầu trong quá trình kiểm toán Theo báo cáo Tiêu chuẩn 56 (SAS 56) của Kiểm toán do AICPA, kiểm toán viên phát triển kỳ vọng theo riêng mình và so sánh các kỳ vọng theo số lượng hay tỉ lệ Trong việc thực hiện nhiệm vụ này, kiểm toán viên sử dụng các thủ tục phân tích và so sánh mối quan hệ giữa các dữ liệu dự kiến với các mối quan hệ quan sát thực tế Thủ tục phân tích cho phép việc kiểm tra tính chính xác của việc cân bằng của kế toán mà không cần kiểm tra các giao dịch cá nhân có liên quan Fraser phân loại các kỹ thuật đánh giá phân tích không định lượng (NQT) như quét, định lượng đơn giản (SQT) như xu hướng, tỷ lệ và kiểm tra tính hợp lý và định lượng tiên tiến (AQT) như phân tích hồi quy và mạng neural Một xu hướng hiện đại trong kiểm toán là để nắm lấy các khái niệm về rủi ro kinh, trong đó nhấn mạnh các mục tiêu chiến lược kinh doanh của một doanh nghiệp Trong cách tiếp cận từ trên xuống kiểm toán viên hiểu được mục tiêu chiến lược và các công việc kinh doanh Kỹ thuật DM như NNS, GA, CBR và logic mờ có thể tạo thuận lợi cho phương pháp tiếp cận của kiểm toán dựa trên rủi ro mới này Các tờ báo này liên quan đến lĩnh vực ứng dụng cụ thể trong kiểm toán dự báo phá sản, dự đoán về tài chính và quản lý gian lận 4.1 Dự đoán phá sản Dự báo phá sản dường như là chủ đề phổ biến nhất của việc áp dụng kỹ thuật DM cho dữ liệu tài chính Doanh nghiệp phá sản gây thiệt hại cho người quản lý kinh tế , nhà đầu tư, chủ nợ và người lao động bị tổn thất Đối với những dự đoán lý do phá sản là một vấn đề quan trọng về tài chính Dự báo phá sản bằng cách sử dụng dữ liệu báo cáo tài chính thu hút nguồn gốc của nó từ công việc của Altman năm 1968 Altman cho rằng thất bại của công ty là một quá trình thời gian dài và dữ liệu báo cáo tài chính phải bao 4 Page 10 gồm các tín hiệu cảnh báo cho sự phá sản sắp xảy ra Bằng cách áp dụng kỹ thuật đa phân tích ông đã phát triển một mô hình để dự đoán phá sản Kể từ khi công việc của Altman nhiều nhà nghiên cứu phát triển mô hình thay thế bằng cách sử dụng kỹ thuật thống kê Trong những năm qua nỗ lực nghiên cứu đã được thực hiện để xây dựng các mô hình sử dụng kỹ thuật DM Lin và McClean (2001) đã cố gắng dự đoán sự thất bại của công ty bằng cách sử dụng phương pháp khác nhau Hai trong số các phương pháp thống kê (phân tích và hồi quy), trong khi hai phương pháp còn lại là kỹ thuật máy học (cây quyết định và mạng neural) Ngoài ra họ đề xuất một thuật toán lai Dữ liệu lấy mẫu của họ là khoảng 1133 công ty Vương quốc Anh 690 công ty không thất bại và 106 công ty không được sử dụng trong tập huấn luyện, trong đó 289 công ty không thất bại và 48 công ty thất bại khi sử dụng bộ kiểm tra Không có nỗ lực trong thực hiện để phù hợp với các công ty thất bại và không thất bại 37 chỉ tiêu tài chính có nguồn gốc từ bảng cân đối và thu nhập báo cáo đã được lựa chọn như là các biến đầu vào Hai phương pháp lựa chọn tính năng đã được sử dụng làm giảm các biến đầu vào là 4 bằng cách sử dụng sự phán xét con người và 15 bằng cách sử dụng ANOVA Các tác giả báo cáo kết quả tốt hơn cho NNS và mô hình cây quyết định cho cả hai phương án con người dựa trên và lựa chọn tính năng ANOVA Cuối cùng, các tác giả đề xuất một thuật toán lai sử dụng bỏ phiếu có trọng số khác nhau Hiệu suất nhỉnh hơn khi báo cáo cho các mô hình lai Tùng et al (2004) sử dụng một mô hình lai tích hợp NNS và hệ thống mờ Mô hình được gọi là " Generic Self-organizing Fuzzy Neural Network" là cơ sở quy luật bao gồm các quy tắc IF-THEN luật mờ có thể tự điều chỉnh các thông số của các quy tắc mờ sử dụng thuật toán có nguồn gốc từ các mô hình NN Ưu điểm chính của NN mờ đã được đề cập là khả năng của nó để giải quyết vấn đề bằng cách sử dụng mô hình ngôn ngữ dễ hiểu thay vì biểu thức toán học phức tạp Mô hình này đã được áp dụng để dự đoán thất bại ngân hàng Biến đầu vào là 9 biến tài chính, mà được tìm thấy là quan trọng trong nghiên cứu trước đây Mẫu chứa dữ liệu khoảng 2555 ngân hàng không thất bại và 548 ngân hàng phá sản 20% dữ liệu đã được sử dụng như tập huấn luyện và 80% như bộ kiểm tra Để mẫu giảm lỗi loại 1 được sự cânbằng bao gồm số lượng tương đương của các ngân hàng thất bại và không thất bại Page 11 Tác giả báo cáo một hiệu suất 93% khi sử dụng dữ liệu từ báo cáo tài chính có sẵn mới nhất, 85% khi sử dụng báo cáo thu được một năm trước và 75% đối với báo cáo hai năm trước Mô hình sản xuất một bộ khoảng 50 IFTHEN luật mờ, trong đó mô tả sự tương tác giữa các biến đầu vào 9 lựa chọn và quan sát tác động của chúng đối với sức khỏe tài chính của các ngân hàng Shin và Lee (2002) đề xuất một mô hình dựa trên thuật toán di truyền (GAs) Các tác giả nhấn mạnh thực tế là trái ngược với NNS, Gas có thể dùng các nguyên tắc dễ hiểu GAs đã được áp dụng để tìm ngưỡng cho một hoặc nhiều biến trên hoặc dưới của một công ty được coi là nguy hiểm Mô hình này sử dụng một cấu trúc các quy tắc có chứa 5 điều kiện mỗi trong số đó được gọi là một biến của 9 chỉ tiêu tài chính Các điều kiện được kết hợp với toán tử AND Tập dữ liệu chứa 264 thất bại và 264 doanh nghiệp không thất bại, trong khi 9 chỉ tiêu tài chính đã được chọn như là các biến đầu vào 90% mẫu được sử dụng để đào tạo và 10% để xác nhận Việc thực hiện báo cáo chung là khoảng 80% Kim và Han (2003) đã xây dựng một mô hình định lượng dựa trên các hệ chuyên gia giải quyết vấn đề kiến thức Các chuyên gia làm việc theo cách chủ quan của họ đánh giá sự kiện và định lượng Mô hình này sử dụng một phương pháp GA để trích xuất quyết định các quy tắc từ các chuyên gia để dự đoán phá sản Mô hình này áp dụng theo phương pháp các chuyên gia của ngân hàng thương mại Hàn Quốc Để dự đoán các chuyên gia đánh giá phá sản dựa vào 6 yếu tố nguy cơ lớn Trong mô hình này một nhiễm sắc thể chứa 6 phân đoạn đại diện cho một phân loại của một công ty theo 6 yếu tố nguy cơ Một bộ phận thứ 7 trong nhiễm sắc thể phân loại các công ty như phá sản hay không phá sản Mẫu dữ liệu chứa 772 công ty, một nửa trong số đó đã bị phá sản Các chuyên gia đánh giá các yếu tố rủi ro 6 cho các công ty Quá trình tiến hóa di truyền chiết xuất 11 quy tắc phá sản Ngoài ra quy tắc đã được chiết xuất bằng cách sử dụng một lan truyền ngược NN và học tập quy nạp Quy tắc chiết xuất với GA được báo cáo là có độ chính xác tốt hơn so với tiên đoán Học NN và quy nạp Dimitras et al (1998) áp dụng RST cho mục đích dự báo phá sản Tập huấn luyện có dữ liệu cho 40 thất bại và 40 không thất bại trong khoảng thời gian năm năm của các công ty Hy Lạp Tập thử nghiệm chứa 19 thất bại và Page 12 19 không thất bại Một người quản lý tín dụng của một ngân hàng Hy Lạp lựa chọn 12 chỉ tiêu tài chính từ các bảng thông tin và các giá trị liên tục rời rạc Phân tích tập thô 54 mẫu, mỗi mẫu chứa 5-7 thuộc tính, người quản lý ngân hàng được lựa chọn một trong những mẫu đó và do đó các thuộc tính còn lại loại bỏ đi Cuối cùng được các nguyên tắc quyết định Kết quả của phương pháp này so sánh với kết quả phân tích phân biệt và phân tích logit và đã được tìm thấy ưu thế McKee (2003) có kết quả thu được bằng cách so sánh sử dụng RST có tác động kiểm toán viên thực tế với mục đích dự báo phá sản Mẫu dữ liệu bao gồm 146 công ty bị phá sản và 145 không bị phá sản ở Mỹ 11 yếu tố tiên đoán đã được lựa chọn, 10 trong số đó là chỉ tiêu tài chính và 1 là một ý kiến kiểm toán trước Tập thô sản xuất 87 mẫu, mỗi cái sử dụng 4-6 biến và 2 mẫu được lựa chọn Hai mô hình của nguyên tắc quyết định đã được phát triển Các kết quả của các mô hình được so sánh với tỷ lệ thực tế của kiểm toán viên và đã được tìm thấy gần như bằng nhau Tác giả kết luận rằng các mô hình phát triển trong nghiên cứu này cung cấp không có lợi thế so sánh tiên đoán đáng kể so với các phương pháp hiện hành của kiểm toán viên Beynon và Peel (2001) sử dụng một phát triển của RST: Precision RST biến VPRST kết hợp luật Quyết định và cho phép phân loại một phần bằng cách giới thiệu một mức độ tin cậy trong phân loại Ngược lại với những nỗ lực nghiên cứu trước đây các giá trị rời rạc được thực hiện bởi con người, tác giả sử dụng phương pháp FUSINTER cho mục đích rời rạc Mẫu dữ liệu chứa 45 thất bại và 45 không thất bại của các công ty công nghiệp Vương quốc Anh 30 thất bại và 30 công ty không không hình thành mẫu huấn luyện, trong khi số còn lại hình thành mẫu 12 biến, 8 tài chính và 4 biến chất lượng đã được chọn để sinh ra luật Sau khi có mẫu và việc lựa chọn một trong số đó, một bộ 12 quy tắc thu được Kết quả VPRST được so sánh với kết quả của nhiều phương pháp tính xác suất, Phân tích logit, thuật toán đệ quy cây Quyết và phương pháp Elysee Trong mẫu đào tạo và VPRST vượt trội so với những phương pháp khác Park và Han (2002) nghiên cứu phát triển một mô hình CBR để dự đoán phá sản Đo khoảng cách sử dụng tính năng trọng lượng Trọng lượng được tính toán bằng cách sử dụng các phương pháp phân tích Hierarchy Process (AHP) Mẫu bao gồm 1072 thất bại và 1072 công ty không thất bại Page 13 13 biến tài chính và 15 biến không tài chính đã được lựa chọn cho đầu vào Các tác giả cho rằng AHP / CBR thực hiện tốt hơn so với CBR không , CBR hồi quy logit và CBR 4.2 Hiệu quả và không hiệu quả trong tài tính Theo SAS 59, kiểm toán viên đánh giá khả năng khách hàng của mình để tiếp tục có hiệu quả cho ít nhất một năm vượt ra ngoài dữ liệu bảng cân đối Nếu có dấu hiệu cho thấy các công ty sẽ phải đối mặt với khó khăn tài chính, có thể dẫn đến thất bại, kiểm toán viên phải đưa ra một báo cáo hiệu quả Việc đánh giá tình trạng hoạt động liên tục không phải là một nhiệm vụ dễ dàng Nghiên cứu báo cáo rằng chỉ có một tỷ lệ tương đối nhỏ của các công ty không đủ điều kiện trên cơ sở hiệu quả (Koh 2004) Để tạo thuận lợi cho kiểm toán viên trên báo cáo hiệu quả phát hành nhiệm vụ, kỹ thuật thống kê và máy học đã được đề xuất Koh (2004) so sánh Lan truyền ngược với NN,Cây quyết định và phương pháp hồi quy logistic trong một nghiên cứu dự đoán hiệu quả Mẫu dữ liệu chứa 165 công ty hiệu quả và 165 công ty không hiệu quả 6 chỉ tiêu tài chính được lựa chọn sử dụng như là các biến đầu vào Tác giả báo cáo rằng Quyết định Cây vượt trội so với hai phương pháp khác Tan và Dihardjo (2001) xây dựng dựa trên một nghiên cứu trước đây của Tan Dự báo khủng hoảng tài chính cho tổ chức tín dụng Úc bằng cách sử dụng NNS Trong nghiên cứu trước đó của Tan sử dụng dữ liệu tài chính quý và cố gắng dự báo sự cố trong quý Tan và Dihardjo cải thiện phương pháp bằng cách giới thiệu khái niệm "phát hiện sớm" Khi mô hình dự đoán rằng tổ chức tài chính có sự cố trong một quý cụ thể chắc chắn rằng sẽ có sự cố trong quý tiếp theo và tối đa là 4 quý, mỗi quý được dán nhãn “phát hiện sớm” Phương pháp cải tiến này thực hiện tốt hơn so với trước đó về tỉ lệ lỗi loại II 13 chỉ tiêu tài chính đã được sử dụng như là các biến đầu vào và 2144 mẫu quan sát được sử dụng Kết quả được so sánh với mô hình Probit và đã được tìm thấy nhỉnh hơn đặc biệt là tỷ lệ lỗi Loại 1 Konno và Kobayashi (2000) đề xuất một phương pháp để đánh giá doanh nghiệp bằng cách sử dụng các kỹ thuật lập trình toán học Phương pháp này được thực hiện không có giả định phân phối về các dữ liệu Ba lựa chọn thay thế dựa trên phân biệt bởi siêu phẳng, phân biệt bởi bề mặt bậc hai và phân biệt bởi bề mặt elip đã được sử dụng 6 chỉ tiêu tài chính bắt nguồn Page 14 từ báo cáo tài chính đã được sử dụng như là các biến đầu vào Mẫu dữ liệu chứa 455 doanh nghiệp Phương pháp tính điểm cho từng doanh nghiệp 4.3 Gian lận Quản lý Gian lận quản lý là gian lận cam kết của các nhà quản lý thông qua báo cáo tài chính giả mạo Gian lận quản lý hại đến cơ quan thuế, cổ đông và chủ nợ Spathis (2002) đã phát triển hai mô hình để xác định báo cáo tài chính giả mạo từ số liệu công bố công khai Biến đầu vào của mô hình đầu tiên chứa 9 chỉ tiêu tài chính Cho Mô hình thứ hai z-score được thêm vào như biến đầu vào để phù hợp với mối quan hệ giữa khủng hoảng tài chính và thao tác báo cáo tài chính Phương pháp sử dụng là hồi quy logistic và các mẫu dữ liệu chứa 38 FFS và 38 công ty không FFS kết quả hai mô hình cho thấy 3 biến có hệ số quan trọng vào mô hình 4.4 Dự báo Hiệu suất của công ty Lam (2003) đã phát triển một mô hình để dự đoán tỷ lệ lợi nhuận trên vốn chủ sở hữu của cổ đông phổ thông Cô sử dụng lan truyền ngược NNS và các quy tắc suy ra từ trọng lượng của các kết nối bằng cách áp dụng các thuật toán GLARE Vector đầu vào bao gồm 15 tỷ lệ báo cáo tài chính và 1 biến phân tích kỹ thuật Thêm vào đó 11 biến kinh tế vĩ mô Mẫu dữ liệu chứa 364 công ty Back et al (2001) đã phát triển hai mô hình cho các công ty theo cụm hiệu suất của họ Cả hai mô hình sử dụng SOM Mô hình đầu tiên hoạt động trên dữ liệu tài chính của 160 công ty Bằng cách sử dụng các kỹ thuật khai thác văn bản, mô hình thứ hai phân tích báo cáo hàng năm của các giám đốc điều hành các công ty Các tác giả kết luận rằng có sự khác biệt giữa các kết quả phân nhóm của hai phương pháp Kloptchenko et al 2004 xây dựng trên công trình nghiên cứu đã đề cập trước Hai mô hình được phát triển, một phân tích chỉ tiêu tài chính và hai phân tích báo cáo của các giám đốc điều hành Phương pháp nghiên cứu này sử dụng máy nguyên mẫu, là sử dụng để phân tích báo cáo Bằng cách so sánh các kết quả của chất lượng và các phương pháp định lượng các tác giả kết luận rằng các báo cáo văn bản có xu hướng dự đoán những thay đổi trong tình hình tài chính trước khi những thay đổi này ảnh hưởng một cách rõ ràng các tỷ lệ tài chính 4.5 Ước tính rủi ro tín dụng Page 15 Nhiệm vụ của phân tích rủi ro tín dụng trở nên đòi hỏi nhiều hơn do tăng số vụ phá sản và cạnh tranh của các chủ nợ Kỹ thuật DM đã được áp dụng để tạo điều kiện lập dự toán rủi ro tín dụng Huang et al (2003) thực hiện phân tích xếp hạng tín dụng bằng cách sử dụng Support Vector Machines (SVM), một kỹ thuật máy học Hai bộ dữ liệu đã được sử dụng; một là 74 công ty Hàn Quốc và 265 công ty Mỹ Đối với cả hai tập dữ liệu thì 5 loại đánh giá được xác định Hai mô hình cho bộ dữ liệu của Hàn Quốc và hai mô hình cho bộ dữ liệu của Mỹ, mô hình còn lại để xây dựng vector đầu vào SVM và lan truyền ngược NNS được sử dụng để dự đoán xếp hạng tín dụng SVM thực hiện tốt hơn trong ba của bốn mô hình Một xem xét của nghiên cứu là để giải thích NN Phương pháp Garson được sử dụng để đo tầm quan trọng tương đối của các giá trị đầu vào Mues et al (2004) sử dụng sơ đồ quyết định quy tắc đánh giá rủi ro tín dụng Sơ đồ Quyết định có lợi thế mang tính lý thuyết cây quyết định nó tránh sự lặp lại đẳng cấu của các cây con Hai bộ dữ liệu được sử dụng, một là dữ liệu của Đức và hai là dữ liệu Benelux Một NN đã được sử dụng để thực hiện việc phân loại Các phương pháp khai thác Neurorule và Trepan được áp dụng để trích xuất các quy tắc từ mạng Ngoài ra C4.5 Quy định C4.5 và phương pháp đồ thị Entropy-based Oblivious Decision dùng những cây quyết định và quy định Hiệu suất của Neurorule và Trepan được so sánh với hiệu suất của NNS và cao hơn việc thực hiện các phương pháp khác Cuối cùng các quy tắc đã được hình dung theo hình thức sơ đồ quyết định 5 Nghiên cứu vấn đề về đánh giá và tương lai Tài chính kế toán là lĩnh vực ứng dụng phổ biến cho DM Việc phân loại và dự đoán khả năng của phương pháp DM cho phép họ được sử dụng cho các mục đích dự báo phá sản, hiệu quả và không hiệu quả trong tài chính và phát hiện gian lận quản lý, dự toán rủi ro tín dụng và dự đoán hiệu suất của công ty Kiểm toán viên, các chuyên gia chấm điểm tín dụng và các nhà đầu tư có thể được tạo điều kiện trong công việc của mình và đạt được thời gian và chi phí trong quá trình ra quyết định của mình Dự báo phá sản dường như thu hút sự quan tâm của hầu hết các nhà nghiên cứu từ gần một nửa số giấy tờ đề cập đến chủ đề này Các lĩnh vực ứng dụng của các tài liệu kiểm tra được mô tả trong bảng 1 Việc kiểm tra Page 16 các tài liệu thu thập được để thảo luận về phương pháp làm việc, dữ liệu được sử dụng và số liệu hiệu suất của chủ đề này Lĩnh vực áp dụng Phá sản Hiệu quả và không hiệu quả tài chính Hiệu suất của công ty và dự báo Ước tính rủi ro tín dụng Gian lận quản lý Tài liệu 8 3 3 2 1 Bảng 1: Lĩnh vực áp dụng Phương pháp và mô hình Các phương pháp hạn DM bao gồm một loạt các phương pháp có nguồn gốc từ thống kê, Trí tuệ nhân tạo và cơ sở dữ liệu Trong các tài liệu thu thập Neural Networks là mô hình được sử dụng nhiều nhất Bảng 2 cho thấy các mô hình làm việc 5.1 Mô hình Mạng Neural Tập thô Cây quyết định Thuật toán di truyền Lai Cơ sở lý luận Lập trình toán học Hồi quy logic Máy hỗ trợ vector Tài liệu 8 3 2 2 2 1 1 1 1 Bảng 2: Mô hình làm việc Mặc dù nhiều nhà nghiên cứu nhấn mạnh thực tế là mô hình lai là kết hợp các đặc điểm và lợi thế của mô hình để cải thiện hiệu suất hoặc diễn giải, mô hình lai được sử dụng trong hai trường hợp Một hướng nghiên cứu trong tương lai có thể phát triển và ứng dụng các mô hình lai Một hướng cải tiến mô hình là tăng cường các mô hình hiện có với các thuật toán tiên tiến Biến chính xác RST, Analytic Hierarchy Process Page 17 CBR và GA mà sử dụng phương pháp thích hợp là những ví dụ của trường hợp này Thiết kế của kiến trúc NN vẫn còn là một vấn đề của nghệ thuật xác định được Số lượng tế bào neural, số lượng các lớp và các chức năng chuyển đổi tùy biến và chủ quan Phương pháp đề xuất một kiến trúc NN tối ưu cho một trường hợp cụ thể có thể được phát triển Mặc dù những lời chỉ trích chính trên NN là hành động như hộp đen, chỉ hai trường hợp nỗ lực đã được thực hiện để giải thích các mô hình (các thuật toán GLARE, Neurorule, Trepan) Nỗ lực nghiên cứu có thể hướng tới việc giải thích mô hình ra quyết định của NNS Trong bốn trường hợp mô hình AI được quy chuẩn thành mô hình thống kê Phương pháp AI có lợi thế về mặt lý thuyết mà không áp đặt giả định tùy ý trên các biến đầu vào Tuy nhiên, kết quả báo cáo của các phương pháp AI chỉ hơi tốt hơn các kết quả của phương pháp thống kê Trong một số trường thì báo cáo mô hình thống kê thực hiện tốt hơn Nỗ lực nghiên cứu bổ sung là cần thiết để hiện thực những ưu điểm của các mô hình lý thuyết AI Phương pháp trực quan được chiết xuất là trọng tâm góp phần nghiên cứu trong tương lai Công cụ khai thác dữ liệu là những ứng dụng độc lập hoặc là một phần của bộ phần mềm phân tích thống kê Nhúng công cụ DM trong cơ sở dữ liệu thương mại hoặc các hệ thống ERP có thể tạo thuận lợi cho việc phổ biến và sử dụng cho các chuyên gia trong kinh doanh 5.2 Dữ liệu Các dữ liệu được sử dụng trong các tài liệu thu thập chủ yếu bắt nguồn từ báo cáo tài chính Trong tám trường hợp, các vector đầu vào chỉ bao gồm từ chỉ tiêu tài chính Trong trường hợp chỉ số tỷ lệ tài chính không được sử dụng trong các vector đầu vào Nhiều tác giả đề cập đến nhiều thông tin cần thiết để làm phong phú thêm vector đầu vào Biến kinh tế vĩ mô bao gồm Thông tin định tính chiến lược các mục tiêu của công ty, quan điểm của kiểm toán, kinh nghiệm quản lý, thông tin thị trường và cập nhật kinh tế, chính trị, xã hội và kỹ thuật công nghệ Trong hai kỹ thuật khai thác văn bản được sử dụng để phân loại và dự đoán hiệu suất của công ty Các tác giả công nhận rằng, trong một số mẫu kiểm tra có kích thước không đủ lớn để đạt yêu cầu Mẫu nhỏ có thể thiên vị về các kết quả Hơn Page 18 nữa có sự khác biệt quan trọng trong kích thước huấn luyện, xác nhận và kiểm tra mẫu Bảng 3 mô tả kích thước mẫu Kích thước mẫu >1000 >500 >200

Ngày đăng: 20/05/2015, 22:57

Từ khóa liên quan

Mục lục

  • Tóm tắt

Tài liệu cùng người dùng

Tài liệu liên quan