Tiểu luận môn Hệ hỗ trợ quyết định ỨNG DỤNG DATA MINING TRONG DỰ ĐOÁN GIAN LẬN BÁO CÁO TÀI CHÍNH

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN o0o Báo cáo chuyên đề HỆ HỖ TRỢ QUYẾT ĐỊNH ỨNG DỤNG DATA MINING TRONG DỰ ĐOÁN GIAN LẬN BÁO CÁO TÀI CHÍNH Giảng viên hướng dẫn: PGS. TS. Đỗ Phúc Học viên thực hiện: Hồ Mạnh Khương MSHV: CH1301018 1 Mục lục 2 I. Giới thiệu Các phương pháp data mining ngày nay hỗ trợ rất nhiều cho nhận định sai phạm trong gian lận báo cáo tài chính với khả năng xử lý lượng dữ liệu lớn và phức tạp. Việc ứng dụng data mining vào nhận định gian lận đi theo các hướng xử lý dữ liệu truyền thống của data mining, gồm thu thập dữ liệu, quản lý dữ liệu, tiền xử lý, khai phá dữ liệu, hậu xử lý và đánh giá hiệu suất xử lý. [1] Data mining có khả năng nhận định các sai phạm trong báo cáo tài chính nhờ vào việc phân tích các trường hợp đã lưu trong dữ liệu cũ, xây dựng các mô hình để qua đó phân tích và nhận định chính xác hoặc gần chính xác tỉ lệ các sai phạm này. Tỉ lệ sai phạm và gian lận trong các báo cáo tài chính tăng dần theo thời gian. Và với số lượng dữ liệu phải xử lý mỗi năm một lớn, việc xem xét và quản lý bằng tay là gần như không thể thực hiện. Chính vì vậy, ứng dụng công nghệ thông tin và các kỹ thuật tiên tiến của data mining vào thực hiện các công việc với nguồn dữ liệu lớn hoặc rất lớn là nhu cầu cấp bách và cần thiết với con người trong thời đại ngày nay. Trong nội dung của bài báo cáo này, tôi xin tổng hợp những kiến thức sơ lược tổng quan về ứng dụng data mining trong việc xử lý và phân tích dữ liệu để nhận định gian lận trong các báo cáo tài chính. Gian lận là gì? [3] Gian lận là hành vi có chủ đích, nhằm đưa một người hoặc một sự việc đi trái với pháp luật. Nó bao gồm cả các hành vi nhằm cung cấp sai thông tin hoặc che đậy thông để gây hiểu lầm hoặc sai phạm. Gian lận có nhiều hình thức từ ăn gian giờ làm hoặc có hành vi cư xử quá mực hoặc ở diện rộng hơn như gian lận báo cáo tài chính. Gian lận có thể xảy ra ở gần như tất cả các hình thức như đút lót, tham ô, gian lận về chi phí… Một số hình thức gian lận trong báo cáo tài chính thường gặp: - Bỏ ngoài sổ sách kế toán: Đây là thủ đoạn khá phổ biến hiện nay. Theo đó, người nộp thuế thường sử dụng đồng thời hai hệ thống sổ sách kế toán, một hệ thống sổ kế toán nội bộ phản ánh đầy đủ các giao dịch kinh tế, hệ thống kế toán còn lại chỉ phản ánh một phần các giao dịch kinh tế để khai thuế. Kiểu hành vi này thường xảy ra ở các doanh nghiệp (DN) dân doanh hoạt động trong lĩnh vực kinh doanh bán lẻ, ăn uống, khách sạn, xây dựng dân dụng và sản 3 xuất nhỏ. Đây chính là một kiểu hoạt động kinh tế ngầm mà môi trường thuận lợi của nó là nền kinh tế tiền mặt. Rất khó có thể xác định được số thuế thất thu do hành vi trốn thuế này gây ra vì nếu xác định được thì đã không xảy ra thất thu thuế. - Tạo giao dịch bán hàng giả mạo: Mục tiêu của thủ đoạn này là chiếm đoạt tiền ngân sách nhà nước (NSNN) thông qua hoàn thuế hoặc tiếp tay cho hành vi tham nhũng NSNN của một bộ phận công chức được giao nhiệm vụ mua sắm tài sản, hàng hóa, dịch vụ cho cơ quan nhà nước. Thủ đoạn này cũng liên quan đến hành vi giao dịch mua hàng giả mạo sẽ phân tích dưới đây nhằm giúp cho bên mua tăng thuế giá trị gia tăng (GTGT) đầu vào được khấu trừ và giảm chi phí tính thuế thu nhập DN. Ngoài xuất khẩu khống, giao dịch bán hàng hóa, dịch vụ giả mạo còn được thực hiện chủ yếu thông qua các hợp đồng bán hàng khống; các hợp đồng cung cấp dịch vụ khống và xuất hóa đơn khống. Hành vi này được thực hiện ở cả DN “ma” và cả ở các DN đang hoạt động kinh doanh bình thường. - Tạo giao dịch mua hàng giả mạo: Đây là hành vi trốn thuế khá phổ biến hiện nay, thực tế DN không có khoản chi này nhưng đã tự tạo ra chứng từ để hợp pháp hóa khoản chi không có thực, vì thế có thể gọi đây là chi khống. Chi khống thể hiện qua những bảng kê thanh toán giả mạo với chữ ký giả, hợp đồng lao động giả mạo (có trường hợp tên người lao động không có thật; có trường hợp tên người lao động là có thật nhưng thực sự không làm việc cho DN đó) và thể hiện ở những hóa đơn đi mua của cơ sở kinh doanh khác. Bằng hành vi này, DN không chỉ trốn thuế thu nhập DN mà còn trốn cả thuế GTGT thông qua việc khấu trừ khống thuế GTGT đầu vào. Đối với những hóa đơn đi mua, để phát hiện, cơ quan thuế phải làm tốt công tác đối chiếu, xác minh. Thực tế thời gian qua, thông qua công tác đối chiếu hóa đơn, cơ quan thuế các địa phương đã phát hiện khá nhiều trường hợp gian lận. Tuy nhiên, với công nghệ đối chiếu hóa đơn thủ công như hiện nay thì hiệu quả còn rất thấp, bởi vì tỷ lệ hóa đơn 4 có thể đối chiếu so với số hóa đơn cần đối chiếu là quá nhỏ. Hơn nữa, trong trường hợp DN bán hóa đơn sử dụng hóa đơn của những khách hàng không lấy để bán cho những người có nhu cầu mua hóa đơn thì việc đối chiếu cũng không đem lại kết quả. - Ghi giá bán thấp hơn giá thực tế: Hành vi này được gọi là “down” giá. Đây là hành vi ghi giá bán trên hóa đơn và kê khai doanh thu tính thuế thấp hơn giá khách hàng thực tế thanh toán. Hành vi này thường gặp ở các DN kinh doanh nhà hàng khách sạn, vận tải tư nhân, xăng dầu, kinh doanh vật liệu xây dựng, bán ô tô và xe máy, hàng trang trí nội thất Các công ty xây dựng (nhà dân và đơn vị xây dựng vãng lai) khi thi công các công trình ở các địa phương khác hay xây nhà tư nhân thường khai báo không trung thực, không kê khai hoặc giấu bớt một phần công trình. Hành vi gian lận này làm giảm thuế GTGT và thuế thu nhập doanh nghiệp (TNDN) phải nộp, gây ảnh hưởng không nhỏ đến số thu ngân sách hàng năm. - Hạch toán kế toán và kê khai thuế sai quy định: Mục tiêu chủ yếu của hành vi hạch toán kế toán sai quy định pháp luật là che giấu doanh thu tính thuế, hạch toán tăng chi phí tính thuế thu nhập DN và tăng thuế GTGT đầu vào được khấu trừ. Các kiểu hạch toán sai chế độ kế toán rất đa dạng. Khi bị kiểm tra phát hiện, cán bộ kế toán có thể lấy cớ là hạch toán nhầm để tránh bị phạt vì hành vi trốn thuế. Kế toán có thể hạch toán giảm trừ doanh thu thông qua các hình thức giảm giá, chiết khấu không đúng quy định. Kế toán có thể hạch toán sai tài khoản kế toán để che giấu doanh thu. II. Sơ lược về Data Mining Với sự ứng dụng của công nghệ thông tin cho phép lưu trữ cũng như thu thập lượng lớn dữ liệu và tổ chức chúng tốt hơn với mục đích tra cứu hoặc tổng hợp thông tin, thì việc xử lý lượng dữ liệu khổng lồ này để cho ra các báo cáo cũng như kết luận là điều hết sức khó khăn và tốn nhiều công sức. Việc này đòi hỏi phải sử dụng những công cụ hỗ 5 trợ và kỹ thuật tân tiến, như data mining, để rút trích các thông tin có ích từ nguồn dữ liệu thô này và sử dụng nó vào mục đích có lợi. 1. Data mining là gì? Data mining (khai phá dữ liệu) là thuật ngữ diễn tả việc phân tích lượng lớn dữ liệu để tìm ra mối liên hệ giữa chúng và cung cấp những thông tin hữu ích từ những mối quan hệ này. [1] Data mining được sử dụng rộng rãi trong các lĩnh vực như sức khỏe, tài chính, bán hàng, viễn thông và các lĩnh vực khác liên quan đến thương mại. Data mining cơ bản gồm phân tích dữ liệu và lập ra các mô hình từ lượng dữ liệu trên với mục đích giải quyết các vấn đề và yêu cầu mà doanh nghiệp đó đòi hỏi. Trong thực tế, có nhiều mô hình data mining được sử dụng. Theo Larose [3] , ông chia data mining theo 6 loại chính gồm xác định chi tiết, ước lượng, tiên đoán, phân loại, gom nhóm và liên đới. - Định chi tiết: là các công cụ data mining phục vụ cho việc diễn tả các tính chất cũng như xu hướng của dữ liệu. - Ước lượng: các thông tin được ước lượng dựa theo một hoặc nhiều chi tiết khác nhau từ lượng dữ liệu cung cấp. - Tiên đoán: các thông tin được tiên đoán trước dựa theo những dữ liệu có sẵn, ví dụ như thông tin về giá cả, thị trường chứng khoáng… - Phân loại: cũng giống như ước lượng, các thôgn tin được đưa ra dựa theo dữ liệu có sẵn nhưng thay vì là số hoặc thông số thì dữ liệu đầu ra được phân vào các lớp hoặc mục. Nhận dạng và dự báo gian lận là một phần của các ứng dụng thuộc nhóm này. - Gom nhóm: dữ liệu được phân tích và cố gắng đưa ra các nhóm có điểm chung hoặc giống nhau. - Liên đới: chương trình cố gắng phân tích và đưa ra sự liên quan giữa một hoặc nhiều cụm dữ liệu khác nhau. Để thỏa mãn các yêu cầu đặt ra cho data mining ở trên, nhiều chương trình và phương pháp được đặt ra như sử dụng trí tuệ nhân tạo, nhận dạng theo mẫu, máy học 6 hoặc thống kê. Một số những thuật toán thường gặp có thể nhắc đến cây quyết định, mạng neural… Mặc dù có nhiều phần mềm thương mại với giao diện thân thiện hỗ trợ các tác vụ liên quan đến data mining nhưng vẫn có một số bước đòi hỏi phải có bàn tay can thiệp của con người. [6] Tóm lại, data mining vẫn gồm nhiều bước và một số bước đòi hỏi phải có sự thông minh của con người để có thể rút trích được những dữ liệu có nghĩa sau khi phân tích lượng dữ liệu lớn. Data mining bao gồm các bước chính sau [5] : - Xác định yêu cầu của doanh nghiệp một cách rõ ràng và chi tiết. - Dữ liệu được thu thập và chuẩn bị phân thành model. Bước này khá tốn thời gian và thường đảm nhận luôn việc tiền xử lý dữ liệu. - Model dữ liệu phù hợp để giải quyết yêu cầu được chọn ra. Ở bước này, thông thường dữ liệu sẽ được chia thành các phần để huấn luyện và thử nghiệm sau khi đã huấn luyện. Quá trình huấn luyện đưa ra các luật và công thức, trong khi quá trình thử nghiệm xác định xem các luật và công thức đã được rút ra hoạt động như thế nào với nhiều luồng dữ liệu khác nhau. - Dựa theo kết quả của chương trình, hiệu năng của model sinh ra được đánh giá và có thể được chỉnh sửa hoặc triển khai để giải quyết vấn đề của doanh nghiệp. III. Các hướng ứng dụng Data Mining vào nghiên cứu về lĩnh vực tài chính [4] Thuật ngữ Data mining để chỉ chung bao gồm nhiều thuật toán, mô hình và các kỹ thuật từ thống kê, máy học, cơ sở dữ liệu và mô hình hóa. Nhiều phương pháp trong số này đã được đưa vào để nghiên cứu dữ liệu về tài chính và báo cáo thuế. Một số phương pháp mà chúng ta sẽ xem qua gồm: mạng neural, giải thuật di truyền, cây quyết định, lý thuyết về tập thô, lập luận theo tình huống và lập trình toán học. 1. Mạng neural: Mạng neural là kỹ thuật được ứng dụng nhiều và đã phát triển khá hoàn thiện. Một mạng neural bao gồm các neuron xử lý được kết nối với nhau, qua một giá trị gọi là trọng 7 số w. Mỗi neuron nhận tín hiệu thông tin từ các neuron khác được kết nối với nó. Nếu lượng dữ liệu đầu vào vượt quá một ngưỡng nào đó, thì neuron kích hoạt. Dữ liệu đưa vào được chuyển đổi bằng hàm chuyển đổi của neuron. Các neuron được xếp thành các lớp. Một mạng neural gồm ít nhất một lớp đầu vào và một lớp đầu ra. Giữa lớp đầu vào và đầu ra có thể có một hoặc nhiều lớp ẩn. Những mạng neural khác nhau có thể có số lượng lớp rất khác nhau. Một mô hình mạng neural Sau khi đã xây dựng xong mô hình mạng neural, mạng này phải được huấn luyện. Trong mô hình mạng lan truyền ngược (Backpropagation), dữ liệu được đưa vào và tính toán ra kết quả cuối cùng. Kết quả được so sánh với kết quả mong muốn và sai số được đưa ngược về điều chỉnh ở các neuron bằng cách hiệu chỉnh trọng số w. Việc này được lặp lại cho đến khi mức độ lỗi giảm xuống tới ngưỡng chấp nhận được. Mạng neural lan truyền ngược thường được dùng trong các mục đích phân loại hoặc tiên đoán. Ngược lại, với mô hình mạng neural tự tổ chức (Self Organizing Maps) thì với mỗi vector dữ liệu đưa vào, chỉ một neuron sẽ được kích hoạt. Trọng số của neuron này được cập nhật dựa vào những dữ liệu được đưa vào. Đồng thời, những dữ liệu tương tự 8 kích hoạt các neuron gần kề nhau sẽ được gom nhóm và tạo thành những cụm neuron. Có 2 mô hình SOM thường được dùng là mạng tứ giác – mỗi neuron được gom với 4 neuron khác – và mạng lục giác – mỗi neuron được gom với 6 neuron khác. Một hạn chế của mạng neural là chúng khá khó khăn để con người hiểu rõ được hoạt động bên trong của mạng. Tuy nhiên các thuật toán đã được đề ra để rút ra những luật từ mạng neural. Một hạn chế khác nữa là các thông số của mạng phải được tạo ra dựa theo kinh nghiệm của người xây dựng mạng. Mạng neural có thể nói là hướng nghiên cứu thu hút nhiều sự chú ý. Cấu trúc và cách thức hoạt động của mạng neural cho phép xử lý các vấn đề mà các thuật toán khác gần như không giải được. Khả năng học từ các ví dụ và tạo ra các luật cho phép mạng neural xử lý các trường hợp không có trong mẫu học, cũng như khả năng xử lý trên các dữ liệu chưa hoàn chỉnh và nhiều dữ liệu tạp. 9 2. Giải thuật di truyền Giải thuật di truyền (Genetic Algorithms) áp dụng ý tưởng từ sự tiến hóa tự nhiên nơi mà cá thể phù hợp nhất sẽ tồn tại. Các luật của vấn đề cần giải quyết được mã hóa thành các chuỗi dữ liệu dưới dạng bit. Các chuỗi này tạo thành một quầng thể. Giải thuật di truyền cho phép chuỗi có độ thích hợp cao nhất tồn tại và sản sinh làm mới quầng thể trên. Giải thuật di truyền xét đến toàn bộ các giải pháp, bằng cách xét trước nhất một số giải pháp sau đó loại bỏ những thành phần không thích hợp và chọn những thành phần thích nghi hơn để tạo sinh và biến hóa nhằm mục đích tạo ra nhiều giải pháp mới có hệ số thích nghi ngày càng cao Hệ số thích nghi để dùng làm tiêu chuẩn đánh giá các giải pháp. Cấu trúc dữ liệu + giải thuật di truyền = chương trình tiến hóa. Thuật ngữ “chương trình tiến hóa” trong công thức trên là khái niện dùng để chỉ các chương trình máy tính có sử dụng thuật toán tìm kiếm và tối ưu hóa dựa trên nguyên lý tiến hóa tự nhiên Các bước chính của giải thuật di truyền: 1. Chọn mô hình (model) để tượng trưng cho các giải pháp. Các mô hình có thể là dãy (String) những số nhị phân: 1 và 0, thập phân và có thể là chữ hay hỗn hợp giữa chữ và số. 2. Chọn hàm số thích nghi để dùng làm tiêu chuẩn đánh giá các giải pháp. 3. Tiếp tục các hình thức biến hóa cho đến khi đạt được các giải pháp tốt nhất hoặc đến khi thời gian cho phép chấm dứt. Các thành phần cơ bản của giải thuật di truyền: - Quá trình lai ghép (phép lai) - Quá trình đột biến (phép đột biến) - Quá trình sinh sản 3. Cây quyết định Cây quyết định là một kiểu mô hình dự báo. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.Phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện Sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước. 10 [...]... sâu nhất trong ngành khoa học nhận thức về con người (human cognitive science) 12 IV Ứng dụng của Data Mining trong dự báo gian lận báo cáo tài chính Một mô hình ứng dụng Data mining vào nhận dạng gian lận trong báo cáo tài chính được FBI đề xuất dựa trên tình hình thống kê các trường hợp trong kinh tế Mỹ ở hình dưới, bao gồm 2 lớp: lớp đầu tiên là 6 phương pháp khai thác dữ liệu được hỗ trợ bởi các... nghiên cứu Trong thời gian hạn hẹp, báo cáo này chỉ có thể tóm lược về lý thuyết cách ứng dụng các thuật giải data mining gồm thử nghiệm thống kê, phân tích hồi qui, mạng neural, cây quyết định và mạng Bayes vào xác định gian lận trong báo cáo tài chính Mô hình xử lý dữ liệu phân tích báo cáo tài chính với data mining - Các phương pháp phân tích hồi qui được sử dụng rộng rãi vì diễn tả khá chính xác... mối quan hệ giữa các mục dữ liệu trong quá trình khai phá dữ liệu Có nhiều công cụ hỗ trợ mô hình hóa dữ liệu sử dụng bảng biểu, đồ thị, thống kê… khác nhau 14 2 Một số thuật toán thường dùng trong data mining để nhận dạng gian lận trong báo cáo tài chính Để nhận dạng gian lận trong báo cáo tài chính, chúng ta xem qua một số các thuật toán thường dùng Các thuật toán thường gặp nhất gồm mô hình luận lý,... muốn Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định Cây quyết định có thể được xây dựng dựa trên các thuật toán máy học như ID3, CART và C4.5 Các thành phần tiên đoán nằm ở các lá và nối kết qua các nhánh Cây quyết định thường được dùng trong nhận dạng báo cáo thẻ tín dụng, bảo hiểm và báo cáo thuế 16 2.5 Naïve Bayes Thuật giải Naïve Bayes được sử dụng như bộ phân lớp dựa trên các luật... thường gặp nhất gồm mô hình luận lý, mạng neural, mạng Bayes và cây quyết định Cả 4 thuật toán trên đều nằm ở phương pháp phân loại (classification) 2.1 Mô hình luận lý Các mô hình luận lý hầu hết được sử dụng trong nhận dạng gian lận báo cáo tài chính Đa số chúng đều dựa trên hồi qui luận lý, hồi qui luận lý theo bước, phương pháp quyết định đa tiêu chuẩn và EGB2 (exponential generalized beta two) Các... bảo hiểm và báo cáo thuế Mạng Bayes có thể phân loại chính xác tới 90.3% các trường hợp thử nghiệm Mạng Bayes cho hiệu năng tốt hơn mạng neural và cây quyết định trong khi kết quả dừng ở mức chấp nhận được 2.4 Cây quyết định Cây quyết định (decision tree) là một đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên) Cây quyết định được sử dụng để xây dựng một kế... Phương pháp hồi qui luận lý dựa trên các model nhận dạng gian lận trong báo cáo tài chính có thể đạt tới độ chính xác 95.1% 2.2 Mạng neural Mạng neural là các công cụ mô hình hóa dữ liệu thống kê không tuyến tính mô phỏng cách làm việc dựa theo bộ não con người với các node liên kết với nhau Mạng neural được ứng dụng rộng rãi trong phân loại và phân hoạch nhóm Các lợi ích của ứng dụng mạng neural: -... ra các quyết định ngày càng chính xác hơn 19 VI Tài liệu tham khảo [1] [2] [3] PGS.TS Đỗ Phúc, Bài giảng môn học Hệ hỗ trợ ra quyết định, 2014 H Hacigumus, B Iyer, S Mehrotra, Providing database as a service, 2002 Schilit, H., Financial Shenanigans: How to Detect Accounting Gimmicks and [4] Fraud in Financial Reports, New York, USA, McGraw-Hill, 2002 Efstathios Kirkos, Yannis Manolopoulos, DATA MINING. .. thuộc dựa trên sự kết hợp các lớp của k mục gần tương tự nhất Thuật toán này còn được gọi dưới tên K- Nearest Neighbour K- Nearest Neighbour thường được dùng trong nhận dạng gian lận báo cáo về bảo hiểm xe cộ và nhận dạng chủ thẻ tín dụng 2.7 Fuzzy logic và giải thuật di truyền Giải thuật di truyền được dùng trong các hệ thống phân loại để nhận dạng các hành vi gian lận kế toán Giải thuật di truyền sử dụng. .. system (BSVS) dựa trên support vector machines (SVM) cũng được dùng để giải quyết vấn đề gian lận báo cáo thẻ tín dụng chưa được xác định trước Fuzzy logic là phương pháp toán học phân loại các đề mục và đưa dữ liệu vào các nhóm cụ thể, hoặc phân lớp, dựa trên mức độ dữ liệu và độ tương đồng với nhóm đó Các hệ phân lớp chuyên gia dựa trên fuzzy logic có thể tăng hiệu năng bằng 3 cách: - Sử dụng các con . THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN o0o Báo cáo chuyên đề HỆ HỖ TRỢ QUYẾT ĐỊNH ỨNG DỤNG DATA MINING TRONG DỰ ĐOÁN GIAN LẬN BÁO CÁO TÀI CHÍNH Giảng viên hướng dẫn: PGS. TS pháp data mining ngày nay hỗ trợ rất nhiều cho nhận định sai phạm trong gian lận báo cáo tài chính với khả năng xử lý lượng dữ liệu lớn và phức tạp. Việc ứng dụng data mining vào nhận định gian. cứu sâu nhất trong ngành khoa học nhận thức về con người (human cognitive science). 12 IV. Ứng dụng của Data Mining trong dự báo gian lận báo cáo tài chính Một mô hình ứng dụng Data mining vào