Ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp (tt)

30 349 1
Ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ THU HƯƠNG ỨNG DỤNG PHƯƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN THUẾ DOANH NGHIỆP Ngành: Công nghệ thông tin Chuyên ngành: Quản Hệ thống thông tin Mã số: TÓM TẮT LUẬN VĂN THẠC SĨ QUẢN HỆ THỐNG THÔNG TIN Hà Nội – 2017 MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT Viết tắt Thuật ngữ Giải thích (Anh/Việt) FCM Fuzzy C-Mean Một thuật toán phân cụm mờ GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng MST Mã số thuế Mã số thuế doanh nghiệp DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU Hình 1.1 Q trình phát tri thức Hình 1.2 Quá trình khai há liệu Hình 1.3 Ví dụ Phân cụm liệu Hình 1.4 Ví dụ phân cụm ngơi nhà dựa khoảng cách Hình 1.5 Ví dụ phân cụm ngơi nhà dựa kích cỡ Hình 1.6 Ví dụ phương pháp phân cụm phân cấp Hình 1.7 Ví dụ phân cụm theo mật độ (1) Hình 1.8 Ví dụ phân cụm theo mật độ (2) Hình 1.9 Cấu trúc phân cụm dựa lưới Hình 1.10 Ví dụ phân cụm dựa hình Hình 2.1 Phân cụm tập liệu với số lượng cụm khác Hình 2.2 Minh họa cho phương pháp xác định số cụm dựa phương pháp truyền thống Hình 2.3 Ví dụ minh họa cách xác định số cụm phương pháp Elbow Hình 2.4 tả phương pháp Holdout Hình 2.5 Quá trình ước lượng số cụm tối ưu dựa độ chồng độ nén liệu Hình 3.1 Kết phân cụm liệu với số cụm c = [3, 7] Hình 3.2 Kết phân cụm liệu với tập liệu data.csv Hình 3.3 Ứng dụng kết thực nghiệm vào tốn khoanh vùng, lựa chọn nhóm doanh nghiệprủi ro vi phạm thuế cao Hình 3.4 tập liệu Xjk(1) Hình 3.5 tập liệu Xjk(2) Hình 3.6 tập liệu Xjk(3) Bảng 3.1 tả thông tin tiêu cột liệu thuộc tập liệu data.csv Bảng 3.2 Kết tính F với số cụm c=[3,7] Bảng 3.3 Kết phân cụm doanh nghiệp tập liệu data_cum.csv Bảng 3.4 So sánh kết phân cụm liệu data.csv với thông tin rủi ro vi phạm thuế MỞ ĐẦU Mục tiêu đề tài ứng dụng thuật tốn phân cụm mờ phân tích thơng tin rủi ro quản thuế doanh nghiệp Một sở liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp, mức độ rủi ro 644 doanh nghiệp sử dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng phương pháp phân cụm mờ Hệ thống phân tích triển khai xây dựng thử nghiệm kiểm chứng Các phần luận văn: Chương 1: Tổng quan phân cụm liệu Chương giới thiệu tổng quan khai phá liệu, giai đoạn khai phá liệu, tổng quan phân cụm liệu, mục tiêu, số yêu cầu phân cụm liệu số kỹ thuật tiếp cận phân cụm liệu Chương 2: Giới thiệu toán phân cụm mờ phương pháp xác định số cụm gom cụm liệu Chương đề cập đến thuật toán phân cụm mờ Fuzzy C-Mean (FCM) phương pháp xác định số cụm gom cụm liệu Chương 3: Ứng dụng phương pháp phân cụm mờ cho tốn phân tích thơng tin quản rủi ro thuế doanh nghiệp Chương đề cập đến toán phân cụm doanh nghiệp dựa tập liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp Và đưa kết khoanh vùng, lựa chọn nhóm doanh nghiệp, mức rủi ro quản thuế CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Giới thiệu khai phá liệu 1.1.1 Khai phá liệu gì? Khai phá liệu q trình khám phá tri thức có ích từ lượng liệu lớn [25] Chúng ta coi khai phá liệu cốt lõi trình phát tri thức Quá trình phát tri thức gồm bước [14]: Bước 1: Trích chọn liệu Bước 2: Tiền xử liệu Bước 3: Chuyển đổi liệu Bước 4: Khai phá liệu Bước 5: hình biểu diễn tri thức đánh giá Hình 1.1 Quá trình phát tri thức [27] 1.1.2 Các giai đoạn trình khai phá liệu Quá trình khai phá liệu thể hình sau: Hình 1.2 Quá trình khai phá liệu [15] - Xác định nhiệm vụ - Xác định liệu liên quan - Thu thập tiền xử liệu - Giải thuật khai phá liệu 1.2 Tổng quan phân cụm liệu 1.2.1 Khái niệm phân cụm liệu Phân cụm liệu phân chia sở liệu lớn ban đầu thành nhóm liệu đối tượng nhóm tương tự Hình 1.3 Ví dụ phân cụm liệu [22] 1.2.2 Các mục tiêu phân cụm liệu Mục tiêu phân cụm liệu chia nhỏ đối tượng vào cụm cho đối tượng cụm tương đồng với Hình 1.4 Ví dụ phân cụm ngơi nhà dựa khoảng cách [12] Hình 1.5 Ví dụ phân cụm ngơi nhà dựa kích cỡ [12] 1.2.3 Một số ứng dụng phân cụm liệu Phân cụm liệu cơng cụ ứng dụng nhiều lĩnh vực khác như: - Thương mại - Sinh học - Thư viện - Y học - Tài thị trường chứng khoán - Khai thác liệu web - Trong công nghiệp viễn thông 1.2.4 Các yêu cầu phân cụm liệu Theo Hoàng Thị Giao Lan Trần Tuấn Tài [15], thuật toán phân cụm liệu cần phải: - Có khả mở rộng - Có khả thích nghi với kiểu liệu khác - Khám phá cụm với hình dạng - Tối thiểu lượng tri thức cần cho xác định tham số đầu vào - Ít nhạy cảm với thứ tự liệu vào - Khả thích nghi với liệu nhiễu cao - Khả thích nghi với liệu đa chiều - Dễ hiều, dễ cài đặt sử dụng 1.3 Một số kỹ thuật tiếp cận phân cụm liệu 1.3.1 Phương pháp phân cụm phân hoạch Với tập liệu gồm n phần tử k (k ≤ n) số cụm tạo thành Một thuật toán phân hoạch tổ chức phần tử liệu vào k phân vùng, phân vùng thể cụm liệu thỏa mãn: cụm phải chứa phần tử liệu phần tử liệu thuộc vào cụm 1.3.2 Phương pháp phân cụm phân cấp Quá trình thực phân cụm theo phương pháp tả đồ thị có cấu trúc Trong đó, tập liệu xếp thành cấu trúc có dạng hình gọi phân cụm [2] Có hai cách tiếp cận phổ biến kỹ thuật là: hòa nhập nhóm (hay trộn cụm), thường gọi tiếp cận lên phân chia nhóm (hay phân tách cụm), thường gọi tiếp cận xuống Ví dụ phương pháp phân cụm phân cấp xem hình 1.6 Hình 1.6 Ví dụ phương pháp phân cụm phân cấp - Phương pháp “dưới lên”: cách tiếp cận sử dụng chiến lược ăn tham trình phân cụm - Phương pháp “trên xuống”: cách tiếp cận sử dụng chiến lược chia để trị trình phân cụm 10 Phương pháp xuống thực theo quy trình ngược với phương pháp lên 1.3.3 Phương pháp tiếp cận dựa mật độ Kỹ thuật nhóm đối tượng liệu dựa hàm mật độ xác định, mật độ số đối tượng lân cận đối tượng liệu theo nghĩa Trong cách tiếp cận này, liệu xác định tiếp tục phát triển thêm đối tượng liệu miễn số đối tượng lân cận phải lớn ngưỡng xác định trước 16 2.2 Các phương pháp xác định số cụm gom cụm liệu Bao nhiêu cụm cụm? cụm? cụm? Hình 2.1 Phân cụm tập liệu với số lượng cụm khác [2] 2.2.1 Xác định số cụm dựa phương pháp truyền thống Xác định số cụm k dựa phương pháp truyền thống với liệu có n đối tượng Phương pháp thực nhanh chóng độ xác khơng cao Hình 2.2 Minh họa cho phương pháp xác định số cụm dựa phương pháp truyền thống 2.2.2 Xác định số cụm phương pháp Eblow Phương pháp thực việc xác định số cụm dựa độ xác việc thử giá trị K khác 17 Hình 2.3 Ví dụ minh họa cách xác định số cụm phương pháp Elbow 2.2.3 Xác định số cụm dựa phương pháp phê duyệt chéo Phương pháp phê duyệt chéo (cross validation) chia liệu thành m phần Sử dụng m-1 phần cho hình gom cụm Sử dụng phần lại cho việc kiểm tra chất lượng hình gom cụm Kiểm tra với K>0, lặp lại m lần tìm giá trị K phù hợp với liệu Có ba phương pháp phê duyệt chéo phổ biến: - Từ bỏ phần (Holdout) Tập liệu ban đầu Tập huấn luyện Chia tập liệu Tập kiểm thử Huấn luyện Kiểm thử Tỷ lệ tính lỗi Hình 2.4 tả phương pháp từ bỏ phần - Phê duyệt chéo K-nếp gấp 18 - Phê duyệt chéo phần tử (Leave-one-out cross validation) 2.2.4 Xác định số cụm dựa độ chồng độ nén liệu Hình 2.5: Quá trình ước lượng số cụm tối ưu dựa độ chồng độ nén liệu [2] Trong đó, cmin cmax thường chọn cmin = chọn cmax ≤ Theo Nguyễn Trung Đức [2], đặt F hiệu hai thuộc tính độ nén độ chồng cụm tốn trở thành tốn tìm giá trị số cụm c mà hàm F đạt giá trị cực đại: F = Compactness (c, U) – Overlap (c,U) Trong đó: o Compactness (c, U) độ nén đối tượng liệu cụm, số sử dụng hàm đo độ nén xác định [2]: Compactness (c, U) = , uM = o Overlap (c,U) độ chồng toàn phân hoạch mờ, xác định tổng giá trị độ chồng cặp cụm [2]: Overlap (c,U) = Trong đó: Oab(c,U) độ chồng hai cụm C a Cb tính tốn từ mức độ chồng Oabj(c,U) đối tượng liệu xj mà liên thuộc đủ mạnh tới hai cụm mờ Ca Cb [2] Oab(c,U) = , a,b = 1, ,c; a≠b Oabj(c,U)= (Giá trị �0 nhỏ cho phép số hiệu lực trường hợp cụm chồng nhau) 19 CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THÔNG TIN RỦI RO QUẢN THUẾ DOANH NGHIỆP 3.1 tả tốn Trong phạm vi luận văn này, luận văn đề xuất cách tiếp cận phân cụm liệu để đưa phương án khoanh vùng, lựa chọn nhóm đối tượng, doanh nghiệprủi ro vi phạm thuế mà không sử dụng số liệu từ kinh nghiệm chuyên gia Dựa vào liệu tờ khai thuế, báo cáo tài doanh nghiệp, sử dụng thuật toán phân cụm để phân loại, khoanh vùng đối tượng, từ giúp tăng cường tính hiệu việc lựa chọn trường hợp tra, kiểm tra 3.2 Dữ liệu đầu vào Dữ liệu đầu vào thu thập từ liệu mẫu thông tin tờ khai khấu trừ thuế GTGT, báo cáo tài doanh nghiệp lưu trữ tệp data.csv Cấu trúc liệu tệp data.csv bao gồm: - 13 cột tương ứng với giá trị tiêu thuộc tờ khai khấu trừ thuế GTGT giá trị tiêu thuộc báo cáo tài doanh nghiệp Cụ thể tả bảng 3.1 sau: Bảng 3.1 tả thông tin tiêu cột liệu thuộc tập liệu data.csv STT Mã tiêu Tên tiêu Kiểu liệu Ghi Các cột chứa giá trị tiêu thuộc tờ khai thuế GTGT #34 Tổng doanh thu hàng hoá dịch vụ bán kỳ Kiểu số #23 Doanh số hàng hoá dịch vụ mua vào kỳ Kiểu số #35 Tổng số thuế hàng hóa, dịch vụ bán kỳ Kiểu số #24 Số thuế GTGT hàng hóa, dịch vụ mua vào Kiểu số #29 Doanh số hàng hóa, dịch vụ bán chịu thuế suất % Kiểu số #25 Tổng số thuế GTGT khấu trừ kỳ Kiểu số #43 Thuế GTGT khấu trừ chuyển kỳ sau Kiểu số Lấy giá trị tờ khai khấu trừ thuế GTGT kỳ kiểm tra kỳ liền trước Lấy giá trị tờ khai GTGT kỳ kiểm tra Cột chứa giá trị tiêu thuộc báo cáo tài doanh nghiệp #411 Vốn đầu tư chủ sở hữu Kiểu số Lấy giá trị số cuối kỳ 20 3.3 Lựa chọn công cụ, mơi trường thực nghiệm Với tốn phân cụm doanh nghiệp rủi ro quản thuế theo tập liệu đặt mục 3.2, ngôn ngữ sử dụng chương trình ngơn ngữ Matlab 3.4 Phương pháp phân cụm lựa chọn số cụm 3.4.1 Xác định phương pháp phân cụm Luận văn lựa chọn phương pháp phân cụm mờ để ứng dụng vào toán đặt mục 3.1 tập liệu đầu vào đưa mục 3.2 3.4.2 - Lựa chọn số cụm Thực lặp thuật toán phân cụm mờ tập liệu data.csv với số cụm c nằm khoảng [3, 7] Hình 3.1 kết thu nhận được: Hình 3.1 Kết phân cụm liệu với số cụm c = [3, 7] (a) Tập liệu gồm cụm (b) Tập liệu gồm cụm (c) Tập liệu gồm cụm (d) Tập liệu gồm cụm 21 - Áp dụng cơng thức tính độ tương đồng đối tượng cụm, độ chồng cụm F hiệu hai thuộc tính độ nén độ chồng cụm (công thức nêu mục 2.2.4), luận văn tính độ chồng đối tượng x j với T0 = 0.1, tính hàm F tương ứng với số cụm c=[3,7], kết bảng 3.2 sau: 22 Bảng 3.2 Kết tính F với số cụm c=[3,7] c Compactness (c, U) 1,337962 Overlap (c,U) 0,266365 F 1,071597 2,000024 1,151229 0,848795 2,178677 1,768209 0,410468 2,644531 3,049731 -0,4052 2,845703 3,949323 -1,10362 Số cụm c tối ưu hàm F đạt giá trị cực đại Dựa vào kết bảng 3.2, nhận thấy: phạm vi toán nêu mục 3.1 tập liệu mẫu data.csv đặt mục 3.2, số cụm tối ưu c = 3.5 Kết thực nghiệm Trong phần thực nghiệm, luận văn áp dụng thuật toán FCM với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = Môi trường lập trình Matlab, với cấu hình máy tính: Ram 4GB, tốc độ xử CPU 2.30 GHz 3.5.1 3.5.1.1 Kết phân loại doanh nghiệp Kết phân cụm tập liệu data.csv Kết phân cụm doanh nghiệp rủi ro vi phạm với tập liệu data.scv với số cụm c = thể bảng 3.2 hình 3.2 đây: Bảng 3.3 Kết phân cụm doanh nghiệp tập liệu data_cum.csv ST T Thứ tự cụm Số doanh nghiệp thuộc cụm 1 568 2 26 3 50 23 Hình 3.2 Kết phân cụm liệu với tập liệu data.csv 3.5.1.2 So sánh kết phân cụm doanh nghiệp với mức rủi ro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia Theo chuyên gia nghiệp vụ thuế, doanh nghiệp rủi ro vi phạm thuế chia làm mức: mức 0, mức mức Luận văn tiến hành thu thập thông tin rủi ro vi phạm thuế 644 doanh nghiệp thuộc tập liệu data.csv (thông tin rủi ro vi phạm tính tốn dựa kinh nghiệm chun gia nghiệp vụ thuế) tiến hành so sánh với kết phân cụm doanh nghiệp (bảng 3.2 mục 3.5.1.1) kết bảng 3.3 sau: Bảng 3.4 So sánh kết phân cụm liệu data.csv với thông tin rủi ro vi phạm thuế STT Thứ tự cụm Số doanh nghiệp thuộc cụm Tỷ lệ liệu so với mức rủi ro vi phạm - Mức 0: 0% 1 568 - Mức 1: 37.68% - Mức 2: 62.32% - Mức 0: 80.77% 2 26 - Mức 1: 19.23% - Mức 2: 0% - Mức 0: 4% 3 50 - Mức 1: 80% - Mức 2: 16% 24 Dựa vào bảng 3.3, nhận thấy đối tượng nhóm có độ tương đồng tương đối cao mức rủi ro vi phạm thuế, đại đa số doanh nghiệp cụm có giá trị mức rủi ro, cụ thể: - Cụm 1: 62.32% doanh nghiệp thuộc mức rủi ro - Cụm 2: 80.77% doanh nghiệp thuộc mức rủi ro - Cụm 3: 80% doanh nghiệp thuộc mức rủi ro 3.5.2 Kết luận Dựa vào kết thực nghiệp, liệu đầu vào, nhận thấy cách chọn tiêu chí, thuộc tính liệu đầu vào cách phân cụm luận văn phù hợp với mục tiêu tốn đặt phân tích thơng tin rủi ro quản thuế Trong công tác quản rủi ro vi phạm thuế nên có giá trị mức rủi ro Các chuyên gia nghiệp vụ thuế xác định mức rủi ro vi phạm thuế doanh nghiệp là: - Mức 0: rủi ro vi phạm thấp – không rủi ro - Mức 1: rủi ro vi phạm vừa - Mức 2: rủi ro vi phạm cao Dựa vào kết phân cụm doanh nghiệm tập liệu data.csv, ta thấy: doanh nghiệprủi ro vi phạm cao thường tập trung cụm nằm gần gốc tọa độ Oxy, doanh nghiệp phân cụm xa gốc tọa độ mức rủi ro vi phạm giảm (xem chi tiết kết phân cụm hình 3.2 bảng 3.3) Kết phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chọn, phân tích thông tin rủi ro quản thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ nghĩa vụ thuế 3.6 Ứng dụng kết thực nghiệm vào toán khoanh vùng, lựa chọn nhóm doanh nghiệp có khả rủi ro vi phạm thuế cao Dựa vào kết thực nghiệm (mục 3.5.2): doanh nghiệprủi ro vi phạm cao thường tập trung cụm liệu nằm gần gốc tọa độ Oxy Luận văn đề xuất phương án khoanh vùng doanh nghiệp có khả rủi ro vi phạm thuế cao tập liệu hình 3.5 sau Trong đó: - Tập doanh nghiệp có khả rủi ro vi phạm thuế cao thuộc tập liệu X jk - Tập liệu đầu vào thu thập từ giá trị tiêu thuộc tờ khai thuế GTGT báo cáo tài doanh nghiệp 25 Hình 3.3 Ứng dụng kết thực nghiệm vào toán khoanh vùng, lựa chọn nhóm doanh nghiệprủi ro vi phạm thuế cao Chú giải: - (1): Xnk tập liệu ban đầu gồm n hàng tương ứng với số doanh nghiệp k cột tương ứng với giá trị tiêu thuộc tờ khai khấu trừ thuế GTGT báo cáo tài doanh nghiệp Ví dụ mục 3.2: Ma trận X tập liệu có n = 644 k = 13 - (2): Áp dụng thuật toán FCM với tập liệu đầu vào X nk tham số phù hợp Chọn số cụm c cho cụm sai khác cụm nhỏ (độ nén lớn) phân tách cụm (độ chồng nhỏ) Với tốn khoanh vùng doanh nghiệp có khả rủi ro vi phạm thuế cao, luận văn gợi ý số cụm c = - (3): vi tâm cụm thứ i di khoảng cách từ tâm cụm thứ i đến gốc tọa độ Oxy - (4): Xjk = X(ci): ma trận liệu cụm thứ i, có khoảng cách tâm cụm gốc tọa độ nhỏ (di nhỏ nhất) Ma trận Xjk gồm j hàng tương ứng với số doanh nghiệp k cột tương ứng với giá trị tiêu thuộc tờ khai GTGT báo cáo tài doanh nghiệp - (5): j số xác định trước Ví dụ cán thuế muốn lựa chọn tra, kiểm tra doanh nghiệp rủi ro vi phạm cao nằm khoảng 500 doanh nghiệp, lựa chọn j nằm khoảng gợi ý từ 600 đến 800 Áp dụng sơ đồ (hình 3.3) với liệu đầu vào sau: - (1): Xnk tập liệu data.csv (tập liệu data.csv tả mục 3.2) 26 Chọn j = [100, 200] - (2): Áp dụng thuật tốn FCM mơi trường Matlab với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = - Kết mong muốn: Tập liệu doanh nghiệp rủi ro vi phạm X jk với j = [100, 200] số doanh nghiệp rủi ro vi phạm cao chiếm ≥ 70% tập liệu X jk  Kết thực nghiệm: - Áp dụng quy trình hình 3.3 lần 1: Xjk(1) chứa 568 doanh nghiệp hình 3.4 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) Hình 3.4 tập liệu Xjk(1) - Áp dụng quy trình hình 3.3 lần (X nk = Xjk(1)): Xjk(2) chứa 425 doanh nghiệp hình 3.5 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) 27 Hình 3.5 tập liệu Xjk(2) - Áp dụng quy trình hình 3.3 lần (X nk = Xjk(2)): Xjk(3) chứa 255 doanh nghiệp hình 3.6 (các đối tượng thuộc tệp có dạng chấm màu xanh lá) Hình 3.6 tập liệu Xjk(2) - Tương tự, áp dụng quy trình hình 3.3 lần (X nk = Xjk(3)), áp dụng thuật toán FCM với số cụm c =2 (do lúc số liệu thuộc tập X 257 doanh nghiệp, nên luận văn lựa chọn chia làm cụm) Kết thu được: Xjk(4) chứa 148 nghiệp, thỏa mãn j = [100, 200] - Tính tỷ lệ doanh nghiệp rủi ro vi phạm cao tập liệu nhận cách map tương ứng MST doanh nghiệp với tập liệu data.csv ban đầu để lấy mức rủi ro Ta kết sau: Tập Xjk(4) có chứa: 70.27% (104/148) doanh nghiệp rủi ro vi phạm cao 29.737 % (44/148) doanh nghiệp rủi ro vi phạm vừa Thỏa mãn kết mong muốn 28 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Ngày nay, khai phá liệu lĩnh vực thời ngành công nghệ thông tin giới nói chung Việt Nam nói riêng Khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực đời sống Một toán quan trọng lĩnh vực khai phá liệu toán phân cụm liệu Phân cụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tương tự đối tượng liệu Trong kỹ thuật phân cụm liệu, kỹ thuật phân cụm liệu theo hướng tiếp cận mờ lĩnh vực nghiên cứu rộng lớn đầy triển vọng Với đề tài “Ứng dụng phương pháp phân cụm mờ cho tốn phân tích thơng tin rủi ro quản thuế” , luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: - Nắm bắt khái niệm liên quan đến khai phá liệu, phân cụm liệu - Phân tích số phương pháp phân cụm liệu như: phương pháp phân cụm phân hoạch, phương pháp phân cụm phân cấp, phương pháp tiếp cận dựa mật độ, phương pháp phân cụm dựa lưới phương pháp phân cụm dựa hình - Tìm hiểu số phương pháp xác định số cụm gom cụm liệu dựa phương pháp truyền thống, phương pháp Eblow, phương pháp phê duyệt chéo phương pháp xác định số cụm dựa độ chồng, độ nén liệu - Tìm hiểu thuật tốn phân cụm mờ FCM, cài đặt thuật tốn mơi trường Matlab thử nghiệm phân cụm doanh nghiệp rủi ro vi phạm thuộc liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp - Phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chọn, phân tích thông tin rủi ro quản thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ nghĩa vụ thuế Tuy nhiên bên cạnh kết đạt em tự thấy luận văn nhiều hạn chế mặt trình bày vấn đề hiểu, chương trình thử nghiệm dừng thuật tốn phân cụm, liệu đầu vào nhiều hạn chế Thời gian nghiên cứu trình độ thân có hạn nên khơng thể tránh hỏi thiếu sót, mong nhận ý kiến đóng góp từ quý thầy cô, anh chị bạn HƯỚNG PHÁT TRIỂN Trên sở nghiên cứu tìm hiểu luận văn, thời gian tới em định hướng tiếp tục nghiên cứu, mở rộng đề tài cách nghiên cứu kỹ thuật khai phá liệu khác Nghiên cứu thêm số kỹ thuật phân cụm đặc biệt phân cụm mờ ứng dụng vào số toán thực tế 29 TÀI LIỆU THAM KHẢO Tiếng Việt An Hồng Sơn (2008), Nghiên cứu số phương pháp phân cụm mờ ứng dụng, Đại học Thái Nguyên Nguyễn Trung Đức (2013), Tiếp cận mờ phân cụm liệu, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Đặng Tiến Dũng (2003), Tìm hiểu khái niệm quản quản thuế, Tạp chí thuế nhà nước Lê Tuấn Tú (2011), Nghiên cứu xây dựng luật mờ từ liệu theo phân cụm – ĐH Công nghệ thông tin Truyền thông Phạm Thị Thu (2007), Thuật toán phân cụm liệu mờ, Trường Đại học dân lập Hải Phòng Nguyễn Trung Sơn (2009), Phương pháp phân cụm ứng dụng, luận văn thạc sĩ Khoa học máy tính Trần Nguyên Hương (2009), Một số thuật toán phân cụm Data mining Trần Thị Yến (2012), Phân cụm liệu trừ mờ ứng dụng, luận văn thạc sĩ Công nghệ thông tin Vũ Hải Thuyết (2012), Nghiên cứu số giải thuật phân cụm liệu, luận văn thạc sĩ chuyên ngành Truyền liệu mạng máy tính 10 Vũ Minh Đơng (2010), Một số phương pháp phân cụm liệu, Đại học dân lập Hải Phòng 11 Nguyễn Hồng Tú Anh (2009), Giáo trình Khai thác liệu ứng dụng, Đại học KHTN Tp Hồ Chí Minh 12 Nguyễn Thế Đạt (2017), Nghiên cứu hình phân cụm có thứ bậc đồ thị liệu, Đại học Công nghệ thông tin Truyền thông 13 Hoàng Thị Minh Châu (2010), Các giải pháp cải tiến thuật toán FCM CFCM nhằm tăng tốc độ tính tốn, luận văn thạc sĩ 14 Hồng Văn Dũng (2007), Khai phá liệu web kỹ thuật phân cụm, luận văn thạc sĩ khoa học 15 Hoàng Thị Lan Giao, Trần Tuấn Tài (2011), Ứng dụng phân cụm liệu việc phân tích, đánh giá kết học tập học sinh Tiếng Anh 16 Bezdek, J C., Ehrlich, R., & Full, W (1984), FCM: The fuzzy c-means clustering algorithm, Computers & Geosciences, 10(2-3), 191-203 30 17 Ruspini E.H (1969), A new approach to clustering, Information and Control 18 Dunn J.C (1973), A fuzzy relative of the ISODATA process and its use in detecting compact Well-Separated clusters, Journal of Cybernetics 19 Jiawei Han and Micheline Kamber (2007), Data Mining Concepts and Techniques, Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) 20 W Wang, Y Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol 158, pp 2095-2117 21 K.R Zalik (2010), Cluster validity index for estimation of fuzzy clusters of different sizes and densities, Pattern Recognition 43, pp 3374-3390 22 Q Zhao (2012), Cluster validity in clustering methods, Publications of the University of Eastern Finland 23 D.W Kim, K.H Lee, D Lee (2004), On cluster validity index for estimation of the optimal number of fuzzy clusters, Pattern Recognition 37, pp 2009–2025 Một số trang web 24 http://www.taichinhdientu.vn/tap-chi-efinance/phan-tich-rui-ro-nguoi-nop-thue-mau-choto-con-nguoi-148789.html 25 http://vneconomy.vn/tai-chinh/quan-ly-rui-ro-trong-kiem-tra-thanh-tra-thue-la-gi2016040811092612.htm 26 http://gizteam.com/tong-quan-ve-khai-pha-du-lieu/ 27 http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html 28 https://bienuit.wordpress.com/2013/09/07/quy-trinh-khai-pha-du-lieu-process-of-datamining/ 29 http://ketoanthue24h.com/bao-cao-tai-chinh-la-gi-khai-niem-y-nghia-cua-bctc/ 30 http://www.tuvanluatvietnam.vn/vn/service/thue-gia-tri-gia-tang-30.html ... phân cụm mờ cho tốn phân tích thông tin quản lý rủi ro thuế doanh nghiệp Chương đề cập đến toán phân cụm doanh nghiệp dựa tập liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp. .. thông tin rủi ro vi phạm thuế MỞ ĐẦU Mục tiêu đề tài ứng dụng thuật toán phân cụm mờ phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một sở liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh. .. CHƯƠNG 2: GIỚI THIỆU BÀI TOÁN PHÂN CỤM MỜ VÀ CÁC PHƯƠNG PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU 2.1 Bài toán phân cụm mờ 2.1.1 Giới thiệu phân cụm mờ Phân cụm mờ phương pháp phân cụm liệu mở rộng

Ngày đăng: 18/01/2018, 10:41

Từ khóa liên quan

Mục lục

  • CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

    • 1.1. Giới thiệu về khai phá dữ liệu

      • 1.1.1. Khai phá dữ liệu là gì?

      • 1.1.2. Các giai đoạn của quá trình khai phá dữ liệu

      • 1.2. Tổng quan về phân cụm dữ liệu

        • 1.2.1. Khái niệm phân cụm dữ liệu

        • 1.2.2. Các mục tiêu của phân cụm dữ liệu

        • 1.2.3. Một số ứng dụng của phân cụm dữ liệu

        • 1.2.4. Các yêu cầu của phân cụm dữ liệu

        • 1.3. Một số kỹ thuật tiếp cận trong phân cụm dữ liệu

          • 1.3.1. Phương pháp phân cụm phân hoạch

          • 1.3.2. Phương pháp phân cụm phân cấp

          • 1.3.3. Phương pháp tiếp cận dựa trên mật độ

          • 1.3.4. Phương pháp phân cụm dựa trên lưới

          • 1.3.5. Phương pháp phân cụm dựa trên mô hình

          • CHƯƠNG 2: GIỚI THIỆU BÀI TOÁN PHÂN CỤM MỜ VÀ CÁC PHƯƠNG PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU

            • 2.1. Bài toán phân cụm mờ

              • 2.1.1. Giới thiệu về phân cụm mờ

              • 2.1.2. Thuật toán Fuzzy C-Mean (FCM)

                • 2.1.2.1. Hàm mục tiêu

                • 2.1.2.2. Thuật toán FCM

                • 2.1.2.3. Đánh giá

                • 2.2. Các phương pháp xác định số cụm trong gom cụm dữ liệu

                  • 2.2.1. Xác định số cụm dựa trên phương pháp truyền thống

                  • 2.2.2. Xác định số cụm bằng phương pháp Eblow

                  • 2.2.3. Xác định số cụm dựa trên phương pháp phê duyệt chéo

                  • 2.2.4. Xác định số cụm dựa trên độ chồng và độ nén của dữ liệu

                  • CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TOÁN PHÂN TÍCH THÔNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP

                    • 3.1. Mô tả bài toán

Tài liệu cùng người dùng

Tài liệu liên quan