phân loại khả năng tiếp cận vốn tín chấp của khách hàng trên địa bàn tỉnh hậu giang

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MÔN TOÁN - - LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC PHÂN LOẠI KHẢ NĂNG TIẾP CẬN VỐN TÍN CHẤP CỦA KHÁCH HÀNG TRÊN ĐỊA BÀN TỈNH HẬU GIANG Giáo viên hướng dẫn Ts Võ Văn Tài Sinh viên thực Nguyễn Thị Cẩm Linh Mssv: 1117481 Ngành: Toán Ứng Dụng K37 Cần Thơ – 5/2015 LỜI CẢM ƠN Trên thực tế thành công mà không gắn liền với hổ trợ, giúp đở dù hay nhiều, dù trực tiếp hay gián tiếp Trong suốt trình học tập giãng đường đại học em nhận nhiều quan tâm, giúp đở quý Thầy Cô, gia đình bạn bè Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý thầy cô khoa Khoa học Tự Nhiên – Trường Đại học Cần Thơ với tri thức tâm huyết để truyền đạt vốn kiến thức quý báu cho chúng em suốt trình học tập trường Em xin gởi lời cám ơn đến cô Lê Thị Mỹ Xuân – cố vấn học tập lớp Toán Ứng Dụng K37 Cảm ơn cô dìu dắt chúng em từ ngày em bạn bước chân vào giãng đường đại học đến hôm Em xin cảm ơn TS Võ Văn Tài tận tình dạy em qua học lớp đặc biệt trình chọn đề tài hoàn thành luận văn tốt nghiệp Nếu giúp đở thầy có lẽ em hoàn thành Một lần em xin chân thành cảm ơn Cần Thơ, ngày… Tháng… Năm 2015 Nguyễn Thị Cẩm Linh i MỤC LỤC LỜI CẢM ƠN i MỤC LỤC ii DANH MỤC BẢNG iv PHẦN MỞ ĐẦU 1 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI TRONG VÀ NGOÀI NƯỚC 1.1 Ngoài nước 1.2 Trong nước LÝ DO CHỌN ĐỀ TÀI MỤC TIÊU ĐỀ TÀI PHƯƠNG PHÁP NGHIÊN CỨU ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU CẤU TRÚC CỦA LUẬN VĂN Chương 1: PHÂN LOẠI BẰNG PHƯƠNG PHÁP LOGISTIC VÀ PHƯƠNG PHÁP FISHER 1.1 HỒI QUY LOGISTIC ĐƠN 1.1.1 Số chênh tỷ số số chênh 1.1.2 Mô hình 1.1.3 Xây dựng mô hình hồi quy mẫu 1.2 HỒI QUY LOGISTIC BỘI 1.2.1 Mô hình 1.2.2 Xây dựng mô hình hồi quy mẫu 1.2.3 Ý nghĩa hệ số hồi quy 1.2.4 Vấn đề phân loại 1.2.5 Vấn đề tính toán 1.2.6 Một số vấn đề khác xây dựng mô hình hồi quy logistic 1.3 PHƯƠNG PHÁP FISHER 11 1.3.1 Trường hợp hai tổng thể 11 1.3.2 Trường hợp nhiều tổng thể 12 1.3.3 Vấn đề tính toán 14 Chương 2: PHÂN LOẠI BẰNG PHƯƠNG PHÁP BAYES 17 2.1 TRƯỜNG HỢP HAI TỔNG THỂ 17 2.1.1 Khi quan tâm đến xác suất tiên nghiệm 17 2.1.2 Khi ta không quan tâm đến xác suất tiên nghiệm xác suất tiên nghiệm 18 2.2 TRƯỜNG HỢP NHIỀU HƠN HAI TỔNG THỂ 18 2.2.1 Khi quan tâm đến xác suất tiên nghiệm 18 2.2.2 Hàm phân biệt biến quan sát có phân phối chuẩn 19 ii 2.3 SAI SỐ BAYES 19 2.3.1 Trường hợp hai tổng thể 19 2.3.2 Trường hợp nhiều hai tổng thể 20 2.3.3 Một số kết sai số Bayes 21 2.4 VẤN ĐỀ TÍNH TOÁN TRONG PHƯƠNG PHÁP BAYES 34 2.4.1 Ước lượng hàm mật độ xác suất phương pháp hạt nhân 34 2.4.2 Vấn đề phân loại 37 2.4.3 Vấn đề tính sai số Bayes 38 Chương 3: ĐÁNH GIÁ CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN KHẢ NĂNG TIẾP CẬN VỐN VAY TÍN CHẤP TẠI TỈNH HẬU GIANG 39 3.1 GIỚI THIỆU 39 3.1.1 Tổng quan tỉnh Hậu Giang 39 3.1.2 Giới thiệu vấn đề vai tín chấp ngân hàng 42 3.2 TỔNG QUAN VIỆC THỰC HIỆN 43 3.2.1 Số liệu 43 3.2.2 Phương pháp thực 44 3.2.3 Vấn đề tính toán 45 3.3 KẾT QUẢ THỰC HIỆN 45 3.3.1 Theo phương pháp hồi quy Logistic 45 3.3.2 Phương pháp Fisher 52 3.3.3 Phương pháp Bayes 56 3.4 KẾT LUẬN 57 KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU 59 KẾT LUẬN 59 ĐỊNH HƯỚNG NGHIÊN CỨU 59 TÀI LIỆU THAM KHẢO 60 iii DANH MỤC BẢNG Bảng 3.1 Các biến độc lập khảo sát 44 Bảng 3.2 Hệ số tương quan cặp biến định lượng đưa vào mô hình 45 Bảng 3.3 Bảng phân tích hồi quy Logistic cho biến 47 Bảng 3.4 Tổng hợp trường hợp phân loại phương pháp Logistic 48 Bảng 3.5 Các bảng phân tích hồi quy Logistic cho biến X2, X5, X7 48 Bảng3.6 Tổng hợp trường hợp phân loại phương pháp Fisher 52 Bảng 3.7 Phân loại phương pháp Fisher cho biến H N 53 Bảng 3.8 Bảng tổng hợp sai số trường hợp phân loại 56 Bảng 3.9 Bảng tổng hợp khả phân loại phương pháp 57 iv PHẦN MỞ ĐẦU TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI TRONG VÀ NGOÀI NƯỚC 1.1 Ngoài nước Bài toán phân loại lần đưa Fisher (1936) giải cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt thiết lập ma trận hiệp phương sai hai tổng thể Năm 1948, Rao mở rộng cho trường hợp nhiều hai tổng thể, sở giả thiết ma trận hiệp phương sai tổng thể Một phương pháp khác, phương pháp thống kê Kendall (1973) đề nghị Nhưng phương pháp mang tính chất thủ công, phức tạp mà thực tế gần thực Một số khía cạnh liên quan toán phân loại đề cập 1970 mà máy tính chưa phát triển Rất nhiều tài liệu có Fukunaga (1990), McLachlan (1992), Webb (2002), tổng kết kết đạt toán phân loại Trong tài liệu hồi quy logistic đề cập phương pháp phân loại hiệu Dựa vào thống kê Bayes, phương pháp phân loại Bayes đời Phương pháp xem có nhiều ưu điểm giải yêu cầu đặt toán phân loại Tìm thuật toán, đồng thời đưa biểu thức tính sai số phân loại Hiện kết mặt lý thuyết vấn đề phân loại tập trung vào phương pháp Bayes Tuy nhiên vấn đề giải mang tính chất lý thuyết, việc tính toán thực tế khó khăn tính chất phức tạp tiêu chuẩn, hay tính tích phân 1.2 Trong nước Trong nước chưa tìm thấy đóng góp mặt lý thuyết cho toán phân loại, nhiên vấn đề ứng dụng cho toán quan tâm nhiều, lĩnh vực kinh tế Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008) áp dụng toán phân loại kinh tế Một số tác giả khác áp dụng toán phân loại y học với việc xem xét bệnh viêm não Nhật Bản, nguy gãy xương,… Tuy nhiên ứng dụng nước sử dụng phương pháp phân loại Logistic mà chưa xem xét kết hợp với phương pháp khác để có mô hình phân loại tối ưu LÝ DO CHỌN ĐỀ TÀI Ngày thống kê có vai trò quan trọng nghiên cứu khoa học tất lĩnh vực, lĩnh vực thực nghiệm Nó có đóng góp thiếu việc hoạch định chiến lược phát triển kinh tế xã hội địa phương quốc gia Vai trò thống kê không tổng hợp số mà điều quan trọng từ số ta dự đoán xu hướng phát triển tương lai Hiện việc dự báo có ý nghĩa quan trọng lĩnh vực Không phủ định việc dự báo đem lại lợi ích lớn phát triển kinh tế xã hội Dự báo tốt giúp tổ chức hoạch định hướng xây dựng chiến lược phát triển phù hợp Cho đến dự báo môn khoa học vô phức tạp, đòi hỏi nhiều kinh nghiệm kiến thức liên quan Trong kinh tế, đặc biệt từ sau gia nhập WTO, ngân hàng thương mại với vai trò cung ứng tín dụng có đóng góp quan trọng phát triển đội ngũ doanh nghiệp góp phần đẩy nhanh tiến trình công nghiệp hóa đại hóa đất nước Trong cung cấp tín dụng có hình thức vay có nhiều ưu điểm chưa đẩy mạnh vay tín chấp Nhằm giúp ngân hàng có cách nhìn tổng thể yếu tố ảnh hưởng đến khả tiếp cận vốn vay tín chấp em chọn đề tài: Đánh giá yếu tố ảnh hưởng đến khả tiếp cận vốn vay tín chấp địa bàn tỉnh Hậu Giang qua mô hình toán phân loại MỤC TIÊU ĐỀ TÀI Tổng hợp phương pháp phân loại, vấn đề tính toán với số liệu lớn để áp dụng cụ thể lĩnh vực ngân hàng Đánh giá yếu tố ảnh hưởng đến khả tiếp cận vốn vay tín chấp PHƯƠNG PHÁP NGHIÊN CỨU Tổng hợp tài liệu phương pháp phân loại, phân tích, vận dụng giải vấn đề thực tế với số liệu lớn Sử dụng phần mềm thống kê SPSS, phần mềm Matlab thực việc xử lý số liệu tính toán Sử dụng tiêu chuẩn xác suất sai lầm phân loại để lựa chọn mô hình phù hợp ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU a) Đối tượng nghiên cứu Các phương pháp phân loại ứng dụng ngân hàng b) Phạm vi nghiên cứu Vấn đề tính toán phương pháp phân loại số liệu thứ cấp thu thập vấn đề vay tín chấp CẤU TRÚC CỦA LUẬN VĂN Chương 1: Phân loại phương pháp logistic phương pháp Fisher Trình bày mô hình vấn đề liên quan đến phương pháp hồi quy Logistic phương pháp Fisher Các vấn đề liên quan đến việc tính toán phân loại hai phương pháp Chương 2: Phân loại phương pháp Bayes Trình bày trường hợp toán phân loại phương pháp Bayes, vấn đề tính toán, phân loại Ở thiết lập chương trình liên quan đến việc tính cho phương pháp phân loại phần mềm Matlab Đó chương trình ước lượng hàm mật độ xác suất n chiều, chương trình tính sai số Bayes, phương pháp Bayes Trong chương trình bày số kết sai số Bayes, việc tính sai số Bayes số kết liên quan đến sai số Bayes Chương 3: Đánh giá yếu tố ảnh hưởng đến khả tiếp cận vốn vay tín chấp tỉnh Hậu Giang Trình bày sơ lược tỉnh Hậu Giang vấn đề vay tín chấp ngân hàng; tổng quan việc thực đánh giá khả trả nợ khách hàng theo phương pháp: Fisher, Logistic Bayses Thực phương pháp sử dụng phần mềm trình bày chương 1, 2; sau phân tích kết nhận đưa nhận xét phương pháp Sau nhận xét cách tổng quan kết đạt phương pháp Chương PHÂN LOẠI BẰNG PHƯƠNG PHÁP LOGISTIC VÀ PHƯƠNG PHÁP FISHER 1.1 HỒI QUY LOGISTIC ĐƠN Hồi quy Logistic mô hình hồi quy mà biến phụ thuộc Y biến nhị phân Theo Y có giá trị thường mã hoá ( y  gọi lớp thành công; y  gọi lớp thất bại) Biến độc lập hồi quy logistic biến rời rạc liên tục, biến đơn đa biến số Hồi quy Logistic xây dựng tảng mô hình hồi quy phổ biến, đặc biệt hồi quy tuyến tính 1.1.1 Số chênh tỷ số số chênh Định nghĩa 1.1 Số chênh biến cố xảy định nghĩa tỷ số xác suất biến cố xảy với xác suất biến cố không xảy Kí hiệu: Số chênh biến cố A kí hiệu odds  A Như odds  A  P  A  P  A Định nghĩa 1.2 Tỷ số số chênh hai biến cố A B xảy tỷ số odds  A odds  B  Kí hiệu: OR  A, B  Như OR  A, B   odds  A P  A  P  B   odds  B   P  A P  B  Nhận xét: Số chênh biến cố xảy số so sánh số lần xác suất xảy không xảy biến cố Trong OR  A, B  số so sánh số lần odds  A odds  B  1.1.2 Mô hình Xét hai biến X , Y Y biến phụ thuộc nhận giá trị 1, X biến độc lập Gọi P( X )  P(Y  1| X ) xác suất có điều kiện Y  X xảy Vì P( X ) [0,1] mà X  R nên ta không tìm mối P( X ) X Vì ta tìm  P( X )  mối quan hệ ln  odds( P( X )  ln   X , giả sử quan hệ 1  P ( X )  tuyến tính  P( X )  ln  odds( P( X )  ln      1 X 1  P ( X )  (1.1) P( X )  e   X  P( X ) hay (1.2) Mô hình (1.1), (1.2) gọi mô hình hồi quy logistic đơn với  gọi điểm chắn, 1 gọi độ dốc 1.1.3 Xây dựng mô hình hồi quy mẫu Giả sử ta có n mẫu quan sát ( xi , pi ), i  1, n, pi  pi ( x) Giả sử phân phối điều kiện yi xi xảy phân phối nhị thức B(1, pi ) với  p  ln  i     1 xi   pi  Gọi ˆ0 , ˆ1 ước lượng hợp lí cực đại 0 , 1 Đường hồi quy mẫu  p ( x)  ˆ ˆ ln      1 x  p ( x )   Ta suy ˆ p( x)  ˆ e   x ,1  p ( x )  ˆ ˆ ˆ ˆ  e  x  e  x 1 Hàm hợp lí n L( ˆ0 , ˆ1 )   p (1  pi ) i 1  n  i 1 n ˆ ˆ e y  x y i i i  1  e i 1 ˆ  ˆ x i yi 1 y  e ˆ  ˆ x      ˆ  ˆ x   ˆ  ˆ x  i 1   e   1 e n 1 yi yi i 0   i i i n  n  exp  ˆ0  yi  ˆ1  xi yi  i 1  i 1   n ˆ ˆ   e  x i 1  i  i X4 X5 X6 X7 X8 X9 Pearson Correla tion Sig (2tailed) N Pearson Correla tion Sig (2tailed) N Pearson Correla tion Sig (2tailed) N Pearson Correla tion Sig (2tailed) N Pearson Correla tion Sig (2tailed) N Pearson Correla tion Sig (2tailed) N -.006 078 -.024 936 277 735 195 195 195 195 206** 385** -.083 141* 004 000 249 050 195 195 195 195 223** 207** 070 141* 067 -.053 010 160* 050 354 461 893 025 195 195 195 195 195 195 067 285** 002 004 329 354 000 195 195 195 195 195 315** 259** 351** -.053 -.016 285** -.016 036 -.086 000 823 613 233 195 195 195 195 151* 070 -.025 035 331 730 195 195 195 195 151* 000 000 000 461 823 035 195 195 195 195 195 195 124 102 -.079 010 036 085 156 271 893 195 195 195 195 000 145* -.012 043 863 195 195 195 070 145* -.075 613 331 043 195 195 195 -.055 004 160* -.086 -.025 -.012 -.075 996 449 959 025 233 730 863 300 195 195 195 195 195 195 195 195 300 195 195 195 Bảng 3.2 cho ta thấy tất biến độc lập tương quan chặt chẽ với (hệ số tương quan nhỏ 0.8) Điều cho thấy mô hình 46 không xảy tượng đa cộng tuyến Tiến hành phân tích hồi quy Logistic phần mềm SPSS, ta có kết xử lý cho bảng tổng hợp sau: Bảng 3.3 Bảng phân tích hồi quy Logistic cho biến Variables in the Equation B S.E Wald Df Sig Exp(B) X1 -.048 427 012 911 953 X2 070 079 788 1.072 375 X3 399 413 934 334 1.491 X4 -.230 328 494 482 794 X5 178 056 10.215 1.195 001 Step 1a X6 030 040 560 454 1.030 X7 806 346 5.418 2.239 020 X8 20.456 1.950E4 000 999 7.655E8 X9 -.133 330 162 687 876 Constant -46.224 3.901E4 000 999 000 a.Variable(s) entered on step 1: X1, X2, X3, X4, X5, X6, X7, X8, X9 Bảng 3.3 cho ta thấy có biến kinh nghiệm (X5) trình độ học vấn (X7) có ý nghĩa thống kê 5% đưa vào mô hình, biến lại gồm lòng tin cậy (X1), thông tin đối tượng vay (X3), giới tính (X4), tham gia lớp bồi dưỡng (X6), hình thức nhận lương (X8) nguồn thu nhập gia đình (X9) ý nghĩa mức 5% Điều cho thấy biến không đóng vai trò quan trọng khả vay tín chấp khảo sát Tuy nhiên theo ý kiến chuyên gia tín dụng ta thấy biến tiền gửi tiết kiệm (X2) ảnh hưởng đến khả vay tín chấp Chính phương pháp phía sau luận văn sử dụng biến để thực toán phân loại b) Khảo sát khả phân loại Thực phân tích phần mềm SPSS cho ta bảng tổng kết trường hợp sau: 47 Bảng 3.4 Tổng hợp trường hợp phân loại phương pháp Logistic Trường hợp biến biến biến Biến X2 X5 X7 X2 X5 X2 X7 X5 X7 X2, X5 X7 Chisquare 14.246 19.962 15.297 25.500 23.965 37.138 38.694 -2Log likelihood sig 256.076 250.360 255.026 244.822 246.357 233.185 231.628 0.000 0.000 0.000 0.000 0.000 0.000 0.000 Khả phân loại 63.1% 61.5% 58.5% 66.7% 62.1% 67.2% 66.7% Nhận xét: Bảng 3.4 cho ta kết luận cụ thể sau: - Khả phân loại tất trường hợp không chênh lệnh nhiều - Các mô hình tất trường hợp có sig < 5% nên có ý nghĩa thống kê - Giá trị -2Log likelihood trường hợp sử dụng biến X2, X5 X7 nhỏ giá trị Chi-square lớn mô hình hồi quy Logistic với biến xem phù hợp Tiến hành phân tích cụ thể phương pháp hồi quy Logistic cho trường hợp biến X2, X5 X7 phần mềm SPSS ta có bảng kết sau: Bảng 3.5 Các bảng phân tích hồi quy Logistic cho biến X2, X5, X7 Bảng 3.5.a Omnibus Tests of Model Coefficients Chi-square Df Sig Step 38.694 000 Step Block 38.694 000 Model 38.694 000 Bảng 3.5.b Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 231.628a 180 240 a Estimation terminated at iteration number because parameter estimates changed by less than 001 48 Bảng 3.5.c Classification Tablea Observed Kha nang tiep can von Khong tin chap Step Co Overall Percentage a The cut value is 500 Bảng 3.5.d Predicted Kha nang tiep can von Percentage tin chap Correct Khong Co 67 30 69.1 35 63 64.3 66.7 Variables in the Equation B S.E Wald Df X2 082 067 1.494 X5 178 050 12.610 Step 1a X7 1.011 339 8.897 Constant -6.323 1.680 14.162 a Variable(s) entered on step 1: X2, X5, X7 Sig .222 000 003 000 Exp(B) 1.085 1.195 2.748 002  Từ bảng ta có nhận xét sau: Kiểm định Chi bình phương cho giá trị quan sát 38.694: Mô hình có biến độc lập tồn mối liên hệ tuyến tính với khả vay tín chấp khách hàng với mức ý nghĩa 5% Với giá trị -2 Log likelihood =231.628 lần cho thấy có tồn mối tương quan biến độc lập xác xuất vay tín chấp cá nhân mức tương đối chấp nhận Dựa vào số Classification Table cho thấy mức độ xác toàn mô hình 66.7% Kiểm định Wald ý nghĩa hệ số hồi qui tổng thể biến X5 X7 có ý nghĩa mức 5% nên ta bác bỏ giả thuyết H, có nghĩa hệ số hồi qui có ý nghĩa mô hình sử dụng tốt 49 Với kết mô hình hồi quy Logistic viết  p  Ln    6.323  0.082 X  0.178 X  1.011X  1 p  Hoặc p = exp(-6.323+0.082X2+0.178X5+1.011X7) 1 p Ta có: Tỉ số Odds X2 exp(0.082)=1.085 Tỉ số Odds X5 exp(0.178)=1.195 Tỉ số Odds X7 exp(1.011)=2.748 Với độ tin cậy 95%, yếu tố khác không đổi biến X5 có tương quan tỷ lệ thuận với khả vay tín chấp khách hàng với mức ý nghĩa 5% Với Exp(B) = 1.085 X2 gia tăng 01 đơn vị khả vay tín chấp khách hàng tăng lên 1.085 lần (b) Giải thích (b) Xét X2 điều kiện cố định biến khác, ta có: Odds(X2) = exp(-6.323+0.082X2) Khi X2 = X2+1 (X2 tăng thêm đơn vị), ta có: Odds(X2+1) = exp(-6.323+0.082(X2+1)) Và tỉ số hai xác suất vay thể exp(6.323  0.082( X  1)) Odds( X  1)  exp(0.082) = exp(6.323  0.082 X 2) Odds( X 2) exp(0.082) gọi tỷ số OR (tỷ số khả dĩ), hay nói cách khác hệ số β mô hình là tỷ số OR Với hệ số β X2 số dương cho thấy mối liên hệ xác suất vay tín chấp khách hàng X2 mối liên hệ thuận (khả vay tín chấp tăng X2 tăng) Có thể giải thích, khách hàng có tiền gửi tiết kiệm cao có khả trả nợ vay Cũng theo chuyên gia tư vấn điều phù hợp với thực tiễn sống Khi yếu tố khác không đổi, biến X5 có tương quan tỷ lệ thuận với khả vay tín chấp khách hàng với mức ý nghĩa 5% Với Exp(B) = 1.195 X5 gia 50 tăng 01 đơn vị khả vay tín chấp khách hàng tăng lên 1.195 lần Khi yếu tố khác không đổi, biến X7 có tương quan tỷ lệ thuận với khả vay tín chấp khách hàng với mức ý nghĩa 5% Với Exp(B) = 2.748 X7 gia tăng 01 đơn vị khả vay tín chấp khách hàng tăng lên 2.748 lần Có cách khác để đánh giá khả dự báo mô hình thông qua biểu đồ phân phối xác suất, cụ thể qua đồ thị sau: Hình 3.2: Kết kiểm định tính xác mô hình biến Theo đồ thị trên, trục hoành biểu diễn xác suất vay tín chấp khách hàng nhận giá trị từ (không vay tín chấp) đến (có vay tín chấp) Trục tung cho thấy tần số trường hợp Đồ thị có phân bố lý tưởng xác suất khách hàng vay (hoặc không vay) tụ lại bên phải (hoặc trái) trục hoành theo lý thuyết mô hình có xác suất dự báo gần với cho kết dự báo tốt trường hợp xác suất tập trung xung quanh điểm phân cách 0.5 Từ đến 0.5 trường hợp khách hàng không vay tín chấp ngược lại từ 0.5 đến có vay tín chấp  Tóm lại: Mô hình sử dụng để đánh giá khả vay tín chấp cá nhân mức độ khá, nhiên biến X2, X5 X7 tác động nhiều đến khả 51 3.3.2 Phương pháp Fisher a) Phương pháp thực Lần lượt thực việc phân loại cho trường hợp biến, biến biến Dựa vào khả phân loại để lựa chọn mô hình phù hợp Việc thực dựa phần mềm SPSS b) Kết thực Thực việc phân tích phần mềm SPSS ta có bảng tóm tắt sau: Bảng3.6 Tổng hợp trường hợp phân loại phương pháp Fisher Trường hợp Biến X2 biến X5 X7 X2, X5 biến X2, X7 X5, X7 biến X2, X5, X7 Hàm phân biệt d1 ( x0 )  0.751X  2.837 d2 ( x0 )  0.946 X  4.095 Khả phân loại 63.1% d1 ( x0 )  0.290 X  1.331 d2 ( x0 )  0.452 X  2.241 d1 ( x0 )  8.904 X  20.935 d2 ( x0 )  9.653 X  24.481 d1 ( x0 )  0.691X  0.127 X  2.946 d2 ( x0 )  0.825 X  0.258 X  4.541 d1 ( x0 )  0.291X  8.675 X  21.242 d2 ( x0 )  0.453 X  9.295 X  25.227 d1 ( x0 )  0.463 X  9.163 X  22.540 d2 ( x0 )  0.641X  10.011X  27.556 d1 ( x0 )  0.057 X  0.449 X  9.110 X  22.550 d2 ( x0 )  0.137 X  0.606 X  9.883 X  27.616 61.5% 58.5% 65.1% 62.1% 66.7% 66.2% Nhận xét: Dựa vào bảng 3.6 ta thấy trường hợp sử dụng biến X5, X7 trường hợp biến X2, X5, X7 có xác suất phân loại cao Vì ta chọn trường hợp để phân tích chi tiết Ta tiến hành phân tích chi tiết cho truờng hợp biến X5 X7  Sử dụng chương trình SPSS SPSS đưa nhiều bảng Ở đây, quan tâm số bảng quan trọng sau: 52 Bảng 3.7 Phân loại phương pháp Fisher cho biến H N Bảng 3.7.a Group Statistics Kha nang tiep can von tin chap Kinh nghiem (nam) Trinh hoc van Kinh nghiem (nam) Co Trinh hoc van Kinh nghiem (nam) Total Trinh hoc van Bảng 3.7.b Khong Mean Std Deviation 4.392 4.546 6.842 4.929 5.623 4.738 3.7046 9577 4.0637 3290 4.0689 7380 Valid N (listwise) Unweighted Weighted 97 97.000 97 97.000 98 98.000 98 98.000 195 195.000 195 195.000 Covariance Matricesa Kha nang tiep can von tin chap Kinh nghiem (nam) Trinh hoc van Kinh nghiem (nam) 16.556 -.049 Total Trinh hoc van -.049 545 a The total covariance matrix has 194 degrees of freedom Bảng 3.7.c Pooled Within-Groups Matricesa Kinh nghiem (nam) Trinh hoc van Kinh nghiem (nam) 15.126 -.285 Covariance Trinh hoc van -.285 511 a The covariance matrix has 193 degrees of freedom Bảng 3.7.d Classification Function Coefficients Kha nang tiep can von tin chap Khong Co Kinh nghiem (nam) 463 641 Trinh hoc van 9.163 10.011 (Constant) -22.540 -27.556 Fisher's linear discriminant functions 53 Bảng 3.7.e Prior Probabilities for Groups Cases Used in Analysis Kha nang tiep can von tin chap Prior Unweighted Weighted Khong 500 97 97.000 Co 500 98 98.000 Total 1.000 195 195.000 Bảng 3.7.f Classification Resultsa Kha nang tiep can von Predicted Group Membership tin chap Khong Co Khong 68 29 Count Co 36 62 Original Khong 70.1 29.9 % Co 36.7 63.3 a 66.7% of original grouped cases correctly classified Total 97 98 100.0 100.0 Giải thích bảng đọc kết Bảng Group Statistics: Cho ta biết trung bình độ lệch chuẩn tổng thể Theo trên, ta có:  4.392 6.842  1   , 2      4.546  4.929 3.705   4.064  1   , 2     0.958 0.329  Ma trận hiệp phương sai chung tổng thể ma trận nghịch đảo 15.126  0.285 S   0.285 0.511  Bảng Classification Function Coefficents: Cho ta biết hệ số hàm phân biệt Fisher.Theo trên, ta có Hàm phân biệt tổng thể w1 d1 ( x0 )  0.463 X  9.163 X  22.540 54 Hàm phân biệt tổng thể w2 d2 ( x0 )  0.641X  10.011X  27.556 Bảng Prior Probabilities for Groups: Cho biết xác suất tiên nghiệm chọn cho nhóm Ở đây, ta có q1  q1  0.5 Bảng Classification Results: Do bước nên sau phân tích, SPSS tiến hành tiên đoán lại phần tử thuộc tổng thể nào? Và tính xác suất phân loại cho phần tử Theo bảng việc phân loại 66.7% Hình 3.3 Bảng liệu sau chạy chương trình SPSS cho biến X5 X7 đó, Cột Dis_1 (Predicted Group): Tiên đoán phân loại phân tử vào nhóm, Cột Dis1_1 (Discriminant Scores): Điểm phân loại, Cột Dis1_2 (Probabilities of Members in Group 0): Xác suất phân loại phần tử vào nhóm “KVTC”, Cột Dis2_2 (Probabilities of Members in Group 1): Xác suất phân loại phần tử vào nhóm “VTC” Cụ thể, xét phần tử số ta thấy xác suất để phần tử rơi vào nhóm 0.3048, xác suất phần tử số rơi vào nhóm 0.6952 Vậy, phần tử số tiên đoán thuộc nhóm “VTC” (nhóm 1) 55 1 Giả sử người có x0    người thuộc nhóm nào? Sử dụng hàm  phân biệt ta có d1 ( x0 )  0.463  9.163  22.540  12.914 d2 ( x0 )  0.641  10.011  27.556  16.904 1 Như vậy, ta có d1 ( x0 )  12.914 Do đó, ta xếp người có x0     vào nhóm “KVTC” 3.3.3 Phương pháp Bayes a) Phương pháp thực Lần lượt thực việc phân loại cho trường hợp biến, hai biến ba biến Mỗi trường hợp việc tính toán sử dụng chương trình viết phần mềm Matlab để thực Trong ba trường hợp hàm mật độ xác suất ước lượng theo phương pháp hàm hạt nhân với tham số trơn chọn theo Scott (1992) hàm hạt nhân chọn dạng chuẩn b) Kết thực Từ số liệu phụ lục, sử dụng chương trình để ước lượng hàm mật độ xác suất chiều với biến X2, X5 X7; sử dụng chương trình để ước lượng hàm mật độ xác suất chiều với biến X2 X5, X2 X7, X5 X7; sử dụng chương trình để ước lượng xác suất chiều cho biến X2, X5 X7 Sử dụng chương trình tính sai số Bayes mục 2.4.3 với hàm mật độ xác suất ước lượng ta có bảng tóm tắt sau: Bảng 3.8 Bảng tổng hợp sai số trường hợp phân loại Trường hợp X2 biến X5 X7 X2 X5 biến X2 X7 X5 X7 biến X2, X5 X7 Sai số 0.3731 0.2300 0.1894 0.4960 0.5430 0.3320 0.2350 Nhận xét: Qua bảng 3.8 ta thấy sử dụng phương pháp Bayes để phân loại khách hàng trường hợp sử dụng biến X7 có sai số Bayes thấp 56 2.5 1.5 0.5 0 10 Hình 3.4 Đồ thị hàm mật độ xác suất biến X7 3.4 KẾT LUẬN Từ phương pháp thực cho liệu, có kết luận sau: i) Trong biến khảo sát có biến X2, X5, X7 có nhiều ảnh hưởng đến khả vay tín chấp khách hàng, biến có ý nghĩa thống kê 5% đưa vào mô hình ii) Khả phân loại phương pháp trường hợp cho bảng tóm tắt sau: Bảng 3.9 Bảng tổng hợp khả phân loại phương pháp Phương pháp Hồi quy Logistic Fisher Bayes Khả phân loại biến biến biến 63.1% 67.2% 66.7% 63.1% 66.7% 66.2% 79.8% 66.8% 76.5% Bảng 3.9 cho ta thấy, phân loại sử dụng biến, biến biến mô hình Bayes cho ta xác suất phân loại tốt Như so với phương pháp Fisher, phương pháp hồi quy Logistic phương pháp Bayes có nhiều ưu điểm Khả phân loại hai phương pháp Fisher Logistic chênh lệch nhiều, khả phân loại cao 79.8% cho trường hợp sử dụng biến trình độ học vấn 57 (X7) phương pháp Bayes 58 KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU KẾT LUẬN Luận văn làm công việc sau: - Tổng kết cách có hệ thống phương pháp phân loại: phương pháp Fisher, phương pháp hồi quy Logistic phương pháp Bayes - Ứng dụng phương pháp phân loại vào việc đánh giá khả tiếp cận vốn vay tín chấp địa bàn tỉnh Hậu Giang ĐỊNH HƯỚNG NGHIÊN CỨU Trong thời gian tới em tiếp tục nghiên cứu vấn đề sau: - Tìm hiểu kỹ lý thuyết liên quan đến phương pháp phân loại, tìm hiểu thêm phương pháp phân loại khác - Ứng dụng phương pháp phân loại vào toán khác thực tế có yêu cầu 59 TÀI LIỆU THAM KHẢO A Tiếng Việt [1] Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Phương pháp thống kê xây dựng mô hình định mức tín nhiệm khách hàng nhân, Tạp chí ứng dụng toán học 4(2), tr 1-16 [2] Võ Văn Tài Tô Anh Dũng (2009), Sử dụng hàm cực đại toán nhận dạng, Tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, số 12(7): 21 – 30 [3] Võ Văn Tài Tô Anh Dũng (2012), Khoảng cách L1 phân tích phân biệt, Tạp chí ứng dụng toán học, số 1:15 – 36 [4] Võ Văn Tài Trần Phước Lộc (2012), Giáo trình Nhận dạng thống Kê, NXB Đại học Cần Thơ 148 trang [5] Hoàng Trọng Chu Nguyễn Mộng Ngọc (2008), Phân tích liệu nghiên cứu với SPSS (tập 1), NXB Hồng Đức 295 trang [6] Hoàng Trọng Chu Nguyễn Mộng Ngọc (2008), Phân tích liệu nghiên cứu với SPSS (tập 2), NXB Hồng Đức 197 trang [7] Tô Cẩm Tú Nguyễn Huy Hoàng (2003), Phân tích số liệu nhiều chiều, NXB Khoa học Kỹ thuật, Hà Nội 520 trang B Tếng Anh [8] Andrew W (2002), Statistical pattern recognition, John Wiley & Sons, pp.490 [9] Glick, N (1973), Separation and probability of correct classification among two or more distributions, Annals Inst Stat Math., 25, pp.373–382 [10] Pham–Gia,T and Turkkan, N., Baysian analysis in the L1– norm of the mixing proportion using discriminant analysis, Metrika, 64(1),2006, pp.1–22 [11] Pham–Gia,T.,Turkkan, N and Bekker,A (2006), Bounds for the Bayes error in classification: A Bayesian approach using discriminant analysis, Statistical Methods Statistical Methods and Applications,16:pp.7 – 26 [12] Pham–Gia, T Turkkan, N and Tai, Vovan (2008), The maximum function in statistical discrimination analysis, Commun in Stat –Simulation computation, 37(2):pp 320 – 336 [13] Richard.O.D, E.H.Peter and G.S.David (2001), Pattern classification, John Wiley & Sons,pp.654 60 [...]... Chúng ta có thể tính xấp xỉ như sau: Y j   ln Y  Y X j X j Với X j thể hiện mức tăng của X j và 7 Y Y thể hiện tốc độ tăng của Y (1.4) Khi X j  1 thì  j  Y Y Với biểu thức này có thể giải thích ý nghĩa của  j (j  1, k ) như sau: trong điều kiện các nhân tố khác khơng đổi, khi X j tăng lên 1 đơn vị ( theo đơn vị tính của X j ) thì Y sẽ tăng lên  j % 1.2.4 Vấn đề phân loại Khi tìm được...  1 và  2 ;  1 và  2 được gọi chung là hai thành phần của sai số Bayes 2.3.2 Trường hợp nhiều hơn hai tổng thể a) Định nghĩa Sai số Bayes trong phân loại k tổng thể được định nghĩa bởi biểu thức k (q) Pe1,2, , k  i 1 R  n qi fi  x  dx \ Rin Ở trường hợp này, thay vì tính xác suất sai lầm, người ta thường tính xác (q) suất của sự phân loại đúng Pc1,2, , k như sau: k ( q) Pc1,2, , k    qi... fi  x  q j  f j  x  qi trong đó qi  P(wi ) : Xác suất tiên nghiệm của tổng thể thứ i , fi  x  : Hàm mật độ xác suất của tổng thể thứ i 18 (2.6) 2.2.2 Hàm phân biệt khi biến quan sát có phân phối chuẩn   Chúng ta gọi di  x   ln qi fi  x  là hàm phân biệt của tổng thể thứ i Khi các tổng thể có biến quan sát X có phân phối chuẩn n chiều: f  x  1  2  n 2  1 N 2 T  1  exp   ... bình của w1 và w2 theo biến x Giả sử ma trận hiệp phương sai   E  x    x    T i i  , i  1, 2 bằng nhau  cho cả hai tổng thể Đặt y  l T x , trong đó l T   l1 l2 ln  Ta có: 1 y  l T 1 là trung bình của w1 theo biến y, 2 y  l T 2 là trung bình của w2 theo biến y,   σ y2  Var l T x  l T  l là phương sai bằng nhau của hai tổng thể theo biến y Để tìm hàm phân biệt tuyến tính... phương sai giống nhau thì hàm phân biệt trở thành: 1 di  x    Tj 1 x   Tj 1 j  ln  qi  2 2.3 SAI SỐ BAYES 2.3.1 Trường hợp hai tổng thể Trong trường hợp khơng quan tâm đến xác suất tiên nghiệm q của w1 , ta có 1  P  w2 | w1    f1  x  dx : Xác suất phân loại một phần tử vào R2n thuộc w1 19 w2 khi nó  2  P  w1 | w2    f2  x  dx : Xác suất phân loại một phần tử vào w1 khi... hiệp phương sai của các tổng thể bằng nhau: 1  2   k   Gọi i là véc tơ trung bình của tổng thể thứ i ,  1 k  i là véc tơ trung bình chung của các tổng thể theo biến x k i 1 Đặt y  l T x , khi đó μiy  l T i là trung bình của wi theo biến y , y  1 k iy  l T  là véc tơ trung bình chung của các tổng thể theo  k i 1 biến y , σ y2  l T l là phương sai giống nhau của các tổng thể... kết quả về sai số Bayes a) Trong phân loại hai tổng thể i) Hàm mật độ xác suất của sai số Bayes Định lý 2.1 Gọi X1 và X2 là hai thành phần của sai số Bayes trong cơng thức (2.6) và (2.7), Y là sai số Bayes, Y  X 1  X 2 Giả sử X1 và X2 là 2 biến ngẫu  1 nhiên độc lập trên  0,  có hàm mật độ xác suất lần lượt f1 ( x) và f 2 ( x) , khi đó  4 hàm mật độ xác suất của Y là 21  y 1   f1 (t ) f... mật độ xác suất Trong phần này chúng ta xét bài tốn phân loại cho k tổng thể, k  3 Gọi qi k là xác suất tiên nghiệm của tổng thể thứ i, i = 1, 2, …, k, qi  0,  qi  1 , f i (x ) là i 1 hàm mật độ xác suất của tổng thể thứ i, g i ( x)  qi f i ( x) , g max ( x)  max{ f i ( x)} đặt (q)  (q1 , q 2 , , q k ), Pe1(,q2), ,k là sai số Bayes trong phân loại k tổng thể với xác suất tiên nghiệm (q) Định... sẽ thay thế trung bình tổng thể i bằng trung bình mẫu x i ; ma trận hiệp phương sai  bởi ma trận hiệp phương sai gộp của các tổng thể S Hiện tại các phần mềm thống kê như SPSS, R, Eview,… cũng có các gói phân loại bằng phương pháp Fisher Sử dụng phần mềm SPSS để thực hiện phân loại theo phương pháp Fisher, chúng ta làm như sau: Bước 1: Vào menu Analyze  Classify  Discriminant… Khi đó, hộp thoại... nên thực tế tính tốn người ta sử dụng phần mềm hỗ trợ để tìm ˆ , ˆ 0 1 1.2 HỒI QUY LOGISTIC BỘI 1.2.1 Mơ hình Xét biến phụ thuộc Y và k biến độc lập X1 , X 2 , , X k , trong đó Y chỉ nhận hai giá trị 0 và 1 còn giá trị của X i ảnh hưởng đến giá trị của Y Đặt X   X1 , X 2 , , X k  , gọi P  X   P Y  1 X  là xác suất điều kiện của Y  1 khi X xảy ra Giả sử P  X  có quan hệ tuyến tính với biến ... vay tín chấp Nhằm giúp ngân hàng có cách nhìn tổng thể yếu tố ảnh hưởng đến khả tiếp cận vốn vay tín chấp em chọn đề tài: Đánh giá yếu tố ảnh hưởng đến khả tiếp cận vốn vay tín chấp địa bàn tỉnh. .. ĐÁNH GIÁ CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN KHẢ NĂNG TIẾP CẬN VỐN VAY TÍN CHẤP TẠI TỈNH HẬU GIANG 3.1 GIỚI THIỆU 3.1.1 Tổng quan tỉnh Hậu Giang Về mặt địa lý, Hậu Giang tỉnh trung điểm châu thổ sơng Mêkơng,... HƯỞNG ĐẾN KHẢ NĂNG TIẾP CẬN VỐN VAY TÍN CHẤP TẠI TỈNH HẬU GIANG 39 3.1 GIỚI THIỆU 39 3.1.1 Tổng quan tỉnh Hậu Giang 39 3.1.2 Giới thiệu vấn đề vai tín chấp ngân hàng

phân loại khả năng tiếp cận vốn tín chấp của khách hàng trên địa bàn tỉnh hậu giang

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan