Ứng dụng các giải thuật phân lớp vào bài toán dự đoán rủi ro tín dụng

79 389 0
Ứng dụng các giải thuật phân lớp vào bài toán dự đoán rủi ro tín dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

B GIO DC V O TO TRNG I HC BCH KHOA H NI - TRN QUC HUY NG DNG CC GII THUT PHN LP VO BI TON D ON RI RO TN DNG LUN VN THC S K THUT NGNH CễNG NGH THễNG TIN H Ni Nm 2016 i B GIO DC V O TO TRNG I HC BCH KHOA H NI - TRN QUC HUY NG DNG CC GII THUT PHN LP VO BI TON D ON RI RO TN DNG Chuyờn ngnh: Cụng ngh thụng tin LUN VN THC S K THUT NGNH CễNG NGH THễNG TIN NGI HNG DN KHOA HC: PGS.TS TRN èNH KHANG H Ni Nm 2016 LI CAM OAN Tụi xin cam oan õy l cụng trỡnh nghiờn cu ca riờng tụi Cỏc s liu, kt qu nờu lun l trung thc v cha tng c cụng b bt k cụng trỡnh no khỏc Tỏc gi i MC LC LI CAM OAN ii DANH MC CC Kí HIU V CC CH VIT TT iv DANH MC CC BNG v DANH MC CC HèNH V vi M U CHNG I TNG QUAN PHNG PHP PHN LP 1.1 Bi toỏn phõn lp d liu 1.1.1 nh ngha phõn lp d liu 1.1.2 Bi toỏn phõn lp d liu thc tin 1.1.3 Cỏc bc thc hin ca k thut phõn lp 1.2 Mt s phng phỏp phõn lp d liu 1.2.1 Phng phỏp cõy quyt nh 1.2.2 Phng phỏp thng kờ Navie Bayes 10 1.2.3 Mỏy vector h tr (SVM) 14 1.2.4 Mng n ron nhõn to 19 1.2.5 Phng phỏp phõn lp da trờn lut m 25 1.3 Kt chng 28 CHUONG II BI TON D ON RI RO TN DNG 29 2.1 Phõn loi ri ro tớn dng ngõn hng 29 2.1.1 Cỏc khỏi nim c bn v hot ng tớn dng ngõn hng 29 2.1.2 Cỏc nhúm ri ro tớn dng ngõn hng 32 2.2 Bi toỏn phõn lp ri ro tớn dng ti ngõn hng TMCP i Dng 33 2.2.1 B d liu s dng bi toỏn 34 2.2.2 La chn gii thut gii quyt bi toỏn 36 2.3 Kt chng 36 CHNG III MNG N RON PHN LP M MIN MAX 37 3.1 Khỏi nim hyperbox m 37 3.2 Mng n ron phõn lp m max 39 ii 3.2.1 Kin trỳc mng n ron phõn lp m min-max 39 3.2.2 Thut toỏn hc mng n ron phõn lp m max 40 3.2.3 Nhn xột 43 3.3 Mng n ron phõn lp m max ci tin 44 3.3.1 u vo ca gii thut 44 3.3.2 Kin trỳc 45 3.3.3 Thut toỏn hc mng n ron phõn lp m max ci tin 47 3.3.4 Vớ d minh 52 3.4 p dng gii thut vo bi toỏn ri ro tớn dng ngõn hng TMCP i Dng 56 3.4.1 Miờu t b d liu 56 3.4.2 u vo v u 60 3.5 Kt chng 60 CHNG IV TRIN KHAI NG DNG D ON RI RO TN DNG 61 4.1 Phõn tớch thit k 61 4.1.1 Cỏc ca s dng 61 4.1.2 c t ca s dng 61 4.2 Thc nghim v kt qu 62 4.2.1 Ci t chng trỡnh 62 4.2.2 Phng phỏp thc hin 66 4.2.3 Kt qu 67 4.3 ỏnh giỏ 68 4.3.1 ỏnh giỏ kt qu t c ca ng dng 68 4.3.2 So sỏnh vi cỏc phng phỏp khỏc 68 4.4 Kt chng 69 CHNG V KT LUN 70 TI LIU THAM KHO 71 iii DANH MC CC Kí HIU V CC CH VIT TT STT Tờn Gii thớch Ngõn hng TMCP Ngõn hng thng mi c phn FMNN Fuzzy max neural network (Mng n ron phõn lp m max) MFMNN Modified Fuzzy Min-max Neural Network (Mng n ron phõn lp m max ci tin) ODM Oracle Data Mining mt cụng c khai phỏ d liu ca hang Oracle SVM Support Vector Machines - Mỏy vector h tr iv DANH MC CC BNG Bng D liu mụ phng ca cụng ty du lch Bng Tp d liu cn thc hin phõn lp Bng D liu sau ó phõn lp Bng Tp d liu khỏch hng mua mỏy tớnh 11 Bng Cu trỳc bng cha d liu s dng lun 35 Bng Mu d liu 53 Bng Danh sỏch cỏc ca s dng 61 Bng Kt qu cỏc ln th nghim thay i giỏ tr cỏc tham s 68 Bng Kt qu th nghim phõn loi s dng gii thut Cõy quyt nh thụng qua cụng c Oracle Data Mining 69 Bng 10 Kt qu th nghim phõn loi s dng k thut Navie Bayes thụng qua cụng c Oracle Data Mining 69 v DANH MC CC HèNH V Hỡnh Vớ d v cõy quyt nh Hỡnh Cõy quyt nh vi nỳt gc to "Travel cost/km" Hỡnh Cỏc bc gii quyt phõn loi ca SVM 19 Hỡnh Hot ng ca mt n ron 20 Hỡnh th hm gii hn cng 21 Hỡnh th hm Sigmoid 22 Hỡnh th hm Sigmoid lng cc 22 Hỡnh Tp m tam giỏc 27 Hỡnh Tp m hỡnh thang 27 Hỡnh 10 Mụ hỡnh h m da trờn lut 28 Hỡnh 11 Biu t l n xu 16 ngõn hng cụng b ngy 30/9/2014 31 Hỡnh 12 Minh hyperbox m 38 Hỡnh 13 Kin trỳc mng n rong m min-max 39 Hỡnh 14 Kin trỳc mng n ron max m ci tin 45 Hỡnh 15 Cu trỳc mt hyperbox node mng n ron max m ci tin 47 Hỡnh 16 Bn trng hp chng ln gia cỏc hyperbox m 52 Hỡnh 17 Thụng tin hyperbox B1 53 Hỡnh 18 Hyperbox B1 sau m rng 54 Hỡnh 19 Thụng tin hyperbox B2 54 Hỡnh 20 Hyperbox B1 sau loi b chng ln 55 Hỡnh 21 Thụng tin hyperbox B3 55 Hỡnh 22 Hyperbox B2 sau m rng 56 Hỡnh 23 Hyperbox B2 sau loi b chng ln 56 Hỡnh 24 Giao din chng trỡnh 66 Hỡnh 25 Kt qu cỏc ln th nghim gi nguyờn b tham s 67 vi M U Ti thi im bựng n thụng tin hin nay, cỏc doanh nghip lu tr rt nhiu thụng tin khỏc Trờn thc t thu thp c lng d liu khng l nhng bn thõn cỏc thụng tin riờng l ca d liu khụng em li nhiu giỏ tr cho ngi qun tr doanh nghip Chớnh vỡ vy nhu cu khai phỏ d liu v cỏc tri thc tim n CSDL ln l mt nhu cu cp thit s phỏt trin ca cỏc doanh nghip Ngõn hng TMCP i Dng sau nhiu nm thnh lp v phỏt trin, lng thụng tin thu c v khỏch hng l rt ln, dung lng CSDL core banking chim hn 1.5Tb Tuy nhiờn vic trớch rỳt cỏc thụng tin quan trng CSDL cú c d oỏn v gii quyt cỏc bi toỏn thc tin ca ngõn hng nh : d oỏn ri ro tớn dng cha c ỏp dng Hin qun lý tớn dng cỏc ngõn hng vụ cựng nhc nhi v tn ti nhiu ri ro Phn ln cỏc ngõn hng quyt nh, ỏnh giỏ tim tng ri ro ca mt khon vay tớn dng da trờn kinh nghim ca cỏc chuyờn viờn, trng phũng ngõn hng iu ny dn ti t l n xu ngy mt tng cao nhng nm gn õy, vic ny giỏn tip nh hng n nn kinh t núi chung cng nh tỏc ng ti bn thõn ca ngõn hng Chớnh vỡ vy, ngõn hng cú nhu cu cp thit s dng cỏc k thut phõn lp d liu gii quyt bi toỏn d oỏn ri ro tớn dng Vi mc ớch nghiờn cu cỏc phng phỏp phõn lp d liu ng thi ng dng gii quyt bi toỏn phõn loi ri ro tớn dng thc tin ngõn hng, lun c trỡnh by vi chng nh sau: Chng 1: Tng quan phng phỏp phõn lp Chng 2: Bi toỏn d oỏn ri ro tớn dng Chng 3: Mng n ron phõn lp m max Chng 4: Trin khai ng dng d oỏn ri ro tớn dng Chng 5: Kt lun Em xin chõn thnh cỏm n PGS.TS Trn ỡnh Khang ó hng dn v cho em nhng ý kin quý bỏu, chõn thnh cm n cỏc thy cụ giỏo ca trng i hc Bỏch khoa H Ni ó trang b kin thc giỳp em hon thnh lun ny - 18 thuc tớnh d oỏn bao gm: o 03 thuc tớnh liờn tc: LUONG_HANGTHANG: S tin lng ca khỏch hng (VND) THUNHAP_GIADINH: S tin thu nhp ca v/chng ca khỏch hng (VND) HAN_MUC o 15 thuc tớnh ri rc: HOCVAN : Giỏ tr bng 1: THPT Giỏ tr bng 2: Trung Cp Giỏ tr bng 3: Cao ng Giỏ tr bng 4: i hc Giỏ tr bng 5: Sau i hc Giỏ tr bng 6: Khỏc HONNHAN Giỏ tr bng 1: c thõn Giỏ tr bng 2: ó lp gia ỡnh Giỏ tr bng 3: Ly d/Ly thõn Giỏ tr bng 4: Gúa Giỏ tr bng 5: Khỏc LOAINHA_HIENTAI Giỏ tr bng 1: Nh riờng Giỏ tr bng 2: Nh b m Giỏ tr bng 3: Nh thuờ Giỏ tr bng 4: Mua tr gúp Giỏ tr bng 5: Khỏc TINHTRANG_VIECLAM 57 Giỏ tr bng 1: Ton thi gian Giỏ tr bng 2: Bỏn thi gian Giỏ tr bng 3: Ch doanh nghip Giỏ tr bng 4: Ngh hu Giỏ tr bng 5: Khỏc THOIGIAN_LAMVIEC LINHVUC_HOATDONG Giỏ tr bng 1: Dich v hnh s nghip Giỏ tr bng 2: Sn xut Giỏ tr bng 3: Thng mi Giỏ tr bng 4: Vn ti Giỏ tr bng 5:Ti chớnh/Ngõn hng Giỏ tr bng 6: Khai khoỏng Giỏ tr bng 7: Giỏo dc Giỏ tr bng 8: Bo him Giỏ tr bng 9: Xõy dng Giỏ tr bng 10: Bt ng sn Giỏ tr bng 11: Khỏc LOAIHINH_CONGTY Giỏ tr bng 1: Nh rc Giỏ tr bng 2: C phn Giỏ tr bng 3: 100% nc ngoi/Liờn doanh 100% Giỏ tr bng 4: TNHH Giỏ tr bng 5: Khỏc CHUNGCHI_HANHNGHE Giỏ tr bng 1: Cú Giỏ tr bng 0: Khụng CONGVIEC 58 Giỏ tr bng 1: K toỏn Giỏ tr bng 2: Bỏn hng Giỏ tr bng 3: Hnh chớnh/Nhõn s Giỏ tr bng 4: K s Giỏ tr bng 5: Cụng ngh thụng tin Giỏ tr bng 6: Marketing/Quan h cụng chỳng Giỏ tr bng 7: Giỏo viờn Giỏ tr bng 8: Khỏc CHUCVU: Giỏ tr bng 1: Nhõn viờn Giỏ tr bng 2: Trng nhúm Giỏ tr bng 3: Giỏm sỏt/Trng phũng Giỏ tr bng 4: Ch doanh nghip Giỏ tr bng 5: Qun lý cp cao Giỏ tr bng 6: Khỏc THOIGIAN_TAIDONVI Tớnh bng s thỏng lm vic ti n v hin ti LOAIHINH_HOPDONG: Giỏ tr bng 0: Khụng thi hn Giỏ tr bng 1: Cú thi hn NGHENGHIEP_GIADINH: ngh nghip ca v/chng Giỏ tr bng 1: K toỏn Giỏ tr bng 2: Bỏn hng Giỏ tr bng 3: Hnh chớnh/Nhõn s Giỏ tr bng 4: Ch doanh nghip Giỏ tr bng 5: Qun lý cp cao Giỏ tr bng 6: Khỏc 59 SOCON_PHUTHUOC: S lng cỏi ph thuc ca khỏch hng LAISUAT_QUAHAN: Giỏ tr bng 1: Lói suỏt phi tr quỏ hn l 28% Giỏ tr bng 2: Lói sut phi tr quỏ hn l 30% Giỏ tr bng 3: Lói sut phi tr l 32% Dao ng t 10 n 500 - Thuc tớnh nhón nhn mt cỏc giỏ tr sau: o Giỏ tr bng 1: khon tớn dng cn d oỏn cú th phõn loi vo nhúm o Giỏ tr bng 2: khon tớn dng cn d oỏn cú th phõn loi vo nhúm o Giỏ tr bng 3: khon tớn dng cn d oỏn cú th phõn loi vo nhúm o Giỏ tr bng 4: khon tớn dng cn d oỏn cú th phõn loi vo nhúm o Giỏ tr bng 5: khon tớn dng cn d oỏn cú th phõn loi vo nhúm 3.4.2 - u vo v u u vo ca bi toỏn: d liu cha giỏ tr ca 18 thuc tớnh (3 thuc tớnh liờn tc s c sp xờp gn u tiờn, tip theo l 15 thuc tớnh ri rc theo th t ó miờu t bờn trờn) 3.5 u ca bi toỏn: cỏc nhón ó c phõn loi Kt chng Chng ca lun ó gii thiu chi tit gii thut mng n ron phõn lp mmin max v cỏch ci tin ca gii thut Ngoi vic ỏp dng c th bi toỏn phõn loi ri ro tớn dng ngõn hng cng c cp ti chng ny Chng tip theo s tin hnh thc nghim gii thut trờn d liu thc t 60 CHNG IV TRIN KHAI NG DNG D ON RI RO TN DNG 4.1 Phõn tớch thit k 4.1.1 Cỏc ca s dng Danh sỏch cỏc ca s dng Mó Tờn ca s dng U01 Thay i tham s U02 To trainning data v testing data U03 Hc U04 Phõn loi Bng Danh sỏch cỏc ca s dng 4.1.2 a c t ca s dng U01: Thay i tham s Tỏc nhõn: ngi dựng Mụ t: Ngi dựng nhp cỏc tham s ca h thng vo file cu hỡnh (file config.txt) H thng s cp nht cỏc tham s ny v s dng cỏc tham s ngi dựng nhp vo thc hin chng trỡnh Cỏc tham s cú th thay i bao gm: # Cau hinh tham so he thong alpha=0.001f theta=0.3 beta=1.0f gamma=0.5f,0.5f,0.5f b U02: To trainning data v testing data Tỏc nhõn: ngi dựng Mụ t: Ngi dựng nhp cỏc tham s tỏch d liu mu ban u thnh hai d liu trainning data v testing data Cỏc tham s ngi dựng nhp vo file cu hỡnh bao gm: #Thụng tin file d liu mu datafile=D:\\ChuongTrinh\\data\\dataset.csv 61 #Thụng tin cỏc file tranning file v testing file trainfile=D:\\ChuongTrinh\\data\\train.dat testfile=D:\\ChuongTrinh\\data\\test.dat # Cau hinh t l chia d liu t d liu mu split_train_factor=8 split_test_factor=2 H thng s thc hin chia ngu nhiờn t d liu mu thnh hai d liu tranning data v testing data ỳng theo cỏc thụng s ó cu hỡnh bờn trờn c U03: Hc Tỏc nhõn: Ngi dựng Mụ t: Ngi dựng nhp thụng tin file d liu u vo cho h thng (xỏc nh bi tham s datafile file cu hỡnh) H thng thc hin vic hc theo phng phỏp mng n ron phõn lp m max ci tin v sinh cỏc hyperbox tng ng quỏ trỡnh hc Cỏc hyperbox c sinh ny lu ti 01 file tờn hyperboxes.dat (c xỏc nh bi tham s hyperboxesfile file cu hỡnh) d U04: Phõn loi Tỏc nhõn : User Mụ t: ngi dựng nhp thụng tin file cn thc hin phõn loi (c xỏc nh bi tham s predictionfile file cu hỡnh) H thng s dng cỏc thụng tin hyperbox cú c sau hc thc hin phõn loi d liu u vo Tp d liu sau c phõn loi s ghi ố lờn file ban u (cỏc bn ghi file cú thờm trng cha thụng tin lp ri ro tớn dng) 4.2 Thc nghim v kt qu 4.2.1 Ci t chng trỡnh Chng trỡnh c thc hin thụng qua giao din dũng lnh Chng trỡnh bao gm file jar (file FuzzyMinMaxNeuralNetwork.jar) v mt file cu hỡnh (file config.txt) File config.txt bao gm cỏc thụng tin sau: # Cau hinh duong dan den cac file du lieu 62 datafile=D:\\ChuongTrinh\\data\\dataset.csv trainfile=D:\\ChuongTrinh\\data\\train.dat testfile=D:\\ChuongTrinh\\data\\test.dat hyperboxesfile=D:\\ChuongTrinh\\data\\hyperboxes.dat testpredictionfile=D:\\ChuongTrinh\\data\\testprediction.dat predictionfile=D:\\ChuongTrinh\\data\\result.csv # Cau hinh split du lieu split_train_factor=10 split_test_factor=0 # Cau hinh tham so he thong alpha=0.001f theta=0.3f beta=1.0f gamma=0.5f,0.5f,0.5f Trong ú: Tham s datafile ch ng dn ti file cha d liu mu Trong lun ang s dng file d liu mu l dataset.csv ti th mc D:\ChuongTrinh\data File cha d liu mu l file nh dng csv vi cu trỳc nh sau: 2501!3!15! 35000000,95000000,185000000,5,4,2,5,98,10,5,2,4,6,27,2,8,4,3,1 39000000,76000000,102500000,4,1,4,4,288,4,3,2,2,4,110,2,2,1,1,2 25500000,76000000,77500000,5,1,5,4,132,2,2,2,8,4,88,1,7,0,3,2 13500000,95000000,222500000,5,3,3,1,183,3,2,2,4,4,9,2,2,1,3,2 6000000,11000000,45000000,4,4,4,1,37,2,1,1,4,3,131,2,4,1,3,2 34000000,48000000,130000000,4,3,5,3,165,3,1,2,2,4,161,1,2,0,1,1 Dũng u tiờn ca file lu thụng tin tng quan ca d liu, thụng tin gm phn, mi phn chia cỏch bi du ! - Thụng tin u tiờn l tng s bn ghi cú d liu - Thụng tin tip theo l s trng cú giỏ tr liờn tc (ti trng hp ny l 03 trng cú giỏ tr liờn tc) 63 - Thụng tin cui cựng l s trng cú giỏ tr ri rc (ti trng hp ny l 15 trng cú giỏ tr ri rc) Mi dũng tip theo l mt bn ghi CSDL tớn dng ca ngõn hng, mi trng thuc tớnh c cỏch bi du , Thuc tớnh cui cựng chớnh l thuc tớnh phõn lp ca bn ghi ú Th t cỏc trng thuc tớnh tng ng vi cỏch biu din d liu nh sau: LUONG_HANGTHANG,THUNHAP_GIADINH,HAN_MUC,HOCVAN,HONNHAN,LOAINHA_HIE NTAI,TINHTRANG_VIECLAM,THOIGIAN_LAMVIEC,LINHVUC_HOATDONG,LOAIHINH_ CONGTY,CHUNGCHI_HANHNGHE,CONGVIEC,CHUCVU,THOIGIAN_TAIDONVI,LOAIHIN H_HOPDONG,NGHENGHIEP_GIADINH,SOCON_PHUTHUOC,LAISUAT_QUAHAN, PHANLOAI Trong quỏ trỡnh hc, d liu ban u datafile s c chia thnh 02 d liu hun luyn (c xỏc nh bi tham s trainfile) v d liu th nghim (c xỏc nh bi tham s testfile) Giỏ tr trainfile v testfile u cú nh dng nh sau: 34000000.000000,83000000.000000,215000000.000000,6,4,4,5,10,1 ,2,1,3,49,1,5,4,1,5 14500000.000000,91000000.000000,220000000.000000,1,1,3,1,10,1 ,2,4,3,243,1,1,4,3,3 12000000.000000,60000000.000000,195000000.000000,5,2,3,2,4,5, 2,4,4,81,2,4,1,2,2 42500000.000000,35000000.000000,115000000.000000,2,3,3,1,6,3, 2,7,3,209,2,7,3,3,4 49500000.000000,61000000.000000,40000000.000000,1,1,4,5,11,1, 2,8,3,224,2,6,5,2,3 Chng trỡnh s dng cỏc d liu trainfile sinh cỏc hyperbox ca h thng Thụng tin cỏc hyperbox ny c lu hyperboxesfile, cỏc thụng tin ny cú nh dng nh sau: Box 1: V = [34000000.000000, 83000000.000000, 215000000.000000], W = [34000000.000000, 83000000.000000, 215000000.000000], D = {6, 4, 4, 5, 10, 1, 2, 1, 3, 49, 1, 5, 64 4, 1}, C = Box 2: V = [14500000.000000, 91000000.000000, 220000000.000000], W = [14500000.000000, 91000000.000000, 220000000.000000], D = {1, 1, 3, 1, 10, 1, 2, 4, 3, 243, 1, 1, 4, 3}, C = Box 3: V = [12000000.000000, 60000000.000000, 195000000.000000], W = [12000000.000000, 60000000.000000, 195000000.000000], D = {5, 2, 3, 2, 4, 5, 2, 4, 4, 81, 2, 4, 1, 2}, C = Box 4: V = [42500000.000000, 35000000.000000, 115000000.000000], W = [42500000.000000, 35000000.000000, 115000000.000000], D = {2, 3, 3, 1, 6, 3, 2, 7, 3, 209, 2, 7, 3, 3}, C = Sau cỏc hyperbox c to ra, ng dng s dng d liu kim th (xỏc nh testfile) thc hnh ỏnh giỏ, phõn loi Kt qu ỏnh giỏ c s lu vo 01 file testprediction.dat (c ch nh bi tham s testpredictionfile) Sau ú t kt qu ny, em so sỏnh vi d liu kim th ban u, t ú h thng cho ta bit t l phõn loi chớnh xỏc l bao nhiờu % Tip theo l cỏc tham s ca h thng - Tham s split_train_factor v split_test_factor liờn quan n t l tỏch d liu t d liu ban u - Cỏc tham s alpha, theta, beta v gamma l cỏc tham s tng ng phng phỏp mng n ron phõn lp m max ci tin Tham s predictionfile ch ti file cha c phõn lp (ch cỏc d liu ca 18 thuc tớnh nhng cha cú giỏ tr phõn lp) File ny cú nh dng nh sau: Dũng u tiờn ca file lu thụng tin tng quan ca d liu, thụng tin gm phn, mi phn chia cỏch bi du ! - Thụng tin u tiờn l tng s bn ghi cú d liu 65 - Thụng tin tip theo l s trng cú giỏ tr liờn tc (ti trng hp ny l 03 trng cú giỏ tr liờn tc) - Thụng tin cui cựng l s trng cú giỏ tr ri rc (ti trng hp ny l 15 trng cú giỏ tr ri rc) Mi dũng tip theo l mt bn ghi CSDL tớn dng ca ngõn hng, mi trng thuc tớnh c cỏch bi du , Ti õy ch cú 18 thuc tớnh d oỏn 3100!3!15 10000000,21000000,92500000,4,2,4,4,62,4,2,1,6,4,147,1,8,0,3 15500000,22000000,50000000,5,1,4,3,140,4,1,1,2,3,80,1,2,0,2 8000000,30000000,40000000,5,3,1,2,113,2,3,2,7,3,251,2,6,0,3 Tp d liu sau c d oỏn s c ghi chớnh file c xỏc nh bi tham s predictionfile Giao din thc hin chng trỡnh nh sau: Hỡnh 24 Giao din chng trỡnh 4.2.2 Phng phỏp thc hin Lun s dng phng phỏp ỏnh giỏ nh sau: - D liu dựng hc v dựng kim th c ly t d liu ban u, bng cỏch s dng mt hm chia ngu nhiờn d liu ban u thnh d liu khụng trựng Trong phn th nghim ny, d liu hc v 66 d liu kim th c ln lt chia theo cỏc t l: 90%-10%, 80%-20%, 70%-30%, 60%-40%, 50% - 50% Ban u gi nguyờn cỏc tham s ca h thng, thay i d liu hc v d - liu kim nghim v thc hin vic hc v ỏnh giỏ chớnh xỏc Sau ú thay i dn cỏc tham s ca h thng - 4.2.3 - Kt qu Kt qu sau gi nguyờn b tham s Tham s : = 0.001 ( ) 90%-10% 80%-20% 70%-30% 60%-40% 50%-50% Ln 96,28% 96,35% 89,32% 80,15% 81,34% Ln 96,56% 97,18% 88,49% 82,25% 76,23% Ln 95,15% 97,28% 90,18% 80,27% 81,19% Ln 97,28% 96,56% 89,91% 81,35% 82,28% Ln 95,88% 98,12% 90,27% 84,27% 83,17% Trung bỡnh 96,23% 97,09% 89,63% 81,66% 80,84% Hỡnh 25 Kt qu cỏc ln th nghim gi nguyờn b tham s - Kt qu thu c thi thc hin thay i cỏc ngng ỏnh giỏ mt Hyperbox cú th m rng hay khụng (tham s v tham s ) (b d liu trainning data cú t l bng 80% d liu mu ban u) Giỏ tr Giỏ tr Giỏ tr Giỏ tr chớnh xỏc S lng trung bỡnh Hyperbox to ( ) 0.001 0.1 98% 2151 ( ) 0.001 0.2 0.9 96.75% 2138 ( ) 0.001 0.3 0.8 96.5% 2122 67 ( ) 0.001 0.4 0.7 96.52% 2119 ( ) 0.001 0.5 0.6 90.32% 1960 ( ) 0.001 0.6 0.5 88.32% 1973 ( ) 0.001 0.7 0.4 88.85% 1978 ( ) 0.001 0.8 0.3 85.87% 1949 Bng Kt qu cỏc ln th nghim thay i giỏ tr cỏc tham s 4.3 ỏnh giỏ 4.3.1 - ỏnh giỏ kt qu t c ca ng dng T kt qu trờn, ta thy xỏc sut phõn loi chớnh xỏc ỏp dng phng phỏp mng n ron phõn lp m max t khỏ tt, t l dao ng khong 80,77% - 93,11% T l chớnh xỏc t cao nht chia t l tõp hc v hun luyn theo t l 80% - 20% - ỏnh giỏ thc hin thay i cỏc tham s ca h thng: Ta nhn thy nu ng thi thc hin tng giỏ tr tham s theta, gim tham s beta v gim tham s anpha file cu hỡnh thỡ t l d oỏn chớnh xỏc ca h thng gim i, nhiờn thi gian d oỏn ca h thng thc hin nhanh hn S lng cỏc hyperbox sinh quỏ trỡnh hc cng ớt hn Vic ny cho thy s lng cỏc hyperbox sinh nhiu hn thỡ t l d oỏn chớnh xỏc cng tng lờn, nhiờn thi gian thc hin d oỏn cng s tng lờn theo chớnh xỏc t t l tt nht 4.3.2 = 0.4 v So sỏnh vi cỏc phng phỏp khỏc thc hin phõn loi tớn dng, hin chỳng ta cng cú th s dng mt s cụng c nh Oracle Data Mining (ODM) ca Oracle, Database Mining Marksman ca HNC software Cựng s dng b d liu u vo ca lun vn, s dng cụng c Oracle Data Mining ta c kt qu nh sau: - p dng gii thut Cõy quyt nh Oracle Data Mining phõn loi tớn dng: 68 60%- 40% 70%-30% 80%-20% 90% -10% Ln 70.54% 82.58% 87.54% 93.92% Ln 86.69% 89.59% 85.57% 92.96% Ln 71.61% 87.49% 79.59% 88.42% Ln 94.72% 90.60% 83.65% 89.33% Ln 92.04% 87.89% 87.59% 88.46% Trung bỡnh 83.12% 87.63% 84.78% 90.61% Bng Kt qu th nghim phõn loi s dng gii thut Cõy quyt nh thụng qua cụng c Oracle Data Mining - p dng gii thut Navie Bayes Oracle Data Mining phõn loi tớn dng: 60%-40% 70%-30% 80%-20% 90%-10% Ln 84.23% 82.18% 84.08% 75.51% Ln 74.44% 74.67% 81.23% 81.94% Ln 76.81% 76.67% 76.82% 77.55% Ln 74.59% 73.27% 74.77% 77.18% Ln 82.63% 82.78% 82.01% 82.21% Trung bỡnh 78.54% 77.91% 79.78% 78.89% Bng 10 Kt qu th nghim phõn loi s dng k thut Navie Bayes thụng qua cụng c Oracle Data Mining - So sỏnh chớnh xỏc ỏp dng k thut mng n ron phõn lp m max v k thut Cõy quyt nh, Navie Bayes: o Tng quan thỡ chớnh xỏc ỏp dng k thut mng n ron phõn lp m max t c cao hn so vi Cõy quyt nh v Navie Bayes 4.4 Kt chng Chng ca lun ó trỡnh vic trin khai ng dng thc tin ỏp dng gii thut mng n ron phõn lp m max gii quyt bi toỏn thc tin ti ngõn hng TMCP i Dng Trong chng cng tin hnh ỏnh giỏ trờn d liu mu ca cỏc ti khon tớn dng ca TMCP i Dng, ng thi a nhn xột, so sỏnh chớnh xỏc sau ỏp dng i vi 02 phng phỏp thuc k thut phõn lp l Cõy quyt nh v Naùve Bayes 69 CHNG V KT LUN Sau quỏ trỡnh nghiờn cu, lun ó thc hin thnh cụng vic ỏp dng gii thut mng n ron phõn lp m max mt gii thut cỏc k thut phõn lp giỳp gii quyt bi toỏn thc tin ngõn hng TMCP i Dng Cỏc kt qu c th lun ó t c nh sau: - Nghiờn cu tng quan phng phỏp phõn lp - Nghiờn cu gii thut mng n ron phõn lp m max - Nghiờn cu phng thc ci tin mng n ron phõn lp m max - Trin khai ng dng s dng gii thut mng n ron phõn lp m max phõn loi tớn ng trờn d liu mu ca ngõn hng TMCP i Dng Hng nghiờn cu tip theo: - Th nghim v ỏnh giỏ k hn kt qu phõn loi chớnh xỏc i vi ton b d liu tớn dng ca ngõn hng TMCP i Dng - Nghiờn cu ti u thi gian quyt nh ca ng dng phõn loi tớn dng da trờn gii thut mng n ron phõn lp m max 70 TI LIU THAM KHO [1] Swati Shindea, Uday Kulkarniba [2015] Extracting classification rules from modified fuzzy minmax neuralnetwork for data with mixed attributes [2] Ahmet Kolus, Daniel Imbeau, Philippe-Antoine Dubộ, Denise Dubeau [2016] Classifying work rate from heart rate measurements using an adaptive neuro-fuzzy inference system [3] Sneha Murmua, Sujata Biswas [2015] Application of Fuzzy logic and Neural Network in Crop [4] Nazl kizler and H.Altay Gỹvenir[2011] Mining Interesting Rules in Bank Loans Data [5] Pilar Rey-del-Castillo, Jesỳs Cardeủosa Fuzzy min-max neural networks for categorical data: application to missing data imputation [6] Sreekumar Pulakkazhy and R.V.S Balan [2013] Data Mining in Banking and its applications - a review 71 ... cấp thiết sử dụng kỹ thuật phân lớp liệu để giải toán dự đoán rủi ro tín dụng Với mục đích nghiên cứu phương pháp phân lớp liệu đồng thời ứng dụng giải toán phân loại rủi ro tín dụng thực tiễn... Chương 1: Tổng quan phương pháp phân lớp Chương 2: Bài toán dự đoán rủi ro tín dụng Chương 3: Mạng nơ ron phân lớp mờ max Chương 4: Triển khai ứng dụng dự đoán rủi ro tín dụng Chương 5: Kết luận Em... 2.1.1 Các khái niệm hoạt động tín dụng ngân hàng 29 2.1.2 Các nhóm rủi ro tín dụng ngân hàng 32 2.2 Bài toán phân lớp rủi ro tín dụng ngân hàng TMCP Đại Dương 33 2.2.1 Bộ liệu sử dụng toán

Ngày đăng: 25/07/2017, 21:56

Mục lục

    CHƯƠNG I. TỔNG QUAN PHƯƠNG PHÁP PHÂN LỚP

    CHƯƠNG II. BÀI TOÁN DỰ ĐOÁN RỦI RO TÍN DỤNG

    CHƯƠNG III. MẠNG NƠ RON PHÂN LỚP MỜ MIN MAX

    CHƯƠNG IV. TRIỂN KHAI ỨNG DỤNG DỰ ĐOÁN RỦI RO TÍN DỤNG

    TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan