Phân loại thư rác bằng phương pháp học máy

67 361 0
Phân loại thư rác bằng phương pháp học máy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN V TRUYN THễNG -o0o - PHM TH KIM DUNG PHN LOI TH RC BNG PHNG PHP HC MY LUN VN THC S KHOA HC MY TNH Thỏi nguyờn, 2015 I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN V TRUYN THễNG -o0o - PHM TH KIM DUNG PHN LOI TH RC BNG PHNG PHP HC MY Chuyờn ngnh: Khoa hc mỏy tớnh Mó s: 60 48 01 LUN VN THC S KHOA HC MY TNH NGI HNG DN KHOA HC PGS TS TRUNG TUN Thỏi nguyờn, 2015 ii MC LC MC LC ii LI CAM KT iv LI CM N v DANH MC CC T VIT TT vi DANH MC HèNH V V BNG BIU vii M U vii CHNG 1.TNG QUAN V HC MY V TH RC 1.1 Tng qu n v h m y 1.1.1 Tr tu nh n to 1.1.2 Hc mỏy 1.1.3 C k thut hc mỏy 1.1.4 Mt s ng dng ca hc mỏy 1.1.5 Hc cú giỏm sỏt 1.2 Tng quan v th r 12 1.2.1 nh ngh v th r v trng th r 12 1.2.2 Phõn loi th r 15 1.2.3 im th r 1.2.4 Tỏc hi c th r 15 16 1.2.5 Quy trỡnh v th on gi th r 1.3 Biu din phõn loi th r 17 da trờn hc mỏy cú giỏm sỏt 20 1.3.1 Nhu cu phõn loi th r 20 1.3.2 Cỏch biu din ni dung th r 23 1.4 Kt lun hng 27 CHNG PHN LOI TH RC BNG MT S THUT TON HC MY Cể GIM ST 28 2.1 Thut toỏn Naùve Bayes 28 2.1.1.Gii thiu Thut toỏn Naùve Bayes 28 2.1.2 Mụ t thut toỏn 28 2.1.3 p dng phõn loi th r 33 iii 2.2 H m y theo phng ph p m y ve t ta SVM 36 2.2.1 Gii thiu SVM 36 2.2.2 Mụ t thut toỏn 37 2.2.2 Hun luyn SVM 40 2.2.3 ng dng phõn loi th rỏc 40 2.3 Xõy dng mụ hỡnh l th r da trờn hc mỏy cú giỏm sỏt 41 2.3.1 La chn mụ hỡnh v thut toỏn 41 2.3.2 Xõy dng h thng 41 2.4 Kt lun hng 46 CHNG 3.CI T TH NGHM VIC PHN LOI TH RC 47 3.1 Bi toỏn phõn loi th r 47 3.2 Ci t th nghim v kt qu 50 3.2.1 B d liu th nghim 50 3.2.2 Mụi trng i t 52 3.2.3 Giao din c hng trỡnh th nghim 52 3.2.4 Kt qu th nghim 54 3.3 nh gi th nghim 55 3.4 Kt lun hng 56 KT LUN 57 Cỏc kt qu t c 57 Hng phỏt trin lun 57 DANH MC TI LIU THAM KHO 58 iv LI CAM KT Di s giỳp nhit tỡnh v ch bo chi tit c gi o viờn hng dn, tụi ó hon thnh lun a mỡnh Tụi xin cam kt lun ny l a bn thõn tụi lm v nghiờn cu, khụng h trựng hay chộp ca bt k Ti liu c s dng lun c thu thp t cỏc ngun kin thc hp phỏp Tỏc gi lun Phm Th Kim Dung v LI CM N hon thnh hng trỡnh o hc v vit lun ny, em ó nhn c s giỳp v úng gúp nhit tỡnh ca cỏc thy ụ trng i hc Cụng ngh thụng tin v Truyn thụng, i hc Thỏi Nguyờn Trc ht, em xin chõn thnh cm n thy ụ kho o to s u i h , ó tn tỡnh ging dy, trang b cho em nhng kin thc quý bỏu sut nhng nm hc qua Xin chõn thnh cm n gi ỡnh, bn bố ó nhit tỡnh ng h, giỳp , ng viờn c v vt cht ln tinh thn thi gian hc v nghiờn cu Trong quỏ trỡnh thc hin lun vn, m dự ó rt c gng nhng ng khụng trỏnh nhng thiu sút Kớnh mong nhn c s cm thụng v tn tỡnh ch bo ca cỏc thy cụ v cỏc bn vi DANH MC CC T VIT TT AI Trớ tu nhõn to Clustering Phõn cm Computer Vision Nhỡn mỏy ESP Email Service Provider HAM Th in t khụng l th rỏc ISP Internet Service Provider, nh cung cp dch v Internet KNN K ngi lỏng ging gn nht MI Mutual inform tion, thụng tin tng h NB Phng ph p Naùve Bayes Regression Hi qui Search Engine Mỏy tỡm kim Server Mỏy ch, phớa mỏy ch SMO Sequential Minimal Optimization SMS Short Message Service Spam Email Th r SQL Structured Query Language Stemming Gc (ca t) SVM Support Ve tor M hine, m y ve t ta TTNT Trớ tu nhõn to UBE Unsolicited Bulk Em il, th khụng lnh mnh UCE Unsoli ited Commer i l Em il, th khụng yờu u n VC K h thc Vapnik- Chervonenkis XML eXtensible Markup Language vii DANH MC HèNH V V BNG BIU HèNH Hỡnh 1.1: Cu trỳc mt h thng hc mỏy tiờu biu ho trng hp phõn loi Hỡnh 1.2 Mụ hỡnh thut toỏn hc cú giỏm sỏt Hỡnh 1.3 Vớ d v trang web ly cp a ch th ngi dựng 17 Hỡnh 1.4 Mt s website ca cỏc cụng ty gi th r Hỡnh 1.5 Minh cỏch gi th r Hỡnh 1.6 S lng th r Hỡnh 1.7 Danh sỏch cỏc qu 18 qu m y h th (open rel y) 19 t th ng n th ng nm 2014 21 gi ph t t n th r qu 3/2014 a Kaspersky Lab 23 Hỡnh 2.1 nh x d liu t khụng gian g s ng khụng gi n trng ho phộp phõn chia d liu bi siờu phng 38 Hỡnh 2.2 Siờu phng vi l c i cho phộp phõn chia cỏc hỡnh vuụng cỏc hỡnh trũn khụng gi n trng 38 Hỡnh 2.3 Tin x lý d liu 42 Hỡnh 2.4 Hun luyn d liu 46 Hỡnh 3.1: Mụ hỡnh phõn loi th r Hỡnh 3.2 Tp cỏc File HAM 51 Hỡnh 3.3 Tp cỏc File SPAM 51 Hỡnh 3.4 Giao din hng trỡnh h nh ph n loi th r Hỡnh 3.5 Giao din x lý d liu bc hun luyn 53 Hỡnh 3.6 Giao din kt qu ca th nghim 53 Hỡnh 3.7 chớnh xỏc phõn loi ca NB v SVM 54 bng thut toỏn Bayse v SVM 48 bng Bayes v SVM 52 BNG Bng 1.1 Vớ d ni dung ca bn th 24 Bng 1.2 Biu din ve t ho d liu bng 1.1 24 Bng 2.1: B d liu hun luyn cho bi toỏn phõn loi Chi Tennis 31 Bng 3.1: chớnh xỏc phõn loi h i phng ph p ph n loi khỏc 54 M U Ngy nay, Internet m nhiu kờnh liờn lc, nhiu dch v mi ho ngi s dng, mt nhng dch v m Internet mang li l dch v th in t (Em il), ú l phng tin giao tip rt n gin, tin li v hiu qu i vi cng ng ngi s dng dch v ny Chớnh vỡ nhng li ớch th mang li nờn s lng th tr o i trờn Internet ngy ng tng, v mt s khụng nh ú l th rỏc (Spam) Trong nhng nm gn y, sp m h y mt nn v e da kh nng gi o tip c th khụng mong mun ó tr thnh on ngi trờn kờnh liờn l ny, ú l mt nhng thỏch thc ln m khỏch hng v cỏc nh cung cp dch v phi i phú Sp m ó tr thnh mt hỡnh thc qung cỏo chuyờn nghip, phỏt tỏn virus, n p thụng tin vi nhiu th on v mỏnh khúe cc k tinh vi Ngi dựng s phi mt khỏ nhiu thi gi n xúa nhng th khụng mi m n, nu vụ ý cũn cú th b nhim virus v nng n hn l mt thụng tin nh th tớn dng, ti khon ngõn hng qua cỏc th dng phishing Theo b o o tỡnh hỡnh th r K spersky L b va cụng b, t l th r lu lng truy cp th c qu 3/2014 tng 1,7 bỡnh 66,9% Ba ngun phỏt t n th r so vi qu tr , t trung hng u gm cú M (14 ) v Ng (6,1 ) v Vit N m ng v trớ th vi 6% ngn hn spam, nhiu t ch , nh n ó nghiờn u v phỏt trin nhng k thut phõn loi th thnh cỏc nhúm; t ú x nh, nhn bit gi th r v th ú giỏ tr Tuy nhiờn, nhng ngi to nờn th r luụn tỡm mi h vt qua cỏc b phõn loi ny v phỏt tỏn chỳng Vỡ vy, cn cú mt h thng phõn loi u l sp m m il v u l m il tt Xut phỏt t thc trng ú, tụi hn hng nghiờn cu Phõn loi th rỏc bng phng phỏp hc mỏy vi m h tỡm hiu, th nghim mt s phng ph p tip cn cho bi toỏn phõn loi th, t ú ngn hn th spam hiu qu hn Ni dung ca lun trỡnh by theo hng T chc cu trỳ nh s u: Chng Tng quan v h m y v th r : Chng ny gii thiu tng quỏt v h m y v th r b o gm khỏi nim, ng dng v phn trỡnh by chi tit v hc mỏy cú giỏm sỏt, cỏc k thut ca hc mỏy cú giỏm sỏt dựng cho phõn loi nh N ùve B yes, SVM, quyt nh, Chng ng gii thiu khỏi quỏt v th r , trng th r v biu din th r Chng Ph n loi th r y c da trờn hc mỏy cú giỏm sỏt; bng mt s thut toỏn cú giỏm sỏt: Ni dung h nh hng ny l i s u nghiờn u hai thut toỏn hc m y ú gi m s t l N ùve B yes v phng ph p SVM (Support Vector Machine) Chng Ci t, th nghim v nh gi thut toỏn: Phn u hng gii thiu toỏn phõn loi th r , b d liu th nghim v ci t chi tit hai thut to n cp hng Phn cui c hng trỡnh by kt qu thu v r nh gi v hai thut to n c s dng bi toỏn l th r Cui lun l phn kt lun v danh sỏch cỏc ti liu tham kho Phn thc nghim v phõn loi th r c trỡnh by thờm phn ph lc lun 45 Cỏc xỏc sut P(X,Y), P(X) v P(Y) c tớnh bng tn sut xut hin ca cỏc s kin tng ng trờn d liu hun luyn S u ó t nh MI ho tt c trng k-gram, n trng ú MI o nht s c la chn S u ú t s chn khong 10000 trng ú thụng s MI cao nht nh trng s ho bn : T trng ó c la chn bc trc, ta s thc hin nh trng s cho tng bn vỡ hu ht cỏc thut toỏn phõn loi u yờu cu u vo l mt ve t (c biu din di dng mt tỳi t) C th r c biu din theo phộp o TF-IDF l s kt hp gi tn sut ti liu v tn sut ti liu ngc Kt qu cui cựng ca khõu tin x lý l mt ve t biu din ho th in t u vo tng ng y s l u vo cho khõu k tip, khõu hun luyn d liu ng nh l u vo cho phn d o n ph n loi th r Ngoi cỏch tip cn ny, hin cũn cú mt s phng ph p tip cn khỏc hin i hn da vo t in Wordnet WordNet l mt t in ng ngh ting Anh, c phỏt trin di s ch o ca George A Miller ú danh t, ng t , tớnh t v cỏc trng t c nhúm vo cỏc t ng ngh da trờn kinh nghim Mi l mt khỏi nim riờng bit Cỏc c liờn kt vi bi ngh a quan nim v ng dng t in WordNet ho vo mi ho a v cỏc mi quan h t v ng Chỳng ta s s bc tin x lý d liu v cung cp cỏc giỏ tr u bi to n mining ú l a thay vỡ mt cỏc thut ng y s l mt hng phỏt trin tip theo c ỏn 2.3.2.2 Hun luyn d liu Bc hun luyn d liu s i t thut toỏn: Naùve Bayes v Support Ve tor M hine u vo c bc ny l cỏc tỳi t r t bc tin x lớ Kt qu c b ny l r mụ hỡnh hc mỏy phự hp vi d liu u vo T mụ hỡnh ny ta s d o n vic phõn loi bn u vo kh y ng l bc chớnh nghiờn cu ỏn ny Vi i t thut toỏn no y m ng t nh ct lừi ca h thng Cú th oi bc ny chớnh l phn nhõn ca h thng, nh hng ti m hiu qu ca nú 46 Hỡnh 2.4 Hun luyn d liu H i phng ph p ph n loi c th nghim bao gm hai phiờn bn phõn loi B yes n gin phiờn bn s dng mụ hỡnh th (B yes thc) v SVM i vi SVM, hm nh n c la chn l hm RBF da trờn hai yu t Th nht, hm nhõn RBF l mt hm khụng tuyn t nh mu d liu v khụng gian cú chiu ln hn, vỡ khụng ging nh hm nh n tuyn tớnh, nú cú th x lý c trng hp gia cỏc nhón v thuc tớnh ca lp l khụng tuyn t nh Hn na, hm nhõn tuyn t nh l trng hp c bit ca RBF Thờm na, vi mt s tham s nht nh, hm nh n sigm ng l mt trng hp ca hm nhõn RBF Th hai, hm nh n RBF ú phc tớnh toỏn thp hn Mt im quan trng l Kij 1, ngc li so vi hm nh n thc cú giỏ tr t vụ ựng n Trong mt s trng hp c bit, vớ d nh s lng c trng l quỏ ln (khong 30000 trng), h y m chờnh lch gia s lng trng v s lng c c bn mu l qỳa ln (nh ú 200 trng m ú ti 30000 bn h y ngc li), ú phiờn bn hm nhõn tuyn t nh nờn c s dng Bi nhng trng hp biờt nh vy, hm tuyn t nh t t chy o hn ng nh t h nh x Kt lun o hn n Chng ny ó gii thiu c c th v hai thut toỏn (i) thut to n Naùve Bayes; v (ii) thut to n SVM v la chn c mụ hỡnh phõn loi th r ng dng vo bi toỏn phõn loi th r Ni dung hng ny l s lớ thuyt ỏp dng thc t Trong hng tip theo lun s trung nghiờn cu phn r yờu u ca bi toỏn v xõy dng, i t hng trỡnh th nghim nh gi thut to n ó nờu trờn 47 CHNG CI T TH NGHM VIC PHN LOI TH RC Bi to n p n lo i t r Bi to n ph n loi th r th thnh h i nhúm h nh l nhúm th r ht l bi to n ph n loi th nhn v nhúm th bỡnh thng Vic phõn loi tin hnh nh s u Trc tiờn, ni dung th c biu din di dng trng h y thuc tớnh, mi trng thng l mt t hoc cm t xut hin th Tip theo, gi i on hun luyn, th ó c g n nhón {r , bỡnh thng} - gi l d liu hun luyn hay d liu mu - c s dng hun luyn mt b phõn loi Sau hun luyn xong, b phõn loi c s dng x nh th mi (th h bit nhón) thuc vo loi no hai loi núi trờn Trong c gi i on hun luyn v phõn loi, thut toỏn phõn loi ch lm vic vi ni dung th ó c biu din di dng T xột bi to n ph n loi th r di dng bi to n ph n loi bn h i lp, ú: d liu mu b n u l sp m em ils), qu u r trng bn n ph n lp l th r v th bỡnh thng (non- th gi n mỏy khỏch Kt qu trỡnh ph n loi ny l h i lp bn: Sp m (th r ) v ham (th bỡnh thng) Ta cú th phỏt biu li bi to n nh s u : Mụ t bi to n: X nh (phõn loi) nhng th in t l th r u vo: Biu din ni dung ca mt th (di dng mt ve t) u r : Th r (sp m em il) ho th bỡnh thng (ham em il) Phng ph p hc mỏy: Phõn loi Naùve Bayes v mỏy h ve t h tr SVM Tp d liu: Ni dung ca mt th v nhón lp (sp m ho ham) Mụ hỡnh ph n loi th r hỡnh sau: bng thut toỏn Bayes v SVM ú th mụ t nh 48 U VO Tp hun luyn Module hun luyn thu t toỏn Bayes Module hun luyn thu t toỏn SVM (tp th HAM, th SPAM) B hun luyn Bayes T p th TEST HAM, TEST SPAM B hun luyn SVM U RA Th SPAM Hỡnh 3.1: Mụ hỡnh phõn loi th r C Th HAM bng thut toỏn Bayse v SVM thut to n p dng ph n loi bn u ú th p dng ph n loi th r Núi x y dng mt mụ hỡnh ph n loi th r l mt vi khú khn v ph Hin n y, ng ó ú kh nhiu thut to n p dng v ho hiu qu cao Tuy nhiờn lun a mỡnh, tụi la chn mụ hỡnh x v mụ hỡnh SVM lm s ph n loi th r xut N ùve B yes lun BAYES : Thut toỏn s dng u vo trc tip l file th th mc Erron hun luyn nh gi r hun luyn SVM : Thut toỏn s dng b u vo l file th th mc Erron nhng ó c quy nh theo lut riờng v t hp thnh file d liu u vo theo quy tc sau : 49 Gi s y l nhng mail d liu SPAM u vo Gi s y l nhng mail d liu HAM u vo D liu cú 10 emails Tip theo l tin x l d liu ú nh dng m LibSVM hiu c, t ú hun luyn mụ hỡnh Liờn qu n n HAM, ngi ta thy thụng bỏo khụng phi SPAM s c gi l HAM Theo nh ngh thụng thng, HAM l th in t cn thit, khụng b coi l th rỏc nh dng d liu, chỳng ta cn bit libSVM hc th no Trong mỏy hc nú thng c gi l B t nh Trong trng hp phõn lp ti liu (phỏt hin spam email) chỳng ta xem mi t nh mt c tớnh Chc chn t Vi gr ú hu ht em il sp m, nhng khụng tỡm thy em il thng, nờn thut toỏn s hc t nhng im ny phõn tớch email cú phi spam khụng Mi c tớnh (t vng) m SVM hc phi cú giỏ tr Trong trng hp ny ch l phõn lp nh phõn Nu t vng cú email thỡ nú l true (1) v nu khụng cú thỡ nú l false (0) 50 i din cho mi email, chỳng tụi to r ve t gi tr true/false cho mi t (ly 10 em il) u tiờn, chỳng tụi ly ton b cỏc t Bc tip theo l n gin hoỏ d liu l nh h s cho mi t, thay vỡ phi ghi r lm iu ú hỳng tụi nh s nguyờn theo th t mi t hun luyn, chỳng ta cn cho thut toỏn bit lp c em il ú Trong trng hp ny cú lp l SPAM v NOTSPAM Vỡ thut toỏn ch chp nhn t nờn chỳng tụi s Not Sp m thnh NSp m Cui cựng l thay du bng bng du hai chm V to ton b hun luyn ỳng nh dng, chỳng tụi cho mi email l dũng file input Tp hp vo mt file m mi dũng l mt em il, ú t s cú file Model hun luyn l d liu u vo ca thut toỏn SVM s dng libSVM chun Nhng u im h i thut to n ph n loi ny ó trỡnh by hi tit hng Ci t t n 32 i m v kt qu B d li u t n i m Ton b d liu dựng hun luyn v kim th hng trỡnh c ly t d liu enron mail datase, ti a ch https://www.cs.cmu.edu/~./enron/ õy l mt b d liu chun kh y c dựng ph bin cỏc nghiờn cu v bn núi ng nh ph n loi bn núi riờng, d liu ny bao gm nhiu th mc, mi th m l file m il lu tr di dng text lm u vo ho hng trỡnh B d liu Erron dựng hun luyn c chia thnh b HAM v SPAM HAM: gm 800 file l th hun khụng phi l th SPAM 51 Hỡnh 3.2 Tp cỏc File HAM SPAM th l b gm 1496 file l th SPAM Hỡnh 3.3 Tp cỏc File SPAM 52 Trong hng trỡnh ly tng 200 th HAM v SPAM lm d liu kim tra (tp Test) ú (Test_HAM = 100 file, Test_SPAM=100 file) 2 Mụi trn i t C hai thut toỏn Bayes v SVM u i t trờn mụi trng Java, c th : Mụi trng i t : Java JDK Cụng c s dng : IDE Netbean 8.0.2 Giao din phỏt trin : Java Swing Th vin s dng : s dng th vin chun t Java2s activation.jar : apache-mime4j-0.3.jar mail.jar libsvm.jar 3 Gi o di n n trỡn t n i m Chng trỡnh gi o din demo cho thut toỏn Naùve Bayes v SVM ng dng phõn loi th r vi b d liu th nghim Enron c xõy dng nh s u: Hỡnh 3.4 Giao din chng trỡnh chớnh phõn loi th rỏc bng Bayes v SVM 53 cú th chy hng tỡnh demo trờn, hỳng t thc hin cỏc b di y : Bc : Chn phng ph p ph n loi Bayes hoc SVM Bc : Chn hun luyn HAM v SPAM u vo Bc : Kớch nỳt Hun luyn mỏy hc xut hin nh hỡnh di y Hỡnh 3.5 Giao din x lý d liu bc hun luyn Bc : Chn th mc lc phõn loi th r v th bỡnh thng Bc : Kớch nỳt Bt u kim tr chớnh xỏc ca vic h i vi b d liu th nghim (xem chớnh xỏc l bao nhiờu phn trm) nh hỡnh di y Hỡnh 3.6 Giao din kt qu ca th nghim 54 3.2.4 Kt qu t n i m Nh ó cp hng 2, lun trung vo i t th nghim hai phng ph p ph n loi gm phõn loi N ùve B yes n gin v phng phỏp Support Ve tor M hine (SVM) th nghim phng ph p ny, lun xõy dng hng trỡnh ph n loi email bng thut toỏn Naùve Bayes bng ngụn ng Java i vi SVM s dng th vin LibSVM nh ó trỡnh by phn 3.2.1 Hiu qu l th nh gi theo nhiu tiờu h nh nhy (re ll), h nh x (pre ision), v chớnh xỏc phõn loi chung tc l phn trm th c phõn loi ỳng khụng ph thu vo ú l th r h y th bỡnh thng Trong lun vn, tụi h yu trung nh gi hiu qu l th qu tiờu h v chớnh xỏc (pre ision) nh ngh nh s u: s t chớnh xỏc = T ng s t r p t n chớnh xỏc c phõn lo l t r Tiờu th b l chớnh xỏc phõn loi chung tc l phn trm th c phõn loi ỳng khụng ph thu vo ú l th r h y th bỡnh thng Trong lun vn, tụi h yu trung nh gi hiu qu l th qu tiờu h v chớnh xỏc Kt qu th nghim c h i phng ph p N ùve B yes v SVM vi d liu mu c th hin Bng 3.1 v chi tit Hỡnh 3.7 Bng 3.1: chớnh xỏc phõn loi hai phng phỏp phõn loi khỏc Tp d liu NB SVM HAM (100 th) 94 % 98 % SPAM (100 th) 93 % 99 % 99% 98% 97% 96% 95% 94% 93% 92% 91% 90% Bayes SVM HAM SPAM Hỡnh 3.7 chớnh xỏc phõn loi ca NB v SVM 55 33 n i t n i m Theo kt qu thc nghim cho thy phng ph p N ùve B yes ho kt qu kộm hn so vi phng ph p SVM Tuy nhiờn, phng ph p B yes ú u th rừ rt v t phõn loi ú phc tớnh toỏn thp hn SVM ũi hi lng v thi gian tớnh toỏn ln hn nhiu Trong cỏc th nghim, tng thi gian hun luyn v phõn loi bng SVM ln hn B yes n gin t 10 ti 50 ln Chỳng ta cú th thy t cỏc thut toỏn phõn lp hai lp nh SVM n cỏc thut toỏn phõn lp lp u ú im chung l yờu cu bn núi chung v th in t núi riờng phi c biu din di dng ve tor trng, nhiờn thut to n kh u phi s dng cỏc u lng tham s v ngng ti u ú thut toỏn SVM cú th t tỡm cỏc tham s ti u ny Trong phng ph p thỡ SVM l phng ph p s dng khụng gi n ve tor trng ln nht (hn 10.000 chiu) ú phng ph p kh ú s chiu hn nhiu (nh N ùve Bayes l 2000, k-Ne rest Neighbors l 2415) Trong cụng trỡnh cụng b nm 1999, Jo hims [13] ó so s nh SVM vi Naùve Bayesian, k-Ne rest Neighbour, Ro hio, v C4.5 v n nm 2003, Jo hims ng ó hng minh rng SVM lm vic rt tt cựng vi c tớnh cp tr y bn Cỏc kt qu cho thy rng SVM r chớnh xỏc phõn lp tt nht so sỏnh vi phng ph p kh Kirit henko v M twin [10] ó nghiờn u v so s nh phng ph p SVM vi k thut N ùve B yesi n, s u ú ó hng minh c rng SVM l phng phỏp tt nht cho phõn lp th in t ng nh ph n lp bn Nhng phõn tớch ca cỏc tỏc gi trờn y ho thy SVM cú nhiu im phự hp cho vic ng dng phõn lp th in t V trờn thc t, cỏc thớ nghim phõn lp th r ting Anh ch rng SVM t chớnh xỏc phõn lp cao v t xut s hn so vi phng ph p ph n lp kh ú ng h nh l l ti SVM ng l la chn hng u cho cỏc bi toỏn phõn loi th r 56 Kt lun n Trong hng ó trỡnh by c nhng th nghim s dng hai thut toỏn Naùve Bayes v SVM phõn loi th r ó nờu c yờu cu v bi to n ng nh d liu u vo, kt qu ca h thng Mt s trang mn hỡnh minh quỏ trỡnh thc nghim ca lun ng thi ng nh gi kt qu thc nghim v so s nh c hai thut toỏn núi trờn 57 KT LUN Cỏc kt qu t c Lun ó cp nhu cu ca l th r v ụng h m y, dựng hun luyn h thng bit th r , ri nhn dng th r , ngn hn th r Chn th rỏc s lm tng hiu qu khai thỏc h thng, c bit h thng th in t Lun ó trỡnh by h i lp thut to n qu n trng ca bi to n h m y ú l (i) thut to n mng B yes n gin; v (ii) thut to n m y ve t ta SVM C thut to n ny s dng l th rỏc mt h thng th in t c th Chng ui ca lun ó trỡnh by kt qu thc nghim, cho phộp lc th r , d liu mu Hng phỏt trin lun Tuy nhiờn, cũn hn ch v mt thi gian v kin thc nờn lun h i s u vo nghiờn cu bi toỏn l th r ting Vit Trong tng l i, lun ú th s c nghiờn cu tip theo hng sau: Khi p dng nhng thut to n ph n loi mt khú khn gp phi l x y dng hp t vng v ph n t h mt mu hun luyn ln Vn ny liờn qu n ti vi u thnh t v m t mt h h nh x Lun ú th tip t ph t trin theo hng nghiờn u m rng ng dng sn ú v x y dng mu hun luyn tiờu hun v th ting Vit bao gm cú du v khụng cú du ng nh iu hnh n ng o h nh x b t in th m s gii thut ph n loi 58 DANH MC TI LIU THAM KHO TING VIT [1] inh Th Phng Thu, Hong Vnh Sn, Hunh Quyt Thng, Phng ỏn xõy dng mu cho bi toỏn phõn lp bn ting Vit, nguyờn lý, gii thut, th nghim v nh gi kt qu, Tp Khoa hc v cụng ngh, 2005 [2] Nguyn Linh Gi ng, Nguyn Mnh Hin (2005), Ph n loi bn ting Vit s dng support ve tor m hines, Chuyờn san nghiờn cu u chớnh Vin thụng, s 15 [3] Nguyn Th nh Hựng (2006), Hng tip cn mi vic tỏch t phõn loi bn ting Vit s dng thut di truyn v thng kờ trờn Internet, Chuyờn san nghiờn cu u v n thụng, s 16 [4] Trn Ngõn Bỡnh, Vừ Hunh Tr m, Trớ tu nhõn to, i hc Cn th Phiờn bn trc tuyn: http://voer.edu.vn/c764b3239 TING ANH [5] C BURGES (1998), A tutori l on Support Ve tor M hines for p ttern re ognition, Pro eedings of Int Conferen e on D t Mining nd Knowledge Discovery, Vol 2, No 2, (pp 121-167) [6] C Cortes and V Vapnik Support-Ve tor Networks, M hine Le rning, 20, 1995 [7] M F C ropreso, S M twin, nd F Seb sti ni A le rner-independent ev lu tion of the usefulness of st tisti l phr ses for utom ted text tegoriz tion In A G Chin, editor, Text Databases and Document Management: Theory and Practice, pages 78-102 2001 [8] Androutsopoulos, G Palioras, V Karkaletsis, G Sakkis, C Spyropoulos, P St m topoulos (2000), Le rning to filter sp m e-mail: a omp rison of N ăve B yesi n nd memory-b sed ppro h, in: Pro 4th 59 European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD), (pp 113) [9] J Pl tt Sequenti l minim l optimiz tion: A f st lgorithm for tr ining support ve tor m hines Te hni l Report 98-14, Microsoft Research, Redmond, Washington, April 1998 [10] Kririt henko, M twin (2001),Em il l ssifi tion with o-tr ining Proceeding CASCON '01 Proceedings of the 2001 conference of the Centre for Advanced Studies on Collaborative research [11] M.F Porter, 1980, An lgorithm for suffix stripping, Progr m, 14(3) pp 130137 [12] R Bekkerman, R El-Yaniv, N Tishby, and Y Winter Distributional word clusters vs words for text categorization Journal of Machine Learning Research, 3:1183-1208, 2003 [13] T Jo hims (1999), Tr nsdu tive Inferen e for Text Cl ssification using Support Ve tor M hines, Intern tion l Conferen e on M hine Le rning (ICML), 1999 [14] http://www.24h.com.vn/cong-nghe-thong-tin/viet-nam-phat-tan-thu- rac-dung-thu-3-the-gioi-c55a675442.html [15] http://mic.gov.vn/gioithieuSPDV (b thụng tin v truyn thụng) [16]http://securelist.com/analysis/quarterly-spam-reports/67851/spam-andphishing-in-the-q3-of-2014 [...]... tạo và học máy bao gồm khái niệm, ứng dụng và phần trình bày chi tiết về học máy có giám sát, các kỹ thuật của học máy có giám sát dùng cho phân loại nhƣ N ïve B yes, SVM, quyết định,…Chƣơng ũng giới thiệu khái quát về thƣ r , và biểu diễn thƣ r Trong y đặ trƣng ủ thƣ r dựa trên học máy có giám sát phƣơng ph p ph n loại, phƣơng ph p B yes là phƣơng ph p đơn giản, nh nh và ho độ chính xác phân loại tƣơng... dụng nhiều nhất cho bài toán phân loại thƣ r 28 CHƢƠNG 2 PHÂN LOẠI THƢ RÁC BẰNG MỘT SỐ THUẬT TOÁN HỌC MÁY CÓ GIÁM SÁT 2 2 uật toán Naïve Bayes Giới t i u uật to n N ïve B es N ïve B yes (NB) là phƣơng ph p ph n loại dựa vào xác suất đƣợc sử dụng rộng rãi trong lĩnh vực máy học [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], đƣợc sử dụng lần đầu tiên trong lĩnh vực phân loại bởi M ron vào năm 1961... hợp họ ó gi m s t (ph n loại) đƣợ thể hiện nhƣ trên hình sau 6 Thí dụ mới (chưa gán nhãn) Các thí dụ huấn luyện (có nhãn) Hàm đích Các thu t toán học máy Nhãn phân loại Hình 1.1: Cấu trúc một hệ thống học máy tiêu biểu cho trƣờng hợp phân loại s t 1.1.3.2 Ngƣợ với họ hỉ gồm ó gi m s t, họ không gi m s t là h họ mà kinh nghiệm mẫu và không ó nhãn hoặ gi trị hàm đ h đi kèm V dụ hỉ bằng qu n s t thông thƣờng... cos (x, di) = x.d i x di (1.2)  bj là ngƣỡng phân loại của nhãn cj 1.1.5.3 Mô hình xác suất Naïve Bayes Kĩ thuật phân hoạch của Naive Bayes dự trên ơ sở định l B yes và đặc biệt phù hợp ho trƣờng hợp phân loại ó k h thƣớ đầu vào là lớn Mặc dù N ive B yes kh đơn giản nhƣng nó ó khả năng ph n loại tốt hơn rất nhiều phƣơng pháp phân hoạch phức tạp khác Với mỗi loại văn bản, thuật toán Naive Bayes tính 11... tự nh u S u khi tìm đƣợc phân cụm từ, phân cụm từ đƣợc sử dụng để biểu diễn văn bản cần phân loại Kết quả thử nghiệm cho thấy, phƣơng ph p biểu diễn văn bản bằng phân cụm từ không cho kết quả tốt hơn phƣơng ph p túi từ thông dụng [11] và do vậy rất t đƣợc sử dụng cho ứng dụng thuộc loại này 27 4 Kết luận ươn Mụ đ h ủ hƣơng trên là trình bày (i) kh i niệm về thƣ r ; (ii) học máy Chƣơng này đã giới thiệu... Hình 1.7 Danh sách các quốc gia phát tán thƣ rác trong quí 3/2014 của Kaspersky Lab 32 C biểu diễn nội dun t ư r 1.3.2.1 Biểu diễn n du t d ới dạng tập hợp từ (“tú từ”) Để có thể sử dụng kỹ thuật học máy và xác suất thống kê, nội dung thƣ ần đƣợc biểu diễn dƣới dạng thuận tiện cho việc áp dụng thuật toán học máy Các phƣơng ph p lọ thƣ bằng cách tự động phân loại theo nội dung đều sử dụng cách biểu diễn... loạt Nhƣng yếu tố quan trọng nhất để phân biệt thƣ r với thƣ thông thƣờng phải là ở nội dung bứ thƣ Khi một ngƣời nhận đƣợ thƣ r , ngƣời đó không thể x đƣợ thƣ ó đƣợc gửi hàng loạt h y không nhƣng ó thể nói h nh x định đó là thƣ r sau khi xem nội dung thƣ Đặ điểm này h nh là ơ sở cho giải pháp phân loại thƣ rác bằng cách phân tích nội dung thƣ 1.2.1.2 C đặ tr Các loại thƣ r 1 Thƣ r thƣ r của t r hiện... các hệ chuyên gia chẩn đo n tự động 5 Lọ thƣ r , ph n loại văn bản: Là dự trên nội dung thƣ điện tử, hi thƣ thành loại “thƣ r (thƣ không ó gi trị)” h y “thƣ bình thƣờng (thƣ ó gi trị)”; hoặ ph n hi tin tứ thành thể loại kh nh u nhƣ “xã hội”, “kinh tế”, “thể th o”,… 6 Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein 7 Vật lý: phân tích ảnh thiên văn, t động giữa các hạt … 8 Phát... 15 ngƣời dùng bình thƣờng trong một máy chỉ thƣ nào đó một cách bất hợp pháp hoặc dùng một địa chỉ ảo nào đó để gửi thƣ r 22 P n lo i t ư r Việc phân loại thƣ r lọ thƣ r rất quan trọng không chỉ trong lĩnh vực tạo những bộ phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thƣ r th h hợp Có rất nhiều cách phân loại thƣ r Dƣới đ y là một số loại điển hình nhất 1 Dựa trên kiểu... đƣợc lặp đi lặp lại đến khi gặp phải một l Nhƣ vậy đối tƣợng mà t đ ng xét sẽ thuộc vào loại của lá mà ta vừa gặp phải Điều đó ũng ó nghĩ là thuật toán cây quyết định kết thúc khi mà quá trình phân tích gặp đƣợc một nút lá 1.1.5.5 P ơ p p ạng ơ ro Phân loại văn bản bằng mô hình mạng nơ ron là một cách thức phân loại mới đƣợ đề xuất Cấu trúc và hoạt động của mạng nơ ron ơ bản dựa trên bộ não con ngƣời ...ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -o0o - PHẠM THỊ KIM DUNG PHÂN LOẠI THƢ RÁC BẰNG PHƢƠNG PHÁP HỌC MÁY Chuyên ngành: Khoa học máy tính Mã số:... QUAN VỀ HỌC MÁY VÀ THƢ RÁC 1.1 Tổng qu n họ m y 1.1.1 Tr tuệ nh n tạo 1.1.2 Học máy 1.1.3 C kĩ thuật học máy 1.1.4 Một số ứng dụng học máy ... phát từ thực trạng đó, họn hƣớng nghiên cứu Phân loại thƣ rác phƣơng pháp học máy với mụ đ h tìm hiểu, thử nghiệm số phƣơng ph p tiếp cận cho toán phân loại thƣ, từ ngăn hặn thƣ spam hiệu Nội dung

Ngày đăng: 13/12/2016, 09:53

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan