Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)

67 719 9
Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)Phân loại thư rác bằng phương pháp học máy (LV thạc sĩ)

I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN V TRUYN THễNG -o0o - PHM TH KIM DUNG PHN LOI TH RC BNG PHNG PHP HC MY LUN VN THC S KHOA HC MY TNH Thỏi nguyờn, 2015 I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN V TRUYN THễNG -o0o - PHM TH KIM DUNG PHN LOI TH RC BNG PHNG PHP HC MY Chuyờn ngnh: Khoa hc mỏy tớnh Mó s: 60 48 01 LUN VN THC S KHOA HC MY TNH NGI HNG DN KHOA HC PGS TS TRUNG TUN Thỏi nguyờn, 2015 ii MC LC MC LC ii LI CAM KT iv LI CM N v DANH MC CC T VIT TT vi DANH MC HèNH V V BNG BIU vii M U vii CHNG 1.TNG QUAN V HC MY V TH RC 1.1 Tng quan vờ ho c may 1.1.1 Tri tuờ nhõn to 1.1.2 Hc mỏy 1.1.3 Cỏc k thut hc mỏy 1.1.4 Mt s ng dng ca hc mỏy 1.1.5 Hc cú giỏm sỏt 1.2 Tng quan v th rỏc 12 1.2.1 nh ngha v th rỏc v cỏc c trng ca th rỏc 12 1.2.2 Phõn loi th rỏc 15 1.2.3 c im th rỏc 15 1.2.4 Tỏc hi ca th rỏc 16 1.2.5 Quy trỡnh v th on gi th rỏc 17 1.3 Biu din phõn loi th rỏc da trờn hc mỏy cú giỏm sỏt 20 1.3.1 Nhu cu phõn loi th rỏc 20 1.3.2 Cỏch biu din ni dung th rỏc 23 1.4 Kt lun chng 27 CHNG PHN LOI TH RC BNG MT S THUT TON HC MY Cể GIM ST 28 2.1 Thut toỏn Naùve Bayes 28 2.1.1.Gii thiu Thut toỏn Naùve Bayes 28 2.1.2 Mụ t thut toỏn 28 2.1.3 p dng phõn loi th rỏc 33 iii 2.2 Hc mỏy theo phng phỏp mỏy vec t ta SVM 36 2.2.1 Gii thiu SVM 36 2.2.2 Mụ t thut toỏn 37 2.2.2 Hun luyn SVM 40 2.2.3 ng dng phõn loi th rỏc 40 2.3 Xõy dng mụ hỡnh lc th rỏc da trờn hc mỏy cú giỏm sỏt 41 2.3.1 La chn mụ hỡnh v thut toỏn 41 2.3.2 Xõy dng h thng 41 2.4 Kt lun chng 46 CHNG 3.CI T TH NGHM VIC PHN LOI TH RC 47 3.1 Bi toỏn phõn loi th rỏc 47 3.2 Ci t th nghim v kt qu 50 3.2.1 B d liu th nghim 50 3.2.2 Mụi trng ci t 52 3.2.3 Giao din ca chng trỡnh th nghim 52 3.2.4 Kt qu th nghim 54 3.3 ỏnh giỏ th nghim 55 3.4 Kt lun chng 56 KT LUN 57 Cỏc kt qu t c 57 Hng phỏt trin lun 57 DANH MC TI LIU THAM KHO 58 iv LI CAM KT Di s giỳp nhit tỡnh v ch bo chi tit ca giỏo viờn hng dn, tụi ó hon thnh lun ca mỡnh Tụi xin cam kt lun ny l ca bn thõn tụi lm v nghiờn cu, khụng h trựng hay chộp ca bt k Ti liu c s dng lun c thu thp t cỏc ngun kin thc hp phỏp Tỏc gi lun Phm Th Kim Dung v LI CM N hon thnh chng trỡnh cao hc v vit lun ny, em ó nhn c s giỳp v úng gúp nhit tỡnh ca cỏc thy cụ trng i hc Cụng ngh thụng tin v Truyn thụng, i hc Thỏi Nguyờn Trc ht, em xin chõn thnh cm n cỏc thy cụ khoa o to sau i hc, ó tn tỡnh ging dy, trang b cho em nhng kin thc quý bỏu sut nhng nm hc qua Xin chõn thnh cm n gia ỡnh, bn bố ó nhit tỡnh ng h, giỳp , ng viờn c v vt cht ln tinh thn thi gian hc v nghiờn cu Trong quỏ trỡnh thc hin lun vn, mc dự ó rt c gng nhng cng khụng trỏnh nhng thiu sút Kớnh mong nhn c s cm thụng v tn tỡnh ch bo ca cỏc thy cụ v cỏc bn vi DANH MC CC T VIT TT AI Trớ tu nhõn to Clustering Phõn cm Computer Vision Nhỡn mỏy ESP Email Service Provider HAM Th in t khụng l th rỏc ISP Internet Service Provider, nh cung cp dch v Internet KNN K ngi lỏng ging gn nht MI Mutual information, thụng tin tng h NB Phng phỏp Naùve Bayes Regression Hi qui Search Engine Mỏy tỡm kim Server Mỏy ch, phớa mỏy ch SMO Sequential Minimal Optimization SMS Short Message Service Spam Email Th rỏc SQL Structured Query Language Stemming Gc (ca t) SVM Support Vector Machine, mỏy vec t ta TTNT Trớ tu nhõn to UBE Unsolicited Bulk Email, th khụng lnh mnh UCE Unsolicited Commercial Email, th khụng yờu cu n VC Kớch thc Vapnik- Chervonenkis XML eXtensible Markup Language vii DANH MC HèNH V V BNG BIU HèNH Hỡnh 1.1: Cu trỳc mt h thng hc mỏy tiờu biu cho trng hp phõn loi Hỡnh 1.2 Mụ hỡnh thut toỏn hc cú giỏm sỏt Hỡnh 1.3 Vớ d v trang web ly cp a ch th ca ngi dựng 17 Hỡnh 1.4 Mt s website ca cỏc cụng ty gi th rỏc 18 Hỡnh 1.5 Minh cỏch gi th rỏc qua mỏy ch th (open relay) 19 Hỡnh 1.6 S lng th rỏc t thỏng n thỏng nm 2014 21 Hỡnh 1.7 Danh sỏch cỏc quc gia phỏt tỏn th rỏc quớ 3/2014 ca Kaspersky Lab 23 Hỡnh 2.1 nh x d liu t khụng gian gc sang khụng gian c trng cho phộp phõn chia d liu bi siờu phng 38 Hỡnh 2.2 Siờu phng vi l cc i cho phộp phõn chia cỏc hỡnh vuụng cỏc hỡnh trũn khụng gian c trng 38 Hỡnh 2.3 Tin x lý d liu 42 Hỡnh 2.4 Hun luyn d liu 46 Hỡnh 3.1: Mụ hỡnh phõn loi th rỏc bng thut toỏn Bayse v SVM 48 Hỡnh 3.2 Tp cỏc File HAM 51 Hỡnh 3.3 Tp cỏc File SPAM 51 Hỡnh 3.4 Giao din chng trỡnh chớnh phõn loi th rỏc bng Bayes v SVM 52 Hỡnh 3.5 Giao din x lý d liu bc hun luyn 53 Hỡnh 3.6 Giao din kt qu ca th nghim 53 Hỡnh 3.7 chớnh xỏc phõn loi ca NB v SVM 54 BNG Bng 1.1 Vớ d ni dung ca bn th 24 Bng 1.2 Biu din vec t cho d liu bng 1.1 24 Bng 2.1: B d liu hun luyn cho bi toỏn phõn loi Chi Tennis 31 Bng 3.1: chớnh xỏc phõn loi hai phng phỏp phõn loi khỏc 54 M U Ngy nay, Internet m nhiu kờnh liờn lc, nhiu dch v mi cho ngi s dng, mt nhng dch v m Internet mang li l dch v th in t (Email), ú l phng tin giao tip rt n gin, tin li v hiu qu i vi cng ng ngi s dng dch v ny Chớnh vỡ nhng li ớch th mang li nờn s lng th trao i trờn Internet ngy cng tng, v mt s khụng nh ú l th rỏc (Spam) Trong nhng nm gn õy, spam hay cỏc th khụng mong mun ó tr thnh mt nn v e da kh nng giao tip ca ngi trờn kờnh liờn lc ny, ú l mt nhng thỏch thc ln m khỏch hng v cỏc nh cung cp dch v phi i phú Spam ó tr thnh mt hỡnh thc qung cỏo chuyờn nghip, phỏt tỏn virus, n cp thụng tin vi nhiu th on v mỏnh khúe cc k tinh vi Ngi dựng s phi mt khỏ nhiu thi gian xúa nhng th khụng mi m n, nu vụ ý cũn cú th b nhim virus v nng n hn l mt thụng tin nh th tớn dng, ti khon ngõn hng qua cỏc th dng phishing Theo bỏo cỏo tỡnh hỡnh th rỏc Kaspersky Lab va cụng b, t l th rỏc lu lng truy cp th ca quy 3/2014 tng 1,7 % so vi quy trc, t trung bỡnh 66,9% Ba ngun phỏt tỏn th rỏc hng u gm cú M (14%) v Nga (6,1%) va Vit Nam ng v trớ th vi 6% ngn chn spam, nhiu t chc, cỏ nhõn ó nghiờn cu v phỏt trin nhng k thut phõn loi th thnh cỏc nhúm; t ú xỏc nh, nhn bit gia th rỏc v th cú giỏ tr Tuy nhiờn, nhng ngi to nờn th rỏc luụn tỡm mi cỏch vt qua cỏc b phõn loi ny v phỏt tỏn chỳng Vỡ vy, cn cú mt h thng phõn loi õu l spam mail v õu l mail tt Xut phỏt t thc trng ú, tụi chn hng nghiờn cu Phõn loi th rỏc bng phng phỏp hc mỏy vi mc ớch tỡm hiu, th nghim mt s phng phỏp tip cn cho bi toỏn phõn loi th, t ú ngn chn th spam hiu qu hn Ni dung ca lun c trỡnh by theo chng T chc cu trỳc nh sau: Chng Tng quan v hc mỏy v th rỏc: Chng ny gii thiu tng quỏt v hc mỏy v th rỏc bao gm khỏi nim, ng dng v phn trỡnh by chi tit v hc mỏy cú giỏm sỏt, cỏc k thut ca hc mỏy cú giỏm sỏt dựng cho phõn loi nh Naùve Bayes, SVM, cõy quyt nh, Chng cng gii thiu khỏi quỏt v th rỏc, cỏc c trng ca th rỏc v biu din th rỏc da trờn hc mỏy cú giỏm sỏt; Chng Phõn loi th rỏc bng mt s thut toỏn cú giỏm sỏt: Ni dung chớnh chng ny l i sõu nghiờn cu hai thut toỏn hc mỏy cú giỏm sỏt l Naùve Bayes v phng phỏp SVM (Support Vector Machine) Chng Ci t, th nghim v ỏnh giỏ thut toỏn: Phn u chng gii thiu toỏn phõn loi th rỏc, b d liu th nghim v ci t chi tit hai thut toỏn cp chng Phn cui ca chng trỡnh by kt qu thu c v a ỏnh giỏ v hai thut toỏn c s dng bi toỏn lc th rỏc Cui lun l phn kt lun v danh sỏch cỏc ti liu tham kho Phn thc nghim v phõn loi th rỏc c trỡnh by thờm phn ph lc lun 45 Cỏc xỏc sut P(X,Y), P(X) v P(Y) c tớnh bng tn sut xut hin ca cỏc s kin tng ng trờn d liu hun luyn Sau ó tớnh MI cho tt c cỏc c trng k-gram, n c trng cú MI cao nht s c la chn Sau ú ta s chn khong 10000 c trng cú thụng s MI cao nht ỏnh trng s cho bn : T cỏc c trng ó c la chn bc trc, ta s thc hin ỏnh trng s cho tng bn vỡ hu ht cỏc thut toỏn phõn loi u yờu cu u vo l mt vec t (c biu din di dng mt tỳi t) Cỏc th rỏc c biu din theo phộp o TF-IDF l s kt hp gia tn sut ti liu v tn sut ti liu ngc Kt qu cui cựng ca khõu tin x lý l mt vec t biu din cho th in t u vo tng ng õy s l u vo cho khõu k tip, khõu hun luyn d liu cng nh l u vo cho phn d oỏn phõn loi th rỏc Ngoi cỏch tip cn ny, hin cũn cú mt s phng phỏp tip cn khỏc hin i hn da vo t in Wordnet WordNet l mt t in ng ngha ting Anh, c phỏt trin di s ch o ca George A Miller ú cỏc danh t, ng t , tớnh t v cỏc trng t c nhúm vo cỏc t ng ngha da trờn kinh nghim Mi l mt khỏi nim riờng bit Cỏc c liờn kt vi bi ngha ca quan nim v ng ngha v cỏc mi quan h t vng Chỳng ta s s dng t in WordNet cho cỏc bc tin x lý d liu v cung cp cỏc giỏ tr u vo mi cho cỏc bi toỏn mining ú l cỏc ngha thay vỡ mt cỏc thut ng õy s l mt hng phỏt trin tip theo ca ỏn 2.3.2.2 Hun luyn d liu Bc hun luyn d liu s ci t thut toỏn: Naùve Bayes v Support Vector Machine u vo ca bc ny l cỏc tỳi t c a t bc tin x lớ Kt qu ca bc ny l a mụ hỡnh hc mỏy phự hp vi d liu u vo T mụ hỡnh ny ta s d oỏn vic phõn loi cỏc bn u vo khỏc õy cng l bc chớnh nghiờn cu ỏn ny Vic ci t thut toỏn no õy mang tớnh ct lừi ca h thng Cú th coi bc ny chớnh l phn nhõn ca h thng, nh hng ti mc hiu qu ca nú 46 Hỡnh 2.4 Hun luyn d liu Hai phng phỏp phõn loi c th nghim bao gm hai phiờn bn phõn loi Bayes n gin phiờn bn s dng mụ hỡnh a thc (Bayes a thc) v SVM i vi SVM, hm nhõn c la chn l hm RBF da trờn hai yu t Th nht, hm nhõn RBF l mt hm khụng tuyn tớnh a mu d liu v khụng gian cú chiu ln hn, vỡ khụng ging nh hm nhõn tuyn tớnh, nú cú th x lý c trng hp gia cỏc nhón v thuc tớnh ca lp l khụng tuyn tớnh Hn na, hm nhõn tuyn tớnh l trng hp c bit ca RBF Thờm na, vi mt s tham s nht nh, hm nhõn sigma cng l mt trng hp ca hm nhõn RBF Th hai, hm nhõn RBF cú phc tớnh toỏn thp hn Mt im quan trng l Kij 1, ngc li so vi hm nhõn a thc cú giỏ tr t vụ cựng n Trong mt s trng hp c bit, vớ d nh s lng ca cỏc c trng l quỏ ln (khong 30000 c trng), hay mc chờnh lch gia s lng cỏc c trng v s lng ca cỏc bn mu l qỳa ln (nh cú 200 c trng m cú ti 30000 bn hay ngc li), ú phiờn bn hm nhõn tuyn tớnh nờn c s dng Bi nhng trng hp c biờt nh vy, hm tuyn tớnh t tc chy cao hn cng nh t chớnh xỏc cao hn 2.4 Kt lun chng Chng ny ó gii thiu c c th v hai thut toỏn (i) thuõ t toan Naùve Bayes; v (ii) thuõ t toan SVM v la chn c mụ hỡnh phõn loi th rỏc ng dng vo bi toỏn phõn loi th rỏc Ni dung chng ny l c s lớ thuyt ỏp dng thc t Trong chng tip theo lun s trung nghiờn cu phn a yờu cu ca bi toỏn v xõy dng, ci t chng trỡnh th nghim ỏnh giỏ thut toỏn ó nờu trờn 47 CHNG CI T TH NGHM VIC PHN LOI TH RC 3.1 Bi toỏn phõn loi th rỏc Bai toan phõn loa i th rỏc thc chõ t l bai toan phõn loa i cac th nhõ n c hai nhom chinh la nhúm th rỏc va nhúm th bỡnh thng Vic phõn loi tin hnh nh sau Trc tiờn, ni dung th c biu din di dng cỏc c trng hay cỏc thuc tớnh, mi c trng thng l mt t hoc cm t xut hin th Tip theo, giai on hun luyn, th ó c gỏn nhón {rỏc, bỡnh thng} - gi l d liu hun luyn hay d liu mu - c s dng hun luyn mt b phõn loi Sau hun luyn xong, b phõn loi c s dng xỏc nh th mi (th cha bit nhón) thuc vo loi no hai loi núi trờn Trong c giai on hun luyn v phõn loi, thut toỏn phõn loi ch lm vic vi ni dung th ó c biu din di dng cỏc c trng Ta xet bai toan phõn loa i th rỏc di da ng bai toỏn phõn loa i ban hai lp, o: tõ p d liu mu ban u la cac th rac va cac th bỡnh thng (nonspam emails), cac ban cn phõn lp l cac th c gi n mỏy khỏch Kt qua õ u cua qua trỡnh phõn loa i la hai lp ban: Spam (th rac) va ham (th bỡnh thng) Ta cú th phỏt biu li bi toỏn nh sau : Mụ t bi toỏn: Xỏc nh (phõn loi) nhng th in t l th rỏc u vo: Biu din ni dung ca mt th (di dng mt vec t) u ra: Th rỏc (spam email) hoc th bỡnh thng (ham email) Phng phỏp hc mỏy: Phõn loi Naùve Bayes v mỏy hc vec t h tr SVM Tp d liu: Ni dung ca mt th v nhón lp (spam hoc ham) Mụ hinh phõn loi th rac bng thut toỏn Bayes v SVM co thờ mụ ta nh hỡnh sau: 48 U VO Tp hun luyn M dule hun luyn thu t toỏn Bayes (tp th HAM, th SPAM) B hun luyn Bayes T p th TEST HAM, TEST SPAM M dule hun luyn thu t toỏn SVM B hun luyn SVM U RA Th SPAM Th HAM Hỡnh 3.1: Mụ hỡnh phõn loi th rỏc bng thut toỏn Bayse v SVM Cỏc thut toan ap du ng phõn loa i ban u co thờ ap du ng phõn loa i th rac Noi chung xõy dng mt mụ hin h phõn loi th rac la mụ t viờ c khú khn va phc Hiờ n nay, cung a co kha nhiờ u thuõ t toan c ap du ng va cho hiờ u qua cao Tuy nhiờn lun ca mỡnh, tụi la chn mụ hỡnh xac xuõ t Naùve Bayes v mụ hỡnh SVM lm c s phõn loi th rac luõ n BAYES : Thut toỏn s dng u vo trc tip l cỏc file th th mc Erron hun luyn ỏnh giỏ a hun luyn SVM : Thut toỏn s dng b u vo l cỏc file th th mc Erron nhng ó c quy nh theo lut riờng v t hp thnh file d liu u vo theo quy tc sau : 49 Gi s õy l nhng mail d liu SPAM u vo Gi s õy l nhng mail d liu HAM u vo D liu cú 10 emails Tip theo l tin x lý d liu cú nh dng m LibSVM hiu c, t ú hun luyn mụ hỡnh Liờn quan n HAM, ngi ta thy thụng bỏo khụng phi SPAM s c gi l HAM Theo nh ngha thụng thng, HAM l th in t cn thit, khụng b coi l th rỏc nh dng d liu, chỳng ta cn bit libSVM hc th no Trong mỏy hc nú thng c gi l B c tớnh Trong trng hp phõn lp ti liu (phỏt hin spam email) chỳng ta xem mi t nh mt c tớnh Chc chn t Viagra cú hu ht email spam, nhng khụng tỡm thy email thng, nờn thut toỏn s hc t nhng c im ny phõn tớch email cú phi spam khụng Mi c tớnh (t vng) m SVM hc phi cú giỏ tr Trong trng hp ny ch l phõn lp nh phõn Nu t vng cú email thỡ nú l true (1) v nu khụng cú thỡ nú l false (0) 50 i din cho mi email, chỳng tụi to vect giỏ tr true/false cho mi t (ly 10 email) u tiờn, chỳng tụi ly ton b cỏc t Bc tip theo l n gin hoỏ d liu l ỏnh ch s cho mi t, thay vỡ phi ghi lm iu ú chỳng tụi ỏnh s nguyờn theo th t mi t hun luyn, chỳng ta cn cho thut toỏn bit lp ca email ú Trong trng hp ny cú lp l SPAM v NOTSPAM Vỡ thut toỏn ch chp nhn t nờn chỳng tụi sa Not Spam thnh NSpam Cui cựng l thay du bng bng du hai chm V to ton b hun luyn ỳng nh dng, chỳng tụi cho mi email l dũng file input Tp hp vo mt file m mi dũng l mt email, ú ta s cú file Model hun luyn l d liu u vo ca thut toỏn SVM s dng libSVM chun Nhng u im ca hai thut toan phõn loa i ny ó c trỡnh bay chi tiờ t chng 3.2 Ci t th nghim v kt qu 3.2.1 B d liu th nghim Ton b d liu dựng hun luyn v kim th chng trỡnh c ly t d liu enron mail datase, ti a ch https://www.cs.cmu.edu/~./enron/ õy l mt b d liu chun khỏ y c dựng ph bin cỏc nghiờn cu v bn núi chung cng nh phõn loi bn núi riờng, d liu ny bao gm nhiu th mc, mi th mc l cỏc file mail lu tr di dng text lm u vo cho chng trỡnh B d liu Erron dựng hun luyn c chia thnh b HAM v SPAM HAM: gm 800 file l cỏc th chun khụng phi l th SPAM 51 Hỡnh 3.2 Tp cỏc File HAM SPAM th l b gm 1496 file l cỏc th SPAM Hỡnh 3.3 Tp cỏc File SPAM 52 Trong chng trỡnh ly tng 200 th HAM v SPAM lm d liu kim tra (tp Test) ú (Test_HAM = 100 file, Test_SPAM=100 file) 3.2.2 Mụi trng ci t C hai thut toỏn Bayes v SVM u c ci t trờn mụi trng Java, c th : Mụi trng ci t : Java JDK Cụng c s dng : IDE Netbean 8.0.2 Giao din phỏt trin : Java Swing Th vin s dng : s dng th vin chun t Java2s activation.jar : apache-mime4j-0.3.jar mail.jar libsvm.jar 3.2.3 Giao din ca chng trỡnh th nghim Chng trỡnh giao din demo cho thut toỏn Naùve Bayes v SVM ng dng phõn loi th rỏc vi b d liu th nghim Enron c xõy dng nh sau: Hỡnh 3.4 Giao din chng trỡnh chớnh phõn loi th rỏc bng Bayes v SVM 53 cú th chy c chng tỡnh demo trờn, chỳng ta thc hin cỏc bc di õy : Bc : Chn phng phỏp phõn loi Bayes hoc SVM Bc : Chn hun luyn HAM v SPAM u vo Bc : Kớch nỳt Hun luyn mỏy hc xut hin nh hỡnh di õy Hỡnh 3.5 Giao din x lý d liu bc hun luyn Bc : Chn th mc lc phõn loi th rỏc v th bỡnh thng Bc : Kớch nỳt Bt u kim tra chớnh xỏc ca vic hc i vi b d liu th nghim (xem chớnh xỏc l bao nhiờu phn trm) nh hỡnh di õy Hỡnh 3.6 Giao din kt qu ca th nghim 54 3.2.4 Kt qu th nghim Nh ó cp chng 2, lun trung vo ci t th nghim hai phng phỏp phõn loi gm phõn loi Naùve Bayes n gin v phng phỏp Support Vector Machine (SVM) th nghim cỏc phng phỏp ny, lun xõy dng chng trỡnh phõn loi email bng thut toỏn Naùve Bayes bng ngụn ng Java i vi SVM s dng th vin LibSVM nh ó trỡnh by phn 3.2.1 Hiu qu lc th c ỏnh giỏ theo nhiu tiờu nh nhy (recall), chớnh xỏc (precision), v chớnh xỏc phõn loi chung tc l phn trm th c phõn loi ỳng khụng ph thuc vo ú l th rỏc hay th bỡnh thng Trong lun vn, tụi ch yu trung ỏnh giỏ hiu qu lc th qua tiờu v chớnh xỏc (precision) c nh ngha nh sau: s th rỏc phỏt hin chớnh xỏc chớnh xỏc = Tng s th c phõn loi l th rỏc Tiờu th ba l chớnh xỏc phõn loi chung tc l phn trm th c phõn loi ỳng khụng ph thuc vo ú l th rỏc hay th bỡnh thng Trong lun vn, tụi ch yu trung ỏnh giỏ hiu qu lc th qua tiờu v chớnh xỏc Kt qu th nghim ca hai phng phỏp Naùve Bayes v SVM vi d liu mu c th hin Bng 3.1 v chi tit Hỡnh 3.7 Bng 3.1: chớnh xỏc phõn loi hai phng phỏp phõn loi khỏc Tp d liu NB SVM HAM (100 th) 94 % 98 % SPAM (100 th) 93 % 99 % 99% 98% 97% 96% 95% 94% 93% 92% 91% 90% Bayes SVM HAM SPAM Hỡnh 3.7 chớnh xỏc phõn loi ca NB v SVM 55 3.3 ỏnh giỏ th nghim Theo kt qu thc nghim cho thy phng phỏp Naùve Bayes cho kt qu kộm hn so vi phng phỏp SVM Tuy nhiờn, phng phỏp Bayes cú u th rừ rt v tc phõn loi cú phc tớnh toỏn thp hn SVM ũi hi lng v thi gian tớnh toỏn ln hn nhiu Trong cỏc th nghim, tng thi gian hun luyn v phõn loi bng SVM ln hn Bayes n gin t 10 ti 50 ln Chỳng ta cú th thy t cỏc thut toỏn phõn lp hai lp nh SVM n cỏc thut toỏn phõn lp a lp u cú c im chung l yờu cu bn núi chung v th in t núi riờng phi c biu din di dng vector c trng, nhiờn cỏc thut toỏn khỏc u phi s dng cỏc uc lng tham s v ngng ti u ú thut toỏn SVM cú th t tỡm cỏc tham s ti u ny Trong cỏc phng phỏp thỡ SVM l phng phỏp s dng khụng gian vector c trng ln nht (hn 10.000 chiu) ú cỏc phng phỏp khỏc cú s chiu hn nhiu (nh Naùve Bayes l 2000, k-Nearest Neighbors l 2415) Trong cụng trỡnh cụng b nm 1999, Joachims [13] ó so sỏnh SVM vi Naùve Bayesian, k-Nearest Neighbour, Rocchio, v C4.5 v n nm 2003, Joachims cng ó chng minh rng SVM lm vic rt tt cựng vi cỏc c tớnh c cp trc õy ca bn Cỏc kt qu cho thy rng SVM a chớnh xỏc phõn lp tt nht so sỏnh vi cỏc phng phỏp khỏc Kiritchenko v Matwin [10] ó nghiờn cu v so sỏnh phng phỏp SVM vi k thut Naùve Bayesian, sau ú ó chng minh c rng SVM l phng phỏp tt nht cho phõn lp th in t cng nh phõn lp bn Nhng phõn tớch ca cỏc tỏc gi trờn õy cho thy SVM cú nhiu im phự hp cho vic ng dng phõn lp th in t V trờn thc t, cỏc thớ nghim phõn lp th rỏc ting Anh ch rng SVM t chớnh xỏc phõn lp cao v t xut sc hn so vi cỏc phng phỏp phõn lp khỏc ú cng chớnh l lý ti SVM ang l la chn hng u cho cỏc bi toỏn phõn loi th rỏc 56 3.4 Kt lun chng Trong chng ó trỡnh by c nhng th nghim s dng hai thut toỏn Naùve Bayes v SVM phõn loi th rỏc ó nờu c yờu cu v bi toỏn cng nh d liu u vo, kt qu ca h thng Mt s trang mn hỡnh minh quỏ trỡnh thc nghim ca lun ng thi cng ỏnh giỏ kt qu thc nghim v so sỏnh c hai thut toỏn núi trờn 57 KT LUN Cỏc kt qu t c Lun ó cp nhu cu ca lc th rỏc v cụng cu hc mỏy, dựng hun luyn h thng bit th rỏc, ri nhn dng th rỏc, ngn chn th rỏc Chn th rỏc s lm tng hiu qu khai thỏc h thng, c bit h thng th in t Lun ó trỡnh by hai lp thuõ t toan quan trng ca bai toan hc mỏy ú l (i) thuõ t toan mng Bayes n gin; v (ii) thuõ t toan mỏy vec t ta SVM Cỏc thuõ t toan ny c s du ng lc th rỏc mt h thng th in t c th Chng cui ca lun ó trỡnh by kt qu thc nghim, cho phộp lc cỏc th rỏc, d liu mu Hng phỏt trin lun Tuy nhiờn, cũn hn ch v mt thi gian v kin thc nờn lun cha i sõu vo nghiờn cu bi toỏn lc th rỏc ting Vit Trong tng lai, lun cú th s c nghiờn cu tip theo hng sau: Khi ap du ng nhng thut toan phõn loi mt khú khn gp phi la xõy dng c tõ p h p t vng va cac mu huõ n luyờ n u ln Võ n liờn quan ti viờ c phõn tach mụ t cõu cac t v cm t mụ t cỏch chin h xac Lun co thờ c tip tu c phat triờ n theo hng nghiờn cu m rụ ng ng du ng cac bụ t iờ n sn cú va xõy dng cac mõu huõ n luyờ n tiờu chuõ n v th ting Vit bao gm cú du v khụng cú du cung nh iờ u chinh cac tham sụ cua giai thuõ t phõn loa i nõng cao ụ chin h xac 58 DANH MC TI LIU THAM KHO TING VIT [1] inh Th Phng Thu, Hong Vnh Sn, Hunh Quyt Thng, Phng ỏn xõy dng mu cho bi toỏn phõn lp bn ting Vit, nguyờn lý, gii thut, th nghim v ỏnh giỏ kt qu, Tp Khoa hc v cụng ngh, 2005 [2] Nguyờn Linh Giang, Nguyờn Mnh Hin (2005), Phõn loi bn ting Vit s dng support vector machines, Chuyờn san nghiờn cu Bu chớnh Vin thụng, s 15 [3] Nguyn Thanh Hựng (2006), Hng tip cn mi vic tỏch t phõn loi bn ting Vit s dng thut di truyn v thng kờ trờn Internet, Chuyờn san nghiờn cu Bu chớnh vin thụng, s 16 [4] Trn Ngõn Bỡnh, Vừ Hunh Trõm, Trớ tu nhõn to, i hc Cn th Phiờn bn trc tuyn: http://voer.edu.vn/c764b3239 TING ANH [5] C BURGES (1998), A tutorial on Support Vector Machines for pattern recognition, Proceedings of Int Conference on Data Mining and Knowledge Discovery, Vol 2, No 2, (pp 121-167) [6] C Cortes and V Vapnik Support-Vector Networks, Machine Learning, 20, 1995 [7] M F Caropreso, S Matwin, and F Sebastiani A learner-independent evaluation of the usefulness of statistical phrases for automated text categorization In A G Chin, editor, Text Databases and Document Management: Theory and Practice, pages 78-102 2001 [8] Androutsopoulos, G Palioras, V Karkaletsis, G Sakkis, C Spyropoulos, P Stamatopoulos (2000), Learning to filter spam e-mail: a comparison of a Naiăve Bayesian and memory-based approach, in: Proc 4th 59 European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD), (pp 113) [9] J Platt Sequential minimal optimization: A fast algorithm for training support vector machines Technical Report 98-14, Microsoft Research, Redmond, Washington, April 1998 [10] Kriritchenko, Matwin (2001),Email classification with co-training Proceeding CASCON '01 Proceedings of the 2001 conference of the Centre for Advanced Studies on Collaborative research [11] M.F Porter, 1980, An algorithm for suffix stripping, Program, 14(3) pp 130137 [12] R Bekkerman, R El-Yaniv, N Tishby, and Y Winter Distributional word clusters vs words for text categorization Journal of Machine Learning Research, 3:1183-1208, 2003 [13] T Joachims (1999), Transductive Inference for Text Classification using Support Vector Machines, International Conference on Machine Learning (ICML), 1999 [14] http://www.24h.com.vn/cong-nghe-thong-tin/viet-nam-phat-tan-thu- rac-dung-thu-3-the-gioi-c55a675442.html [15] http://mic.gov.vn/gioithieuSPDV (b thụng tin v truyn thụng) [16]http://securelist.com/analysis/quarterly-spam-reports/67851/spam-andphishing-in-the-q3-of-2014 ... pháp phân loại thư rác cách phân tích nội dung thư 1.2.1.2 Các đặc trưng thư rác Các loại thư rác có số đặc điểm sau: Thư rác gửi cách tự động: Mục đích kẻ gửi thư rác phát tán lượng thư rác tới... địa 15 người dùng bình thư ng máy thư cách bất hợp pháp dùng địa ảo để gửi thư rác 1.2.2 Phân loại thư rác Việc phân loại thư rác quan trọng không lĩnh vực tạo lọc thư rác phù hợp cho hiệu cao... nối khoảng 1,8 triệu thư rác từ gửi 1.3 Biểu diễn phân loại thư rác dựa học máy có giám sát 1.3.1 Nhu cầu phân loại thư rác 1.3.1.1 Tố c độ phát triể n của thư rác Thư rác đươ ̣c coi là

Ngày đăng: 23/03/2017, 02:00

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan