Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)

21 443 1
Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy Naive bayes (tt)

1 HC VIN CễNG NGH BU CHNH VIN THễNG - TRN M HONG NGHIấN CU PHN LOI TH RC DA TRấN K THUT HC MY NAẽVE BAYES CHUYấN NGNH : H THNG THễNG TIN M S: 60.48.01.04 TểM TT LUN VN THC S H NI 2017 Lun c hon thnh ti: HC VIN CễNG NGH BU CHNH VIN THễNG Ngi hng dn khoa hc: TS Hong Xuõn Du Phn bin 1: Phn bin 2: Lun s c bo v trc Hi ng chm lun thc s ti Hc vin Cụng ngh Bu chớnh Vin thụng Vo lỳc: gi ngy thỏng nm Cú th tỡm hiu lun ti: - Th vin ca Hc vin Cụng ngh Bu chớnh Vin thụng M U Trong thi i bựng n cụng ngh thụng tin hin nay, mt nhng dch v ó c ng dng t lõu nhng mang nhng u im khụng th thay th ú l dch v th in t (email) Email l mt phng tin giao tip rt n gin, tin li, r tin v hiu qu gia mi ngi cng ng s dng mng Internet Lng email trao i hng ngy rt ln, lờn n hng t email mi ngy Mt cỏc gõy au u cho cỏc nh cung cp dch v email v ngi dựng email l th rỏc (spam) Th rỏc thng c gi vi s lng rt ln, khụng c ngi dựng mong i, thng vi mc ớch qung cỏo, cú th ớnh kốm virus, gõy phin toỏi khú chu cho ngi dựng, lm gim tc ng truyn Internet v tc x lý ca mỏy ch email, gõy thit hi rt ln v kinh t ó cú nhiu phng phỏp c nghiờn cu v trin khai gim s lng th rỏc Nh vic a cỏc lut l hn ch vic gi th rỏc, a cỏc phng phỏp k thut lc th rỏc nh: lc da trờn a ch IP (whitelist, blacklist), lc da trờn danh tớnh ngi gi, lc da trờn chui hi ỏp, v phng phỏp lc ni dung Trong cỏc phng phỏp lc th rỏc, phng phỏp lc da trờn ni dung hin ang c quan tõm nhiu v c ỏnh giỏ l cú hiu qu cao Phng phỏp lc ni dung da trờn vic phõn tớch ni dung ca th phõn bit th rỏc v th bỡnh thng õy cng l tin ỏp dng cỏc thut toỏn hc mỏy, nhng Naùve Bayes vo lc email rỏc da trờn ni dung ca chỳng Nhm nghiờn cu v th nghim phng phỏp lc th rỏc da trờn phng phỏp hc mỏy Naùve Bayes, lun thc hin ti Nghiờn cu phõn loi th rỏc da trờn k thut hc mỏy Naùve Bayes Lun gm cú ba chng nh sau: Chng 1: Tng quan v email v lc th rỏc: Chng ny trỡnh by mt cỏch tng quan v email, cỏc dch v email, bo mt email v dch v email, th rỏc v cỏc v lc th rỏc Chng 2: Xõy dng mụ hỡnh lc th rỏc da trờn Naùve Bayes: Chng ny nghiờn cu thut toỏn hc mỏy Naùve Bayes, xõy dng mụ hỡnh lc th rỏc da trờn thut toỏn Naùve Bayes 4 Chng 3: Th nghim v kt qu: Phn u chng gii thiu b d liu th nghim, phn sau th nghim b lc th rỏc da trờn Naùve Bayes T ú a ỏnh giỏ, nhn xột 5 CHNG 1: TNG QUAN V EMAIL V VN LC TH RC 1.1 Khỏi quỏt v email v dch v email 1.1.1 Gii thiu Email (electronic mail), hay th in t l phng phỏp trao i cỏc thụng ip gia mt ngi gi vi mt hoc nhiu ngi nhn thụng qua cỏc mng mỏy tớnh v mng Internet Email l mt cỏc phng tin trao i thụng tin c s dng rng rói nht trờn mng Internet Email cú th c gi i dng thụng thng hay mó hoỏ v c chuyn qua cỏc mng mỏy tớnh c bit l mng Internet Email cú th chuyn t mt mỏy ngun ti mt hay nhiu mỏy nhn H thng email hot ng da trờn mụ hỡnh lu v chuyn tip (store and forward) Mỏy ch email nhn, chuyn tip, phõn phi v lu tr thụng ip Quỏ trỡnh gi nhn email khụng yờu cu ngi dựng (ngi gi, ngi nhn) v mỏy tớnh ca h trc tuyn cựng mt lỳc Ngi dựng ch cn kt ni mt thi gian ngn, thng l kt ni ti mỏy ch mt khong thi gian gi v nhn thụng ip 1.1.1.1 Cỏc giao thc gi v nhn email * Giao thc SMTP SMTP (ting Anh: Simple Mail Transfer Protocol - giao thc truyn ti th tớn n gin) l mt chun truyn ti th in t qua mng Internet c s dng rng rói SMTP c xut ln u tiờn vo nm 1982 chun RFC 821 [1] v c cp nht, m rng thnh Extended SMTP (ESMTP ) vo nm 2008 chun RFC 5321 [2] Giao tip SMTP gia cỏc mỏy ch email s dng cng TCP 25 Mc dự cỏc mỏy ch email thng s dng giao thc SMTP gi v nhn cỏc email, cỏc ng dng mỏy khỏch ch s dng giao thc SMTP chuyn tip ti email, cỏc ng dng mỏy khỏch thng s dng hoc giao thc IMAP hay POP3 * Giao thc POP POP (Post Office Protocol) l mt giao thc tng ng dng, dựng ly th in t t mỏy ch email, thụng qua kt ni TCP/IP trờn cng TCP 110 Cỏc phiờn bn ca POP l POP1, POP2 v POP3 Khi POP3 i, ó lp tc thay th hon ton cỏc phiờn bn c Vỡ vy, ngy nhc n giao thc POP thỡ thng l ỏm ch POP3 Thit k ca POP h tr chc nng cho ngi dựng cú kt ni Internet khụng thng trc (nh kt ni dial-up), cho phộp ngi dựng kt ni vi server, ti email v, sau ú cú th xem, thao tỏc vi email ch offline Mt email c nhn bi ngi dựng, chỳng thng b xúa hp th ca ngi dựng ti mỏy ch email POP3 c quy nh bi tiờu chun RFC 1939 [3] * Giao thc IMAP IMAP (Internet Message Access Protocol) l th h mi ca giao thc POP IMAP t s kim soỏt email trờn mỏy ch email nhim v ca POP l ti ton b thụng ip email mỏy khỏch IMAP cung cp truy cp email theo ba ch khỏc nhau: offline (ngoi tuyn), online (trc tuyn) v disconnected (ngt kt ni) IMAP4 c quy nh bi tiờu chun RFC 2060 [4] v nú s dng cng TCP 143 1.1.1.2 Cỏc thnh phn ca h thng email H thng email thụng trng gm phn chớnh: Mail User Agent (MUA), Mail Tranfer Agent (MTA) v Mail Delivery Agent (MDA) Phn tip theo trỡnh by chi tit v cỏc thnh phn ny * Mail User Agent (MUA) * Mail Tranfer Agent (MTA) * Mail Delivery Agent (MDA) 1.1.1.3 Phng thc hot ng ca h thng email Hot ng ca h thng email cú th dc minh qua phõn tớch mt thớ d nh sau: - Nguyn dựng MUA ca mỡnh son mt th cú a ch ngi nhn l Trn vi a ch l tran@b.org Nguyn nhn nỳt Send v phn mm th in t ca Nguyn s dng giao thc SMTP gi th n MTA, hay mỏy ch th in t, ca Nguyn Trong thớ d thỡ mỏy ch ny l smtp.a.org c cung cp t dch v Internet ca Nguyn - MTA ny s c a ch ngi nhn (tran@b.org) v da vo phn tờn nú s truy mỏy ch email ca tờn ny thụng qua h thng tờn (DNS) 7 - Mỏy ch DNS ca b.org l ns.b.org s tr li v mt bn ghi trao i th (bn ghi MX), õy l bn ghi ch cỏch thc lm th no nh tuyn cho email ny Trong thớ d thỡ mx.b.org l mỏy ch email t dch v cung ng Internet ca Trn - smtp.a.org gi th ti mx.b.org dựng giao thc SMTP, v mx.b.org s lu th vo hp th ca Trn - Khi c Trn lnh nhn th trờn mỏy (MUA) ca Trn, MUA ly th v bng cỏch ỏp dng giao thc POP3 1.1.1.4 Khuụn dng ca mt email RFC 822 [5] nh ngha mt email gm cú hai phn: phn tiờu (header) v phn thõn (body) C hai phn u c th hin di dng t ASCII Ban u, phn thõn c qui nh cú khuụn dng bn n gin Sau ny ngi ta xut mt chun mi gi l MIME (Multi-Purpose Internet Mail Extensions), cú th cho phộp phn thõn ca email cha bt k loi d liu no Phn tiờu bao gm nhiu dũng thụng tin, mi dũng kt thỳc bng t hp hai t Phn tiờu c chia phn thõn bi mt hng rng Mi mt hng tiờu cha mt cp tờn v giỏ tr, cỏch bi du hai chm (:) Ngi dựng cú th rt quen vi nhiu hng tiờu vỡ h thng phi in thụng tin vo Chun RFC 822 c m rng nm 1993 thnh chun MIME v c cp nht li nm 1996 cho phộp email mang c nhiu loi d liu: audio, video, hỡnh nh, ti liu bn Chun MIME v c bn cú ba phn Phn u tiờn l cỏc dũng header dựng tng thớch vi phn header c ca RFC 822 Theo nhiu cỏch, nhng dũng header ny mụ t d liu cha phn thõn Phn th hai l cỏc nh ngha cho mt cỏc kiu ni dung v kiu nu cú Bng 1.6 l vớ d mt s kiu d liu m MIME nh ngha 1.1.2 Cỏc bo mt email v dch v email Bo mt email v dch v email ó v ang l núng thu hỳt c s quan tõm ca cỏc c quan, t chc, cỏc chuyờn gia v ngi dựng Cỏc bo mt ni cm i vi email v dch v email bao gm: th rỏc (spam), virus v cỏc loi malware, email gi mo v phishing email * Th rỏc Th rỏc l cỏc th in t cú ni dung vụ b, thng l th qung cỏo v mt ni dung, sn phm, hoc website no ú, ụi l kốm theo la o v trm cp thụng tin cỏ nhõn Spam thng c gi cựng lỳc cho hng lot a ch email, v gi nhiu ln thụng qua mt mail server no ú Spam l loi thụng ip in t m ngi dựng khụng mong mun nhn c * Virus v cỏc loi malware Virus v cỏc loai malware (phn mm c li) l cỏc phn mm gõy hng húc h thng mỏy tớnh v cỏc phn mm cú ớch Cỏc chng trỡnh hay phn mm c hi cú th xõm nhp h thng mỏy tớnh ca ngi dựng bng nhiu cỏch, v mt cỏc cỏch ph bin nht l thụng qua th in t T mt mỏy tớnh, virus thu thp cỏc a ch email mỏy nn nhõn v gi email gi mo cú ni dung hp dn kốm theo file virus la ngi nhn m cỏc file ny Cỏc virus email c gi thng cú ni dung khỏ hp dn Mt s virus cũn trớch dn ni dung ca email hp th ca nn nhõn to phn ni dung ca email gi mo, iu ú giỳp cho email gi mo cú v tht hn v ngi nhn d b mc la hn Vi cỏch hon ton tng t nh vy trờn nhng mỏy nn nhõn khỏc, virus cú th nhanh chúng lõy lan trờn ton cu theo cp s nhõn * Email gi mo v phishing email Ngoi vic gi th rỏc v lõy lan cỏc phn mm c hi, tin tc cũn cú th gi mo email ỏnh la ngi dựng nhm phỏ hoi, trc li Trong ú, phishing email l hỡnh thc la o nhm ỏnh cp cỏc thụng tin nhy cm ca ngi dựng, nh thụng tin th tớnh dng hay tờn ti khon s dng v mt khu ng nhp vo cỏc trang thụng tin in t hay dch v ngõn hng trc tuyn 1.1.3 Cỏc bin phỏp m bo an ton email v dch v email Nhiu k thut ó c nghiờn cu v ng dng nhm m bo an ton cho email v dch v email Cú th lit kờ cỏc bin phỏp thụng dng, gm: Lc spam v malware email Cu hỡnh an ton cho mỏy ch email Phng phỏp DomainKeys Phng phỏp Call-ID Phng phỏp Sender Policy Framework (SPF) Phng phỏp Sender ID Framework Phng phỏp lc da trờn mng xó hi Ngn chn vic gi th rỏc bng chớnh sỏch v lut phỏp Cỏc tiu mc tip theo s trỡnh by chi tit ni dung cỏc bin phỏp k trờn 1.1.3.1 Lc spam v malware email Lc th rỏc, hay lc spam v malware email l bin phỏp hiu qu u tiờn v cú th c trin khai trờn mỏy ch email (MTA/MDA) v mỏy khỏch email (MUA) Di õy l cỏc k thut c th cho lc spam v malware email * S dng SURBL list * Chn a ch IP * S dng danh sỏch blacklist/whitelist * S dng b lc Bayesian * S dng tớnh nng Challenge/Response 1.1.3.2 Cu hỡnh an ton cho mỏy ch email Cu hỡnh an ton cho mỏy ch email l mt bin phỏp hiu qu trỏnh cỏc mỏy ch b li dng phỏt tỏn th rỏc v cỏc phn mm c hi Cỏc bin phỏp c th gm: - Cu hỡnh trỏnh Open Relay - Bt ch xỏc thc SMTP (SMTP authentication) - Gim s lng kt ni SMTP ng thi hn ch tn cụng DoS; - Kớch hot Reverse DNS vi mỏy ch email ngn chn tin tc gi email gi mo; - S dng blacklist cc b (tờn min, a ch IP v a ch email) chn cỏc ngun spams; - Kớch hot c ch Sender Policy Framework chn cỏc ngun gi mo; - S dng SMTP an ton (Secure SMTP) 1.1.3.3 Phng phỏp DomainKeys Phng phỏp DomainKey [6] giỳp phõn nh rừ th rỏc v th thng bng cỏch cung cp cho cỏc hóng cung cp dch v th in t mt c ch xỏc nhn c tờn ca mi ngi gi th in t v tớnh ton ca mi bc th c gi i Sau ó xỏc 10 nhn c tờn min, ngi ta cú th so sỏnh tờn ny vi tờn m ngi gi s dng ụ Ngi gi ca bc th phỏt hin cỏc trng hp gi mo 1.1.3.4 Phng phỏp Call-ID Phng phỏp Call-ID l mt tiờu chun t quỏ trỡnh gi th Tiờu chun ny ũi hi ngi gi th in t phi cung cp a ch IP ca mỏy ch gi th theo dng XML vo bn ghi DNS trờn mỏy ch tờn ca h Mỏy ch nhn th in t v mỏy khỏch nhn bc th ú s kim tra a ch gi th tiờu bc th vi a ch ó c cụng b xỏc nhn mỏy ch gi th Cỏc bc th khụng khp vi a ch ngun s b loi b 1.1.3.5 Phng phỏp Sender Policy Framework (SPF) Phng phỏp SPF [7] da trờn c cu chớnh sỏch ngi gi, ú SPF cng yờu cu ngi gi th in t phi sa i DNS cho bit mỏy ch no cú th gi th t mt tờn Internet nht nh Tuy nhiờn, SPF ch kim tra s gi mo bc th quỏ trỡnh chuyn th hay cũn gi l mc ngoi phong bỡ, xỏc minh a ch phn hi ca mt bc th, thng c mỏy ch nhn th gi tr li trc tip nhn phn ni dung th, sau ú s thụng bỏo ti mỏy ch nhn th loi b bc th 1.1.3.6 Phng phỏp Sender ID Framework Sender ID Framework l mt giao thc xỏc thc ngi gi email Microsoft xut, c thit k nhm chng li email gi mo v email tn cụng phishing Theo Microsoft, Sender ID Framework gm ba phn riờng bit: Sender Policy Framework (SPF), Caller ID v Submitter Optimization Hot ng ca Sender ID Framework gm cỏc khõu: - Ngi gi cụng khai bn ghi Sender ID lờn h thng DNS - Email c gi qua mng Internet - Ngi nhn tỡm bn ghi Sender ID v xỏc nh Purported Responsible Address (PRA) PRA l cú a ch from, l a ch gi email Sau ú so sỏnh PRA vi cỏc a ch IP hp l bn ghi Sender ID Nu ging, email vt qua c bc kim tra Sender ID 1.1.3.7 Phng phỏp lc da trờn mng xó hi Cỏc nghiờn cu gn õy ó bt u khai thỏc thụng tin t mng xó hi cho vic xỏc nh th rỏc bng cỏch xõy dng mt th (cỏc nh l a ch email, cung c thờm vo 11 gia node A v B nu gia A v B cú s trao i th qua li) Ngi ta ó s dng mt s tớnh cht c trng ca mng xó hi xõy dng mt cụng c lc th rỏc 1.1.3.8 Ngn chn vic gi th rỏc bng chớnh sỏch v lut phỏp Khi tỡnh trng th rỏc ngy cng tng trờn ng truyn internet gõy nhiu phin toỏi v thit hi ln trờn th gii rt nhiu cỏc quc gia ó a cỏc lut ngn chn th rỏc Di õy l mt s ni dung c bn liờn quan ti gii phỏp ngn chn thụng qua lut l phỏp lý c a trờn bỏo in t ca b vin thụng M l mt nhng nc u tiờn trờn th gii c gng ban hnh cỏc bn phỏp lut gii quyt th in t rỏc trn ngp 1.2 Th rỏc v lc th rỏc 1.2.1 Khỏi quỏt v th rỏc Th rỏc, hay spam l mt loi th c gi vi s lng ln, theo ch ý ca ngi gi, hon ton khụng cú s liờn h gỡ vi ngi nhn Tỏc hi ca th rỏc bao gm: - Gõy tc nghn ng truyn Internet - Mt nhiu thi gian tỡm kim email hp l cú quỏ nhiu spam email Trong nhiu trng hp, ngi dựng cú th vụ tỡnh xúa mt email quan trng cựng vi email spam - Gõy khú chu cho ngi dựng - Mt vi spam email cú cha tin ớnh kốm v nu m ớnh kốm, mỏy tớnh ca ngi dựng cú th b nhim virus hoc mó c 1.2.2 Cỏc c trng ca th rỏc c tớnh chung ca th rỏc l khụng rng buc v mt ni dung Phn ln cỏc th rỏc tuõn theo cỏc mu chung v cú th c nhn din mt cỏch rừ rng Ngoi ra, cỏc th rỏc cú cỏc c im v ngụn ng, thi gian Hu ht cỏc th rỏc ny c vit bng ting Anh vi t l rt cao hn 80% c im chớnh ca th rỏc khỏc bit vi th thụng thng ú l: - Th rỏc c gi i mt cỏch t ng - Th rỏc c gi n nhng a ch ngu nhiờn trờn mt din rng - Ni dung ca th rỏc thng l nhng ni dung bt hp phỏp, gõy phin h cho ngi dựng 12 - a ch ca ngi gi th rỏc thng l nhng a ch trỏ hỡnh 1.2.3 Phõn loi th rỏc Vic phõn loi th rỏc rt quan trng khụng ch lnh vc to nhng b lc th rỏc phự hp cho hiu qu cao m cũn giỳp cho vic ban hnh cỏc b lut chng th rỏc thớch hp Mt s cỏch phõn loi th rỏc thụng dng: - Da trờn kiu phỏt tỏn th rỏc - Da vo quan h vi ngi gi th rỏc - Da vo ni dung ca th rỏc - Da trờn ng lc ca ngi gi 1.2.4 Tỏc hi ca th rỏc Theo thng kờ th rỏc hin chim hn mt na s email truyn trờn Internet v chớnh th rỏc l ngun lõy lan virus nhanh nht Thit hi chỳng gõy rt ln i vi s phỏt trin internet núi chung v ngi s dng th in t núi riờng Theo thng kờ ton cu ca hóng nghiờn cu Ferris Research San Francisco, th rỏc gõy thit hi 50 t USD nm 2005 Ch tớnh riờng M, thit hi th rỏc gõy i vi cỏc doanh nghip c tớnh khong 17 t USD/nm Khụng ch gõy thit hi v tin bc, th rỏc cũn lm gim hiu qu lm vic, gõy stress, tiờu tn thi gian ca nhõn viờn Nhng iu ny cng ng ngha vi vic, nng sut lao ng gim, nh hng ti tỡnh hỡnh kinh doanh v doanh thu ca cụng ty 1.3 Kt lun chng Chng ó trỡnh by khỏi quỏt v email, dch v email, cỏc bo mt v cỏc bin phỏp, k thut m bo an ton cho email v dch v email Chng cng cp v th rỏc, cỏc c trng ca th rỏc, tỏc hi v lc th rỏc Chng s i sõu tỡm hiu v thut toỏn hc mỏy Naùve Bayes v xõy dng mụ hỡnh lc th rỏc da trờn Naùve Bayes 13 CHNG 2: XY DNG Mễ HèNH LC TH RC DA TRấN NAẽVE BAYES 2.1 Thut toỏn hc mỏy Naùve Bayes 2.1.1 nh lý Bayes nh lý Bayes [12] cho phộp tớnh xỏc sut xy ca mt s kin ngu nhiờn A bit s kin liờn quan B ó xy Xỏc sut ny c hiu l P(A|B), v c l "xỏc sut ca A nu cú B" i lng ny c gi xỏc sut cú iu kin hay xỏc sut hu nghim vỡ nú c rỳt t giỏ tr c cho ca B hoc ph thuc vo giỏ tr ú Theo nh lớ Bayes, xỏc sut xy A bit B s ph thuc vo i lng sau: - Xỏc sut xy A ca riờng nú, khụng quan tõm n B, c kớ hiu l P(A) (xỏc sut ca A) - Xỏc sut xy B ca riờng nú, khụng quan tõm n A, c kớ hiu l P(B) (xỏc sut ca B) - Xỏc sut xy B bit A xy ra, kớ hiu l P(B|A) (xỏc sut ca B nu cú A) Khi bit ba i lng ny, xỏc sut ca A bit B cho bi cụng thc: T ú dn ti: P(A|B)P(B) = P(A B) = P(B|A)P(A) 2.1.2 Thut toỏn Naùve Bayes Thut toỏn Naùve Bayes da trờn nh lý Bayes c phỏt biu cho s kin X v Y nh sau: p dng bi toỏn phõn loi, cỏc d kin gm cú: - D: d liu hun luyn ó c vector húa di dng - Ci: phõn lp i, vi i = {1,2,,m} - Cỏc thuc tớnh c lp iu kin ụi mt vi Theo nh lý Bayes: = ( 1, 2, , ) 14 Theo tớnh cht c lp iu kin: Trong ú: ( | ) l xỏc sut thuc phõn lp i bit trc mu X ( ) l xỏc sut phõn lp i ( | ) l xỏc sut thuc tớnh th k mang giỏ tr xk ó bit X thuc phõn lp i * Cỏc bc thc hin thut toỏn Naùve Bayes: Bc 1: Hun luyn Naùve Bayes (da vo d liu), tớnh ( ) v ( Bc 2: Phõn lp = ( 1, 2, , | ) ), ta cn tớnh xỏc sut thuc tng phõn lp ó bit trc Xnew Xnew c gỏn vo lp cú xỏc sut ln nht theo cụng thc: 2.2 Xõy dng mụ hỡnh lc th rỏc da trờn Naùve Bayes 2.2.1 Mụ hỡnh lc th rỏc da trờn Naùve Bayes Bi toỏn lc th rỏc thc cht l bi toỏn phõn loi cỏc th nhn c thnh hai nhúm l nhúm th rỏc v nhúm th bỡnh thng Mụ hỡnh lc th rỏc thc hin lun gm bc: hun luyn v phõn loi, nh biu din trờn Hỡnh 2.1 15 Hỡnh 2.1: Mụ hỡnh hun luyn v lc th da trờn Naùve Bayes 2.2.2 Cỏc bc x lý mụ hỡnh lc th rỏc da trờn Naùve Bayes 2.2.2.1 Tin x lý Phn tin x lý d liu c coi l mt nhng phn quan trng nht phõn loi th nú riờng v phõn loi bn núi chung Nhỡn chung, quy trỡnh tin x lý nh mụ t trờn Hỡnh 2.2, bao gm bc chớnh: Hỡnh 2.2: Quy trỡnh tin x lý d liu Bc : Loi b nhiu Bc 2: Sa li chớnh t 16 Bc 3: a t v dng gc (Stemming) Bc 4: Tỏch thut ng Bc 5: Trớch chn c trng Bc 6: ỏnh trng s cho bn 2.2.2.2 Hun luyn S dng d liu u vo l cỏc vector c trng cho cỏc ti liu (mi c trng c biu din bi mt giỏ tr ()), bc hun luyn thc hin vic tớnh cỏc giỏ v s dng thut toỏn Naùve Bayes ó trỡnh by mc 2.1 Ni dung c th ca bc hun luyn gm: u vo: Cỏc vector c trng ca bn hun luyn (Ma trn MxN, vi M l s vector c trng hun luyn, N l s c trng ca vector) Tp nhón/lp cho tng vector c trng ca hun luyn u ra: Cỏc giỏ tr xỏc sut v Cụng thc tớnh Trong ú: |docsi|: s bn ca hun luyn thuc phõn lp i |total docs|: s bn hun luyn m s phõn lp Cụng thc tớnh | | Trong ú: | |: S bn phõn lp i cú c trng th k mang giỏ tr xk (hay s bn lp i, cú xut hin/khụng xut hin c trng k) : S bn ca hun luyn thuc phõn lp i S giỏ tr cú th cú ca c trng th k 17 2.2.2.3 Phõn loi Bc phõn loi s dng cỏc giỏ tr xỏc sut thu c bc hun luyn phõn loi cỏc bn u vo vo lp phự hp Bc phõn loi c thc hin c th nh sau: u vo: Vector c trng ca bn cn phõn lp Cỏc giỏ tr xỏc sut v u ra: Nhón/lp ca bn cn phõn loi Cụng thc tớnh xỏc sut thuc phõn lp i bit trc mu X: Da vo vector c trng ca bn cn phõn lp, ỏp dng cụng thc trờn tớnh xỏc sut thuc tng phõn lp cho bn, v chn lp cú xỏc sut cao nht 2.3 Kt lun chng Chng trỡnh by khỏi quỏt v nh lý Bayes v thut toỏn Naùve Bayes Trong phn tip theo, chng ny trỡnh by mụ hỡnh lc th rỏc da trờn Naùve Bayes, vi bc: hun luyn v phõn loi Trong chng 3, lun s dng mụ hỡnh lc th rỏc da trờn Naùve Bayes thc hin mt s th nghim ỏnh giỏ hiu qu lc th rỏc 18 CHNG 3: TH NGHIM V KT QU 3.1 Gii thiu b d liu th nghim D liu th nghim c ly t d liu Enron mail trang web http://www.aueb.gr/users/ion/data/enron-spam/ õy l d liu cỏ nhõn ca hn 150 nhõn viờn ti cụng ty Enron Houston, bang Texas, Hoa K D liu ny bao gm mt lng ln email cỏ nhõn, c cụng b cụng khai v s dng to cỏc tiờu chun phõn loi email B d liu bao gm th rỏc v th bỡnh thng Phn ln cỏc th rỏc u khụng mang tớnh cỏ nhõn, ú trn ln th bỡnh thng (c nhn bi ngi) vi th rỏc (c nhn bi nhiu ngi) s to cỏc tiờu chun hp lý B d liu cú tng cng 21783 th c chia thnh phn, bao gm cỏc th mụ phng nhiu tỡnh khỏc m ngi s dng cú th gp phi thc t Bng 3.1: B d liu th nghim Tờn d liu Enron1 Enron2 Enron3 Enron4 Enron5 Enron6 Th rỏc 382 608 1500 3675 4000 4678 Th bỡnh thng 645 961 1512 1500 2000 5187 Tng s 1027 1569 3012 5175 6000 9865 Tt c th b d liu u ó c x lý qua bc x lý s b nh sau: - Bc : Loi b cỏc th ngi dựng gi cho chớnh mỡnh - Bc 2: Loi b cỏc th html v phn header, ch gi li phn tiờu (Subject) v phn ni dung th - Bc 3: Loi b cỏc th spam c vit bng b t non-Latin 3.2 Cỏc th nghim v kt qu 3.2.1 Tiờu ỏnh giỏ Hiu qu lc th cú th c ỏnh giỏ theo cỏc tiờu chớ, nh nhy (recall), chớnh xỏc (precision), hoc o F1 Lun s dng chớnh xỏc phõn loi th rỏc c tớnh toỏn nh sau: TP: T l gia s th rỏc c phõn loi ỳng v s th rỏc thc t 19 FP: T l gia s th bỡnh thng c phõn loi l th rỏc v v s th bỡnh thng thc t Cỏc th a vo hun luyn ó c gỏn nhón sn Tt c cỏc th rỏc c gỏn nhón chung l SPAM, cỏc th bỡnh thng c gỏn nhón l HAM 3.2.2 Cỏc th nghim - Th nghim 1: Thc hin vi u vo hun luyn l b d liu enronl 1027 th (382 th rỏc, 645 th bỡnh thng) Thc hin kim tra b lc vi cỏc b d liu t enron2 n enron6 Kt qu phõn loi th rỏc cho trờn Bng 3.2 Bng 3.2: Kt qu th nghim vi b hun luyn enron1 u vo email lc Enron2 Enron3 Enron4 Enron5 Enron6 1569 3012 5175 6000 9865 Th rỏc phõn loi c 540 1363 2905 3256 3723 Th rỏc phõn loi ỳng 516 1296 2764 3097 3599 24 67 141 159 124 Kt qu Th bỡnh thng phõn loi thnh th rỏc - Th nghim 2: Thc hin vi u vo hun luyn l b hun luyn enron6 9865 th (4678 th rỏc, 5187 th bỡnh thng) Thc hin kim tra b lc vi cỏc b d liu t enronl n enron5 Kt qu phõn loi th rỏc cho trờn Bng 3.3 Bng 3.3: Kt qu th nghim vi b hun luyn enron6 u vo email lc Enron1 Enron2 Enron3 Enron4 Enron5 1027 1569 3012 5175 6000 Th rỏc phõn loi c 374 576 1403 3405 3656 Th rỏc phõn loi ỳng 370 557 1376 3264 3497 19 27 141 159 Kt qu Th bỡnh thng phõn loi thnh th rỏc 20 Kt qu tng hp chớnh xỏc ca cỏc trng hp th nghim cho trờn Bng 3.4 Bng 3.4: Kt qu tng hp chớnh xỏc ca cỏc trng hp th nghim B u vo email lc Enron1 hun luyn Enron1 Enron6 Kt qu chớnh xỏc chớnh xỏc 1027 Enron2 Enron3 Enron4 Enron5 Enron6 1569 3012 5175 6000 9865 97.14% 95.12% 88.89% 90.69% 99.38% 97.89% 98.09% 90.43% 91.66% 96.99% 3.3 Mt s nhn xột T kt qu tng hp trờn Bng 3,4 cú th thy, trung bỡnh chớnh xỏc hun luyn bng Enron l 93,77% v trung bỡnh chớnh xỏc hun luyn bng Enron l 95,49% Rừ rng, s dng hun luyn cú kớch thc ln hn (Enron 6), chớnh xỏc phõn loi th rỏc tng ỏng k Phng phỏp Naùve Bayes nhỡn chung n gin, chi phớ tớnh toỏn thp, nờn cú tc hun luyn, lc email nhanh, thớch hp vi vic lc email trc tuyn chớnh xỏc ca phng phỏp Naùve Bayes t khỏ cao, trung bỡnh trờn 93%, cú kh nng ng dng hiu qu thc t 3.4 Kt lun chng Chng trỡnh by cỏc kt qu th nghim mụ hỡnh lc th rỏc da trờn thut toỏn hc mỏy Naùve Bayes Cỏc kt qu th nghim cho thy phng phỏp Naùve Bayes n gin, chi phớ tớnh toỏn thp, cú tc hun luyn, lc email nhanh, thớch hp vi vic lc email trc tuyn Mụ hỡnh cn c th nghim trờn nhiu email hn cú ỏnh giỏ tng quỏt hn 21 KT LUN Lun nghiờn cu khỏi quỏt v th in t v th rỏc mt gõy nhiu phin toỏi cho ụng o ngi dựng Internet Vic nghiờn cu cỏc phng phỏp lc th rỏc hiu qu vi chớnh xỏc cao v tc lc nhanh l cn c tip tc quan tõm Kt qu t c ca lun vn: Nghiờn cu khỏi quỏt v email, dch v email, cỏc bo mt v cỏc bin phỏp m bo an ton cho email v dch v email Nghiờn cu khỏi quỏt v th rỏc v lc th rỏc Xõy dng v th nghim mụ hỡnh lc th rỏc da trờn Naùve Bayes Hng phỏt trin: Th nghim mụ hỡnh lc th rỏc ó xõy dng trờn mt s d liu thc t cú ỏnh giỏ ton din hn Hiu chnh v th nghim mụ hỡnh cho lc th rỏc ting Vit ... hc mỏy Naùve Bayes v xõy dng mụ hỡnh lc th rỏc da trờn Naùve Bayes 13 CHNG 2: XY DNG Mễ HèNH LC TH RC DA TRấN NAẽVE BAYES 2.1 Thut toỏn hc mỏy Naùve Bayes 2.1.1 nh lý Bayes nh lý Bayes [12] cho... lý Bayes v thut toỏn Naùve Bayes Trong phn tip theo, chng ny trỡnh by mụ hỡnh lc th rỏc da trờn Naùve Bayes, vi bc: hun luyn v phõn loi Trong chng 3, lun s dng mụ hỡnh lc th rỏc da trờn Naùve Bayes. .. cụng thc: T ú dn ti: P(A|B)P(B) = P(A B) = P(B|A)P(A) 2.1.2 Thut toỏn Naùve Bayes Thut toỏn Naùve Bayes da trờn nh lý Bayes c phỏt biu cho s kin X v Y nh sau: p dng bi toỏn phõn loi, cỏc d kin

Ngày đăng: 27/04/2017, 14:00

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan