Tìm hiểu các hướng tiếp cận phân loại EMAIL và xây dựng phần mềm mail client hỗ trợ tiếng việt

106 283 0
Tìm hiểu các hướng tiếp cận phân loại EMAIL và xây dựng phần mềm mail client hỗ trợ tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 A萎I H窺C QU渦C GIA TP. H唄 CHÍ MINH TR姶云NG A萎I H窺C KHOA H窺C T衛 NHIÊN KHOA CÔNG NGH烏 THÔNG TIN D浦 MÔN H烏 TH渦NG THÔNG TIN LÊ NGUY右N BÁ DUY –TR井N MINH TRÍ TÌM HI韻U CÁC H姶閏NG TI蔭P C一N PHÂN LO萎I EMAIL VÀ XÂY D衛NG PH井N M陰M MAIL CLIENT J姥 TR営 TI蔭NG VI烏T KHOÁ LU一N C盈 NHÂN TIN H窺C TP. HCM, N;M 2005 2 A萎I H窺C QU渦C GIA TP. H唄 CHÍ MINH TR姶云NG A萎I H窺C KHOA H窺C T衛 NHIÊN KHOA CÔNG NGH烏 THÔNG TIN D浦 MÔN H烏 TH渦NG THÔNG TIN LÊ NGUY右N BÁ DUY -0112050 TR井N MINH TRÍ -0112330 TÌM HI韻U CÁC H姶閏NG TI蔭P C一N PHÂN LO萎I EMAIL VÀ XÂY D衛NG PH井N M陰M MAIL CLIENT J姥 TR営 TI蔭NG VI烏T KHOÁ LU一N C盈 NHÂN TIN H窺C GIÁO VIÊN H姶閏NG D郁N TH井Y LÊ A永C DUY NHÂN NI ÊN KHÓA 2001-2005 3 N云I C謂M 愛N Tr逢噂c tiên, chúng tôi xin chân thành c違m 挨n th亥y Lê A泳c Duy Nhân, ng逢運i 8ã h逢噂ng d磯n chúng tôi th詠c hi羽n 8隠 tài này. Nh運 có s詠 h逢噂ng d磯n, ch雨 b違o t壱n tình c栄a th亥y, chúng tôi 8ã hoàn thành khoá lu壱n này. Chúng con xin kính g荏i lòng bi院t 挨n, kính tr丑ng c栄a chúng con 8院n ông bà, cha m姻 và các ng逢運i thân trong gia 8ình 8ã h院t lòng nuôi chúng con <n h丑c, luôn luôn 荏 bên chúng con,"8瓜ng viên giúp 8叡 chúng con v逢嬰t qua khó kh<n Chúng em xin c違m 挨n t医t c違 các th亥y cô tr逢運ng A衣i h丑c Khoa H丑c T詠 Nhiên, 8員c bi羽t là các th亥y cô trong khoa Công Ngh羽 Thông Tin 8ã h院t lòng gi違ng d衣y, truy隠n 8衣t nhi隠u ki院n th泳c và kinh nghi羽m quý báu cho chúng em. Chúng em cng xin chân thành c違m 挨n khoa Công Ngh羽 Thông Tin, b瓜 môn H羽 Th嘘ng Thông Tin 8ã t衣o m丑i 8k隠u ki羽n thu壱n l嬰i trong quá trình th詠c hi羽n khoá lu壱n c栄a chúng em. Chúng tôi xin chân thành c違m 挨n b衣n bè trong l噂p cng nh逢 các anh ch鵜"8i tr逢噂c 8ã giúp 8叡, 8óng góp ý ki院n cho chúng tôi. V噂i th運i gian nghiên c泳u ng逸n, trong vòng 6 tháng và n<ng l詠c c栄a nh英ng ng逢運i làm 8隠 tài, ch逸c ch逸n 8隠 tài còn có nhi隠u thi院u sót. Chúng tôi r医t mong nh壱n 8逢嬰c nh英ng góp ý, nh壱n xét 8吋"8隠 tài 8逢嬰c hoàn thi羽n h挨n. Thành ph嘘 H欝 Chí Minh Tháng 7 n<m 2005 Nh英ng ng逢運i th詠c hi羽n: Lê Nguy宇n Bá Duy – Tr亥n Minh Trí. 4 v M映c l映c: Ch逢挨ng 1 : M雲"A井U 9 1.1 Gi噂i thi羽u: 10 1. 2 Yêu c 亥u bài t oán: 12 1.3 B嘘 c映c khoá lu壱n : 12 Ch逢挨ng 2 : T蔚NG QUAN 14 2.1 Các cách th泳c con ng逢運i x穎 lý v噂i spam : 15 2.2 Các ph逢挨ng pháp ti院p c壱n: 16 2.2.1 Complaining to Spammers' ISPs : 16 2. 2.2 Ma il Bl ackl i sts /Whit el ists: 16 2.2.3 Mail volume : 18 2. 2.4 Sign ature/ Checksum schemes: . 19 2.2.5 Genetic Algorithms: 20 2.2.6 Ru le-Based (hay là Heuristic): 21 2.2.7 Challenge-Response: 22 2.2.8 Machine Learning ( Máy h丑c ): 23 2.3 Ph逢挨ng pháp l詠a ch丑n : 24 2.4 Các ch雨 s嘘"8ánh giá hi羽u qu違 phân lo衣i email : 24 2.4.1 Spam Recall và Spam Precision: 24 2.4.2 T雨 l羽 l厩i Err (Error) và t雨 l羽 chính xác Acc(Accuracy) : 25 2.4.3 T雨 l羽 l厩i gia tr丑ng WErr (Weighted Error ) và t雨 l羽 chính xác gia tr丑ng (Weighted Accuracy): 25 2.4.4 T雨 s嘘 chi phí t鰻ng h嬰p TCR (Total Cost Ratio ): 26 Ch逢挨ng 3 : GI閏I THI烏U CÁC KHO NG頴 LI烏U DÙNG KI韻M TH盈 PHÂN LO萎I EMAIL 28 3.1 Kho ng英 li羽u PU (corpus PU ): 29 3.1.1 Vài nét v隠 kho ng英 li羽u PU: 29 3.1.2 Mô t違 c医u trúc kho ng英 li羽u PU: 30 3.2 Kho ng英 li羽u email ch英: 31 Ch逢挨ng 4 : PH姶愛NG PHÁP PHÂN LO萎I NAÏVE BAYESIAN VÀ 永NG D影NG PHÂN LO萎I EMAIL 33 4.1 M瓜t vài khái ni羽m xác su医t có liên quan 34 4.1.1 A鵜nh ngha bi院n c嘘, xác su医t : 34 4.1.2 Xác su医t có 8k隠u ki羽n, công th泳c xác su医t 8亥y 8栄 – công th泳c xác su医t Bayes35 4.2 Ph逢挨ng pháp phân lo衣i Naïve Bayesian : 36 4.3 Phân lo衣i email b茨ng ph逢挨ng pháp Naïve Bayesian : 37 4.3.1 Phân lo衣i email d詠a trên thu壱t toán Naïve Bayesian 38 4.3.2 Ch丑n ng逢叡ng phân lo衣i email : 39 Ch逢挨ng 5 : TH衛C HI烏N VÀ KI韻M TH盈 PHÂN LO萎I EMAIL D衛A TRÊN PH姶愛NG PHÁP PHÂN LO萎I NAÏVE BAYESIAN 41 5.1 Cài 8員t ch逢挨ng trình phân lo衣i email d詠a trên ph逢挨ng pháp phân lo衣i Naïve Bayesian: 42 5.1.1 Khái ni羽m “Token” : 42 5.1.2 Vector thu瓜c tính : 42 5.1.3 Ch丑n ng逢叡ng phân lo衣i : 43 5.1.4 Cách th詠c hi羽n :. 43 5 5.2 Th穎 nghi羽m hi羽u qu違 phân lo衣i 51 5.2.1 Th穎 nghi羽m v噂i kho ng英 li羽u pu: 51 5.2.2 Th穎 nghi羽m v噂i kho ng英 li羽u email ch英 : 60 5.3 姶u – nh逢嬰c 8k吋m c栄a ph逢挨ng pháp phân lo衣i Naïve Bayesian: 61 5.3.1 姶u 8k吋m : 61 5.3.2 Khuy院t 8k吋m : 62 Ch逢挨ng 6 : PH姶愛NG PHÁP ADABOOST VÀ 永NG D影NG PHÂN LO萎I EMAIL 63 6.1 Thu壱t toán AdaBoost : 64 6.2 AdaBoost trong phân lo衣i v<n b違n nhi隠u l噂p : 65 Thu壱t toán AdaBoost MH phân lo衣i v<n b違n nhi隠u l噂p : 66 6.3 永ng d映ng AdaBoost trong phân lo衣i email: 66 6.3.1 Thu壱t toán AdaBoost.MH trong tru運ng h嬰p phân lo衣i nh鵜 phân 67 Gi噂i h衣n l厩i hu医n luy羽n sai : 68 6.3.2 Ph逢挨ng pháp l詠a ch丑n lu壱t y院u : 70 Ch逢挨ng 7 : TH衛C HI烏N VÀ KI韻M TH盈 PHÂN LO萎I EMAIL D衛A TRÊN PH姶愛NG PHÁP ADABOOST 73 7.1 Cài 8員t b瓜 phân lo衣i email d詠a trên ph逢挨ng pháp AdaBoost: 74 7.1.1 T壱p hu医n luy羽n m磯u và t壱p nhãn : 74 7.1.2 Xây d詠ng t壱p lu壱t y院u ban 8亥u : 75 7.1.3 Th栄 t映c WeakLearner ch丑n lu壱t y院u: 76 7.1.4 Phân lo衣i email : 76 7.2 Th穎 nghi羽m hi羽u qu違 phân lo衣i : 76 7.2.1 Th穎 nghi羽m v噂i kho ng英 li羽u pu: 76 7.2.2 Th穎 nghi羽m v噂i kho ng英 li羽u email ch英: 79 7.3 姶u – nh逢嬰c 8k吋m c栄a ph逢挨ng pháp phân lo衣i AdaBoost: 80 7.3.1 姶u 8k吋m : 80 7.3.2 Khuy院t 8k吋m : 80 Ch逢挨ng 8 : XÂY D衛NG CH姶愛NG TRÌNH MAIL CLIENT TI蔭NG VI烏T H姥 TR営 PHÂN LO萎I EMAIL 82 8.1 Ch泳c n<ng: 83 8.2 Xây d詠ng b瓜 l丑c email spam : 83 8.3 T鰻 ch泳c d英 li羽u cho ch逢挨ng trình : 84 8.4 Giao d i羽n ng逢運i dùng : 85 8.4.1 S挨"8欝 màn hình : 85 8.4.2 M瓜t s嘘 màn hình chính : 85 Ch逢挨ng 9 : T蔚NG K蔭T VÀ H姶閏NG PHÁT TRI韻N 94 9.1 Các vi羽c 8ã th詠c hi羽n 8逢嬰c : 95 9.2 H逢噂ng c違i ti院n, m荏 r瓜ng : 95 9.2.1 V隠 phân lo衣i và l丑c email spam: 95 9.2.2 V隠 ch逢挨ng trình Mail Client: 96 TÀI LI烏U THAM KH謂O 97 Ti院ng Vi羽t : 97 Ti院ng Anh : 97 Ph映 l映c 99 6 Ph映 l映c 1 : K院t qu違 th穎 nghi羽m phân lo衣i email b茨ng ph逢挨ng pháp Bayesian v噂i kho ng英 li羽u h丑c và ki吋m th穎 pu 99 Ph映 l映c 2 : K院t qu違 th穎 nghi羽m phân lo衣i email b茨ng ph逢挨ng pháp AdaBoost v噂i kho ng英 li羽u h丑c và ki吋m th穎 pu 103 1. K院t qu違 th詠c hi羽n v噂i thu壱t toán AdaBoost with real value predictions 103 2. K院t qu違 th詠c hi羽n v噂i thu壱t toán AdaBoost with discrete predictions 105 7 Danh m映c các hình v胤: Hình 3-1Email sau khi tách token và mã hoá (trong kho ng英 li羽u pu) 29 Hình 5-1Mô t違 c医u trúc b違ng b<m 48 Hình 5-2 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU1 v噂i công th泳c 5-7 ( 9 λ= ) 53 Hình 5-3 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU1 v噂i công th泳c 5-7 ( 9 λ= ) 53 Hình 5-4 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU2 v噂i công th泳c 5-5 ( 9 λ= ) 55 Hình 5-5 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU2 v噂i công th泳c 5-5 ( 9 λ= ) 55 Hình 5-6 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU3 v噂i công th泳c 5-6 ( 9 λ= ) 57 Hình 5-7 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU3 v噂i công th泳c 5-6 ( 9 λ= ) 57 Hình 5-8 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PUA v噂i công th泳c 5-5 ( 9 λ= ) 59 Hình 5-9 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PUA v噂i công th泳c 5-5 ( 9 λ= ) 59 8 Danh m映c các b違ng: B違ng 3-1Mô t違 c医u trúc kho ng英 li羽u PU 31 B違ng 5-1 K院t qu違 ki吋m th穎 phân l丑ai email b茨ng ph逢挨ng pháp phân l丑ai Naïve Bayesian trên kho ng英 li羽u PU1 52 B違ng 5-2 K院t qu違 ki吋m th穎 phân l丑ai email b茨ng ph逢挨ng pháp phân l丑ai Naïve Bayesian trên kho ng英 li羽u PU2 54 B違ng 5-3 K院t qu違 ki吋m th穎 phân l丑ai email b茨ng ph逢挨ng pháp phân l丑ai Naïve Bayesian trên kho ng英 li羽u PU3 56 B違ng 5-4 K院t qu違 ki吋m th穎 phân l丑ai email b茨ng ph逢挨ng pháp phân l丑ai Naïve Bayesian trên kho ng英 li羽u PUA 58 B違ng 5-5 K院t qu違 ki吋m th穎 phân l丑ai email b茨ng ph逢挨ng pháp phân l丑ai Bayesian trên kho ng英 li羽u email ch英 61 B違ng 7-1 K院t qu違 th穎 nghi羽m phân lo衣i email v噂i ng英 li羽u s嘘 PU b茨ng thu壱t toán AdaBoost with real -value predictions 77 B違ng 7-2 K院t qu違 th穎 nghi羽m phân lo衣i email v噂i ng英 li羽u s嘘 PU b茨ng thu壱t toán AdaBoost with discrete predictions 77 B違ng 7-3 k院t qu違 th穎 nghi羽m phân lo衣i email v噂i ng英 li羽u email ch英 b茨ng thu壱t toán AdaBoost with real-value predictions 79 B違ng 7-4 K院t qu違 th穎 nghi羽m phân lo衣i email v噂i ng英 li羽u email ch英 b茨ng thu壱t toán AdaBoost with discrete predictions 80 9 Ch逢挨ng 1 : M雲"A井U 10 1.1 Gi噂i thi羽u: Th運i 8衣i ngày nay là th運i 8衣i bùng n鰻 thông tin, Internet 8ã tr荏 nên quen thu瓜c và không th吋 thi院u 8嘘i v噂i m厩i qu嘘c gia và xã h瓜i. Liên l衣c qua Internet 8ã tr荏 nên ph鰻 bi院n, và email là m瓜t ph逢挨ng ti羽n liên l衣c có chi phí th医p, nhanh chóng và hi羽u qu違 nh医t trên Internet. H茨ng ngày m厩i ng逢運i s穎 d映ng email 8隠u nh壱n 8逢嬰c m瓜t n逢嬰ng l噂n email, tuy nhiên không ph違i t医t c違 các email mà ta nh壱n 8逢嬰c 8隠u ch泳a thông tin mà ta quan tâm. Nh英ng email mà ta không mu嘘n nh壱n 医y là email Spam. Ng逢嬰c l衣i, nh英ng email không ph違i là spam g丑i là non-spam – email h嬰p l羽"8逢嬰c ng逢運idùng ch医p nh壱n. Spam chính là nh英ng email 8逢嬰c phát tán m瓜t cách r瓜ng rãi không theo b医t c泳 m瓜t yêu c亥u nào c栄a ng逢運i nh壱n v噂i s嘘 l逢嬰ng l噂n (unsolicited bulk email (UBE)), hay nh英ng email qu違ng cáo 8逢嬰c g荏i mà không có yêu c亥u c栄a ng逢運i nh壱n (unsolicited commercial email (UCE)) [1]. Nhi隠u ng逢運i trong chúng ta ngh r茨ng spam là m瓜t v医n 8隠 m噂i, nh逢ng th詠c ra nó 8ã xu医t hi羽n khá lâu – ít nh医t là t瑛 n<m 1975. Vào lúc kh荏i th栄y, ng逢運i dùng h亥u h院t là các chuyên gia v隠 máy tính, h丑 có th吋 g荏i hàng tá th壱m chí hàng tr<m email 8院n các nhóm tin (newsgroup) và spam h亥u nh逢 ch雨 liên quan 8院n các email g荏i 8院n các nhóm tin Usenet, gây ra tình tr衣ng không th吋 ki吋m soát 8逢嬰c các email nh壱n. Sau 8ó các bi羽n pháp tr瑛ng tr鵜 v隠 m員t xã h瓜i và hành chính 8ã có tác d映ng, th栄 ph衣m 8ã b鵜 tr瑛ng ph衣t , công khai hay bí m壱t, nh英ng ng逢運i này nhanh chóng 8逢嬰c 8逢a vào m瓜t danh sách, và m瓜t k thu壱t l丑c spam s噂m nh医t xu医t hi羽n 8ó là ”bad sender” – l丑c email c栄a nh英ng ng逢運i g荏i 8逢嬰c xem là x医u. WWW(World-Wide Web) 8ã mang th院 gi噂i Internet 8院n nhi隠u ng逢運i, và h羽 qu違 c栄a nó là nhi隠u ng逢運i không ph違i là chuyên gia trong th院 gi噂i máy tính cng 8逢嬰c ti院p xúc nhi隠u v噂i Internet, nó cho phép truy c壱p 8院n nh英ng thông tin và d鵜ch v映 mà tr逢噂c 8ây là không 8逢嬰c phép. Ch雨 trong vòng 2-3 n<m chúng ta 8ã ch泳ng ki院n s詠 bùng n鰻 s嘘 ng逢運i s穎 d映ng Internet và t医t nhiên là nh英ng c挨 h瓜i qu違ng cáo trên 8医y. Và spam 8ã phát tri吋n m瓜t cách nhanh chóng t瑛"8ây, nh英ng k thu壱t ng<n [...]... 2398 l, s nng email 6951 31 Chỳng tụi tin hnh x lý v phõn lai email : lai b nhng email cú tp tin 8ớnh kốm, phõn loi email html v email v . h羽 th嘘ng phân lo衣i email và ng<n ch員n email spam 8逢挨ng nhiên là phân lo衣i 8逢嬰c email là spam hay non-spam, t瑛"8ó s胤 có bi羽n pháp ng<n ch員n email spam, hi羽u qu違 phân lo衣i email ph違i. c泳u Tìm hi吋u các h逢噂ng ti院p c壱n cho bài toán phân lo衣i email và xây d詠ng ph亥n m隠m Mail Client h厩 tr嬰 ti院ng Vi羽t “ v噂i m映c 8ích tìm hi吋u, th穎 nghi羽m các ph逢挨ng pháp ti院p c壱n cho bài toán phân. thành email spam cng t<ng theo. Do 8ó yêu c亥u 8嘘i v噂i m瓜t h羽 th嘘ng phân lo衣i email spam là ph違i nh壱n ra 8逢嬰c email spam càng nhi隠u càng t嘘t và gi違m thi吋u l厩i nh壱n sai email non-spam là email

Ngày đăng: 30/08/2014, 21:29

Tài liệu cùng người dùng

Tài liệu liên quan