báo cáo sử lý ngôn ngữ tự nhiên đề tài phân loại văn bản lọc thư rác

17 559 1
báo cáo sử lý ngôn ngữ tự nhiên đề tài phân loại văn bản lọc thư rác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

   ! "#$%&'() Đ ti: Phân loi văn bn: Lc thư rc *+,)'(-.      !"# $$ %&'( ) *+,  $ /01)2345. */01012#3 3.456,7 MỤC LỤC 6789: 89+.#:.89+;(< 5=>>9?@2A> 4B.C DEBF7GAH#B.I?412:+A#=>>9?@ 2J<;E5B.>7#::.74J2:2:+KJLMJ5#KB. ANM2=>>13O.7G8PQRS>7#:9TU9V 74:V:F>7#:52C JNMN6>7#:7.#U9V9T # 7.#A#W71>7#:7.#C 7HU:.>7#: PJ#71V:+5>7#:C JNPJ#7!:.-XPJ#7Y>7#:VJ: 9V8R(MJUZ1 >7#:PJ#7WN@ B[#8PQRS5W-! N76;\;45H8#B.T;+9DIK#]5 9 C!KD7M >7#:A#!B^;&IK#7_11 `MJ6a\+9K5K7]>79?!9T.;$1<= >?@ A-'20- BF7S9L^7D5Q76JJ6JEJU -;.-6JW:-+>7#:5a9K\JW:-+>7#:]J,b>7#: PJ#7AN1 ]>7IW.N7P\FRc[# 2#3N BT27 d9&F-A6^]>7\9T.1^ CEe+fJ 2;6-6-[#K7C D6CgEPK1 ]>7M7-9VP\KJh[# 9D;6-6-[#]>79  1 B:/ I. Lý thuyết học máy. 1.1 Giới thiệu v học máy. 1.1.1 Các định nghĩa v học máy (Machine learning). KMT69&"#BT!76i X >-'>::X))$i “Hc my là qu trình mà một chương trình my tính ci thiện hiệu suất của nó trong một công việc thông qua kinh nghiệm”. X >-j:J#RX“Hc my là việc lập trình cc my tính để tối ưu hóa một tiêu chí hiệu suất dựa trên cc dữ liệu ví dụ hoặc kinh nghiệm trong qu khứ”. X >-kCJ>R#i “Hc my, có tài liệu gi là My hc, (tiếng Anh là: machine learning) là một lĩnh vực của trí tuệ nhân to liên quan đến việc pht triển cc kĩ thuật cho phép cc my tính có thể "hc". Cụ thể hơn, hc my là một phương php để to ra cc chương trình my tính bằng việc phân tích cc tập dữ liệu. Hc my có liên quan lớn đến thống kê, vì c hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khc với thống kê, hc my tập trung vào sự phức tp của cc gii thuật trong việc thực thi tính ton. Nhiều bài ton suy luận được xếp vào loi bài ton NP- khó, vì thế một phần của hc my là nghiên cứu sự pht triển cc gii thuật suy luận xấp xỉ mà có thể xử lí được. Hc my có tính ứng dụng rất cao bao gồm my truy tìm dữ liệu, chẩn đon y khoa, pht hiện thẻ tín dụng gi, phân tích thị trường chứng khon, phân loi cc chuỗi DNA, nhận dng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot locomotion)”. Biểu diễn một bi toán học máy. >-'>::X))$i3!76:.NAN[#74 B A# C7i X '4 BY7BSZ1 X HBF62L966PM*1 X  A#YPQRSZC7l1 Quá trình học máy. #KD;DR%>-P9mP#i II. Thuật toán Naive Bayesian v ứng dụng trong phân loại email. 2.1 Một vi khái niệm xác suất có liên quan 2.1.1 Định nghĩa biến cố, xác suất: II.1.1.1. Định nghĩa phép thử v biến cố: />-749mI27bJni9K:.JoJQ1pEANKDIN# C>-9mTiq`M7bPMJr-bq`M7bQ#r1.# 9&"#qIM7bPMJr#qIM7bQ#r:.74;EH1 II.1.1.2. Định nghĩa xác suất: +<9DiXc suất của biến cố A là một số không âm, ký hiệu P(A), biểu thị kh năng xy ra biến cố A và được xc định như sau: *YjZss0H8VJIN#j#-PH8VJKDIN# C\JoJQ1  Định nghĩa xác suất theo phương pháp thống kê: .79:.7:+74JoJQ 9K:7.K7:;EHjIM ^tPH7u!:.PM[#;EHj. p#9<5PM7ud #9<K: R#-94A#74PHH9&9K10HH9&M9V !:.I6PM[#;EHj>-"#HC212\EC9[:F# IMJIv*YjZ;g7u1 X .6JJ6J!JW:FJK67P6B.R\#2I6PM 2.2 Xác suất có điu kiện,công thức xác suất đầy đủ,công thức xác suất Bayes 2.2.1 Xc suất có điều kiện `6PMK9TC[#;EHjBF9TC;EGw9?IN#:.74 -PHC W75 9VCh*YjxwZK;D&CN,IN#;EHj -^H;EHw9?IN#  0#i  *YjxwZI*YwZs*YwxjZI*YjZs*YjwZ 2.2.2 Công thức xác suất đầy đủ /v#PQw5w5__5w  :.74K799[6;EH1`o;EHjP#- -jIN#vC74-6;EHw  5w  5_15w  IN#1 p9Ki  2.2.3 Công thức Bayes  2.3 Phương pháp phân loại Naïve Bayesian: *W:-+w#>P#:.JJ6JJW:-+PQRS6I6PM9? A#M:1*J6J.LVJBF:FJ;.-69egJNR\ 9-6LI6:FJ[#7cCD7#R\#2 aUJM :;#91 >-#:>Pl:C#5-`  5_15`  :.64LBF66&8+9V R(9DR\9-674:FJ2;-747c5UJ6:FJ7.7cKD 4BT:.sy  5  5_15 7 z1-747cM:BF6&64L :.x 1 5__5x n 5R\9-67c4BT:FJ{CI6PM K6&:FM10QRS I6PMw#>P#Ki `6PM*YsZ9VLR%R.aUJR:M:1`6PM__1 p LVJ9DR(-BAE9&:FJ[#;@B^6&.# 9HBF7G:FJ1BU,9DR\9-6:FJ[#:.R\#B I6PM  2BL-6I6PM.MJ+J1'4JJ6J9NB. 9V9##PF7M:.JJ6JJW:-+#|B>w#>P#5>-9KNE O7G`  94:UJBF6` } (i # j ), BU#P~Ki UBU5PQRS I6PMw#>P#Ki ;O69ABEa#PH-L2P#i .EJSBU1*J6JJW:-+#|B>w#>P#NEOBF 7G`    CEAN694[#K94:UJBF6` }  C61BU5]#a# UO B.\BU9HBF`  _11`  'Ga#PH-L2KD9VLR%R.aUJM:;#91 BUJJ6J#|B>w#>P#N7P\J+J[#BL-66& I6PM 2.4 Phân loại email bằng phương pháp Naïve Bayesian •9W7G7c7.#IoL:.74>7#:5UJ6:FJ7.7G>7#:KD 4BT:.syPJ#75-XPJ#7z p#U9V74>7#:5E#C ;E74PH ^BTK^CK KDAE9&LI6>7#:.:.PJ#7#C 1 E#K279b9D7#4L 9K:.>7#:^#KDW #-ANU9V>7#::.PJ#71'4>7#:KT9b9D7i2 9T54R5KUJ9LC€7#C _1#KDR\#B 6 .9D W#-ANJW:-+>7#:PJ#71 2.4.1 Phân loại email dựa trên thuật toán Naïve Bayesian /v#E7G74>7#:9V9+R;@74B>-4L9b   :.6&[#64L`  5`  5_15`  ]-C #B>-9b `1#PQRS6&&JW`   sE69b9D7[#`   K- >7#:5V:+`  s1 #L6&G'=Y`5ZY'#:=•-7#-Z7.7G749+R[#` 4BT:-+P#i  0# 9K  #  !  6  4  L  K  6  &  '=  #-  M1  6  I6  PM *Y`Z5*YZ5*Y`5Z9VLR\#2R:! \#B  I6PMw#>PB. I6PM99[#K9V I6PM74>7#:BFB>-9bx 4BT:-+:.i \E^MCKL9VI6PM*Y`xZ;@B^6&PH:V[#6 B>-MTB.TB>-E7C#U7LC IM-UJ R:M:19?KJJ6J#|B>w#>P#NEO`  5`  5 _15`  :.;EH94:UJ5 R-9K]#KDL9VI6PM@2 P#i  F*Y`  xZB.*YZ9VLR\#2R:!5BL.R\#B UJ M:;#91 aI6PM.#P-P6BF746&‚7.#-:.‚9D JW:-+74>7#::.PJ#7#C 5EI6PM.:F^>7#:9K:. PJ#75V:+^#I>7>7#:9K:.-XPJ#71 2.4.2 Chọn ngưỡng phân loại email. -JW:-+>7#:K#:-+P#:7i X '4>7#:9VU:.PJ#77bR(\EK:.-XPJ#7Y•#:P>J-PB>Z X '4>7#:9VU:.-XPJ#77bR(K:.PJ#7Y•#:P>>#B>Z ƒ„#P#:7M:.27!;@B^8PQRSKDMJ U74>7#:PJ#7BVA#;4:!C MJU74>7#:A# !:+;&b;@;4:!1 /v#PQ0B.0BF#:G21#NPQO:G0K JLMJ…::G05]#JW:-+74>7#::.PJ#7R\#B 2† P#i [...]... thể xem như là các từ cần xem xét mà ta tách ra từ nội dung của email Với các kí tự chữ,kí tự số,kí tự $,kí tự gạch ngang ‘-’,kí tự gạch dưới ‘_’,kí tự nháy đơn ‘ ‘ ’ là những kí tự cấu tạo thành token Còn những kí tự còn lại như khoảng trắng ,kí tự ‘*’, kí tự ‘:’….được xem là kí tự để tách từ hay phân cách các từ Với những từ tách được mà gồm toàn kí số thì không được xem là... thư nghiệm với giá trị λ là 1 ngưỡng phân loại t xác định một email là spam là 0.5 5.4 Cách thực hiện Chúng ta sẽ bắt đầu với hai kho ngữ liệu email : kho ngữ liệu email spam và kho ngữ liệu email non-spam số lượng email trong mỗi kho ngữ liệu ban đầu không hạn chế Nếu kho ngữ liệu càng lớn thì hiệu quả lọc email càng cao Từ hai kho dữ liệu này ta phân tích và duyệt qua tất cả các token... email tổng cộng của hai kho ngữ liệu spam và non-spam lần lượt là N S và NN ,thế thì xác suất spam của token w được tính như sau : Tuy nhiên, vì số lần xuất hiện của một token có khả năng vượt quá số token phân biệt nên Khi token chỉ xuất hiện ở một kho: 5.5 Kết quả thử nghiệm - Nếu ta chọn ngưỡng - phân loại email 0.5 tức là � = 1 ngưỡng phân loại Quá trình thư nghiệm • • - Spam: cho... hợp IV - - V Giá trị của TCR càng lớn thì hiệu quả phân loại càng cao, với TCR nhỏ hơn 1 thì rõ ràng không sử dụng bộ lọc còn tốt hơn Kho ngữ liệu email chữ Tập huấn luyện : o số email spam:594 o số email non-spam:922 Tập kiểm thư : o số email spam :47 o số email non-spam :73 Cài đăt chương trình phân loại email dựa trên phương pháp phân loại Naïve Bayesian: 5.1 Khái niệm “Token” Để... luận lý (Boolean),như vậy Xi =1 nếu email chứa token,trường hợp ngược lại Xi =0 Chúng tôi chọn thuộc tính là token đơn,nhưng thay vì giá trị của các thuộc tính là giá trị luận lý (Boolean) ,chúng tôi chọn là xác xuất spam của mỗi token Xác suất spam của mỗi token sẽ có giá trị trong đoạn [0,1] Xác suất cho ta nhiều thông tin hơn giá trị luận lý 5.3 Chọn ngưỡng phân loại Tiến hành thư ... • o Acc = = 97.5% Err = = 2.5% Tỉ lệ lỗi gia trọng và tỉ lệ chính xác gia trọng • • - Wacc = 97.5% WErr = 2.5% Chi phí tổng hợp TCR • TCR = = 15.67 VI - - TÀI LIỆU THAM KHẢO Bài giảng Xử lý ngôn ngữ tự nhiên - PGS.TS Lê Thanh Hương M Sahami, S Dumais, D Heckerman and E Horvits A Bayesian Approach to Filtering Junk E-Mail Proceedings of AAAI-98 Workshop on Learning for Text Categorization, 1998... email là ham mà bộ lọc nhận là ham 3.4 Tỉ số chi phí tổng hợp TCR(Total Cost Ratio) Giá trị của tỉ lệ chính xác và tỉ lệ lỗi thư ̀ng có sự sai lệch cao Để thấy rõ được hiệu quả của cách phân loại, người ta thư ̀ng so sánh tỉ lệ chính xác hoặc tỉ lệ lỗi giữa bộ phân loại với trường hợp đơn giản nhất được xem là trường hợp ranh giới (baseline) “Baseline” được chọn là trường hợp... token đã được phân tích ,xác suất này chính là xác suất một email chỉ chứa token đó và là email spam Như vậy mấu chốt là ta phải tính ra được xác suất spam của mỗi token Xác suất spam của mỗi token được tính dựa trên số lần xuất hiện của mỗi token trong mỗi kho ngữ liệu học ban đầu ví dụ một token w có số lần xuất hiện trong kho ngữ liệu spam là s,trong kho ngữ liệu non-spam... nhận là ham nN→S : Là số email là ham mà bộ lọc nhận là spam nN→N : Là số email là ham mà bộ lọc nhận là ham 3.2 Tỉ lệ lỗi Err(Error) và tỉ lệ chính xác Acc(Accuracy) - Trong việc phân loại email, hiệu quả phân loại dựa vào tỉ lệ chính xác (Acc) hoặc tỉ lệ lỗi (Err) Công thức tính tỉ lệ chính xác và tỉ lệ lỗi như sau: Công thức tính tỉ lệ lỗi Công thức tính tỉ lệ chính xác - Trong... thị tác động của hai loại lỗi này đối với tỉ lệ chính xác và tỉ lệ lỗi, ta sẽ xem mối một email hợp lệ như là λ email hợp lệ Do đó khi một email hợp lệ bị phân loại sai, thay vì ta xem như có một lỗi, ta xem như λ lỗi, và khi phân loại đúng ta xem như là λ lần thành công Ta có hia tỉ lệ: tỉ lệ chính xác gia trọng WAcc(Weighted Accuracy Rate) và tỉ lệ lỗi gia trọng WErr (Weighted Error .   ! "#$%&'() Đ ti: Phân loi văn bn: Lc thư rc *+,)'(-.   . liệu, chẩn đon y khoa, pht hiện thẻ tín dụng gi, phân tích thị trường chứng khon, phân loi cc chuỗi DNA, nhận dng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot. to ra cc chương trình my tính bằng việc phân tích cc tập dữ liệu. Hc my có liên quan lớn đến thống kê, vì c hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khc với thống kê,

Ngày đăng: 23/10/2014, 23:40

Từ khóa liên quan

Mục lục

  • LỜI MỞ ĐẦU

  • NỘI DUNG

    • I. Lý thuyết học máy.

      • 1.1 Giới thiệu về học máy.

      • 1.1.1 Các định nghĩa về học máy (Machine learning).

      • II. Thuật toán Naive Bayesian và ứng dụng trong phân loại email.

        • 2.1 Một vài khái niệm xác suất có liên quan

        • 2.2 Xác suất có điều kiện,công thức xác suất đầy đủ,công thức xác suất Bayes

        • 2.3 Phương pháp phân loại Naïve Bayesian:

        • 2.4 Phân loại email bằng phương pháp Naïve Bayesian

        • III. Các chỉ tiêu đánh giá phân loại email

          • 3.1 . Tỉ lệ Recall và tỉ lệ Precision.

          • 3.2 Tỉ lệ lỗi Err(Error) và tỉ lệ chính xác Acc(Accuracy).

          • 3.3 ơTỉ lệ lỗi gia trọng WErr(Weighted Error) và tỉ lệ chính xác gia trọng(Weighted Accuracy).

          • 3.4 Tỉ số chi phí tổng hợp TCR(Total Cost Ratio).

          • IV. Kho ngữ liệu email chữ

          • V. Cài đăt chương trình phân loại email dựa trên phương pháp phân loại Naïve Bayesian:

            • 5.1 Khái niệm “Token”

            • 5.2 Vector thuộc tính

            • 5.3 Chọn ngưỡng phân loại

            • 5.4 Cách thực hiện

            • 5.5 Kết quả thử nghiệm

            • VI. TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan