TÓM TẮT LUẬN VĂN THẠC SỸ KỸ THUẬT TIẾP CẬN KHAI PHÁ DỮ LIỆU VĂN BẢN THỬ NGHIỆM ỨNG DỤNG PHƯƠNG PHÁP Naive Bayse TRONG BÓC LỘT THƯ GIÁC TỰ ĐỘNG potx

17 884 0
TÓM TẮT LUẬN VĂN THẠC SỸ KỸ THUẬT TIẾP CẬN KHAI PHÁ DỮ LIỆU VĂN BẢN THỬ NGHIỆM ỨNG DỤNG PHƯƠNG PHÁP Naive Bayse TRONG BÓC LỘT THƯ GIÁC TỰ ĐỘNG potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TẬP ĐỒN BƯU CHÍNH VIỄN THƠNG VIỆT NAM HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TÓM TẮT LUẬN VĂN THẠC SỸ KỸ THUẬT TIẾP CẬN KHAI PHÁ DỮ LIỆU VĂN BẢN THỬ NGHIỆM ỨNG DỤNG PHƯƠNG PHÁP Naive Bayse TRONG BÓC LỘT THƯ GIÁC TỰ ĐỘNG NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 Tên học viên: Nguyễn Thị Thanh Tâm Người hướng dẫn khoa học: Đại tá, PGS.TS Nguyễn Bá Tường HÀ NỘI - 2010 MỞ ĐẦU Ngày phát triển không ngừng công nghệ thông tin, đặc biệt đời Internet đưa người lên tầm cao Sự việc dẫn đến bùng nổ thông tin làm cho nhà quản lý rơi vào tình trạng “ngập lụt thơng tin" lượng thơng tin, tri thức có ích bị che dấu Khai phá liệu có lĩnh vực khai phá liệu văn lĩnh vực khoa học liên ngành xuất gần nhằm đáp ứng nhu cầu Nhiều kỹ thuật khai phá liệu văn nghiên cứu phát triển Naïve Bayes, Cây định, phương pháp Support vector machine,…trong đó, phương pháp Nạve Bayes thu hút nhiều quan tam nghiên cứu ứng dụng Sự đời dịch vụ Internet làm cho nhu cầu trao đổi thơng tin, tìm kiếm thơng tin người đáp ứng cách tốt nhanh Tốc độ phát triển dịch vụ thư điện tử ngày lợi ích mà mang lại cho lớn Tuy nhiên gây thiệt hại to lớn khơng biết cách loại bỏ phịng chống Một vấn đề nghiêm trọng cần giải thư điện tử nạn thư rác hay gọi “spam” Với lý đó, hướng dẫn thầy giáo hướng dẫn, Đại tá, PGS.TS Nguyễn Bá Tường, nhận đề tài “ Tiếp cận khai phá liệu văn thử nghiệm ứng dụng phương pháp Naive Bayse lọc thư rác tự động” CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Phát tri thức sở liệu khai phá liệu Khai phá liệu (Data Mining) q trình phát tri thức hữu ích ẩn chứa sở liệu hay kho chứa thông tin khác Khai phá liệu bước quy trình phát tri thức CSDL (Knowledge Discovery in Dabases - KDD) Theo nhiều tài liệu khác tiến trình KDD nói chung bao gồm bước sau đây:  Trích lọc liệu  Tiền xử lý liệu  Biến đổi liệu  Khai phá liệu  Đánh giá biểu diễn tri thức 1.2 Khai phá liệu văn - Khai phá liệu văn việc trích ra, lấy thơng tin có ích, chưa biết đến tiềm ẩn kho liệu văn lớn - Khai phá liệu văn việc thu thập phân tích liệu công cụ tự động bán tự động từ nguồn tài liệu có khác để có tri thức mới, chưa biết đến trước 1.3 Các tốn lĩnh vực khai phá liệu văn 1.3.1 Phát xu hướng văn Đây toán phát xu hướng, luật chưa biết đến CSDL text lớn 1.3.2 Tìm kiếm văn Tìm kiếm văn trình tìm văn kho liệu theo yêu cầu người dùng Ở đây, yêu cầu truy vấn thường biểu diễn dạng thuật ngữ hay biểu thức logic thuật ngữ 1.3.3 Phân loại văn Phân loại văn tức gán văn vào nhóm văn biết trước Phân loại văn có hai dạng phân loại nhị phân phân loại theo cấp độ 1.3.4 Lập nhóm văn Lập nhóm văn tốn tự động lập nhóm văn từ tập văn cho văn nhóm tương tự với nhiều so với văn nhóm khác Người sử dụng định số nhóm cần lập hệ thống tự động tính số nhóm cho phù hợp 1.3.5 Tóm tắt văn Tóm tắt văn tốn tìm thể nội dung văn thông qua vài đoạn văn bản, thông qua câu quan trọng văn 1.3.6 Dẫn đường văn Bài toán dẫn đường văn tổ hợp tốn tìm kiếm văn phân loại văn Giống phân loại văn bản, toán dẫn đường đưa văn nhóm khác Tuy nhiên giống tốn tìm kiếm, nhóm văn gán với thơng tin cần thiết hay nhiều nhóm người dùng 1.3.7 Trích chọn từ khóa Bài tốn trích chọn từ khố, thực việc trích từ khoá quan trọng văn bản, thể đặc thù chun mơn văn 1.4 Các khó khăn khai phá liệu văn Tính đa chiều (high dimensonality): Số thuật ngữ văn lớn dẫn đến số chiều không gian vector lớn Tính khả cỡ (scability): Các CSDL lớn thường chứa hàng trăm nghìn văn Tính xác (accuracy): Bất kỳ ngơn ngữ có nhập nhằng Tri thức tiên nghiệm: Trong nhiều tốn chẳng hạn tốn lập nhóm văn người sử dụng phải xác định trước số tham số đầu vào số nhóm văn cần lập 1.5 Các bước tiền xử lý văn Quá trình tiền xử lý đóng vai trị quan trọng việc ảnh hưởng đến hiệu độ xác giải thuật khai phá liệu Các công việc q trình tiền xử lý tách thuật ngữ giảm số chiều thuật ngữ 1.5.1 Tách thuật ngữ Tách thuật ngữ hiểu trình phân tách chuỗi ký tự văn thơ ban đầu thành từ có nghĩa Các giải thuật tách thuật ngữ Tiếng Việt Bài toán: Nhập vào câu tiếng Việt bất kỳ, tách câu thành đơn vị từ vựng (từ), âm tiết khơng có từ điển (phát đơn vị từ vựng mới) a) Tách thuật ngừ theo độ dài từ dài Đây phương pháp tách thuật ngữ đơn giản dễ cài đặt Phương pháp sử dụng từ điển từ vựng để làm sở phân tách thuật ngữ b) Tách thuật ngữ tiếng Việt phương pháp đồ thị Phương pháp tách thuật ngữ đồ thị quy việc phân tách câu việc tìm đường đồ thị có hướng, khơng có trọng số Như nói trên, cách phân tách câu đắn tương ứng với đường qua cung đồ thị Do ta quy tốn liệt kê phương án phân tách câu toán tìm tất đường ngắn từ đỉnh đến đỉnh n đồ thị phân tách câu 1.5.2 Giảm chiều cho tập thuật ngữ Có nhiều kỹ thuật để giảm chiều tập thuật ngữ bao gồm:       Tìm gốc từ Sử dụng từ điển đồng nghĩa Loại bỏ từ dừng Chỉ trích chọn phần văn Loại bỏ thuật ngữ có trọng số thấp Các kỹ thuật dựa lý thuyết thông tin CHƯƠNG MỘT SỐ CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN 2.1 Giới thiệu toán phân loại văn 2.1.1 Sự cần thiết phải phân loại văn Nhiều năm trở lại đây, loại thông tin phát triển không ngừng số lượng chất lượng Việc bùng nổ thông tin làm cho vấn đề tổ chức, quản lí, phân loại thơng tin ngày có vai trị quan trọng Để đáp ứng yêu cầu trước tiên phải tiến hành phân loại văn 2.1.2 Định nghĩa phân loại văn Phân loại văn phân loại không cấu trúc tài liệu văn dựa tập hợp hay nhiều loại văn định nghĩa trước Quá trình thường thực thi hệ thống tự động gán cho tài liệu văn loại 2.2 Tiến trình phân loại văn Đưa tập tài liệu mẫu D, cần phân bổ thành số loại tài liệu định - tài liệu cần gán cho loại văn Nhiệm vụ tìm hệ thống phân hoạch, mà cung cấp cho ta nhãn y phù hợp cho số tài liệu D vừa đưa vào từ nguồn tài nguyên giống văn mẫu Các bước tiến trình phân loại văn bản: - Lựa chọn đặc trưng văn - Biểu diễn văn - Học phân loại văn - Tiến hành phân loại văn 2.3 Đặc trưng văn cách lựa chọn đặc trưng văn 2.3.1 Tần suất tài liệu Tần suất tài liệu DF là số tài liệu có xuất từ Người ta tính tốn tần suất tài liệu cho từ đơn tập văn mẫu Cốt lõi phương pháp phải tìm khơng gian từ đặc trưng Cách xác định DF kĩ thuật đơn giản để làm giảm bớt vốn từ có văn 2.3.2 Lượng tin tương hỗ Lượng tin tương hỗ giá trị logarit nghịch đảo xác suất xuất từ thuộc vào lớp văn c Đây tiêu chí thể phụ thuộc từ t với loại văn c Lượng tin tương hỗ từ t lớp c tính sau: Trong đó: P(t, c) xác suất xuất đồng thời từ t lớp c; P(t) xác suất xuất từ t P(c) xác suất xuất lớp c Độ đo MI tồn cục (tính toàn tập tài liệu huấn luyện) cho từ t tính sau: m MI max (t )  max i 1 MI (t,ci ) 2.4 Các mơ hình biểu diễn văn 2.4.1 Mơ hình khơng gian vector (2.4) Bản chất mơ hình khơng gian vector văn biểu diễn thành vector mà thành phần thuật ngữ riêng biệt tập văn gốc gán giá trị trọng số w biểu thị mức độ quan trọng thuật ngữ văn Có nhiều cách tính trọng số cho thuật ngữ, sau số cách tính trọng số thuật ngữ điển hình 2.4.1.1 Các phương thức tính trọng số thuật ngữ - Tính trọng số theo mơ hình Boolean - Tính trọng số theo mơ hình tần suất – TF - Tính trọng số theo mơ hình nghịch đảo tần số văn - IDF - Tính trọng số theo mơ hình kết hợp TFxIDF (2.8) 2.4.1.2 Phép tính độ tương tự hai vector Trong mơ hình khơng gian vector có sử dụng tới phép tính độ tương tự vector văn phép tính độ tương tự nhóm văn Phép tính độ tương tự khơng quan trọng đối mơ hình khơng gian vector mà cịn với mơ hình khác 2.4.1.3 Biểu diễn nhóm văn Xét nhóm văn C, vector trọng tâm c nhóm C tính thông qua vector tổng Sum, Sum =  d i d i văn nhóm c: C c sum |C | Ở |C| số phần tử nhóm văn C Trong tốn xử lý văn vector trọng tâm dùng để làm đại diện cho nhóm văn Độ tương tự hai nhóm C1, C2 tính độ tương tự hai vector trọng tâm c1, c2 : S(C1, C2) = S (c1, c2) 2.4.2 Mơ hình dựa tập mờ Giả sử có tập văn D = {d1, d2,…, dM} Khi ta có tập thuật ngữ T = {t1, t2, …, tN} Sự liên quan từ khoá tới văn xác định tương ứng cách sử dụng phương pháp đánh số biết: µ(T) = {µT(t1), µT(t2), …, µT(tN)} Thực chuẩn hố giá trị µ(T) vào [0, 1] Đinh nghĩa 2: Hàm tích hợp khái niệm mờ Hàm F: [0, 1]n → [0, 1] gọi hàm tích hợp mờ thoả mãn tính chất hàm tích hợp, tức là: ≤ F(µT (t1), µT (t2), …, µT (tm)) ≤ F(µT (t1), µT (t2), …, µT (tm)) ≤ F(µT (t’1), µT (t’2), …, µT (t’m)) với µT (ti) ≤ µT (t’i); i = ữ m Trong ú àT (ti) v àT (t’i) biểu diễn mức độ quan trọng thuật ngữ Về mặt ngữ nghĩa, hai khái niệm, khái niệm có nhiều thuật ngữ liên quan đến văn khái niệm xác đinh rõ ràng ngược lại Khi văn d biểu diễn dạng: d = {µ( k1), µ( k2), …, µ( ki) } Như khái niệm mờ giải vấn đề từ đồng nghĩa xử lý văn 2.4.3 Mơ hình dựa tập thô Bất tập chứa đối tượng khơng phân biệt với gọi tập sở (elementary set) Hợp tập sở gọi tập xác, ngược lại tập gọi tập thơ (khơng xác) Nếu tập tập vũ trụ coi khái niệm khái niệm nhập nhằng, tương ứng với tập thô, mô tả thông tin thành viên chúng Bởi vậy, theo cách tiếp cận tập thô, khái niệm nhập nhằng thay cặp khái niệm xác gọi xấp xỉ xấp xỉ khái niệm nhập nhằng Xấp xỉ bao gồm đối tượng chắn thuộc vào khái niệm xấp xỉ chứa đối tượng thuộc vào khái niệm Mơ hình tập thơ ban đầu sử dụng quan hệ tương đương với tính chất phản xạ đối xứng, bắc cầu Tuy nhiên tính chất bắc cầu tỏ cứng nhắc trường hợp nghĩa từ khơng thích hợp xử lý văn 2.5 Các phương pháp phân loại văn 2.5.1 Nguyên mẫu Nguyên mẫu (prototype) phương pháp đơn giản áp dụng phân loại văn Mỗi văn đầu vào vector D i (w1, w2 ,… wk ) chiều wi đặc trưng cho từ loại (term) Một tập tài liệu mẫu phân chia làm lớp văn khác đặc trưng đại lượng cj (categorization) Có thể có nhiều tài liệu Di lớp tài liệu cj, nhiên để đơn giản người ta xác định ci vector trung bình ( D i ) Và sử dụng cosin góc tạo hai vector (một vector biểu diễn văn cần phân loại D, vector biểu diễn lớp văn ci) làm độ đo phù hợp văn D với loại văn ci D xác định thuộc vào loại văn ci mà cosin( D, Di ) lớn 2.5.2 Mô hình xác suất Naive Bayes Cơ sở phương pháp phân loại văn Naive Bayes chủ yếu dựa giả định Bayes Với văn D (document), người ta tính cho loại xác suất mà tài liệu D thuộc vào lớp tài liệu việc sử dụng luật Bayes Xác suất P(Ci| D) gọi xác suất mà tài liệu D có khả thuộc vào lớp văn Ci tính tốn sau: P(Ci | D)  P(Ci ) * P( D | Ci ) P ( D) (2.13) Theo giả định Naive Bayes xác suất từ tài liệu D độc lập với ngữ cảnh xuất từ đồng thời độc lập với vị trí từ tài liệu Xác suất P(D|Ci) tính tốn từ tần suất xuất từ đơn wj (word) D P(D | C i )   P(w j | Ci ) 1 jl l tổng số từ w tài liệu D (2.14) Giá trị lớn xác suất P(Ci | D) đưa nguời làm công tác phân loại Tài liệu D gán cho loại văn có xác suất hậu nghiệm cao nên biểu diễn công thức: Class of D  arg max 1 i  N P(C |D ) i  arg max P(Ci )*P(D |Ci ) (2.15) 1 i  N P(Di ) N tổng số tài liệu 2.5.3 Phương pháp dựa định Đây phương pháp học xấp xỉ hàm mục tiêu có giá trị rời rạc Cây định tổ chức sau: Các nút trung gian gán nhãn thuật ngữ, nhãn cung tương ứng với trọng số thuật ngữ tài liệu mẫu, nhãn tương ứng với nhãn lớp Cho tài liệu dj, ta thực so sánh nhãn cung xuất phát từ nút trung gian (tương ứng với thuật ngữ đó) với trọng số thuật ngữ dj, để định nút trung gian duyệt tiếp Quá trình lặp từ nút gốc cây, nút duyệt Kết thúc trình này, nhãn nút nhãn lớp gán cho văn Các giải thuật ID3 cải tiến C45 đánh giá hiệu sử dụng phổ biến 2.5.4 Phương pháp phân loại văn K-NN (K – Nearest Neighbor) Tư tưởng giải thuật tính tốn độ phù hợp văn xét với nhóm chủ đề dựa K văn mẫu có độ tương tự gần Giải thuật cịn sử dụng tốn tìm kiếm văn tốn tóm tắt văn 2.5.5 Phương pháp Support Vector Machine  Giả sử liệu huấn luyện bao gồm n mẫu cho dạng  xi , yi  ,  i=1…n, xi  m véctơ bao gồm m phần tử chứa giá trị m thuộc tính hay đặc trưng yi nhãn phân loại nhận giá trị +1 -1 Có thể hình dung liệu điểm không gian ơclit m chiều gán nhãn SVM xây dựng sở hai ý tưởng Ý tưởng thứ ánh xạ liệu gốc sang không gian gọi không gian đặc trưng với số chiều lớn cho khơng gian xây dựng siêu phẳng cho phép phân chia liệu thành hai phần riêng biệt, phần bao gồm điểm có nhãn phân loại Ý tưởng thứ hai số siêu phẳng cần lựa chọn siêu phẳng có lề lớn Lề khoảng cách từ siêu phẳng tới điểm gần nằm hai phía siêu phẳng (mỗi phía tương ứng với nhãn phân loại) Lưu ý siêu phẳng nằm cách điểm gần với nhãn khác Ta sử dụng phương pháp gọi thủ thuật nhân cách tìm hàm nhân (kernel function) K cho:     K ( a , b )  a , b  Sử dụng phương pháp nhân tử Lagrăng thay tích vô hướng hai vectơ giá trị hàm nhân Quá trình huấn luyện SVM trình xác định i Sau huấn luyện xong,  giá trị nhãn phân loại cho ví dụ x tính bởi: n    f ( x )  sign(  y i i K ( x i , x )  b) (2.17) i 1  Đối với toán phân loại thư điện tử, xi vectơ đặc trưng biểu diễn cho nội dung thư phần phân loại Bayes yi nhãn phân loại liệu huấn luyện Thư phân loại theo công thức: giá trị âm thư bình thường, giá trị dương tương ứng với thư rác 2.6 Bài toán phân loại thư rác CHƯƠNG ỨNG DỤNG PHƯƠNG PHÁP NAIVE BAYES TRONG BỘ LỌC THƯ RÁC TỰ ĐỘNG 3.1 Các công nghệ lọc thư rác Một số công nghệ lọc thư rác nay: - DNS Blacklist - SURBL List - Chặn IP - Kiểm tra địa - Sử dụng lọc Bayesian - Sử dụng danh sách Black/white list - Sử dụng Challenge/Response - Kiểm tra header - Report Spam Email Một số công nghệ chống spam thú vị nghiên cứu: - Tem cho e-mail- Cài mật mã - Khai báo thông tin - Lọc email qua nội dung - Lọc theo danh sách website chuyển tiếp 3.2 Quá trình hoạt động lọc thư rác Bayes Ở mẫu mà ta xét email, tập lớp mà email thuộc C = {spam,non-spam} Khi nhận email, sử dụng phương pháp Naives Bayes huấn luyện tập mẫu (email) ban đầu, sau sử dụng xác suất ứng dụng vào phân loại mẫu (email)  Giả thiết thư đại diện vectơ thuộc tính đặc trưng x = (x1, x2, …, xn), x1, x2, …, xn giá trị thuộc tính X1, X2,…, Xn tương  ứng không gian vector đặc trưng X Theo M Sahami et al ta sử dụng giá trị nhị phân, Xi = đặc điểm Xi có email, ngược lại Xi=0 Ta tính giá trị tương hỗ MI(X,C) mà đại diện X thuộc loại C sau: (3.1) MI(X, C)  P(X x,C  c)  P(X x,C c).log  x)P(C c) P(X  x {0,1} Sau to chọn thuộc tính có giá trị MI cao Các xác suất P(X), P(C), P(X,C) tính dựa liệu học Dựa vào công thức xác suất Bayes cơng thức xác suất đầy đủ ta có  xác suất thư với vector đặc trưng x , (3.2)  Thực tế khó tính xác suất P( X | C ) Naïve Bayes giả thiết X1, X2, …,Xn biến cố độc lập, tính xác suất sau: Với P(Xi|C) P(C) tính dựa liệu học, việc tính dựa vào tập huấn luyện ban đầu Từ xác suất này, ta so sánh với giá trị ngưỡng t mà ta cho ngưỡng để phân loại thư rác hay không, xác suất lớn t, ta cho thư thư rác ngược lại thư rác 3.3 Sự hoạt động lọc thư rác thực tế Phương pháp Bayes tiếp cận với thư rác cách có hiệu cao Tháng 5/2003 báo BBC cho biết kết việc tìm kiếm thư rác lọc đạt 99.7% hồn thành với số thấp sai sót 3.4 Các ưu điểm lọc thư rác Bayes Phương pháp Bayes nhận dạng thư điện tử dựa vào mô tả Nhiều thông minh kiểm tra tất khía cạnh tin nhắn.Bộ lọc Bayes giải thích nghi với cơng nghệ lọc thư rác kiểu Bộ lọc thư rác sử dụng thuật toán Naive Bayes cung cấp chức lọc thư tự rác tự động 3.5 Các bước xây dựng lọc thư rác sử dụng thuật toán Naive Bayes Tạo sở liệu từ Bayes thích hợp Trước lọc thư cần áp dụng phương thức này, người sử dụng cung cấp sở liệu với tập từ tokens (ví dụ $, địa IP vùng ) tập hợp mẫu thư coi thư rác (spam) tập mẫu thư coi thư hợp lệ 3.5.1 Lựa chọn đặc trưng Để xem xét nội dung thư lựa chọn đặc trưng dùng khái niệm “token” Chúng ta lựa chọn đặc trưng việc sử dụng phương pháp sử dụng lĩnh vực phân loại văn Với từ xuất nội dung thư điện tử tập văn mẫu, đưa vào đặc trưng thích hợp 3.5.2 Biểu diễn thư điện tử  Chúng ta tiến hành biểu diễn thư điện tử thành vector x = (x1, x2, …, xn), x1, x2, …, xn giá trị thuộc tính X1, X2,…, Xn tương ứng không gian vector đặc trưng Trong trường hợp đơn giản nhất, chọn thuộc tính từ đơn Xi=1 thư chứa từ đó, ngược lại Xi =0 Nhưng thay Xi nhận giá trị 1, tơi tính xác suất từ thư rác có giá trị đoạn [0,1] 3.5.3 Xác định ngưỡng Xác định rõ ngưỡng dựa vào công thức (3.3) để loại bỏ tất thư điện tử mà xác suất chúng lớn xác suất 3.6 Thử nghiệm ứng dụng Naive Bayes lọc thư rác tự động 3.6.1 Thử nghiệm với kho liệu PU 3.6.1.1 Vài nét kho PU Tôi sử dụng kho liệu kho PU [10] để học kiểm thử PU kho liệu email chuẩn, gồm bốn kho nhỏ PU1, PU2, PU3, PUA Mỗi token thay tương ứng số minh hoạ 3.6.1.2 Xác định công thức theo Paulgraham 3.6.1.3 Kết thử nghiệm Thử nghiệm với kho ngữ liệu pu Bởi kho liệu học kiểm thử số, tơi thay đổi cách lấy token, xem token số dấu hiệu tách token khoảng trắng Tôi thử nghiệm với non-spam w=2 Với w, thử nghiệm với  với giá trị 1, 999 Tương ứng với giá trị  w tơi thực tính xác suất spam theo công thức 3.5 Số token lấy 10, 15, 20 Tôi kiểm tra với kho liệu pu, tơi cho học từ part1 đến part9, sau thử nghiệm phân loại part10 chứa email chưa học 3.6.2 Minh hoạ thuật toán phân loại thư rác Naive Bayes Bài toán phân loại thư rác thực chất toán phân loại văn hai lớp, đó: tập tài liệu mẫu ban đầu thư rác (spam) thư hợp lệ (ham), văn cần phân lớp Email gửi đến client Kết đầu trình phân loại hai lớp văn bản: Spam(thư rác), Ham (thư hợp lệ) Mơ hình phân loại thư rác tổng qt mơ tả sau: Mơ tả liệu tốn: chương trình cài đặt mức đơn giản, với liệu gồm 100 dấu hiệu non-spam 100 dấu hiệu spam từ đơn lưu trữ bảng Chương trình minh hoạ 3.6.3 Giới thiệu phần mềm lọc thư Spam Reader 3.0 Spam Reader 3.0 add-on chống thư rác mạnh mẽ, dễ sử dụng tích hợp vào MS Outlook có mức đề phịng cao email không mong muốn Spam Reader Phần mềm sử dụng cách tiếp cận đáng tin cậy để lọc spam-bộ lọc Bayes, tự động điều chỉnh lọc theo nhu cầu người sử dụng phát xác đến 98%,download phần mềm địa http://www.spamreader.com/ Spam Reader tích hợp đầy đủ vào MS Outlook nên bạn không cần chạy chương trình bên ngồi Sau cài đặt nó, bạn thấy công cụ mục vào trình đơn Outlook III Kết luận hướng phát triển Luận văn “ Tiếp cận khai phá liệu văn thử nghiệm ứng dụng phương pháp Naive Bayse lọc thư rác tự động” trình bày số kết sau đây: - Những nghiên cứu khai phá liệu văn toán ứng dụng - Khai phá liệu văn có nhiều hướng tiếp cận: Nạve Bayes, Cây định, Phương pháp Support vector machine, mạng nơron…Trong đó, tập trung tìm hiểu thuật tốn Nạve Bayes - Thử nghiệm ứng dụng Naive Bayes hệ thống lọc thư rác với kho liệu PU Giới thiệu phần mềm lọc thư rác tự động Spam Reader 3.0 Hướng phát triển luận văn: - Xây dựng Email Client với khả lọc thư rác tự động việc ứng dụng phương pháp phân loại văn Naive Bayes ứng dụng trường Cao đẳng kinh tế - kỹ thuật Thương mại số dịch vụ mail khác - Hiện nay, liệu lưu trữ ngày tăng, để ứng dụng khai phá liệu vào toán cần tiếp tục nghiên cứu phương pháp xử lý cho toán có liệu lớn Xem xét, nghiên cứu số ứng dụng khác khai phá liệu văn nõi riêng khai phá liệu nói chung ... “ Tiếp cận khai phá liệu văn thử nghiệm ứng dụng phương pháp Naive Bayse lọc thư rác tự động? ?? CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Phát tri thức sở liệu khai phá liệu Khai phá liệu. .. Kết luận hướng phát triển Luận văn “ Tiếp cận khai phá liệu văn thử nghiệm ứng dụng phương pháp Naive Bayse lọc thư rác tự động? ?? trình bày số kết sau đây: - Những nghiên cứu khai phá liệu văn. .. dấu Khai phá liệu có lĩnh vực khai phá liệu văn lĩnh vực khoa học liên ngành xuất gần nhằm đáp ứng nhu cầu Nhiều kỹ thuật khai phá liệu văn nghiên cứu phát triển Naïve Bayes, Cây định, phương pháp

Ngày đăng: 15/03/2014, 17:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan