Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

88 571 0
Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƯ LIỆU - - BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG PHAN HỮU TIẾP BIÊN HÒA, THÁNG 6/2011 TRƯỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƯ LIỆU - - BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG Người thực hiện: PHAN HỮU TIẾP CAO NGUYỄN THỦY TIÊN Chủ nhiệm đề tài: Ths Lâm Thành Hiển BIÊN HÒA, THÁNG 6/2011 LỜI CẢM ƠN Lời xin chân thành gửi lời cám ơn sâu sắc đến thầy cô Trung Tâm Thông Tin Tư Liệu, trường Đại Học Lạc Hồng, nơi công tác nghiên cứu tạo điều kiện hỗ trợ suốt thời gian qua Chúng xin chân thành cám ơn đến người thân, bạn bè đồng nghiệp giúp đỡ động viên suốt thời gian học tập thời gian thực nghiên cứu Chân thành cám ơn ! Biên Hòa, ngày 15 tháng 06 năm 2011 Phan Hữu Tiếp, Cao Nguyễn Thủy Tiên MỤC LỤC Trang Lời cám ơn i Mục lục ii Danh mục bảng biểu, hình vẽ iii Mở đầu 1 Tóm lược đề tài Mục tiêu đề tài Nội dung thực đề tài Phạm vi ứng dụng Chương 1- Tổng quan thư spam 1.1 Khảo sát thư spam 1.1.1 Định nghĩa thư spam 1.1.2 Phân loại thư spam 1.1.2.1 Thư spam tiếng Anh 1.1.2.2 Thư spam tiếng Việt 1.1.3 Đặc điểm thư spam 1.1.4 Tác hại thư spam 1.1.5 Phương thức hoạt động thư spam 1.1.5.1 Quy trình chung phát tán thư spam 1.1.5.2 Thu thập địa email 1.1.5.3 Tìm kiếm máy tính Internet cho phép gửi thư 1.1.6 Tình hình thư spam Việt Nam 10 1.2 Phương pháp chống thư spam 11 1.2.1 Lọc thư qua địa IP 11 1.2.1.1 Sử dụng danh sách đen (Black List) danh sách địa tin cậy (White List) 11 1.2.1.2 Sử dụng danh sách xám (Grey List) 12 1.2.1.3 Chặn IP 13 1.2.1.4 Kiểm tra địa IP 12 1.2.2 Lọc thư dựa vào đặc tính thư spam 13 1.2.2.1 Kỹ thuật giấu địa email 13 1.2.2.2 Kỹ thuật nhân viên giả mạo (Fake worker) 14 1.2.2.3 Kiểm tra Header 14 1.2.3 Lọc thư spam dựa vào nội dung 14 1.2.3.1 Sử dụng từ khóa chuẩn 14 1.2.3.2 Xác thực tự động 15 1.2.3.3 Yêu cầu xác thực thư 15 1.2.3.4 Lọc thư theo nội dung 16 1.2.4 Lọc thư spam dựa vào thuật toán 16 1.2.4.1 Lọc thư sử dụng phương pháp heuristic 16 1.2.4.2 Lọc thư theo nội dung sử dụng phương pháp xác suất thống kê học máy 17 Chương 2- Phân tích lọc thống kê 19 2.1 Giới thiệu 19 2.2 Bài toán phân loại văn 19 2.2.1 Định nghĩa 19 2.2.2 Tiến trình phân loại văn 20 2.3 Những nguyên tắc lọc thống kê 22 2.3.1 Xây dựng tập huấn luyện 22 2.3.2 Sửa lỗi, huấn luyện lại 23 2.4 Các lọc thống kê 23 2.4.1 Bộ phân tích token tính giá trị 23 2.4.2 Phân lớp k Nearest Neighbors (k-NN) 25 2.4.3 Phân lớp theo kỹ thuật Support Vector Machine (SVM) 26 2.5 Các thuật giải áp dụng cho trình lọc thư spam 27 2.5.1 Giải thuật xác định kích thước 27 2.5.2 Giải thuật giảm nhiễu Bayesian (Bayesian Noise Reduction) 29 2.5.3 Thuật toán dựa luật RIPPER 29 Chương 3- Xây dựng lọc spma dựa phương pháp thống kê kỹ thuật Naïve Bayes 31 3.1 Tổng quan mạng Bayes 31 3.1.1 Giới thiệu mạng Bayes 31 3.1.2 Mơ hình chi tiết Naive Bayes 31 3.1.3 Ưu điểm lọc thư rác Bayes 32 3.2 Quy trình phân tích tổng qt 33 3.2.1 Phân tích đặc điểm chung thư spam 33 3.2.1.1 Phần Header thư spam 33 3.2.1.2 Phần thân thư spam 33 3.2.2 Phân loại thư rác tiếng Việt thư rác tiếng Anh 34 3.2.3 Phân tích từ vựng câu 35 3.2.3.1 Phân tích từ vựng 35 3.2.3.2 Phân tích câu 36 3.2.4 Biểu diễn nội dung thư 37 3.2.4.1 Biểu diễn nội dung thư dạng tập hợp từ (“túi từ”) 37 3.2.4.2 Sử dụng cụm từ có ngữ nghĩa để biểu diễn văn 38 3.2.4.3 Sử dụng phân cụm từ để biểu diễn văn 39 3.2.5 Các bước tiến hành lọc mạng Bayes 40 3.3 Tổng quan lọc thư rác tiếng Việt 42 3.3.1 Khó khăn q trình lọc thư spam tiếng Việt 42 3.3.2 Tình hình nghiên cứu 42 3.3.3 Phương pháp tiếp cận 43 3.3.3.1 Mục tiêu 44 3.3.3.2 Tiền xử lý tách câu tiếng Việt 45 3.3.3.3 Phân tích từ đơn 46 3.3.3.4 Phân tích từ ghép 48 3.3.3.5 Xây dựng từ điển tiếng Việt 51 3.3.3.6 Quy trình cập nhật từ vựng tiếng Việt 52 3.4 Quy trình lọc thư rác tiếng Việt 52 3.4.1 Áp dụng thuật tốn Nạve Bayes trình lọc thư 52 3.4.2 Quy trình lọc thư rác tiếng Việt 53 Chương 4- Xây dựng chương trình lọc thư spam 55 4.1 Kiến trúc hệ thống chương trình 55 4.1.1 Chương trình 55 4.1.2 Chương trình 56 4.2 Các bước xây dựng hệ thống 56 4.2.1 Xây dựng số chức 56 4.2.1.1 Chức chuẩn hóa liệu 56 4.2.1.2 Chức tách câu 56 4.2.1.3 Chức tạo thư 57 4.2.2 Đối với thư tiếng Anh 57 4.2.2.1 Các bước thực trình lọc 57 4.2.2.2 Xây dựng tập hợp token cho thư spam thư ham 57 4.2.2.3 Tính xác suất token phân loại thư 58 4.2.2.4 Cập nhật lại tri thức cho lọc 58 4.2.3 Đối với thư tiếng Việt 58 4.2.3.1 Xây dựng từ điển tiếng Việt 58 4.2.3.2 Phân tích văn tiếng Việt 59 4.2.3.3 Các bước thực trình lọc thư tiếng Việt 59 4.2.3.4 Xây dựng tập hợp token cho thư spam thư ham tiếng Việt 59 4.2.3.5 Tính xác suất token phân loại thư tiếng Việt 59 4.2.3.6 Cập nhật lại tri thức cho lọc tiếng Việt 59 4.3 Chức chương trình 61 4.3.1 Các chức chương trình 61 4.3.2 Quá trình lọc thư spam tiếng Anh 62 4.3.2.1 Xây dựng tập huấn luyện token cho trình lọc thư 62 4.3.2.2 Chuẩn hóa tập token huấn luyện 63 4.3.2.3 Phân tích thư tiếng Anh 64 4.3.2.4 Phân lớp hàng loạt thư tiếng Anh 65 4.3.3 Quy trình lọc thư spam tiếng Việt 66 4.3.3.1 Xây dựng từ điển từ đơn từ ghép 66 4.3.3.2 Chuẩn hóa từ điển tiếng Việt 66 4.3.3.3 Thể nội dung thư tiếng Việt 67 4.3.3.4 Xây dựng tập huấn luyện cho trình lọc thư 68 4.3.3.5 Phân tích thư tiếng Việt 69 4.3.4 Các hàm phục vụ chương trình 70 4.3.4.1 Chức tách câu đơn cho nội dung thư tiếng Việt 70 4.3.4.2 Chức tạo thư chứa nội dung 71 4.3.5 Các chức tổng quát liên quan đến hệ thống 72 4.3.5.1 Quản lý thông số chung hệ thống 72 4.3.5.2 Mơ hình hóa chức chương trình 71 4.3.6 Bộ lọc spam môi trường Internet 73 4.3.6.1 Chức gửi email 73 4.3.6.2 Bộ lọc spam chương trình 73 4.4 Kết thực nghiệm đánh giá kết đạt 74 4.4.1 Đối với thư spam tiếng Anh 74 4.4.2 Đối với thư spam tiếng Việt 75 4.4.2.1.Xây dựng từ điển tiếng Việt 75 4.4.2.2 Kết phân lớp thư tiếng Việt 75 Kết luận hướng phát triển 77 Phụ lục Tài liệu tham khảo DANH MỤC HÌNH VẼ Hình 1.1 - Nội dung thư spam theo báo cáo tháng 12-2010 Hình 1.2 - Lưu lượng spam theo báo cáo tháng 12-2010 Hình 1.3 - Virus email theo báo cáo tháng 12-2010 Hình 1.4 - Ví dụ trang web lấy cắp địa email người dùng Hình 1.5 - Một số website công ty gửi thư rác Hình 1.6 - Minh họa cách gửi thư rác qua mail server (open relay) Hình 1.7 - Tình hình thư rác số nước 10 Hình 1.8 - Nguyên lý phương pháp xác thực thư 15 Hình 1.9 - Ví dụ Capcha 16 Hình 2.1 - Tiến trình phân loại văn 20 Hình 2.2 - Tiến trình phân loại văn nâng cao 22 Hình 2.3 - Phân loại văn theo kỹ thuật Vector Machine (SVM) 26 Hình 3.1 - Mơ hình tổng quát lọc thư spam tiếng Việt 45 Hình 3.2 - Mơ hình tách câu tiếng Việt 46 Hình 3.3 - Mơ hình tách từ đơn tiếng Việt 48 Hình 3.4 - Mơ hình tách từ ghép tiếng Việt 51 Hình 4.1 - Sơ đồ khối chương trình 55 Hình 4.2 - Giao diện chương trình 61 Hình 4.3 - Quy trình huấn luyện token tiếng Anh 62 Hình 4.4 - Quy trình chuẩn hóa tập token tiếng Anh 63 Hình 4.5 - Quy trình phân tích thư tiếng Anh 64 Hình 4.6 - Quy trình phân lớp hàng loạt thư tiếng Anh 65 Hình 4.7 - Xây dựng từ điển từ tiếng Việt 66 Hình 4.8 - Chuẩn hóa từ điển tiếng Việt 67 Hình 4.9 - Quy trình phân tích thư tiếng Việt 68 Hình 4.10 - Quy trình huấn luyện token tiếng Việt 68 Hình 4.11 -Phân tích thư tiếng Việt 69 Hình 4.12 -Kết phân tích thư tiếng Việt 70 Hình 4.13 -Tách câu đơn cho nội dung thư tiếng Việt 70 Hình 4.14 -Tạo thư chứa nội dung từ Internet 71 Hình 4.15 -Quản lý thơng số chung hệ thống 72 Hình 4.16- Chức gửi mail 73 Hình 4.17 Bộ lọc spam hệ thống 73 DANH MỤC BẢNG BIỂU Bảng 3.1 Ví dụ nội dung thư 38 Bảng 3.2 Biểu diễn véctơ cho liệu bảng 3.1 38 Bảng 3.3 Thống kê độ dài từ từ điển 48 Bảng 3.4 Ví dụ minh họa phân tích từ đơn 54 Bảng 4.1 Kết phân loại thư tiếng Anh 74 Bảng 4.2 Thống kê từ điển từ tiếng Việt 75 Bảng 4.3 Kết phân loại thư tiếng Việt 76 ... TÂM THÔNG TIN TƯ LIỆU - - BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG Người thực hiện: PHAN HỮU TIẾP CAO NGUYỄN THỦY TIÊN Chủ nhiệm đề tài: ... chưa có nghiên cứu cụ thể vấn đề Đề tài tập trung nghiên cứu lọc thống kê sử dụng rộng rãi, từ đưa giải pháp ngăn chặn loại thư rác đặc biệt phát tán Việt Nam Mục tiêu đề tài Nghiên cứu tổng... Việt Nam Triển khai lọc spam vào web mail thử nghiệm Phạm vi ứng dụng Đề tài “ NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG” ứng dụng trình duyệt mail, giúp cho người sử dụng loại bỏ thư

Ngày đăng: 10/12/2013, 18:07

Hình ảnh liên quan

Hình 1.1- Nội dung thư spam theo báo cáo tháng 12-2010 [12] - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 1.1.

Nội dung thư spam theo báo cáo tháng 12-2010 [12] Xem tại trang 15 của tài liệu.
Hình 1.2- Lưu lượng spam theo báo cáo tháng 12-2010 [12] - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 1.2.

Lưu lượng spam theo báo cáo tháng 12-2010 [12] Xem tại trang 16 của tài liệu.
Hình 1.3- Virus trong email theo báo cáo tháng 12-2010 [12] - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 1.3.

Virus trong email theo báo cáo tháng 12-2010 [12] Xem tại trang 17 của tài liệu.
Hình 1.4- Ví dụ về trang web lấy cắp địa chỉ email của người dùng [6] - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 1.4.

Ví dụ về trang web lấy cắp địa chỉ email của người dùng [6] Xem tại trang 18 của tài liệu.
1.1.6. Tình hình thư spam tại Việt Nam - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

1.1.6..

Tình hình thư spam tại Việt Nam Xem tại trang 20 của tài liệu.
Hình 1.8- Nguyên lý phương pháp xác thực thư [1] - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 1.8.

Nguyên lý phương pháp xác thực thư [1] Xem tại trang 25 của tài liệu.
Hình 2.2- Tiến trình phân loại văn bản nâng cao - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 2.2.

Tiến trình phân loại văn bản nâng cao Xem tại trang 32 của tài liệu.
Hình 2.3 -Phân loại văn bản theo kỹ thuật Vector Machine (SVM) [8] - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 2.3.

Phân loại văn bản theo kỹ thuật Vector Machine (SVM) [8] Xem tại trang 36 của tài liệu.
Bảng 3.1. Ví dụ nội dung của 4 thư. - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Bảng 3.1..

Ví dụ nội dung của 4 thư Xem tại trang 48 của tài liệu.
Hình 3.1 – Mơ hình tổng quát lọc thư spam tiếng Việt - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 3.1.

– Mơ hình tổng quát lọc thư spam tiếng Việt Xem tại trang 55 của tài liệu.
Quy trình tách câu tiếng Việt được mơ tả cụ thể qua mơ hình sau đây + Input : nội dung email tiếng Việt  - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

uy.

trình tách câu tiếng Việt được mơ tả cụ thể qua mơ hình sau đây + Input : nội dung email tiếng Việt Xem tại trang 56 của tài liệu.
Hình 3.2 – Mơ hình tách từ đơn tiếng Việt - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 3.2.

– Mơ hình tách từ đơn tiếng Việt Xem tại trang 58 của tài liệu.
Hình 3. 3- Mơ hình tách từ ghép tiếng Việt - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 3..

3- Mơ hình tách từ ghép tiếng Việt Xem tại trang 61 của tài liệu.
Hình 4.1 – Sơ đồ khối chương trình - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.1.

– Sơ đồ khối chương trình Xem tại trang 65 của tài liệu.
Hình 4. 2- Giao diện chính của chương trình - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4..

2- Giao diện chính của chương trình Xem tại trang 71 của tài liệu.
+ Mơ hình hĩa các chức năng của chương trình + Hướng dẫn sử dụng chương trình  - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

h.

ình hĩa các chức năng của chương trình + Hướng dẫn sử dụng chương trình Xem tại trang 72 của tài liệu.
Hình 4.4– Quy trình chuẩn hĩa tập token tiếng Anh - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.4.

– Quy trình chuẩn hĩa tập token tiếng Anh Xem tại trang 73 của tài liệu.
Hình 4.5 – Quy trình phân tích một bức thư tiếng Anh Quy trình chính gồm các bước sau đây  - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.5.

– Quy trình phân tích một bức thư tiếng Anh Quy trình chính gồm các bước sau đây Xem tại trang 74 của tài liệu.
Hình 4.6 – Quy trình phân lớp hàng loạt thư tiếng Anh Gồm cĩ các phần chính sau đây  - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.6.

– Quy trình phân lớp hàng loạt thư tiếng Anh Gồm cĩ các phần chính sau đây Xem tại trang 75 của tài liệu.
Hình 4.7 – Xây dựng bộ từ điển từ tiếng Việt Quy trình thực hiện gồm các bước sau đây  - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.7.

– Xây dựng bộ từ điển từ tiếng Việt Quy trình thực hiện gồm các bước sau đây Xem tại trang 76 của tài liệu.
Hình 4.8 – Chuẩn hĩa từ điển tiếng Việt - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.8.

– Chuẩn hĩa từ điển tiếng Việt Xem tại trang 77 của tài liệu.
Hình 4.9– Quy trình phân tích một bức thư tiếng Việt - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.9.

– Quy trình phân tích một bức thư tiếng Việt Xem tại trang 78 của tài liệu.
Hình 4.10 – Quy trình huấn luyện các token tiếng Việt Gồm 02 quá trình huấn luyện  - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.10.

– Quy trình huấn luyện các token tiếng Việt Gồm 02 quá trình huấn luyện Xem tại trang 78 của tài liệu.
Hình 4.11 – Quy trình phân tích thư tiếng Việt - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.11.

– Quy trình phân tích thư tiếng Việt Xem tại trang 79 của tài liệu.
Hình 4.12 – Kết quả phân tích thư tiếng Việt Chức năng phân tích thư gồm cĩ:  - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.12.

– Kết quả phân tích thư tiếng Việt Chức năng phân tích thư gồm cĩ: Xem tại trang 80 của tài liệu.
Hình 4-13. Tách câu đơn cho nội dung thư tiếng Việt Quy trình thực hiện  - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.

13. Tách câu đơn cho nội dung thư tiếng Việt Quy trình thực hiện Xem tại trang 80 của tài liệu.
Hình 4.14- Tạo thư chứa nội dung từ Internet - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.14.

Tạo thư chứa nội dung từ Internet Xem tại trang 81 của tài liệu.
Hình 4-15. Quản lý thơng số chung của hệ thống - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.

15. Quản lý thơng số chung của hệ thống Xem tại trang 82 của tài liệu.
Hình 4.17 – Bộ lọc spam của hệ thống - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.17.

– Bộ lọc spam của hệ thống Xem tại trang 83 của tài liệu.
Hình 4.16 – Chức năng gửi email - Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG

Hình 4.16.

– Chức năng gửi email Xem tại trang 83 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan