Xây dựng hệ thống quét thư rác trên môi trường phân tán

22 415 0
Xây dựng hệ thống quét thư rác trên môi trường phân tán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây dựng hệ thống quét thư rác trên môi trường phân tán

XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁNNhóm thực hiện: Trần Kinh Lý – 0612252Phạm Quốc Mỹ – 0612271Giáo viên hướng dẫn: GVC. Cao Đăng TânThS. Đào Anh Tuấn Page  2Nội dungTổng quan về luận văn. 1Tổng quan về thư rác23Hệ thống thử nghiệm4Các kết quả đạt được5Hướng phát triển6Các kỹ thuật quét thư rác sử dụng trong hệ thống Page  3Mục đích chọn luận văn •Thư rác là một trong những thách thức lớn nhất hiện nay. •Đa số các phần mềm chống thư rác là dựa trên header của thư hoặc địa chỉ từ người gửi=> luận văn dựa vào nội dung của thư=> tốc độ quét thư chậm=> quét thư trên môi trường song songVì những lý do trên đề tài “Xây dựng hệ thống quét thư rác trên môi trường phân tán” được hình thành. Tổng quan về luận văn Page  4Định nghĩa thư rác: thư rácthư điện tử không theo mong muốn của người nhận và trong số đó các thư điện tử quảng cáo, thương mại chiếm đa sốTổng quan về thư rác Page  5Các đặc tính của thư rác: •Thư rác mang tính tương đối. •Tính bất biến trong một thư rác. Tổng quan về thư rác Page  6Blacklisting: danh sách địa chỉ không tin cậy. Whitelisting: danh sách địa chỉ tin cậy.Heuristic filtering: dựa vào tập luật. Challenge/ Response: xác thực người dùng. Throttling: khống chế số lượng email được gửi. Address obfuscation: thay đổi định dạng chống thu thập email. Collaborative filtering: nhóm người dùng tin cậy. Các kỹ thuật lọc thư rác Page  7Kỹ thuật thống kêKỹ thuật so khớpCác kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng Page  8Kỹ thuật thống kêCác kỹ thuật quét thư rác sử dụng trong hệ thống xây dựngThư điện tửTập dữ liệulịch sửLà spam ? Gửi tới người dùngMáy phân tíchBộ tách từHuấn luyệnĐánh dấuNgười dùngphản hồiBộ lọc xác định đúng? SaiKhôngPHÂN LOẠI HUẤN LUYỆNĐúng Page  9Kỹ thuật thống kêCác kỹ thuật quét thư rác sử dụng trong hệ thống xây dựngBỘ TÁCH TỪ MÁY PHÂN TÍCH HUẤN LUYỆNChức năng-Tách thông điệp thành các từ dựa trên vnTokenizer.-Tính giá trị cho các từ- Tính xác xuất chung của thông điệp để xác định thông điệp đó có phải là spam hay không.- Học lại các thông điệp mà người dùng báo đã phân loại saiCải tiến- Bỏ các tag HTML, các dấu chấm câu, các ký hiệu không có nghĩa.- Đối với tiếng Việt nên bỏ các hư từ (thì, là, mà ). - Quét các tập tin đính kèm để trích văn bản nội dung cho bộ tách từ (word, excel, power point và pdf). Page  10Kiểm tra độ chính xác của bộ lọc thư rác [...]... đặc điểm của thư rác và các kỹ thuật phát hiện thư rác đã có • Mô tả khá đầy đủ về cơ sở lý thuyết của kỹ thuật quét thư rác thống kê và so khớp dùng trong hệ thống thử nghiệm Page  17 Các kết quả đạt được  Ứng dụng • Nhóm đã xây dựng thử nghiệm thành công hệ thống quét thư rác trên môi trường phân tán, ứng dụng kỹ thuật so khớp và kỹ thuật thống kê • Với hệ thống thực nghiệm mà nhóm xây dựng đã đạt...Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng  Kỹ thuật so khớp Nội dung thư rác đã lưu Nội dung thư cần phân loại độ tương tự • Điều kiện » Tỉ số độ dài nội dung hai thư (đã tách từ) cần so khớp xấp xỉ 1,1 » Ngưỡng độ tương tự khi phân loại là thư rác là 0,7 Page  11 Hệ thống thử nghiệm  Mô hình hệ thống Page  12 Hệ thống thử nghiệm  Mô hình xử lý trên dữ liệu riêng của... Hệ thống thử nghiệm  Mô hình xử lý trên dữ liệu riêng của mỗi người dùng Page  13 Hệ thống thử nghiệm  Quá trình quét thư rác Kỹ thuật thống kê Là Spam ? Sai Đúng Người dùng Page  14 Kỹ thuật so khớp Hệ thống thử nghiệm  Kết quả thử nghiệm trên phân tán Page  15 Hệ thống thử nghiệm  Kết quả thử nghiệm trên phân tán Chương trình Số lượng False False Chín Không luyện SpamAssassin- Huấn Độ chính... cao với sự tiến hóa của thư rác rất nhanh » Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một tập dữ liệu riêng Chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể • Khuyết điểm » Phải mất một khoảng thời gian đầu huấn luyện cho bộ lọc Page  19 Hướng phát triển • Kết hợp hệ thống thực nghiệm mà nhóm xây dựng với các hệ thống quét thư rác khác (như Spam Assassin,... • Cài đặt kho dữ liệu chung kết hợp với kho dữ liệu cá nhân • Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ, … • Xây dựng hoặc cải tiến “front mail server” để tăng tốc độ chuyển tiếp mail vào hệ thống quét • Lọc các token là từ ghép dựa vào việc nó xuất hiện nhiều lần trong thông điệp Page  20 Mô hình hệ thống cải tiến Page  21 Cảm ơn đã lắng nghe! Nhóm thực hiện: Trần Kinh Lý – 0612252 . của thư= > tốc độ quét thư chậm=> quét thư trên môi trường song songVì những lý do trên đề tài Xây dựng hệ thống quét thư rác trên môi trường phân tán . dụng•Nhóm đã xây dựng thử nghiệm thành công hệ thống quét thư rác trên môi trường phân tán, ứng dụng kỹ thuật so khớp và kỹ thuật thống kê. •Với hệ thống thực

Ngày đăng: 22/01/2013, 08:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan