NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC

64 464 0
NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Ngọc Lan NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Hà Nội - 2006 -1- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Ngọc Lan NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Cán hướng dẫn: Tiến sĩ Trần Quang Anh Cán đồng hướng dẫn: Tiến sĩ Hà Quang Thụy Hà Nội - 2006 -2- LỜI CẢM ƠN Đầu tiên, em muốn gửi lời cảm ơn chân thành biết ơn sâu sắc tới Tiến sĩ Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) Tiến sĩ Hà Quang Thụy (Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội) tận tình bảo hướng dẫn em suốt trình thực khoá luận Em xin chân thành cám ơn thầy lãnh đạo Viện CNTT - ĐHQGHN, anh Nguyễn Việt Cường (Trường Đại học Công nghệ - ĐHQGHN) anh Phan Bá Hùng (Viện Công nghệ Thông tin - ĐHQGHN) giúp đỡ, tạo điều kiện thuận lợi để em tiến hành có kết thử nghiệm mail-server thực Em xin bày tỏ lời cảm ơn sâu sắc tới thầy, cô trường Đại học Công nghệ dạy dỗ tận tình bảo cho em suốt trình học tập trường Em muốn gửi lời cảm ơn tới thầy cô, anh chị bạn nhóm xê-mi-na “Khai phá liệu khám phá tri thức” thuộc môn Các hệ thống thông tin, Trường Đại học Công nghệ ủng hộ khuyến khích em trình nghiên cứu thực khoá luận Và lời cuối cùng, em xin gửi lời cảm ơn chân thành biết ơn vô hạn tới bố, mẹ, anh chị người có công sinh thành, nuối nấng, dạy dỗ động viên, khuyến khích em sống, học tập làm việc Sinh viên Bùi Ngọc Lan -3- Tóm tắt Vấn đề thư rác từ lâu gây không phiền nhiễu cho người sử dụng thư điện tử vấn đề đau đầu người quản lý mạng Có nhiều giải pháp chống thư rác đưa áp dụng thực tế Tuy nhiên, phương pháp tỏ chưa thực hiệu mang nhược điểm cố hữu Trong luận văn này, sở nghiên cứu cấu trúc tính chất đặc trương mạng thư điện tử (Email Networks) từ đề xuất phương pháp lọc thư rác dựa mạng thư điện tử Khác với phương pháp lọc thư rác dựa mạng thư điện tử trước [1], phương pháp đưa khai thác tính chất có hướng đồ thị mạng thư điện tử xem xét đồ thị mạng thư điện tử đồ thị có trọng số để xây dựng công thức tính độ phân cụm (clustering coefficient) Để kiểm chứng phương pháp đưa ra, khóa luận thực thí nghiệm log files máy chủ e-mail thực Đại học Quốc gia Hà Nội Kết thực nghiệm cho thấy tính đắn phương pháp phương pháp khắc phục nhiều nhược điểm cố hữu giải pháp trước -4- Mục lục LỜI CẢM ƠN MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC 10 1.1 Khái niệm thư rác 10 1.1.1 1.1.2 1.1.3 1.1.4 Thư rác ? 10 Các đặc điểm thư rác .11 Phân loại thư rác 12 Những thiệt hại thư rác gây 13 1.2 Các giải pháp cho vấn đề lọc thư rác 16 1.2.1 Ban hành luật chống thư rác 16 1.2.2 Các phương pháp lọc thư rác trước 16 CHƯƠNG 2: KIẾN THỨC CƠ SỞ 26 2.1 Mạng phức hợp (Complex Networks) 26 2.1.1 Độ dài đường dẫn trung bình .30 2.1.2 Độ phân cụm 31 2.1.3 Độ phân bố bậc 31 2.2 Các mô hình mạng phức hợp 33 2.2.1 2.2.2 2.2.3 2.2.4 Mạng cặp thông thường (Regular coupled networks) 33 Đồ thị ngẫu nhiên (Random Graphs) 34 Các mô hình Small-world 36 Các mô hình Scale-free 39 2.3 Mạng xã hội (Social Networks) 41 2.4 Mạng thư điện tử (Email Networks) 43 2.4.1 Mạng thư điện tử scale-free .43 2.4.2 Tính chất Small-world mạng thư điện tử 44 2.4.3 Mạng thư điện tử mạng có hướng 46 2.4.4 Sự lan rộng virus mạng thư điện tử .48 2.4.5 Mạng thư điện tử bị spam công .49 -5- CHƯƠNG 3: ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ TRONG LỌC THƯ RÁC 50 3.2 Đề xuất phương pháp 51 3.3 Đặc điểm phương pháp 53 CHƯƠNG 4: THỰC NGHIỆM TRÊN LOG FILES 55 4.1 Đặc điểm liệu 55 4.2 Kết thực nghiệm phân tích 57 4.3 Nhận xét 60 KếT LUậN 61 -6- Bảng từ viết tắt Từ cụm từ Viết tắt Unsolicited Commercial Email UCE Internet Service Provider ISP Short Message Service SMS Email Service Provider ESP Realtime Black hole List RBL Multiple Address Processing System MAPS eXtensible Markup Language XML Domain Name Server DNS Sender Policy Framework SPF -7- MỞ ĐẦU Ngày với toàn cầu hóa việc kết nối thông tin, thư điện tử (Email) trở thành phần quan trọng đời sống hoạt động kinh doanh thương mại Thư điện tử cho phép tiết kiệm thời gian khắc phục vấn đề khoảng cách địa lí, chi phí trao đổi thông tin liên lạc Chính thuận tiện trao đổi thư điện tử lại tạo số sơ hở loại thư không mong muốn (thư rác: spam mail) hoạt động gây phiền toái cho người dùng Trong vài năm gần đây, thư điện tử không mong muốn phát triển gây không thiệt hại cho người dùng nói riêng cho kinh tế - xã hội nói chung Theo nhiều thống kê [10,15], thư rác chiếm tới ¾ tổng số thư điện tử lưu thông toàn giới Có không người dùng hạn chế sử dụng thư điện tử phương tiện liên lạc, điều gây trở ngại đáng kể cho liên lạc người dùng hạn chế việc phát sinh lợi nhuận đáng kinh tế nhờ phương tiện liên lạc Hiện nay, thư rác vấn đề nhức nhối xã hội Nhiều phương pháp, công cụ lọc thư rác đề xuất, nhiên nhìn chung công cụ lọc thư rác tỏ chưa thực hiệu Chính lý đó, nhiều hướng tiếp cận lọc thư rác đề xuất [39], kể hướng tiếp cận kết hợp phương pháp khác nhau, hướng tiếp cận theo mạng xã hội hướng bật Ý thức điều này, hướng nghiên cứu phương pháp lọc thư rác, tập trung theo hướng tiếp cận mạng thư điện tử đề tài khóa luận với tên gọi "Nghiên cứu mạng thư điện tử ứng dụng lọc thư rác" Khóa luận tổ chức thành chương sau: Chương giới thiệu tổng quan thư rác số hướng tiếp cận điển hình trước việc lọc thư rác Chương trình bày số tính chất quan trọng mạng phức hợp, mạng xã hội, mạng thư điện tử Đây sở kiến thức để phát triển nội dung khóa luận chương sau Chương trình bày phương pháp ứng dụng tính chất mạng thư điện tử vào vấn đề lọc thư rác thông qua việc tính hạng phân cụm địa thư Các nội dung đề xuất trình bày chi tiết chương -8- Chương trình bày thực nghiệm tiến hành với logs file máy chủ email Đại học Quốc gia Hà Nội Kết thực nghiệm cho thấy địa thư với độ phân cụm thấp có khả cao địa thư rác Phần kết luận tổng kết kết chủ yếu khóa luận phương hướng nghiên cứu để phát triển, cải tiến phương pháp mạng thư điện tử đề xuất Cho dù cố gắng song tránh khỏi sai sót, em mong góp ý thầy cô bạn -9- Chương TỔNG QUAN VỀ THƯ RÁC Từ lâu, thư điện tử (Email) trở thành ứng dụng thiếu Internet công nghệ mạng phát triển Đây điều mà thực tế chứng minh qua đóng góp ứng dụng nhiều lĩnh vực kinh doanh, thương mại, viễn thông dịch vụ cá nhân Tuy nhiên năm gần đây, hình thức thư điện tử xuất với số lượng lớn gây phiền hà cho người nhận thiệt hại không nhỏ cho kinh tế gọi thư rác Chương khái quát vấn đề khái niệm thư rác, ảnh hưởng thư rác sống phương pháp ngăn chặn thư rác 1.1 Khái niệm thư rác 1.1.1 Thư rác ? Thư rác (spam) loại thư gửi với số lượng lớn, theo chủ ý người gửi, hoàn toàn liên hệ với người nhận Đứng quan điểm người gửi, hình thức giửi thư theo số lượng lớn (nên gọi bulk email) cho danh sách địa chọn lọc từ diễn đàn (Usenet discussion group), danh sách thư (mailing list)… Hiện có nhiều công ty mà công việc kinh doanh nhận gửi thư rác cho khách hàng họ Về phía người nhận, đa phần thư giá trị thật không mong muốn, chúng bị coi thứ rác rưởi, tạp nham (xuất phát từ cụm junk email) Phần lớn thư có nội dung quảng cáo thương mại cho loại sản phẩm hay dịch vụ đó, thư gọi UCE (Unsolicited Commercial Email) Thư rác thường có nội dung: quảng cáo thương mại dịch vụ, quấy nhiễu, phát tán virus nội dung không lành mạnh (khiêu dâm, chống phá trị…) - 10 - Chương ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ TRONG LỌC THƯ RÁC Phương pháp lọc thư rác sử dụng phổ biến hầu hết máy chủ email phương pháp dựa việc thiết lập quy tắc SpamAssassin phương pháp thống kê Bayesian Tuy vậy, phương pháp thường chiếm lượng tài nguyên lớn máy chủ thực trình xác minh thư điện tử gửi đến thư rác thư thường, đặc biệt máy chủ có nhiều người dùng lượng thư điện tử trao đổi lớn Chương trình bày phương pháp lọc thư rác hiệu giảm tải việc tính toán cho máy chủ email nhiều Đó phương pháp lọc thư rác dựa việc tính độ phân cụm mạng thư điện tử Đây hướng tiếp cận nhà khoa học giới quan tâm phát triển 3.1 Yêu cầu toán đặt Cuộc chiến tranh kẻ gửi thư rác lọc thư rác dường chấm dứt Những người phát triển phần mềm lọc thư rác cố gắng tìm hiểu đặc điểm riêng thư rác dựa đặc điểm để lọc thư rác Nhưng kẻ phát tán thư rác (spammers) thích nghi nhanh với biện pháp ngăn ngừa thư rác, thời gian không lâu sau kẻ gửi thư rác lại tìm cách khắc phục đặc điểm Như vậy, trở thành vòng tròn luẩn quẩn Một lọc tốt phải lọc kết hợp phương pháp lọc để phương pháp phát huy mạnh khắc phục nhược điểm phương pháp khác Xu hướng công cụ lọc thư rác hiệu phải đảm bảo số yêu cầu tối thiểu như: ™ Bộ lọc lọc nhiều loại thư rác với độ xác cao ™ Tự động cập nhập thêm danh sách spam mà không cần có can thiệp người - 50 - ™ Tự động thiết đặt quy tắc lọc thư rác cho phù hợp người dùng tổ chức 3.2 Đề xuất phương pháp Với yêu cầu đặt trên, chương trình bày phương pháp có sử dụng tính chất mạng thư điện tử để xây dựng công cụ lọc thư rác Đây phương pháp sử dụng lý thuyết đồ thị tự động việc xác định mạng ứng người dùng Một người dùng thư điện tử tương tự sử dụng mạng thư điện tử Mạng gồm node tương ứng với node nhận thư từ node mà gửi thư đến Mạng có hướng, với thư điện nhận từ người khác có cung hướng từ người tới anh ta, thư điện tử mà gửi tương ững với cung hướng từ đến người Số lượng trao đổi thư hai node mạng trọng số cung nối hai người Ta ký hiệu đồ thị mạng thư điện tử G = (E, V), E tập đỉnh (địa người dùng) V tập cung nối cặp đỉnh đồ thị Một cách phổ biến [6,11,24,25,29], tác giả thường dùng cách đánh số cho đỉnh đồ thị, E tập số tự nhiên không vượt N, với N số địa người dùng mạng điện tử Tính chất quan trọng trưng quan trọng cho mạng xã hội (nói chung) mạng thư điện tử nói riêng scale-free small-world Theo [11], độ đo scale-free tính theo số cung gắn với đỉnh đồ thị, mang ý nghĩa phân bố cung đỉnh đồ thị Thông thường, số cung gắn với đỉnh khác khác Độ đo scale-free mạng thường chịu ảnh hưởng nhiều đỉnh với số lượng lớn cung liên kết đến Theo [24], độ đo small-world thể độ dài liên kết đỉnh đồ thị Độ đo tính tương ứng với chiều dài trung bình đường dẫn ngắn hai đỉnh P.O Boykin V Roychowdhury [6] xuất phát theo hướng tiếp cận dựa theo header có Inblox người dùng Các tác giả mô hình hóa trao đổi thư điện tử tập người dùng, mạng thư điện tử, mạng social network Dựa theo ý nghĩa hai độ đo đặc trưng đây, công thức sau để tính độ phân cụm đỉnh thứ i mạng thư điện tử đề xuất: Ci = * Ei k i (k i − 1) - 51 - (3.1) Trong đó, Ci độ phân cụm đỉnh i, ki số đỉnh kết nối với đỉnh i, Ei số lượng cung nối đỉnh láng giềng i Tuy nhiên, để tính độ phân cụm cho đỉnh mạng thư điện tử công thức có vài hạn chế Thứ nhất, bỏ qua tất đỉnh có k = Thứ hai quan trọng hơn, kết tính toán không cho phép phân biệt đỉnh có giá trị E = có giá trị k khác (C = E = 0) Để khắc phục nhược điểm trên, công thức để tính toán độ phân cụm C thay đổi sau: Ci = * ( Ei + 1) k i (k i − 1) + (3.2) Tuy nhiên, nhằm hướng tới mục tiêu tính toán độ tin cậy người dùng, công thức chưa thực thuyết phục Thông thường người nhận nhiều thư người có độ tin cậy cao Nếu sử dụng công thức (3.2) để tính không phân biệt trường hợp người gửi thư cho nhiều người khác trường hợp người nhận thư từ nhiều người khác Vì vậy, cần phải xem xét đồ thị thư điện tử phương diện có hướng có trọng số đề xuất công thức tính độ phân cụm sau: Ci = * ( Ei + 1) + 0.2 * Ri S i ( S i − 1) + (3.3) Trong đó, Ei số cung nối node xung quanh node i, Si số node mà có cung từ node i đến node (số node mà node i gửi thư đến), Ri số node mà có cung từ node đến i (số node gửi thư cho node i) Công thức đảm bảo người gửi thư cho nhiều node lân cận mà node lân cận có mối quan hệ với độ phân cụm cao người nhận thư từ node lân cận khác độ phân cụm người lớn Đối với spam thường không nhận thư nên Ri = Trong khoảng thời gian dài, người dùng thường trao đổi qua lại nhiều thư với Số lượng thư trao đổi nhiều đánh giá mức độ thân quen họ Để có nhìn khái quát, em đưa trọng số cung vào để tính toán độ phân cụm Trọng số cung w cung số lượng thư trao đổi hai node người dùng Công thức cho đại lượng Ei, Si, Ri - 52 - Ei = Si = Ri = Edge ∑ (1 + (w j =1 j − 1) * 0.05) (3.4) j − 1) * 0.05) (3.5) j − 1) * 0.05) (3.6) Send ∑ (1 + ( w j =1 Re cieve ∑ (1 + ( w j =1 Trọng số cung có ý nghĩa khẳng định thêm mức độ quan hệ hai node với Vì thế, dùng hệ số 0.05 để tạo chênh lệch không lớn Công thức độ phân cụm mà đưa thể hai thuộc tính scale-free small-world.của mạng xã hội Số hạng thứ công thức (3.3) thể cho tích chất small-world số hạng thứ hai công thức (3.3) thể cho tính chất scale-free 3.3 Đặc điểm phương pháp Phương pháp có số ưu điểm sau: ™ Anti-spam phát triển theo hướng không phụ thuộc vào nội dung: Phương pháp mà đưa khắc phục nhược điểm hướng tiếp cận nội dung không can thiệp vào nội dung thư người dùng Hơn nữa, lọc áp dụng cho loại ngôn ngữ nước với thư có kiểu đặc biệt (như chèn hình ảnh, âm thanh, website…) mà không cần phải đưa quy tắc riêng cho loại ™ Tự động thiết lập quy tắc: Phương pháp khắc phục nhược điểm hướng tiếp cận header khả tự động thiết lập quy tắc để tìm spammer Blacklist tự động cập nhật thêm spammer vào mà không cần can thiệp người quản trị ™ Anti-spam phát triển theo hướng địa hóa quy tắc: nhóm quy tắc dành cho nhóm server định, thiết lập dựa vào liệu server ™ Giải vấn đề cold-start: Thời gian mà hệ thống phải học để lọc thư rác giảm nhiều so với hướng tiếp cận khác Hệ thống không cần can thiệp người dùng lúc đầu phân loại đâu địa tin cậy, đâu địa gửi thư rác Trong đó, số phương pháp lọc thư rác hiệu - 53 - (thí dụ Bayesian) phải cần tập liệu đủ lớn cập nhật, người dùng phải phân biệt cho máy học đâu thư rác, đâu thư bình thường ™ Ngăn công spammers: Những spammers muốn công hệ thống phải làm cho độ phân cụm cao Tuy nhiên, muốn có hệ số phân cụm cao việc phải tạo mạng có tính chất social network cho nó, phải nhận thư từ người bên hệ thống điều với spammer ™ Giảm truy cập tới máy chủ email: Đối với máy chủ email lớn (thí dụ Yahoo mail, Gmail…) việc giảm tải truy cập đến máy chủ cần thiết Với hướng tiếp cận dựa nội dung phải xử lý nội dung thư để xác định spam phương pháp cần xử lý với log files máy chủ Như giảm nhiều thời gian tiến trình xử lý phía máy chủ - 54 - Chương THỰC NGHIỆM TRÊN LOG FILES Để chứng minh đắn thuật toán đưa chương 3, chương trình bày thực nghiệm tiến hành log files máy chủ email Đại học Quốc Gia Hà Nội thời gian tuần kết thu từ thực nghiệm 4.1 Đặc điểm liệu Dữ liệu dùng để xây dựng đồ thị mạng thư điện tử lấy từ log files máy chủ email Đai học Quốc gia Hà Nội khoảng thời gian tuần Từ log files cung cấp thông tin người gửi, người nhận thời gian thư điện tử gửi đi, nhận thông qua máy chủ email Log files không ghi nội dung thư, không xâm phạm đến tính riêng tư người dùng Hình 4.1 Đồ thư điện tử máy chủ email Đại học Quốc Gia Hà Nội (từ ngày 28/3 đến 03/04 năm 2006) - 55 - Sau phân tích liệu thống kê tổng số 19875 người dùng tương ứng với 19875 địa email khác Trong có 1150 người dùng bên máy chủ email 18725 người dùng bên Tổng số thư trao đổi khoảng thời gian 88842 thư Từ liệu thu em xây dựng đồ thị mạng thư điện tử với node địa email, cung có hướng từ node tương ứng với địa chi gửi tới node tương ứng với địa nhận Trọng số cung số lượng thư ứng với cung thời điểm gửi khác Hình 4.1 minh họa đồ thị mạng thư điện tử máy chủ email Đại học Quốc gia Hà Nội khoảng thời gian tuần từ ngày 28/03 đến ngày 03/04 năm 2006 Hình 4.2 minh họa đồ thị mạng thư điện tử máy chủ (từ 18:00 đến 19:00 ngày 28/3) Các node màu xanh tương ứng với người dùng bên máy chủ email, node màu đỏ tương ứng với người dùng bên Chiều mũi tên cho biết thư gửi từ người gửi đến người nhận Hình 4.2 Đồ thư điện tử máy chủ email Đại học Quốc Gia Hà Nội (từ 18:00 đến 19:00 ngày 28/3/2006) - 56 - 4.2 Kết thực nghiệm phân tích Với liệu trên, sau tiến hành tính toán độ phân cụm người dùng công thức(3) thu kết kết khả quan Hình 4.3 Biểu đồ độ phân cụm người dùng bên máy chủ email Hình 4.4 Biểu đồ độ phân cụm người dùng bên máy chủ email - 57 - Hình 4.3 biểu đồ độ phân cụm người dùng bên máy chủ email Biểu đồ hiển thị tổng số người dùng ứng với độ phân cụm Hình 4.4 biểu đồ độ phân cụm người dùng bên máy chủ email Biểu đồ biểu thị tổng số người dùng ứng với độ phân cụm Từ biểu đồ hình 4.3 hình 4.4 cho thấy người dùng bên email server thường có độ phân cụm cao (tập trung từ đến 180) người dùng bên độ phân cụm thấp (tập trung từ đến 2.5) Hình 4.4 cho thấy số lượng không nhỏ người dùng có độ phân cụm thấp (từ đến 0.5) địa gửi thư rác (xem chi tiết bảng 2) Giá trị độ phân cụm Tổng số người dùng Người dùng bên Người dùng bên C ≤ 653 653 < C ≤ 1329 15 1314 < C ≤ 1734 28 1706 < C ≤ 761 33 728 1.5 < C ≤ 2.0 7560 39 7521 2.0 < C ≤ 2.5 6606 309 6297 < C ≤ 583 106 477 < C ≤ 184 171 13 < C ≤ 100 96 C > 366 352 14 Bảng Sự phân bố tổng số địa người dùng, người dùng bên người dùng bên máy chủ email theo khoảng giá trị độ phân cụm Hình 4.5 đồ thị mạng thư điện tử người dùng bên có độ phân cụm thấp C=0.00055 Từ đồ thị ta thấy rõ người phát tán lượng thư lớn đến nhiều địa khác mà không nhận thư từ người dùng Số liên kết người dùng bị người gửi thư đến ít, có liên kết từ người dùng 420 gửi đến người dùng 430 (đây trùng hợp cách ngẫu nhiên) Do ta khẳng định người dùng có độ tin cậy thấp địa gửi thư rác - 58 - Hình 4.5 Đồ thị người dùng bên máy chủ có độ phân cụm thấp Hình 4.6 Đồ thị người dùng bên máy chủ có độ phân cụm cao - 59 - Hình 4.6 đồ thị mạng thư điện tử người dùng bên máy chủ email có độ phân cụm cao C= 20.887 Nhìn đồ thị ta thấy người dùng nhận nhiều thư từ người dùng khác địa gửi nhiều thư người nhận thư từ địa có quan hệ chằng chịt với Do vậy, độ phân cụm người dùng cao hay nói cách khác người dùng có độ tin cậy cao địa gửi thư rác Hình 4.7 đồ thị mạng thư điện tử người dùng bên máy chủ email có độ phân cụm C= 1.7595 Từ đồ thị ta thấy người dùng gửi thư cho lượng người không lớn có nhận lại thư từ người gửi Do đó, địa email bình thường địa phát tán thư rác Hình 4.7 Đồ thị người dùng bên máy chủ có độ phân cụm cao 4.3 Nhận xét Từ hình vẽ bảng thống kê cho ta thấy, công thức tính độ phân cụm hợp lý hiệu đánh giá độ tin cậy người dùng máy chủ email Những người dùng quan trọng (nhận thư từ nhiều node khác người họ gửi thư có mối quan hệ với nhau) mạng thư điện tử họ có độ phân cụm cao Ngược lại, mạng người dùng không quan trọng có độ phân cụm thấp Đặc biệt, với node tương ứng với spammers mạng thư điện tử có độ phân cụm thấp Kết hậu kiểm trực tiếp khẳng định tính đắn đánh giá nhận xét Từ kết xây dựng công cụ lọc thư rác hiệu cách xác định hai ngưỡng độ phân cụm C Ngưỡng thứ gọi Cspam Nếu node có độ phân cụm nhỏ Cspam địa ứng với node địa gửi thư rác Ngưỡng thứ hai gọi Cham Nếu node có độ phân cụm lớn Cham địa ứng với node địa tin cậy địa gửi thư rác Những địa tương ứng với node có độ phân cụm nhỏ Cspam bị đưa vào Blacklist Ngược lại, địa tương ứng với node có độ phân cụm lớn Cham đưa vào Whitelist Những địa tương ứng với node lại ( Cspam < C < Cham) đưa vào Greylist để theo dõi thời gian - 60 - Kết luận Lọc spam phương pháp dùng mạng thư điện tử hướng khắc phục nhiều nhược điểm cố hữu phương pháp trước Hướng tiếp cận đặc biệt hiệu việc sử dụng làm lọc sở cho việc giải cách tổng quát cho vấn đề thư rác trường hợp đòi xác cao không giải lọc dựa nội dung Trên thực tế, địa email làm giả, có nghĩa spam giả danh địa email tin cậy, phương pháp SPF, Domain-keys, CallID áp dụng rộng rãi (đây xu hướng phát triển anti-spam), địa email người gửi địa email thật Vì vậy, để có công cụ lọc thư rác thực hiệu cần kết hợp thêm với phương pháp khác Khóa luận hệ thống hóa số vấn đề lý thuyết thư rác, hướng tiếp cận vấn đề lọc thư rác trước đồng thời trình bày số khái niệm đặc điểm mạng phức hợp, mạng xã hội mạng thư điện tử Một cách tính cho độ phân cụm mạng thư điện đề xuất, trình tiến hành thực nghiệm cách tính thu số kết khả quan Với kết thu được, dự định thời gian tới tiến hành thử nghiệm tích hợp chương trình lọc thư rác vào máy chủ email Đại học Quốc Gia Hà Nội Kết khóa luận đóng góp vào đề tài nghiên cứu đề tài cấp nhà nước lọc nội dung Internet - 61 - Tài liệu tham khảo [1] LA Adamic and BA Huberman “Power-law distribution of the World Wide Web” Science, 287:2115a, 2000 [2] R Albert and A-L Barabási, “Statistical mechanics of complex networks”, Review of Modern Physics, vol 74, pp 47-91, January 2002 [3] R Albert, H Jeong and A.-L Barabási, “Diameter of the World Wide Web,” Nature, vol 401, pp 130-131, Sept 1999 [4] A-L Barabási and R Albert, “Emergence of scaling in random networks”, Science, vol 286, pp 509-512, Oct 1999 [5] A-L Barabási, R Albert and H Jeong, “Mean-field theory for scalefree random networks”, Physica A, vol 272, pp 173-187, 1999 [6] P.O Boykin and V Roychowdhury (2005) Leveraging social networks to fight spam IEEE Computer, 38(4):61–68, 2005 [7] R F i Cancho, C Janssen and R V Sole, “Topology of technology graphs: small world patterns in electronic circuits”, Phys Rev E, vol 64, 046119, Sept 2001 [8] R F i Cancho and R V Sole, “The small-world of human language”, Proc R Soc London, Ser B, vol 268, no 1482, pp 2261 - 2265, 2001 [9] J Davidsen, H Ebel, and S Bornholdt, “Emergence of a small world from local interaction: Modeling acquaintance networks”, Phys Rev Lett 88, 128701 (2002) [10] Deborah Fallows (2003) Spam: How it is hurting email and degrading life on the internet Technical report, Pew Internet and American Life Project, Oct 2003 [11] H Ebel, L-I Mielsch and S Bornholdt (2002) Scale-free topology of email networks, Phys Rev E, 66, 035103 (R), Sept 2002 [12] P Erdös and A Rényi, “On the evolution of random graphs”, Publ Math Inst Hung Acad Sci., vol 5, pp 17-60, 1959 [13] M Faloutsos, P Faloutsos and C Faloutsos, “On power-law relationships of the Internet topology”, Comput Commun Rev., vol 29, pp 251- 263, 1999 [14] J Golbeck and J Hendler (2004) Reputation Network Analysis for Email Filtering Proc of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004 [15] A Gray and M Haahr Personalised (2004) Collaborative Spam Filtering Proc of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004 - 62 - [16] Guanrong Chen “Complex networks: Modelling, control and synchoroniation” , Science, vol 208, no 554, pp 824-827, Oct 2003 [17] BA Huberman and LA Adamic, "Growth dynamics of the world-wide web," Nature 401, 131 (1999) [18] H Jeong, B Tombor, R Albert, Z Oltvai, and A.-L Barabási, “The large-scale organization of metabolic networks,” Nature, vol 407, pp.651-653, Oct 2000 [19] Medina, I Matta, J Byers, “On the origin of power-laws in Internet topologies”, ACM SIGCOMM Comput Commun Rev., vol 30, no 2, 18-28, 2000 [20] Mehran Sahami, Susan Dumais, David Heckerman and Eric Horvitz (1998) A Bayesian Approach to Filtering Junk Email Proceedings of AAAI-98 Workshop on Learning for Text Categorization [21] S Milgram, “The small-world problem”, Psychology Today, vol 2, pp 60-67, 1967 [22] R Milo, S Shen-Orr, S Itzkovitz, N Kashtan, D Chklovskii and U.Alon, “Network motifs: Simple building blocks of complex networks”, Science, vol 298, no 5594, pp 824-827, Oct 2002 [23] J M Montoya and R V Solé, “Small-world patterns in food webs”, J.Theor Biol vol 214, 405-412, 2002 [24] M E J Newman and D J Watts, “Renormalization group analysis of the small-world network model”, Phys Lett A, vol 263, pp 341-346, 1999 [25] M E J Newman, S Forrest, and J Balthrop (2002), “Email networks and the spread of computer viruses” Physical Review E 66, 2002 [26] M E J Newman, “Scientific collaboration networks: I Network construction and fundamental results”, Phys Rev E, vol 62, 016131, 2001 [27] MEJ Newman, SH Strogatz and DJ Watts, “Random graphs with arbitrary degree distributions and their applications”, Phys Rev E 64, 026118 (2001) [28] R Pastor-Satorras and A Vespignani, “Immunization of complex networks”, Phys Rev E65, 036104 (2002) [29] Paul Alexandru Chirita, J¨org Diederich, Wolfgang Nejdl (2005) MailRank: Using Ranking for Spam Detection CIKM ’05 Bremen, Germany [30] M Perone (2004) An overview of spam blocking techniques Technical report, Barracuda Networks, 2004 [31] Kenneth H Rosen, “Handbook of Discrete and Combinatorial Mathematics”, CRC Prss, Boca Raton, 2000 - 63 - [32] S H Strogatz, “Exploring complex networks”, Nature, vol 410, pp 268-276, March 2001 [33] S Valverde, R Ferrer-Cancho and R V Sole, “Scale-Free Networks from optimal design”, arXiv: cond-mat/0204344, April 2002 [34] A Vazquez, R Pastor-Satorras and A Vespignani, “Internet topology at the router and autonomous system level”, arXiv: cond-mat/0206084, June 2002 [35] X F Wang, “Complex networks: topology, dynamics and synchronization”, Int J Bifurcation & Chaos, vol 12, no 5, pp 885-916, May 2002 [36] D J Watts and S H Strogatz, “Collective dynamics of ‘small world’ networks”, Nature, vol 393, pp 440-442, June 1998 [37] R J Williams, N D Martinez, E L Berlow, J A Dunne and A-L Barabasi, “Two degrees of separation in complex food webs”, Proc Natl.Acad Sci, vol 99, no 20, 12913-12916, Oct 2002 [38] G.L Wittel and S.F Wu (2004) On Attacking Statistical Spam Filters Proc of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004 [39] Spam Filtering Research http://spamlinks.net/filter-research.htm - 64 -

Ngày đăng: 05/11/2016, 13:36

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan