Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng

77 403 2
Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG NGUYỄN THỊ HUYÊN NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÁT HIỆN TRANG WEB GIẢ MẠO ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG NGUYỄN THỊ HUYÊN NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÁT HIỆN TRANG WEB GIẢ MẠO ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS NGUYỄN NGỌC CƢƠNG THÁI NGUYÊN - 2016 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân tìm hiểu, nghiên cứu dƣới hƣớng dẫn TS Nguyễn Ngọc Cƣơng Các chƣơng trình thực nghiệm thân lập trình, kết hoàn toàn trung thực Các tài liệu tham khảo đƣợc trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN Nguyễn Thị Huyên ii LỜI CẢM ƠN Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam, thầy cô giáo Trƣờng Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên giảng dạy cho suốt trình học tập chƣơng trình cao học trƣờng Đặc biệt xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Nguyễn Ngọc Cƣơng quan tâm, định hƣớng đƣa góp ý, gợi ý, chỉnh sửa quý báu cho trình làm luận văn tốt nghiệp Cũng nhƣ bạn bè đồng nghiệp, gia đình ngƣời thân quan tâm, giúp đỡ chia sẻ với suốt trình làm luận văn tốt nghiệp Dù có nhiều cố gắng nhƣng chắn không tránh khỏi thiếu sót mong nhận đƣợc đóng góp ý kiến thầy, cô bạn để luận văn đƣợc hoàn thiện Tôi xin chân thành cảm ơn! Thái Nguyên, tháng 05 năm 2016 Nguyễn Thị Huyên iii MỤC LỤC Trang MỞ ĐẦU Chƣơng TỔNG QUAN VỀ AN NINH MẠNG BÀI TOÁN GIẢ MẠO WEBSITE 1.1 Tổng quan an ninh mạng .4 1.1.1 Giới thiệu an ninh mạng 1.1.2 Nguy ảnh hƣởng tới an toàn mạng 1.1.3 Các khái niệm 1.1.4 Các loại công mạng 1.1.5 Các phƣơng thức công .8 1.2 Dịch vụ website 17 1.2.1 Giới thiệu Website 17 1.2.2 Các hình thức giả mạo web 18 1.2.3 Các kiểu lừa đảo Phishing .20 1.3 Bài toán giả mạo website 23 1.3.1 Giả mạo 23 1.3.2 Một số kỹ thuật 23 Chƣơng CÁC KỸ THUẬT PHÁT HIỆN WEBSITE GIẢ MẠO 26 2.1.Thuật toán TF - IDF (Term Frequency/Inverse Document Frequency) 26 2.1.1 Phƣơng pháp dựa tần số từ khóa (TF – Term Frequency) 26 2.1.2 Phƣơng pháp dựa nghịch đảo tần số văn (IDF – Inverse Document Frequency) .26 2.1.3 Phƣơng pháp TF × IDF .27 2.2 Thuật toán sử dụng phƣơng pháp thống kê (Bayesian) .28 2.2.1 Định lý Naïve Bayes 28 2.2.2 Ví dụ 30 2.2.3 Thuật toán Naïve Bayes .31 2.3 Thuật toán so khớp 32 2.3.1 Thuật toán so khớp chuỗi khai 33 2.3.2 Thuật toán Rabin – Karp .35 2.3.3.Thuật toán Boyer Moore Horspool .36 2.3.4 DOM Tree 38 2.4 Thuật toán dựa tƣơng đồng hình ảnh trang web .38 2.4.1 Thuật Toán K-Means 39 iv 2.4.2 Thuật toán so khớp đồ thị 43 Chƣơng XÂY DỰNG CHƢƠNG TRÌNH PHÁT HIỆN WEBSITE GIẢ MẠO ỨNG DỤNG .46 3.1 Ứng dụng thuật toán Naive Bayes phát website giả mạo .46 3.2 Các luật xác định giả mạo áp dụng cho thuật toán 47 3.2.1 Phát giả mạo dựa địa .47 3.2.2 Phát giả mạo dựa đặc tính bất thƣờng 52 3.2.3 Phát giả mạo dựa tính dùng HTML JavaScript 53 3.2.4 Phát giả mạo dựa tên miền 55 3.3 Thiết kế chƣơng trình .55 3.4 Phân tích thuật toán 56 3.4.1 Ý tƣởng 56 3.4.2 Cài đặt 56 3.5 Giao diện chƣơng trình kết 59 KẾT LUẬN 64 Hƣớng phát triển 64 TÀI LIỆU THAM KHẢO .65 PHỤ LỤC 67 Phần mềm WEKA 67 v DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT Viết tắt Viết đầy đủ |X| Lực lƣợng tập X APWG Anti Phishing Working Group ARP Address Resolution Protocol CSDL Cơ sở liệu Phishing Giả mạo DHCP Dynamic Host Configuration Protocol DNS Domain Name System DOM Document Object Model TF-IDF Term Frequency – Inverse Document Frequency WEKA Waikato Environment for Knowledge Analysis NB Naïve Bayes MAC Media Access Control LAN Local Area Network DoS Dinal of Services TCP/IP Transmission Control Protocol / Internet Protocol SMTP Simple_Mail_Transfer_Protocol URL Uniform Resource Locator XML Extensible Markup Language vi DANH MỤC CÁC BẢNG HÌNH VẼ Hình 1.1 Báo cáo tội phạm Internet Hình 1.2 Số lƣợng liệu bị đánh cắp Hình 1.3 Tỷ lệ lỗ hổng trang web .6 Hình 1.4 Mô tả hoạt động bảng CAM .9 Hình 1.5 Quá trình cấp phát ip từ máy chủ DHCP .10 Hình 1.6 Minh họa DHCP Rouge .11 Hình 1.7 Minh họa việc chuyển hƣớng ngƣời dùng .12 Hình 1.8 Minh họa việc cấp phát IP giả .13 Hình 1.9 Minh họa cách thức giả mạo ARP 14 Hình 1.10 Minh họa trình giả mạo MAC 15 Hình 1.11 Minh họa Fake DNS 16 Hình 2.1 Thuật toán K-means dạng đồ khối 39 Hình 2.2 Ví dụ đồ thị .43 Hình 3.1 Giao diện chƣơng trình 59 Hình 3.2 Kết chƣơng trình .60 Hình 3.3 Kiểm tra URL 63 Hình Giao diện phần mềm Weka 67 Hình Giao diện Weka Explorer 68 Hình Giao diện Weka Explorer sau chọn CSDL Websites Phishing 68 Hình Phân loại liệu .69 MỞ ĐẦU Đặt vấn đề Hiện nay, công nghệ thông tin hầu nhƣ đƣợc áp dụng rộng rãi toàn cầu, nƣớc dần chuyển từ từ tiếp xúc với công nghệ thấy đƣợc lợi ích to lớn việc áp dụng công nghệ thông tin vào lĩnh vực nhƣ kinh doanh, quản lý, mua sắm, nói chung tất nhu cầu ngƣời Một dịch vụ công nghệ hàng đầu đƣợc sử dụng phổ biến dịch vụ WEB Với công nghệ WEB đáp ứng nhu cầu ngƣời Giả mạo (phishing biến thể từ fishing nghĩa câu cá phreaking nghĩa nhử ngƣời dùng tiết lộ bí mật), lĩnh vực bảo mật máy tính hành vi giả mạo ác ý nhằm lấy đƣợc thông tin nhạy cảm nhƣ tên ngƣời dùng, mật chi tiết thẻ tín dụng cách giả dạng thành chủ thể tin cậy giao dịch điện tử Vấn đề giả mạo (phishing hay fake) nói chung giả mạo web nói riêng loại tội phạm kỹ thuật xã hội có xu hƣớng gia tăng mạng Giả mạo đƣợc báo cáo vấn nạn web lần vào năm 2001 hiệp hội bảo vệ khách hàng, hiệp hội thƣơng mại liên bang Mỹ ngày nhóm làm việc chống giả mạo APWG (Anti Phishing Working Group) đƣa thông số trang web giả tăng khoảng 50% năm Hầu hết công lừa đảo đại xảy cách thu hút ngƣời sử dụng truy cập vào trang web độc hại trông hoạt động giống nhƣ gốc Khi đó, ngƣời sử dụng bị thuyết phục trang xác thực cung cấp thông tin cá nhân bao gồm thông tin xác thực thông tin ngân hàng Những thông tin thƣờng đƣợc kẻ sử dụng để thực số hình thức hành vi trộm cắp hay gian lận thực tế Do vậy, việc nghiên cứu phát trang web giả mạo nhu cầu cấp thiết Phát trang web giả mạo việc để ngăn chặn xóa bỏ trang web giả mạo Hiện có nhiều cách tiếp cận khác để phát trang web giả mạo Một đặc tính bật trang web giả mạo phải tƣơng tự nhƣ trang web gốc Điều có nghĩa hai trang web gốc web giả mạo có cấu trúc giống đến mức tốt để ngƣời dùng có đủ tự tin tiết lộ thông tin nhạy cảm Hầu hết trang lừa đảo làm tốt việc tạo giao diện hợp lệ cách chép bố trí trang, font, kiểu, logo chí thông tin bảo mật trang hợp lệ Có nhiều kỹ thuật giải pháp để phát trang web giả mạo: Hướng mở rộng giải pháp từ thư rác: Thuật toán TF-IDF (Term Frequency/Inverse Document Frequency) sử dụng từ khóa để xác định trang cụ thể Kỹ thuật thƣờng đƣợc dùng khai thác văn với máy tìm kiếm để tìm trang liên quan Thuật toán TFIDF xác định từ khóa trang web, từ khóa đƣợc đƣa vào máy tìm kiếm chẳng hạn Google lấy nhóm URL Nếu trang web bị nghi ngờ nằm nhóm trang đƣợc coi hợp lệ, ngƣợc lại bị cho lừa đảo hầu hết trang lừa đảo thứ hạng cao kết máy tìm kiếm Thuật toán đƣợc ứng dụng giải pháp Cantina đƣợc phát triển nhà nghiên cứu Đại học Carnegie Mellon với việc sử dụng năm từ khóa có tần suất xuất cao trang Tuy nhiên giải pháp phù hợp có hai giả thiết sau: - Thứ nhất, trang lừa đảo phải nhìn hoạt động giống với trang hợp lệ cho kết từ khóa đƣợc xác định TF-IDF giống - Thứ hai, máy tìm kiếm phải cho kết xếp hạng trang web hợp lệ xác cao trang lừa đảo Hướng sử dụng giải pháp Bayesian: Thuật toán lọc Bayesian vốn đƣợc phát triển để phát thƣ rác nhƣng nhà nghiên cứu Đại học Iowa sử dụng thuật toán để phát triển thành công cụ chống lừa đảo đƣợc đặt tên B-APT Lợi thuật toán có khả phát đƣợc đối tƣợng chƣa nhìn thấy trƣớc Việc sử dụng phép lọc Bayesian giải pháp hứa hẹn cho việc phát lừa đảo ngày 55 3.2.4 Phát giả mạo dựa tên miền 3.2.4.1 PageRank PageRank giá trị từ "0" đến "1" PageRank nhằm đo lƣờng tầm quan trọng trang web Internet Giá trị PageRank quan trọng trang web Trong liệu này, có khoảng 95% trang web lừa đảo PageRank Hơn nữa, 5% trang web lừa đảo lại đạt đƣợc giá trị PageRank lên đến "0,2" Rule:IF{ 3.2.4.2 Google Index Tính kiểm tra xem trang web có mục Google hay không Khi trang web đƣợc lập mục Google, đƣợc hiển thị kết tìm kiếm (Webmaster resources, 2014) Thông thƣờng, trang web lừa đảo truy cập thời gian ngắn kết nhiều trang web lừa đảo không đƣợc tìm thấy mục Google Rule:IF{ 3.2.4.3 Số lượng liên kết trỏ tới trang Số lƣợng liên kết trỏ đến trang web cho thấy mức độ hợp pháp nó, số liên kết miền (Dean, 2014) Trong liệu này, nhà khoa học thấy 98% trang web lừa đảo liên kết trỏ đến chúng Mặt khác, trang web hợp pháp có liên kết bên trỏ đến chúng Rule: IF{ 3.3 Thiết kế chƣơng trình Chƣơng trình đƣợc thực theo quy tắc: Tenfold cross validation, thực nhƣ sau: 56 - Bƣớc 1: Mỗi dòng CSDL Websites Phishing ứng với trang web, ta đọc 11055 trang web CSDL chia chúng thành 10 phần cách ngẫu nhiên - Bƣớc (Training): Đọc số liệu k phần (k = 7, 8, 9) đƣợc chia bƣớc để huấn luyện theo thuật toán NaïveBayes - Bƣớc (Testing):Thực trình kiểu tra 11055 trang web Kết chƣơng trình đƣa đƣợc tính toán quy đổi số liệu: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) /(TP + TN + FP + FN) Chƣơng trình thực lặp bƣớc hai ba mƣời lần, lần tính toán cho số liệu Sau lấy giá trị trung bình mƣời lần tính toán 3.4 Phân tích thuật toán 3.4.1 Ý tƣởng Ý tƣởng cách tiếp cận Naïve Bayes sử dụng xác suất có điều kiện thuộc tính nhãn (phishing normal) để dự đoán xác suất nhãn trang web cần phân loại Điểm quan trọng phƣơng pháp chỗ giả định xuất tất thuộc tính độc lập với Giả định làm cho việc tính toán Naïve Bayes hiệu nhanh chóng phƣơng pháp khác không sử dụng việc kết hợp thuộc tính để đƣa phán đoán nhãn Kết dự đoán bị ảnh hƣởng kích thƣớc tập liệu, chất lƣợng không gian đặc trƣng… 3.4.2 Cài đặt Mô tả vector đặc trƣng trang web: Là vector có số chiều số thuộc tính toàn tập liệu, thuộc tính đôi khác Nếu trang web có chứa đặc trƣng có giá trị 1, ngƣợc lại Thuật toán gồm giai đoạn huấn luyện phân lớp: 3.4.2.1 Huấn luyện Tính ( ) ( | ) Đầu vào: 57  Các vector đặc trƣng trang web tập huấn luyện (Ma trận MxN, với M số vector đặc trƣng tập huấn luyện, N số đặc trƣng vector)  Tập nhãn/lớp cho vector đặc trƣng tập huấn luyện Đầu ra:  Các giá trị xác suất ( ) ( | ) Công thức tính ( ) làm trơn Laplace | | ( ) | | Trong đó:  |web si|: số trang web tập huấn luyện thuộc phân lớp i  |total webs|: số trang web tập huấn luyện  m số phân lớp Cài đặt:  Khởi tạo mảng A, B có kích thƣớc m  Duyệt qua trang web tập liệu, đếm số trang web phân lớp lƣu vào A  Tính xác suất cho phân lớp theo công thức lƣu vào mảng B Công thức tính ( | ) làm trơn Laplace: ( | ) | | | | Trong đó:  | |: Số trang web trong phân lớp i có đặc trƣng thứ k mang giá trị xk (hay số trang web lớp i, có xuất hiện/không xuất đặc trƣng k) |: Số trang web tập huấn luyện thuộc phân lớp i  |  Số giá trị có đặc trƣng thứ k Cài đặt:  Với vector đặc trƣng nhƣ mô tả bên trên, d k mang giá trị 2, tƣơng ứng với xuất không xuất Do có giá trị, ta có 58 thể tính nhanh xác suất không xuất theo công thức (̅) ( )  Khởi tạo mảng chiều C, chiều có kích thƣớc m (số phân lớp), chiều có kích thƣớc N (số đặc trƣng), chiều có kích (d k) để lƣu giá trị ( | )  Duyệt qua văn tập liệu, tiến hành thống kê số cần thiết để tính xác suất ( | ) theo công thức lƣu vào mảng C 3.4.2.2 Phân lớp Đầu vào:  Vector đặc trƣng trang web cần phân lớp  Các giá trị xác suất ( ) ( | ) Đầu ra:  Nhãn/lớp trang web cần phân loại Công thức tính xác suất thuộc phân lớp i biết trƣớc mẫu X ( | ) ( )∏ ( | ) Dựa vào vector đặc trƣng trang web cần phân lớp, áp dụng công thức tính xác suất thuộc phân lớp cho trang web, chọn lớp có xác suất cao 3.4.2.3 Ví dụ Websites Var Bit Class Web1 Phishing Web Normal Web 1 Normal Web Phishing Web Phishing Web Normal ( ) 59 ( ( ) | ) (̅̅̅̅̅| ( ) | ) (̅̅̅̅| ) ( | ) (̅̅̅̅̅| ( ) | ) (̅̅̅̅| ) Webnew = (1,0) ( | ) ( | ) Vậy trang web thuộc lớp Phishing 3.5 Giao diện chƣơng trình kết Hình 3.1 Giao diện chƣơng trình 60 Chức nút lệnh giao diện chƣơng trình: - Nút Random Split: Thực việc đọc 11055 trang web CSDL Websites Phishing chia chúng thành 10 phần cách ngẫu nhiên - Nút “Training”: Thực đọc k phần 10 phần (k = 7, 8, 9) trang web để huấn luyện theo thuật toán NaïveBayes - “Nút “Testing”: Thực việc kiểm thử 11055 trang web có CSDL đƣa kết luận cho trang web Sau tính toán hiệu chƣơng trình dựa độ đo DR, FPR Acc - Nút “Check URL”: Thực trình đọc URL trang web đƣợc nhập từ textbox URL kiểm tra xem trang web vừa nhận có phải trang web phishing hay không - Nút “Exit”: Thoát khỏi chƣơng trình Hình dƣới kết thử nghiệm hàm, luật,… WEKA chƣơng trình sử dụng thuật toán NaïveBayes sở liệu Websites Phishing Hình 3.2 Kết chƣơng trình 61  Với trình huấn luyện sử dụng 10 tập kết chƣơng trình nhƣ sau:  Trong 4898 trang web hợp pháp chƣơng trình cho kết quả: - Số lƣợng trang web hợp pháp phân loại TN = 4571 - Số lƣợng trang web hợp pháp phân loại sai thành trang web lừa đảo FP = 327  Trong 6157 trang web lừa đảo chƣơng trình cho kết quả: - Số lƣợng trang web lừa đảo phân loại TP = 5747 - Số lƣợng trang web lừa đảo phân loại sai thành trang web hợp pháp FN = 410  kết độ đo (đơn vị %): DR = 93.34% FPR = 6.68% Acc = 93.33%  Với trình huấn luyện sử dụng 10 tập kết chƣơng trình nhƣ sau:  Trong 4898 trang web hợp pháp chƣơng trình cho kết quả: - Số lƣợng trang web hợp pháp phân loại TN = 4504 - Số lƣợng trang web hợp pháp phân loại sai thành trang web lừa đảo FP = 394  Trong 6157 trang web lừa đảo chƣơng trình cho kết quả: - Số lƣợng trang web lừa đảo phân loại TP = 5630 - Số lƣợng trang web lừa đảo phân loại sai thành trang web hợp pháp FN = 527  kết độ đo (đơn vị %): DR = 91.44% FPR = 8.04% Acc = 91.67% Với kết trên, ta thấy tập liệu huấn luyện đa dạng tỉ lệ phát trang web giả mạo lớn 62 Kết đƣợc so sánh với số phƣơng pháp phân loại đƣợc tích hợp WEKA với CSDL WebPhishing phƣơng pháp tenford cross validation nhƣ sau: Phƣơng pháp DR FPR Acc My Result 93.13 6.49 93.33 NaiveBayes Simple 95.05 9.62 92.98 Bayes.WAODE 94.56 7.29 93.74 Function.Logistic 95.34 7.7 93.99 Function.RBFNetwork 91.6 9.42 91.15 Function.Spegasos 95.05 7.72 93.82 Lazy.IB1 97.92 4.51 96.84 misc.HyperPipes 23.79 57.56 Rules.ConjunctiveRule 91.44 14.31 88.89 Rules.Ridor 93.6 8.11 92.84 Tree.BFTree 96.74 5.61 95.69 Tree.RandomForest 98.29 3.886 97.34 Tree.RandomTree 97.26 4.74 96.37 Xét tỉ lệ phát độ xác tổng thể phƣơng pháp làm tác giả đứng vị trí lần lƣợt thứ 10 thứ tổng số 13 phƣơng pháp Tuy nhiên tỉ lệ phát sai (FPR) chƣơng trình tác giả đứng vị trí thứ Về thời gian chạy chƣơng trình: Thời gian chạy chƣơng trình phụ thuộc vào kích thƣớc khối liệu đầu vào, để phân loại tập 11055 website chƣơng trình chạy trung bình khoảng 50 giây Ngoài ra, chƣơng trình có chức kiểm tra trang web thực tế đƣợc nhập vào textbox kết luận trang web trang web thƣờng hay trang web giả mạo 63 Hình 3.3 Kiểm tra URL Hình kết trang web giả mạo với URL đƣợc lấy từ trang web PhishTank (https://www.phishtank.com) Kết chƣơng trình đƣợc trả dƣới dạng thông báo trang web giả mạo thƣờng Đồng thời, chƣơng trình tải giao diện trang web lên hình ngƣời dùng tiện theo dõi đánh giá 64 KẾT LUẬN Luận văn đạt đƣợc kết sau đây: - Tìm hiểu tổng quan giả mạo web, phƣơng pháp phát website phishing sử dụng - Tìm hiểu thuật toán Naïve Bayes, cài đặt ứng dụng vào trình huấn luyện phát trang web giả mạo - Xây dựng chƣơng trình mô trình huấn luyện phát website phishing - Thử nghiệm với liệu chuẩn WebsitePhishing so sánh kết với số phƣơng pháp học máy khác WEKA Hƣớng phát triển - Cần nghiên cứu khâu tiền xử lý, xây dựng mẫu huấn luyện tiêu chuẩn nhƣ phƣơng pháp cải tiến để cải thiện kết - Nâng cao khả phát cách kết hợp nhiều phƣơng pháp lại với - Xây dựng hệ thống phát website phishing ứng dụng vào thực tế 65 TÀI LIỆU THAM KHẢO [1] Lê Đắc Nhƣờng, Nguyễn Gia Nhƣ, Lê Đăng Nguyên, Lê Trọng Vĩnh Song song hóa thuật toán so khớp mẫu QuickSearch NIDS sử dụng mô hình chia sẻ nhớ OpenMP Pthreads Tạp chí Đại học Quốc gia Hà Nội, tháng 12/2012 Vol 28(4), Tr 255 – 263 [2] Nguyễn Ngọc Cƣơng, Phạm Ngọc Lãng (2014), Mạng truyền liệu, NXB Thông Tin Truyền Thông [3] Le Dang Nguyen, Dac Nhuong Le, Le Trong Vinh, Detecting phishing web Pages based on DOM-Tree Structure and Graph Matching Algorithm- The Fifth International Symposium on Information and Communication Technologies, SoICT 2014, December 4-5, 2014, Hanoi, Vietnam [4] Yue Zhang, Jason Hong and Lorrie cranor “CANTINA: A Content – Based Approach to Detecting Phishing Web Sites”, In the Proceedings of the 16th International Conference on World Wide We, p639-648, 2007 [5] Likarish, Eunjin Jung, Dunbar D., and Hansen T.E., “B-APT: Bayesian Anti-Phishing Toolbar”, In the Proceeding of 16th International Conference on Communication 2008 (ICC’08), pp 17451749, 2008 [6] Vinnarasi Tharania I, R Sangareswari, and M Saleembabu, “Web Phishing Detection In Machine Learning Using Heuristic Image Based Method”, International Journal of Engineering Research and Applications, Vol.2, Issue 5, pp.1589-1593, 2012 [7] Kranti W., Supriya A And N V Puri, “ An Efficient Approach to Detecting Phishing A Web Using K-Means and Naive- Bayes 66 Algoriths”, International Journal of Research in Advent Technology, Vol.2, No.3, pp.106-111, 2014 [8] Jangjong Fan, Kehyih Su, “An Efficient Algorith for Matching Multiple Patterns”, IEEE Transactions on Knowledge and Data Engineering, vol 5, no 2, pp 339-351, 1993 67 PHỤ LỤC Phần mềm WEKA WEKA (Waikato Environment for Knowledge Analysis) phần mềm khai thác liệu thuộc dự án trƣờng đại học Waikato, New Zealand lần năm 1993 Mục tiêu để xây dựng công cụ đại nhằm phát triển kĩ thuật máy học áp dụng chúng vào toán khai thác liệu thực tế, sử dụng giảng thuật giải Machine Learning nhiều trƣờng đại học lớn giới WEKA đƣợc viết ngôn ngữ Java JDK, cấu trúc gồm 600 lớp tổ chức thành 10 packages Với chức chính: - Khảo sát liệu: Tiền xử lí liệu, phân lớp, gom nhóm liệu, khai thác luật kết hợp - Thực nghiệm mô hình: cung cấp phƣơng tiện để kiểm chứng đánh giá mô hình học - Biểu diễn trực quan liệu nhiều dạng đồ thị… Trong đề tài, chủ yếu sử dụng phần mềm để khảo sát liệu nhằm so sánh với chƣơng trình xây dựng đề tài Giao diện phần mềm WEKA: Hình Giao diện phần mềm Weka Từ giao diện WEKA thực bƣớc: 68 - Bƣớc Chọn nút tác vụ Explorer, giao diện Weka Explorer xuất Hình Giao diện Weka Explorer - Bƣớc Tại thẻ Preprocess chọn nút Open file… để nạp tệp sở liệu Thông thƣờng sở liệu lƣu dạng *.arff *.csv Hình Giao diện Weka Explorer sau chọn CSDL Websites Phishing 69 WEKA thống kê đƣa thuộc tính có sở liệu hiển thị giao diện, hộp Attributes nhấn nút All để chọn tất thuộc tính - Bƣớc Chọn thẻ Classify để chọn sử dụng phƣơng pháp phân loại Hình Phân loại liệu - Bƣớc Chọn hàm, luật,… phân loại mục Classify nhấn nút Choose Thiết lập số tùy chọn mục Test options, ta chọn sử dụng phƣơng pháp Cross-validation - Bƣớc Nhấn nút Start để thực hiện, theo dõi kết vùng Classifier output Để tìm hiểu chức khác phần mềm Weka chi tiết cách sử dụng bạn đọc tìm hiểu tại: https://www.cs.waikato.ac.nz/ml/weka/ ... trang web giả mạo Hiện có nhiều cách tiếp cận khác để phát trang web giả mạo 2 Một đặc tính bật trang web giả mạo phải tƣơng tự nhƣ trang web gốc Điều có nghĩa hai trang web gốc web giả mạo có cấu... đồng hình ảnh hai trang web để so sánh thành phần chi tiết chúng để phát trang Web giả mạo Chính học viên lựa chọn đề tài Nghiên cứu số kỹ thuật phát trang Web giả mạo ứng dụng cho luận văn... toán kỹ thuật phát giả mạo web - Xây dựng chƣơng trình thử nghiệm tìm kiếm trang web giả mạo thuật toán Naïve Bayes Đối tƣợng phạm vi nghiên cứu - Bài toán giả mạo web, thuật toán liên quan đến phát

Ngày đăng: 23/06/2017, 17:33

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan