Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)

71 474 2
Đánh giá hiệu năng một số thuật toán  phân lớp cho phát hiện xâm nhập (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)Đánh giá hiệu năng một số thuật toán phân lớp cho phát hiện xâm nhập (LV thạc sĩ)

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN THỊ HIỀN ĐÁNH GIÁ HIỆU NĂNG MỘT SỐ THUẬT TOÁN PHÂN LỚP CHO PHÁT HIỆN XÂM NHẬP LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI – 2017 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN THỊ HIỀN ĐÁNH GIÁ HIỆU NĂNG MỘT SỐ THUẬT TOÁN PHÂN LỚP CHO PHÁT HIỆN XÂM NHẬP CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ : 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC TS PHẠM HOÀNG DUY HÀ NỘI - 2017 i LỜI CAM ĐOAN Luận văn thành trình học tập nghiên cứu em giúp đỡ, khuyến khích quý thầy cô sau năm em theo học chương trình đào tạo Thạc sĩ, chuyên ngành Khoa học máy tính trường Học viện Công nghệ Bưu Viễn thông Em cam đoan công trình nghiên cứu riêng em Nội dung luận văn có tham khảo sử dụng số thông tin, tài liệu từ nguồn sách, tạp chí liệt kê danh mục tài liệu tham khảo trích dẫn hợp pháp Tác giả (Ký ghi rõ họ tên) Nguyễn Thị Hiền ii LỜI CÁM ƠN Em xin gửi lời cảm ơn tri ân tới thầy cô giáo, cán Học viện Công nghệ Bưu Viễn thông giúp đỡ, tạo điều kiện tốt cho em trình học tập nghiên cứu chương trình Thạc sĩ Em xin gửi lời cảm ơn sâu sắc tới TS Phạm Hoàng Duy tận tình hướng dẫn, giúp đỡ động viên em để hoàn thành tốt Luận văn “ĐÁNH GIÁ HIỆU NĂNG MỘT SỐ THUẬT TOÁN PHÂN LỚP CHO PHÁT HIỆN XÂM NHẬP“ Do vốn kiến thức lý luận kinh nghiệm thực tiễn nên luận văn không tránh khỏi thiếu sót định Em xin trân trọng tiếp thu ý kiến thầy, cô để luận văn hoàn thiện Trân trọng cám ơn Tác giả (Ký ghi rõ họ tên) Nguyễn Thị Hiền iii MỤC LỤC MỞ ĐẦU Chương - TỔNG QUAN VỀ PHÁT HIỆN XÂM NHẬP 1.1 Xâm nhập mạng 1.2 Một số kiểu công phổ biến 1.2.1 Tấn công từ chối dịch vụ 1.2.2 Tấn công thăm dò 1.2.3 Tấn công chiếm quyền root 1.2.4 Tấn công điều khiển từ xa .5 1.3 Một số giải pháp ngăn chặn xâm nhập truyền thống 1.3.1 Tường lửa 1.3.2 Mã hóa liệu 1.3.3 Xác thực .6 1.3.4 Quyền truy cập 1.4 Hệ thống phát xâm nhập (instrucsion detection system) 1.5 Phân loại hệ thống phát xâm nhập Chương - MỘT SỐ THUẬT TOÁN PHÂN LỚP CHO PHÁT HIỆN XÂM NHẬP 13 2.1 Học định 13 2.1.1 Xây dựng định 14 2.1.2 Xây dựng định dựa vào Entropy 15 iv 2.2 Máy vectơ hỗ trợ (support vector machine-SVM) 16 2.2.1 Ý tưởng thuật toán 16 2.2.2 Cơ sở lý thuyết 17 2.2.3 Một số ứng dụng tiêu biểu SVM 20 2.3 Mạng neural nhân tạo (Artificial Neural Networks)-ANN 20 2.3.1 Kiến trúc mạng neural nhân tạo 20 2.3.2 Quá trình học ANN 24 2.3.3 Ứng dụng mạng neural nhân tạo 25 2.4 Kết chương 25 Chương – THỰC NGHIỆM VÀ ĐÁNH GIÁ 26 3.1 Một số độ đo đánh giá 26 3.1.1 Các độ đo đánh giá .26 3.1.2 Cách đánh giá .27 3.2 Giới thiệu liệu NSL- KDD .28 3.2.1 Giới thiệu 29 3.2.2 Mô tả tập liệu NSL KDD 29 3.2.3 Các công tập liệu NSL- KDD .35 3.3 Công cụ thử nghiệm chuẩn liệu đầu vào 35 3.3.1 Giới thiệu công cụ Weka 35 3.3.2 Chuẩn liệu đầu vào .38 3.4 Thực nghiệm đánh giá 39 3.4.1 Thực nghiệm 39 3.4.2 Kết 41 3.4.3 Đánh giá 47 KẾT LUẬN 49 DANH MỤC TÀI LIỆU THAM KHẢO 50 Phụ lục 52 v Phụ lục 55 Phụ lục 57 Phụ lục 59 vi DANH MỤC TỪ VIẾT TẮT Từ viết tắt Tiếng anh Tiếng việt SVM Support Vector Machine Máy vector hỗ trợ ANN Artificial Neural Network Mạng neural nhân tạo U2R User to root Tấn công chiếm quyền root R2L Remote to Local Tấn công điều khiển từ xa DoS Denial of Service Tấn công từ chối dịch vụ HIDS Host Intrusion Detection System IDS Intrusion Detection System Hệ thống phát xâm nhập Knowledge Discovery and Data Phát tri thức khai phá Mining liệu KDD NIDS Weka Network Intrusion Detection System Waikato Environment for Knowledge Acquisition Hệ thống phát xâm nhập cho máy trạm Hệ thống phát xâm nhập mạng Học máy vii DANH MỤC CÁC BẢNG BIỂU Bảng 1: Danh sách mô tả tập file NSL- KDD 29 Bảng 2: Thông tin chi tiết ghi tập liệu 30 Bảng 3: Mô tả thuộc tính ghi 31 Bảng 4: Các công tập liệu NSL-KDD 35 Bảng 5: Tóm tắt thao tác thự thử nghiệm 39 Bảng 6: Tóm tắt kết thuật toán tập train 44 Bảng 7: Tóm tắt kết thuật toán tập KDDtest+.arff 45 viii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Vị trí hệ thống phát xâm nhập (IDS) [8] Hình 1.2: Hệ thống phát xâm nhập NIDS [7] 10 Hình 1.3: Hệ thống phát xâm nhập HIDS [9] 10 Hình 2.1: Mô tả chung định 13 Hình 2.2: Mô tả phương pháp SVM 17 Hình 2.3: Kiến trúc chung mạng neural nhân tạo 21 Hình 2.4: Mô hình mạng neural truyền thẳng [4] 22 Hình 2.5: Mô hình mạng hồi quy[4] 23 Hình 2.6: Hoạt động ANN 25 Hình 3.1: Đánh giá cross- validation k fold 28 Hình 3.2: Phân bố ghi [1] .30 Hình 3.3: Giao diện hình Weka 36 Hình 3.4: Môi trường explorer nạp tập liệu 37 Hình 3.5: Kiểm thử mô hình .41 Hình 3.6: Một phần định J48 42 Hình 3.7: Mạng neural nhân tạo 43 Hình 3.8: So sánh độ xác 46 Hình 3.9: Trung bình PRECISION 46 Hình 3.10: Phân lớp với Randomforest tập KDDTrain+.arff-10fold 52 Hình 3.11: Phân lớp với j48 53 Hình 3.12: Kết kiểm thử phân lớp với radomforest 59 Hình 3.13: Kết kiểm thử phân lớp với SMO puk .60 Hình 3.14: Kết kiểm thử phân lớp với SMO-polykenel .60 46 Biểu đồ so sánh kết phân lớp thuật toán tập liệu 120 110 100 J48 90 Randomforest 80 SMO-poly 70 SMO-puk 60 MLP-a 50 MLP-o 40 MLP-30 20 10 30 MLP-3020 20 10 Train Test Hình 3.8: So sánh độ xác 0.9 0.8 J48 0.7 Randomforest SMO-poly 0.6 SMO-puk 0.5 MLP-a 0.4 MLP-o MLP-30 20 10 0.3 MLP-3020 0.2 0.1 Train Test Hình 3.9: Trung bình PRECISION 47 3.4.3 Đánh giá Kết Mục 3.4.2 cho thấy ▪ Kết thuật toán phụ thuộc vào liệu đầu vào, kích thước tập liệu ▪ Các thuật toán cho kết có tỉ lệ phân loại xác tập huấn luyện KDDTrain+.arff (lớn 97%), kiểm định tập kiểm tra KDDTest+.arff kết nhỏ hơn, kết xung quanh 77% Trong mô hình định cho kết tốt hai mô hình SVM ANN, tỉ lệ phân loại xác lớn 80% ▪ Các thuật toán có kết thấp kiểm thử tập KDDtest-21, (tỉ lệ phân loại xác lớn 50%, cao 64.9% phân lớp j48) suy liệu đầu vào ảnh hưởng đến hiệu phân lớp mô hình ▪ Thuật toán SVM mạng neural có thời gian xây dựng mô hình lớn (nhiều 24h), thuật toán định có ưu điểm thời gian huấn luyện ngắn hiệu cao, đặc biệt xác định hành vi sử dụng mạng bình thường (nomal) ▪ SVM có độ xác so sánh tốt thuật toán dựa định ▪ Qua biểu đồ so sánh kết quả, ta thấy thuật toán có thời gian thực khác nhau,có mực độ xác riêng, chênh lệch không nhiều Để nâng cao hiệu qủa thuật toán ta cần Mỗi thuật toán có điểm mạnh với số loại công SVM ANN cho kết tốt phát công dos, probe định cho kết cao phân lớp phát công hay bình thường, nên để nâng cao hiệu ta sử dụng mô hình phân loại nhiều bước  Phân loại hành vi bất thường  Phân loại hành vi công 3.5 Kết luận chương Chương luận văn, tác giả tìm hiểu tập liệu NSL-KDD nghiên cứu sử dụng công cụ thử nghiệm weka, xây dựng mô hình thử nghiệm tiến 48 hành chạy thuật toán phân lớp phát định, máy vector hỗ trợ mạng neural nhân tạo, dựa vào kết tập liệu để so sánh hiệu thuật toán để xuất hướng tiếp cận nâng cao hiệu thuật toán áp dụng cho toán phát xâm nhập mạng 49 KẾT LUẬN Kết đạt Luận văn tiến hành nghiên cứu tổng quan toán xâm nhập phát xâm nhập thực nghiệm với tập liệu NSL-KDD sử dụng thuật toán định, máy vector hỗ trợ, mạng neural nhân tạo để đánh giá Những kết mà luận văn đạt được: ▪ Nghiên cứu tìm hiểu toán xâm nhập phát xâm nhập, trình bày số phương pháp xâm nhập phát xâm nhập có trước ▪ Nghiên cứu tìm hiểu thuật toán định, máy vector hỗ trợ, mạng neural nhân tạo ▪ Tìm hiểu tập liệu NSL-KDD, nghiên cứu công cụ Weka lập mô hình phân loại kiểm thử số thuật toán ▪ Xây dựng mô hình huấn luyện kiểm thử với liệu lấy mô tả với thuật toán khác nhau; tìm hiểu, thay đổi tham số mô hình thuật toán để kết đánh giá tốt Hạn chế Luận văn tập trung tìm hiểu sử dụng liệu NSL-KDD để đánh giá Hướng phát triển ▪ Cải thiện hiệu suất, tăng tốc độ xử lý liệu với liệu lớn ▪ Xây dựng hệ thống hoàn chỉnh với tập liệu lớn để tự động phát xâm nhập với nhiều thuật toán khác cho kết cao ▪ Bên cạnh phân loại hành vi bất thường, nghiên cứu nâng cao chất lượng mô hình cho phép phân loại cụ thể loại công hành vi bất thường 50 DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu Tiếng Anh [01] A Study on NSL-KDD Dataset for IntrusionDetection System Based on ClassificationAlgorithms, international of advaced research in computer and communicaation engineerinvol E, issue 6, june 2015 [02] Vipin Kumar, Himadri Chauhan, Dheeraj Panwar, “K-Means Clustering Approach to Analyze NSL-KDD Intrusion Detection Dataset”, International Journal of Soft Computing and Engineering (IJSCE) ISSN: 2231-2307, Volume-3, Issue-4, September 2013 [03] M Shyu, S Chen, K Sarinnapakorn, and L Chang, “A novel anomaly detection scheme based on principal mponent classifier,” Proceedings of the IEEE Foundations and New Directions of Data Mining Workshop, in conjunction with the Third IEEE International Conference on Data Mining (ICDM03), pp 172–179, 2003 [04] Network Intrusion Detection and Prevention Ali A Ghorbani • Wei Lu, Springer Science+Business Media, LLC 2010 Tài liệu Tiếng Việt [05] Ứng dụng mạng neural nhân tạo phát xậm nhập mạng dựa vào tần suất lời gọi hệ thống với liệu ADFA-LD Nguyễn Việt Hùng Bộ môn An toàn thông tin Khoa Công nghệ Thông tin Học viện Kỹ thuật Quân [06] Nhập môn trí tuệ nhân tạo, Thầy Từ Minh Phương, Học viện Công nghệ Bưu viễn thông [07] Bài giảng môn an toàn thông tin nâng cao, Thầy Hoàng Xuân Dậu, Học viện Công nghệ Bưu viễn thông Website tham khảo [08] https://vi.wikipedia.org 51 [09] http://khcn.cinet.vn/articledetail.aspx?articleid=1867&sitepageid=455#sthash cy6gZnkj.dpbs [10] https://vi.scribd.com/document/342463237/A-Study-on-NSL-KDD-Datasetpdf 52 PHỤ LỤC Kết chạy mô hình phân loại dựa thuật toán sinh luật tập KDDTrain+.arff Mô hình sử dụng thuật toán Radomforest Các kết thu dựa đánh giá cross- validation với k=10 (như hình dưới) Hình 3.10: Phân lớp với Randomforest tập KDDTrain+.arff-10fold Giải thích chi tiết 125862 99.9119 % Số trường hợp phân loại không xác Tổng số ghi 111 0.0881 % 125973 Chi tiết lệ phát xác với lớp TP FP Rate Rate Precision Recall F-Measure MCC ROC PRC Area Area Class 53 1,000 0,001 0,999 1,000 0,999 0,998 1,000 1,000 Normal 0,999 0,000 1,000 0,999 0,999 0,998 1,000 1,000 Anormal 0,999 0,001 0,999 0,999 0,999 0,998 1,000 1,000 Weighte d avg === Ma trận sai số === - Chương trình dự đoán 67315/67343 mẫu (với lớp a- normal), a b 67315 28 < classified as | a = normal 28 mẫu gán anomal 83 58547 | b = anomaly Với lớp b-normal: chương trình dự đoán 58547/58630 mẫu Mô hình sử dụng thuật toán J48 Các kết thu dựa đánh giá cross- validation với k=10 (như hình dưới) Hình 3.11: Phân lớp với j48 Chi tiết === Summary === 54 Số lượng phân loại xác Số trường hợp phân loại sai Tổng số ghi 125200 773 99.3864 % 0.6136 % 125973 === Detailed Accuracy By Class === TP FP Precision Recall F-Measure MCC ROC PRC Area Area Class Rate Rate 0,998 0,010 0,991 0,998 0,994 0,988 0,999 0,999 Normal 0,990 0,002 0,997 0,990 0,993 0,988 0,999 0,998 Anormal 0,994 0,007 0,94 0,994 0,994 0,988 0,999 0,998 Weighte d avg === Confusion Matrix === a 67180 610 b < classified as 163 | 58020 | a = normal b = anomaly - Với lớp a-normal,chương trình dự đoán 67180 mẫu, 163 mẫu a gán banomal Với lớp b-normal: chương trình dự đoán 58020, sai 610 55 PHỤ LỤC Kết chạy mô hình sử dụng SVM Các kết mô hình dựa SVM đánh giá dựa vào phương pháp đánh giá K-folds với k=10 Các mô hình sử dụng hàm nhân (kernel function): polykernel puk Mô hình với hàm nhân polykenel === Classifier model (full training set) === === Summary === Số lượng phân loại xác Số trường hợp phân loại sai Tổng số ghi 122699 3274 97.401 % 2.599 % 125973 Chi tiết độ xác phát lớp TP FP Precision Recal F- Rate Rate l Measure 0,985 0,039 0,967 0,985 0,976 0,961 0,015 0,982 0,961 0,974 0,028 0,974 0,974 MCC ROC PRC Class Area Area 0,948 0,973 0,960 Normal 0,972 0,948 0,973 0,962 Anormal 0,974 0,948 0,973 0,961 Weighte d avg === Confusion Matrix === a 66337 b 1006 | < classified as - Với lớp a-normal,chương trình dự đoán a = normal 66337 mẫu, 1006 mẫu a gán banomal 2268 56362 | b = anomaly - Với lớp b-normal: chương trình dự đoán 56362, sai 2268 56 Mô hình với hàm nhân puk === Classifier model (full training set) === === Summary === Số lượng phân loại xác 125358 Số trường hợp phân loại sai Tổng số ghi 615 99.5118 % 0.4882 % 125973 === Detailed Accuracy By Class === TP FP Precisio Rate Rate n Recall F- MCC Measure ROC PRC Area Area Class 0,997 0,007 0,994 0,997 0,995 0,990 0,995 0,992 Normal 0,993 0,003 0,997 0,993 0,995 0,990 0,995 0,993 Anormal 0,995 0,005 0,995 0,995 0,995 0,990 0,995 0,993 Weighte d avg === Confusion Matrix === a 67149 b 194 | < classified as a = normal - Với lớp a-normal,chương trình dự đoán 67149 mẫu, 194 mẫu a gán banomal 421 58209 | b = anomaly - Với lớp b-normal: chương trình dự đoán 58209, sai 421 57 Phụ lục Kết thực nghiệm mô hình mạng neural nhân tạo Mô hình phân loại sử dụng mạng nơ-ron truyền thẳng với cấu hình mạng ẩn 1, 3, Trong đó, mạng ẩn có số lượng nơ-ron trung bình cộng số nơ-ron lớp đầu vào Còn mạng thứ thứ 3, số lượng nơ-ron lớp ẩn 30-20-10 30-20 Kết chi tiết mô hình liệt kê bảng Bảng 3.9 Kết thử nghiệm mô hình mạng nơron nhân tạo Thuật toán MLP –a Thời gian huấn luyện (s) Tập liệu Precition Recall 26239 42 KDDTrain+ _20percent 0,979 0,995 0,996 0,975 KDDTest21 0,251 0,885 0,675 0,554 KDDTest 0,676 0,924 0,928 0,663 KDDTrain+ _20percent 0,991 0,987 0,989 0,99 KDDTest21 0,282 0,945 0,865 0,511 KDDTest 0,665 0,964 0,968 0,631 KDDTrain+ _20percent 0,982 0,995 0,996 0,979 KDDTest21 0,249 0,8820 0,665 0,555 MLP 30-20-10 6958,4 -L 0.3 -M 0.2 -N 500 -V S -E 20 -H "30, 20, 10" MLP 30-20 9081,1 Confusion matrix 58 KDDTest 0,676 0,921 0,925 0,664 59 Phụ lục Một số hình ảnh kiểm thử tập KDDtest+ Hình 3.12: Kết kiểm thử phân lớp với radomforest 60 Hình 3.13: Kết kiểm thử phân lớp với SMO puk Hình 3.14: Kết kiểm thử phân lớp với SMO-polykenel ... tìm hiểu chung vấn đề phát xâm nhập hệ thống phát xâm nhập dựa mạng Chương 2: Một số thuật toán phân lớp cho phát xâm nhập Giới thiệu thuật toán phân loại cho phát xâm nhập mạng bao gồm: Cây... để xác định hành vi truy nhập tiềm tàng Chương sau giới thiệu số thuật toán phân lớp ứng dụng cho phát xâm nhập 13 Chương - MỘT SỐ THUẬT TOÁN PHÂN LỚP CHO PHÁT HIỆN XÂM NHẬP Nội dung chương trình... - NGUYỄN THỊ HIỀN ĐÁNH GIÁ HIỆU NĂNG MỘT SỐ THUẬT TOÁN PHÂN LỚP CHO PHÁT HIỆN XÂM NHẬP CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ : 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA

Ngày đăng: 23/10/2017, 12:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan