Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

7 72 0
Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Đang tải... (xem toàn văn)

Thông tin tài liệu

Những năm qua, đã có rất nhiều nghiên cứu về học máy (Machine learning), học sâu (Deep learning) cho lĩnh vực phát hiện xâm nhập mạng máy tính (IDS - Intrusion Detection System), sử dụng các bộ dữ liệu để đánh giá, phân tích. Do sự đa dạng, phức tạp của các bộ dữ liệu nên vấn đề phân cụm, chia nhỏ bộ dữ liệu ra thành các tập con nhưng vẫn giữ được đặc trưng của chúng là rất cần thiết. Trong nghiên cứu này, các tác giả tập trung phân tích đặc điểm của các tập dữ liệu kiểm thử phổ biến. Đồng thời, tiến hành thực nghiệm để đánh giá tính phân cụm, xác định số cụm tối ưu mà một bộ dữ liệu nên được chia ra.

Khoa học Tự nhiên Một số liệu kiểm thử phổ biến cho phát xâm nhập mạng đặc tính phân cụm Bùi Cơng Thành1*, Nguyễn Quang Uy2 , Hồng Minh3 Binh chủng Thơng tin liên lạc Học viện Kỹ thuật Quân sự Học viện Khoa học, Công nghệ Đổi mới sáng tạo Ngày nhận 24/5/2019; ngày chuyển phản biện 28/5/2019; ngày nhận phản biện 25/6/2019; ngày chấp nhận đăng 28/6/2019 Tóm tắt: Những năm qua, có nhiều nghiên cứu học máy (Machine learning), học sâu (Deep learning) cho lĩnh vực phát xâm nhập mạng máy tính (IDS - Intrusion Detection System), sử dụng liệu để đánh giá, phân tích Do đa dạng, phức tạp liệu nên vấn đề phân cụm, chia nhỏ liệu thành tập giữ đặc trưng chúng cần thiết Trong nghiên cứu này, tác giả tập trung phân tích đặc điểm tập liệu kiểm thử phổ biến Đồng thời, tiến hành thực nghiệm để đánh giá tính phân cụm, xác định số cụm tối ưu mà liệu nên chia Thực nghiệm tiến hành tập liệu huấn luyện NSL-KDD, UNSW-NB15, CTU-13 phiên 08, 09, 10 13 Kết theo phương pháp Elbow, Silhouetee đồng cho thấy số liệu nên tách thành 2, cụm, nhiên có nên để nguyên Từ khóa: liệu, hệ thống phát xâm nhập, K-Means Chỉ số phân loại: 1.2 Đặt vấn đề Sự phát triển nhanh chóng mạng máy tính (sau gọi tắt mạng) dịch vụ mạng làm cho hoạt động người trở nên bị lệ thuộc Hệ thống IDS công nghệ an ninh mạng chủ động, cho phép giải vấn đề công mạng từ bên trong, bên phát hiện, ngăn chặn hình thức cơng lạ; công việc thực theo thời gian thực Theo đánh giá, nghiên cứu IDS phải cập nhật, cải tiến [1] Trong năm gần đây, nhiều cơng trình nghiên cứu học máy (Machine learning), học sâu (Deep learning) cho lĩnh vực IDS thực Khi đánh giá hiệu cơng trình, liệu lưu lượng mạng sử dụng, liệu chứa nhiều ghi với trường liệu đặc trưng ứng với nhãn gán Nhiều liệu kiểm thử tổ chức, nhà khoa học nghiên cứu xây dựng (sau gọi liệu IDS dataset) Thuộc tính IDS dataset chia làm nhóm: số (numerical) tập hợp (catagorical) Việc xác định thuộc tính lưu lượng mạng có ý nghĩa quan trọng lĩnh vực nghiên cứu IDS [2, 3], ví dụ giảm số chiều liệu tăng hiệu thuật toán; tăng chất lượng thuộc tính, từ tăng hiệu thuật tốn; tăng tỷ lệ cảnh báo đúng, giúp cho việc biểu diễn liệu tường minh Khi thiết lập IDS dataset, thuộc tính lưu lượng mạng tính tốn sở giá trị tương ứng gói tin, tiêu đề gói tin phiên kết nối mạng [2] Ngồi thuộc tính, tham số đặc trưng khác cho liệu như: kiểu liệu, tính sẵn có; kích thước cho tập huấn luyện, kiểm tra; số mẫu công, loại công mạng; hạn chế mang tính thời cần quan tâm trước lựa chọn để đánh giá cơng trình nghiên cứu Trong lĩnh vực khám phá liệu, phân cụm phương thức chia liệu thành nhóm đối tượng có tính tương đương [4], giúp số toán nâng cao hiệu suất, cân đối tài nguyên phần cứng Mục tiêu mơ hình phân cụm gán nhãn cho liệu theo số cụm cho trước số cụm tối ưu theo toán Việc xác định số cụm tối ưu cho tập liệu cụ thể nhiều nhà nghiên cứu quan tâm, phổ biến phương pháp Elbow, Silhouete… Việc nghiên cứu, tìm hiểu sâu IDS dataset có nhiều cơng bố gần đây, tập trung phân tích liệu cụ thể [5-8] mà không đưa tranh khái quát dữ liệu phổ biến sử dụng cho kiểm thử thuật toán Machine learning, Deep learning lĩnh vực an ninh mạng Thêm vào đó, với hiệu mang lại tính phân cụm [4, 9], việc đánh giá tính phân cụm cho liệu phổ biến cần quan tâm mức Từ vấn đề phân tích trên, phạm vi nghiên cứu này, chúng tơi phân tích tổng quan IDS dataset phổ biến, tính phù hợp sử dụng, đặc biệt Tác giả liên hệ: Email: congthanhttmt@gmail.com * 62(1) 1.2020 Khoa học Tự nhiên Some common datasets of an intrusion detection system and clustering properties Cong Thanh Bui , Quang Uy Nguyen , Minh Hoang 1* Communications Command Institute of Military Technology Institute of Science Technology and Innovation Received 24 May 2019; accepted 28 June 2019 Abstract: In recent years, machine learning and deep learning based methods for intrusion detection systems (IDSs) have received great attention from many researchers IDS datasets have been used to evaluate and analyse these methods Because of the popularity and complication, the requirement to deeply explore the optimisation of clustering, which is known as one of the most useful techniques, not only reducing the amount of data but also keeping its characteristics, is necessary for these datasets In this paper, we focus on analysing the characteristics of IDS common datasets In addition, we also evaluate the clustering properties and discover the optimal number of clusters which should be divided from a dataset The experiment has been conducted on six datasets NSL-KDD, UNSW-NB15, and four versions of CTU-13 (08, 09, 10, and 13) Using Elbow and Silhouette methods to determine the optimisation of clustering a dataset has revealed that some datasets should be divided into two or three clusters while some should keep their original forms Keywords: dataset, intrusion detection system, K-Means Classification number: 1.2 tập trung sử dụng số phương pháp để đánh giá tính phân cụm đề xuất số cụm tối ưu cho tập huấn luyện liệu Một số liệu phổ biến Bộ liệu DARPA Dữ liệu DARPA đời năm 1998, tạo Phịng thí nghiệm Lincoln (Viện Công nghệ Massachusetts) theo dự án tài trợ Cục Dự án nghiên cứu cao cấp thuộc Bộ Quốc phòng Mỹ (Defence Advanced Research Project Agency) Bộ dataset tạo cách thu thập lưu lượng mạng (sử dụng tcpdump) hệ thống mạng mô loại công khác [10] Dataset DARPA chia thành liệu huấn luyện liệu kiểm thử: liệu huấn luyện thu thập tuần vận hành hệ thống, với tuần liệu thu thập ngày, từ thứ đến thứ 6; liệu kiểm thử thu thập tuần chạy hệ thống thử nghiệm, với tuần liệu thu thập ngày từ thứ đến thứ Bộ liệu có sẵn địa website thức Phịng thí nghiệm Lincoln Kích thước liệu khoảng GB với triệu ghi cho liệu huấn luyện khoảng triệu ghi cho liệu kiểm thử Các loại công mạng: dataset DARPA 1998 bao gồm 54 loại xâm nhập phân làm nhóm: R2L (Remote to Local), U2R (User to Root), DoS (Deniel of Service), Probe [5] Một số hạn chế liệu DARPA [5]: tính đắn liệu thu thập gây nhiều tranh cãi; việc lưu trữ liệu lưu lượng mạng dạng thơ nên kích thước lớn dẫn đến khó khăn cho thử nghiệm; ngồi ra, trạng dịch vụ, tốc độ mạng khác nhiều so với năm 1998 nên khơng cịn nhiều nghiên cứu sử dụng liệu cho thử nghiệm, đánh giá Đó lý chúng tơi khơng đặt trọng tâm phân tích cho liệu Bộ liệu KDD Cup 1999 Đây liệu phổ biến cho kiểm thử cơng trình nghiên cứu lĩnh vực IDS hai thập kỷ qua Dataset KDD Cup 1999 phiên liệu DARPA 1998 [5], sử dụng thi “Các công cụ khai phá liệu nghiên cứu tri thức quốc tế lần thứ (The Third International Knowledge Discovery and Data Mining Tools Competition)” Để tạo liệu này, thuộc tính từ liệu thơ dataset DARPA trích thành đặc trưng theo thuật toán riêng biệt, độ lớn số thuộc tính liệu cũ giữ nguyên [7] Bộ liệu sẵn có website thức thi kho liệu UCU Machina Learning Repository Bộ liệu có 24 loại cơng, thêm 14 loại cơng cho tập liệu kiểm thử KDD Cup 1999 gồm hai liệu con: liệu 62(1) 1.2020 Khoa học Tự nhiên đầy đủ liệu 10% so với liệu đầy đủ Với lại có khơng có nhãn có nhãn (label) kèm Các liệu lưu dạng file text (txt) Mỗi ghi chứa 41 trường thông tin nhãn, nhãn đánh bình thường loại cơng cụ thể Các thuộc tính chia làm nhóm: 1) Basic features: bao gồm thuộc tính thu thập từ kết nối TCP/IP, hầu kết thuộc tính dẫn đến độ trễ phát hiện; 2) Traffic features: thuộc tính tính tốn dựa giá trị trường window gói tin TCP/ IP; 3) Content features: với cơng R2L, U2R thường kết nối tần suất kết nối khác với công dạng DoS hay Probe Thông tin loại công chứa phần nội dung (content) TCP/IP, ví dụ số lần login lỗi… Một phiên mở rộng, gần giống với liệu có tên gure KDD Cup [11], xem liệu (KDDCup99+payload) Hạn chế dataset KDD [5] là: liệu có nhiều ghi trùng lặp, cụ thể liệu huấn luyện kiểm thử tương ứng có 78% 75% ghi trùng; thêm vào đó, khơng đồng phân bố tập huấn luyện tập kiểm thử làm ảnh hưởng đến kết đánh giá cho thuật toán phân lớp Theo đánh giá [5], sử dụng phân lớp phổ biến J48, Decision Tree Learning, Naive Bayes, NBTree, Random Forest, Support Vector Machine (SVM)… để huấn luyện kiểm thử liệu KDD cho độ xác cao, tất từ 96-98%, việc sử dụng liệu cho kiểm thử thuật toán khơng cịn thực phù hợp (bảng 1) Bảng Phân bố theo loại công KDD Dataset Tổng số DoS Probe R2L Tập huấn luyện 1.074.992 247.267 13.860 999 Tập kiểm thử 311.029 229.853 4.166 U2R Normal Số chiều 52 16.189 228 812.814 42 60.593 42 Bộ liệu NSL-KDD NSL-KDD liệu Tavallaee cộng công bố năm 2009 [5], phiên định nghĩa lại từ KDD Cup 1999 sở loại bỏ số ghi bị thừa, trùng lặp thông tin [6] Hiện tại, liệu sử dụng nhiều cơng trình nghiên cứu, giúp phát bất thường kiểm thử, đánh giá So với liệu gốc, liệu có đặc điểm như: không bao gồm ghi dư thừa tập huấn luyện, kết phân lớp không theo hướng ghi xuất nhiều hơn; khơng cịn ghi trùng lặp liệu kiểm thử; xử lý vấn đề vùng kết đánh giá hẹp hiệu so với liệu KDD; cân đối hợp lý số lượng ghi tập huấn luyện kiểm thử Bộ liệu sẵn có website nhóm nghiên cứu dạng tệp tin csv, với tập huấn luyện gồm 125 nghìn ghi, tập kiểm thử 22 nghìn ghi kê giống với liệu KDD Cup 1999, mô tả bảng Bộ liệu cho hiệu tốt sử dụng để đánh giá thuật toán học máy Hạn chế lớn liệu khơng thể vết công mức độ thấp, tinh vi [12] Bảng Phân bố theo loại công NSL-KDD Dataset Probe U2R R2L Normal Số chiều 67.342 42 Tập huấn luyện 125.972 45.927 11.656 52 995 Tập kiểm thử 2.754 9.711 22.542 7.457 2421 200 42 Bộ liệu UNSW-NB15 Bộ liệu UNSW-NB15 [8] công bố năm 2015, tạo thông qua việc thu thập lưu lượng mạng Phịng thí nghiệm Cyber Range Australian Centre for Cyber Security (ACCS) Hệ thống mạng giả lập công đánh giá sát với thực tế hoạt động mạng mã độc thông qua công cụ giả lập công hãng IXIA Sau sử dụng Tcpdump để thu thập 100 GB lưu lượng thô (dạng tệp pcap), với mẫu công (Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic, Reconnaissance, Shellcode Worms), họ sử dụng công cụ Argus, Bro-IDS với 12 thuật toán khác để tạo 49 thuộc tính liệu Bộ liệu sẵn có mạng Internet với số ghi tập huấn luyện tập kiểm thử tương ứng 175 nghìn 82 nghìn [8] Bộ liệu UNSW-NB15 nhiều cơng trình nghiên cứu sử dụng để kiểm thử thuật toán phân lớp năm gần [12] nhờ khắc phục hạn chế thiếu mẫu công mới; lưu lượng mạng thể dịch vụ mạng đương thời; có phân bố đồng tập huấn luyện kiểm thử (được phân bố theo tỷ lệ 40/60 tương ứng tập kiểm thử tập huấn luyện) [13] Mỗi ghi liệu có 49 thuộc tính mơ tả bảng Bảng Phân bố theo loại công UNSW-NB15 Loại công Mỗi ghi liệu có 42 thuộc tính liệt 62(1) 1.2020 Tổng số DoS Tập huấn luyện Tập kiểm thử Số ghi Tỷ lệ % Số ghi Tỷ lệ % Analysis 2.000 1,141 677 0,822 Backdoor 1.746 0,996 583 0,708 DoS 12.264 6,994 4.089 4,966 Exploit 33.393 19,045 11.132 13,521 Generic 40.000 22,813 18.871 22,921 Fuzzers 18.184 10,371 6.092 7,363 Reconnaissance 10.491 5,983 3.496 4,246 Shellcode 1.133 0,646 378 0,439 Worms 130 0,074 44 0,053 Dữ liệu Normal 56.000 31,938 37.000 44,942 Khoa học Tự nhiên tương ứng thuộc cụm đến trung tâm Thuật tốn có mơvào tả sau: bình khoảng cách điểm tương ứng định thể dựa trung Bộ liệu CTU-13 nghiên cứu Đại học Kỹ Input: N điểm dữbình liệu định tâm dựa vào trung khoảng cách điểm tương ứn xN,]∈ RdxNcác , số cụm thuật Séc công bố năm 2011 [14] Đây liệu trung Thuật tốn có là X=[x thể mơ1, xtả2,… sau: mong muốn K

Ngày đăng: 25/10/2020, 23:59

Hình ảnh liên quan

Bảng 3. Phân bố theo loại tấn công củacác bộ UNSW-NB15. - Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Bảng 3..

Phân bố theo loại tấn công củacác bộ UNSW-NB15 Xem tại trang 3 của tài liệu.
Bảng 1. Phân bố theo loại tấn công củacác bộ KDD. - Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Bảng 1..

Phân bố theo loại tấn công củacác bộ KDD Xem tại trang 3 của tài liệu.
Bảng 2. Phân bố theo loại tấn công củacác bộ NSL-KDD. - Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Bảng 2..

Phân bố theo loại tấn công củacác bộ NSL-KDD Xem tại trang 3 của tài liệu.
Bảng 4. Phân bố theo loại tấn công củacác bộ CTU-13 (08, 09, 10, 13). - Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Bảng 4..

Phân bố theo loại tấn công củacác bộ CTU-13 (08, 09, 10, 13) Xem tại trang 4 của tài liệu.
Bảng 5. Thông tin chi tiết dữ liệu thử nghiệm. - Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Bảng 5..

Thông tin chi tiết dữ liệu thử nghiệm Xem tại trang 5 của tài liệu.
Hình 1. Kết quả thực nghiệm lựa chọ nK tối tưu theo phương pháp Elbow (lần 1). - Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Hình 1..

Kết quả thực nghiệm lựa chọ nK tối tưu theo phương pháp Elbow (lần 1) Xem tại trang 5 của tài liệu.
Hình 2. Kết quả thử nghiệm theo phương pháp Silhouette (lần thử 1) trên 6 Dataset. Kết luận  - Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Hình 2..

Kết quả thử nghiệm theo phương pháp Silhouette (lần thử 1) trên 6 Dataset. Kết luận Xem tại trang 6 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan