Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet (tt)

26 220 0
Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ THÔNG TIN TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THƠNG NGUYỄN HÀ DƢƠNG NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP PHÂN TÍCH PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật viễn thơng Mã số: 62.52.02.08 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Người hướng dẫn khoa học: PGS TSKH Hoàng Đăng Hải Phản biện 1:…………………………………………… …………………………………………… Phản biện 2:…………………………………………… …………………………………………… Phản biện 3…………………………………………… …………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Học viện tại:……………………………………………………………… ……………………………………………………………………… Vào hồi ngày tháng năm Có thể tìm hiểu luận án thư viện:……………………………… Thư viện Quốc gia Việt Nam Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Phát lưu lượng mạng bất thường chủ đề nghiên cứu quan tâm nhiều năm qua Bất thường nhiều nguyên nhân như: hỏng hóc thiết bị mạng, lỗi đường truyền, lỗi cấu hình, tăng đột ngột số lượng truy nhập khách hàng, hoạt động công tin tặc, phát tán thư rác, sâu máy tính v.v Để xác định nguyên nhân xử lý, việc cần thực thu thập liệu lưu lượng mạng, tiến hành phân tích phát dấu hiệu bất thường Sau cần phân loại nguồn gốc, xác định nguyên nhân xử lý bất thường theo nguyên nhân Phân tích phát bất thường giai đoạn quan trọng tồn q trình phạm vi nghiên cứu luận án Cụ thể, trọng tâm luận án sở lưu lượng mạng thu thập cần có phương pháp xác định xem lưu lượng có phải bất thường hay khơng để đưa cảnh báo Đối tượng nghiên cứu luận án nghiên cứu phương pháp phân tích phát lưu lượng bất thường dựa phân tích thành phần (PCA), đề xuất số đóng góp mới, cụ thể gồm: - Đề xuất công thức cho tính khoảng cách dựa cơng thức Minkowski có bổ sung thêm trọng số - Đề xuất phương pháp có tên dPCA sử dụng cơng thức tính khoảng cách nêu dPCA hoạt động phân cấp dùng mức ngưỡng mức ngưỡng - Đề xuất hai phương pháp phát khử ngoại lai tập liệu mẫu là: phương pháp udPCA phương pháp K-means kết hợp với phương pháp dPCA - Đề xuất mơ hình kết hợp phát xâm nhập dựa dấu hiệu phát bất thường theo phương pháp dPCA tích hợp vào hệ thống giám sát cho phân tích phát lưu lượng bất thường, phát công mạng phân đoạn mạng có kết nối Internet Phương pháp nghiên cứu sử dụng luận án nghiên cứu mơ hình tốn học kết hợp với mơ phỏng, thử nghiệm Cấu trúc luận án gồm phần mở đầu, chương nội dung, phần kết luận Nội dung chương sau: - Chương 1: Cơ sở lý thuyết nghiên cứu liên quan - Chương 2: Phương pháp phân tích phát lưu lượng bất thường dPCA - Chương 3: Phương pháp khử ngoại lai tập liệu mẫu - Chương 4: Hệ thống giám sát với phương pháp phát lưu lượng bất thường CHƢƠNG 1: CƠ SỞ LÝ THUYẾT CÁC NGHIÊN CỨU LIÊN QUAN 1.1 Thu thập lƣu lƣợng mạng Internet Hiện nay, phương pháp để thu thập lưu lượng theo gói tin luồng tin Để phát bất thường, nghiên cứu cho thấy cần tách lưu lượng thu thành liệu thuộc tính Các thuộc tính gồm số byte, số gói tin, địa IP, cổng nguồn/ đích v.v… Việc lựa chọn thuộc tính liệu quan trọng ảnh hưởng trực tiếp đến hiệu suất c ng độ xác phát 1.2 Tổng quan phƣơng pháp, mơ hình phân tích phát lƣu lƣợng bất thƣờng Trong số năm qua, nhiều giải pháp đưa để phân tích phát lưu lượng bất thường Mặc dù giải pháp đa dạng, song chúng thường phân loại theo ba nhóm là: 1) nhóm dựa vào thống kê, 2) nhóm dựa vào khai phá liệu học máy, 3) nhóm dựa vào tri thức Việc phân loại mang tính chất tương đối thực tế phương pháp đồng thời thuộc nhóm khác Phương pháp thống kê dựa giả định mô hình tuân theo phân bố thống kê biết trước dựa liệu thực nghiệm điều kiện bình thường từ so sánh với độ lệch khoảng cách với điều kiện bình thường để phát bất thường 1.3 Phƣơng pháp phân tích phát lƣu lƣợng bất thƣờng dựa PCA (gọi tắt phƣơng pháp PCA) Đây phương pháp thuộc nhóm thống kê, dựa thuật tốn phân tích thành phần (Principal Component Analysis) làm tảng PCA thuật toán thống kê sử dụng phương pháp biến đổi tuyến tính trực giao nhằm chuyển tập hợp quan sát có tương quan thành tập giá trị tuyến tính khơng tương quan gọi thành phần (Principal Component - gọi tắt PC) Tập hợp quan sát với liệu p-chiều ánh xạ sang miền m-chiều (miền hay khơng gian có m thành phần chính) Số lượng thành phần biến ban đầu Phương pháp chung để phân tích phát bất thường tính khoảng cách thống kê tập liệu quan sát tới tâm hay trung bình thống kê tập liệu Khoảng cách phổ biến Euclidean, Mahalanobis Những phương pháp PCA điển hình phương pháp phân tích thành phần chính, phương pháp phân tích phần dư (dựa nhóm PC cuối), phương pháp dựa thống kê T2 hay khoảng cách Mahalanobis (sử dụng PC chủ yếu thứ yếu) 1.4 Nhận xét, đánh giá Qua khảo sát cơng trình nghiên cứu phân tích phát lưu lượng mạng bất thường dựa PCA tới nay, đưa số nhận xét, đánh sau:  Vẫn chưa có cơng thức bao qt cho tính khoảng cách để từ tìm tham số phù hợp với mục tiêu giảm độ phức tạp tính tốn song đạt hiệu  Vấn đề sử dụng thành phần hiệu giảm số chiều liệu xét đến độ phức tạp thuật toán  Đối với phương pháp PCA sử dụng tập liệu mẫu, ngoại lai xuất tập liệu mẫu làm sai lệch profile Vì việc làm tập liệu mẫu trước tạo profile điều cần thiết Các nghiên cứu dựa PCA tới chưa có đề xuất cụ thể phương pháp loại bỏ ngoại lai tập liệu mẫu mà thường giả thiết tập mẫu không chứa ngoại lai thử nghiệm  Việc lựa chọn vị trí thu thập, lựa chọn thuộc tính lưu lượng cần thu thập c ng góp phần quan trọng vào nâng cao hiệu phát bất thường 1.5 Kết luận chƣơng Chương trình bày tổng quan sở lý thuyết nghiên cứu liên quan đến đề tài luận án có nhận xét đánh giá vấn đề phân tích phát lưu lượng bất thường với phương pháp PCA, vấn đề nghiên cứu mở làm sở cho nghiên cứu đề xuất chương CHƢƠNG 2: PHƢƠNG PHÁP PHÂN TÍCH PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG 2.1 Mở đầu Chương trình bày mơ hình chung hệ thống phân tích phát lưu lượng bất thường với dựa PCA, đề xuất phương pháp dPCA thử nghiệm, đánh giá phương pháp đề xuất 2.2 Mơ hình hệ thống dựa phƣơng pháp PCA Hệ thống hoạt động theo hai pha: Pha tạo profile: Hệ thống cần tạo trước profile với liệu (dữ liệu không chứa bất thường Pha hoạt động ngoại tuyến (offline) Pha phát hiện: Pha hoạt động trực tuyến online ỗi quan sát chứa thuộc tính liệu cần chuyển sang miền PCA từ áp dụng phương pháp phân tích, phát bất thường Mơ hình chung hệ thống phân tích, phát lưu lượng bất thường dựa PCA bao gồm thành phần sau:  Thu thập, tiền xử l liệu, tách thuộc tính  Bộ biến đổi PCA: Dữ liệu sau q trình chuẩn hóa biến đổi để chuyển sang miền liệu PCA  Module phân tích phát bất thường: thực việc phân tích thành phần sử dụng để phát bất thường, tính khoảng cách, thiết lập mức ngưỡng, tạo tập tham số trạng thái bình thường (profile) Từ profile tạo so sánh với liệu cần kiểm tra để phát bất thường  Cảnh báo: Kết phát đưa cảnh báo 2.3 Cơng thức tính khoảng cách thống kê phân tích phát lƣu lƣợng bất thƣờng Việc xác định hệ thống trạng thái bình thường hay bất thường phụ thuộc vào độ lệch hay khoảng cách thống kê (gọi tắt khoảng cách) điểm xét từ trạng thái bình thường Các phương pháp tính khoảng cách phổ biến khoảng cách Euclidean, bình phương Euclidean, Mahalanobis Những phương pháp khác khoảng cách Mahattan (hay City Block), khoảng cách Minkowski, khoảng cách Canberra chủ yếu sử dụng toán thống kê Luận án đề xuất áp dụng công thức Minkowski bổ sung trọng số miền PCA sau: Khi chuyển sang miền PCA, khoảng cách Minkowski từ quan sát đến tâm (gốc tọa độ miền PCA) là: p d   yi i 1 c (2.11) Tuy nhiên, biến có độ biến thiên đơn vị khác Đồng thời, miền PCA, khơng cần thiết phải tính khoảng cách cho tất p thành phần Vì vậy, luận án bổ sung trọng số wi phù hợp với biến để làm giảm sai lệch cơng thức tính khoảng cách sau: q d   wi yi c (2.13) ir Trong đó:d khoảng cách hình thành từ thành phần yi trọng số wi tương ứng wi trọng số cho thành phần yi c số m của| yi| số p số thuộc tính ban đầu số biến đầu vào 1 r  q  p Trong miền PCA, chọn tham số thích hợp, ta thu cơng thức tính khoảng cách để phát bất thường với hiệu tương đương với phương pháp có 2.4 Phƣơng pháp PCA Phương pháp dPCA (Distance-based anomaly detection method in PCA subspace phương pháp phân tích phát bất thường miền PCA sử dụng công thức tính khoảng cách (2.13) 2.4.1 Lựa chọn tham số để tính khoảng cách dPCA Bằng cách thay đổi trọng số wi tham số c, ta thiết lập linh hoạt tham số cho cơng thức tính khoảng cách (2.13)  Khi c=2, wi=1, công thức (2.13) trở thành: q d   yi  yr  yr 12   yq (2.18) i r Công thức tương đương với công thức áp dụng phương pháp phân tích phầnnghiên cứu khảo sát  Khi c=2, wi ≠ 1: Về lý thuyết chọn nhiều giá trị wi khác cách thường dùng chuẩn hóa theo phương sai Do trị riêng λi đóng vai trò phương sai miền PCA nên chuẩn hóa với λi q yq2 y2 y2 y2 d   i  r    (2.19) ir i r 2 q Công thức 2.19 tương đương với công thức phương pháp PCA nghiên cứu khảo sát áp dụng thống kê T2  Khi c=1, wi =1 công thức (2.13) trở thành khoảng cách Manhattan miền PCA: q d   yi  yr  yr 1   yq (2.21) i r  Khi c=1, wi ≠ 1: Do trị riêng đóng vai trò phương sai miền PCA nên chuẩn hóa giá trị |yi| với bậc hai trị riêng q d  i r yi i  yr r  y2 2   yq q (2.22)  Nhận xét: - wi=1 phù hợp tính d với thành phần chênh lệch trị riêng không lớn, đặc biệt PC thứ yếu - wi ≠ phù hợp tính d với thành phần có chênh lệch đáng kể trị riêng Sự chênh lệch thường nằm PC chủ yếu dùng tất PC để tính khoảng cách - Độ phức tạp thuật tốn tính khoảng cách: o Khi c=2 độ phức tạp O(kn2) với k số PC sử dụng, n số lượng quan sát tính khoảng cách o Khi c=1 độ phức tạp O(kn) Do sử dụng c=1 để giảm độ phức tạp tạp tính khoảng cách dPCA so với cơng trình nghiên cứu điển hình dựa PCA trước 2.4.2 Sự phân cấp dPCA Hình 2.3 mơ tả chế độ hoạt động phương pháp dPCA Tất PC Cấp PC thứ yếu Chế độ hoạt động dPCA Cấp PC chủ yếu Phân tích PC Hình 2.1 Phân cấp phương pháp dPCA Trong dPCA hoạt động theo cấp:  Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách Trong trường hợp cần thiết sử dụng tất PC bỏ qua cấp Phương pháp cần mức ngưỡng cho khoảng cách gọi dPCA1T (dPCA with threshold) Khi sử dụng tất PC để tính khoảng cách d, phát bất thường có đột biến xuất PC khác Tuy nhiên sử dụng tất PC để tính khoảng cách với dPCA1T áp dụng số thuộc tính p ban đầu khơng q lớn tốn nhiều tài nguyên hệ thống nên đặt trọng số wi ≠  Cấp 2: Cấp có chế độ hoạt động 10 Ví dụ: liệu bình thường chiếm 90%, bất thường chiếm 10%, 1% liệu bình thường phát nhầm bất thường c ng gây số lượng lớn cảnh báo sai Do tính khoảng cách với PC chủ yếu thứ yếu liên tục vừa tốn lực xử lý, tài nguyên hệ thống vừa làm tăng cảnh báo sai không cần thiết Khi trạng thái bình thường profile thiết lập tốt, phần lớn bất thường PC chủ yếu phát với PC thứ yếu cấp Trong trường hợp số lượng bất thường phát với cấp khơng hiệu cấp hoạt động tốt t y theo điều kiện thực tế giảm tần suất kiểm tra cấp tắt hẳn cấp nhằm giảm tỷ lệ cảnh báo sai điều kiện liệu bình thường chiếm đa số giảm mức độ tính tốn 2.4.3 Thiết lập mức ngưỡng Thiết lập mức ngưỡng vấn đề khó phương pháp phát lưu lượng bất thường nói chung Mức ngưỡng tham số nhạy cảm tỷ lệ phát bất thường xác tỷ lệ cảnh báo sai (phát nhầm liệu bình thường bất thường) Trong luận án, mức ngưỡng tính dựa hàm phân bố tích l y thực nghiệm (Empirical cumulative distribution function ECDF) Đây hàm ước tính dựa liệu thực nghiệm hàm phân bố tích lu Từ α tỷ lệ cảnh báo sai ước lượng, ta tính khoảng cách với mức ngưỡng dN tương ứng với (1- α) hàm phân bố tích l y thực nghiệm Ví dụ: với α = 5%, mức ngưỡng lựa chọn tương ứng với 95% ECDF Tùy thuộc áp dụng dPCA1T dPCA2T, cần thiết lập hai mức ngưỡng với ECDF 2.5 Mô phỏng, thử nghiệm Việc thử nghiệm nhằm mục đích đánh giá độ xác phương pháp luận án đề xuất so sánh với phương pháp có Tập liệu thử nghiệm dựa tập liệu cộng đồng nghiên cứu chấp nhận) Kyoto Honeypot, Mỗi quan sát kết 11 nối có tổng cộng 14 thuộc tính Các thơng số đánh giá độ xác dựa thơng số phổ biến nghiên cứu có bao gồm: - TPR (True Positive Rate): Tỷ lệ số quan sát bất thường phát tổng số quan sát bất thường thử nghiệm - FPR (False Positive Rate): Tỷ lệ số quan sát bình thường bị phát sai bất thường tổng số quan sát bình thường Để so sánh với kết nghiên cứu điển hình có, biểu đồ bảng thể nhóm tham số sau: - Nhóm 1: nhóm sử dụng cơng thức (2.13) với c=2 wi=1 tương đương phương pháp phân tích phầnnghiên cứuTrên biểu đồ ký hiệu tham số (c=2, w=1) - Nhóm 2: nhóm sử dụng cơng thức (2.13) với c=1, wi=1/ tương đương phương pháp sử dụng thống kê T2 nghiên cứuTrên biểu đồ dạng cột nhóm có ký hiệu tham số (c=2, w1) - Nhóm 3: nhóm sử dụng cơng thức (2.13) với c=1,wi=1 Trên biểu đồ nhóm có ký hiệu tham số (c=1, w=1) - Nhóm 4: nhóm sử dụng cơng thức (2.13) với c=1, wi = 1/ i Trên biểu đồ nhóm có ký hiệu tham số ( c=1, w1) k số thành phần sử dụng để tính khoảng cách TP số kết nối phát Kết thử nghiệm thể hình 2.3, bảng 2.3 bảng 2.6 Nhận xét: Khi k=3, dPCA1T (nhóm nhóm 4) cho kết TP TPR cao nhóm 1, xấp xỉ nhóm Tỷ lệ cảnh báo sai FPR nhóm nhóm nhỏ nhóm xấp xỉ nhóm Khi tăng số lượng PC lên k=5, dPCA1T (nhóm nhóm 4) cho kết TP TPR cao nhóm 1và nhóm Tỷ lệ FPR nhóm nhóm nhỏ nhóm xấp xỉ nhóm Khi k=14 (tất PC), dPCA1T nhóm nhóm 2, song dPCA1T nhóm cho kết tốt 12 Các nhóm khoảng cách Hình 2.3 Số kết nối bất thường phát Bảng 2.3 Thử nghiệm dPCA1T 1 k 14 14 14 Mức ngƣỡng: 95% TPR (%) FPR (%) 92.4 4.7 91.8 5.2 94.4 5.3 94.6 4.9 91.9 5.6 93.8 5.0 94.3 4.8 91.3 5.2 92.1 5.4 1/ i 94.1 4.3 1/ i 98.1 4.7 1/ i 14 94.4 4.3 c 2 2 2 1 wi 1 1/ i 1/ i 1/ i 13 nhóm 2, xấp xỉ nhóm FPR nhóm c ng ngang xấp xỉ nhóm 1, 2.Như tăng số PC dPCA1T (k=5), TPR không thay đổi nhiều Sử dụng từ đến PC khơng khác biệt với sử dụng tất PC Vì vậy, trường hợp này, số PC thứ yếu cần lựa chọn k=3 Áp dụng c=1 nhóm nhóm (trường hợp riêng đề xuất luận án) có kết phát tương đương với áp dụng c=2 nhóm (của nghiên cứu có) độ phức tạp tính tốn việc tính d giảm Bảng 2.4 Thử nghiệm dPCA2T PC ch ếu, PC thứ ếu, FPR (%) 6.3 TPR (%) 99.6 92.2 1 99.9 7.2 1 100 8.1 1/ i 1 97.7 6.9 1/ i 1/ i 99.9 8.2 1/ i 1/ i 92.2 8.0 1/ i 1/ i 99.9 7.1 1/ i 1/ i 99.6 7.3 c wi k c wi k 1/ i 2 1/ i 2 1/ i 1/ i 6.9 dPCA2T thường cho kết TPR cao dPCA1T không nhiều Hơn FPR dPCA2T c ng tăng lên, mức độ tính tốn nhiều So với d ng c=2 kết TPR FPR dPCA2T với c=1 c ng gần tương đương Do sử dụng c=1 cơng thức tính khoảng cách với phương pháp dPCA2T kết hợp linh hoạt với c=2 PC chủ yếu thứ yếu để giảm độ phức tạp PC thứ yếu phát biến đổi nhỏ mà 14 PC chủ yếu không phát nên PC thứ yếu thường phát nhiều bất thường Để phát nhanh cần dùng dPCA1T thứ yếu dPCA2T d ng để quét với tần suất thấp để phát thêm bất thường PC chủ yếu 2.6 Kết luận chƣơng Chương đề xuất đề xuất cơng thức tính khoảng cách dựa công thức inkowski phương pháp dPCA So sánh phương pháp PCA có, dPCA đề xuất hoạt động phân cấp để phát nhanh với PC thứ yếu Cấp phát bất thường dùng dPCA1T với tất PC dPCA2T dPCA2T cho phép lựa chọn linh hoạt tham số phương pháp có trước CHƢƠNG 3: PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP DỮ LIỆU MẪU 3.1 Vấn đề khử ngoại lai tập liệu mẫu Ngoại lai tập liệu mẫu ảnh hưởng đến profile trạng thái bình thường làm sai lệch kết phát Chương đề xuất phương pháp khử ngoại lai tập liệu mẫu udPCA Kmeans Đây đóng góp luận án mà qua khảo sát cơng trình dựa phương pháp PCA chưa thực 3.2 Phƣơng pháp phát khử ngoại lai udPCA Phương pháp udPCA Unclean dPCA d ng để phát ngoại lai trực tiếp tập liệu thuộc tính đầu vào uá trình tạo profile phát ngoại lai udPCA mơ tả hình 3.2 Trong đó, tập liệu mẫu cần khử ngoại lai chuẩn hóa, qua biến đổi PCA tính khoảng cách Khoảng cách so sánh với mức ngưỡng để phát ngoại lai Những liệu bị phát ngoại lai bị loại bỏ khỏi tập liệu mẫu Tập liệu mẫu làm sau d ng cho phương pháp dPCA Thực 15 chất udPCA cần tạo profile tạm thời để từ so sánh mức ngưỡng với điểm quan sát Dữ liệu đầu vào để tạo tập mẫu Chuẩn hóa PCA Tính hoảng cách Mức ngƣỡng So ánh hoảng cách mức ngƣỡng Phát ngoại lai Hình 3.2 Quá trình phát ngoại lai udPCA Profile udPCA không dựa tập mẫu mà tạo trực tiếp với liệu thuộc tính đầu vào udPCA sử dụng tất PC để phát ngoại lai Lý phát ngoại lai trực tiếp tập mẫu, trạng thái bình thường profile khơng ổn định nên ngoại lai xuất PC Vì vậy, udPCA sử dụng phương pháp ngưỡng với đầy đủ PC để phát ngoại lai có mức biến thiên lớn PC khác Để khử nhiều ngoại lai cần thiết lập ngưỡng mức thấp so với phương pháp sử dụng tập liệu mẫu đặt mức ngưỡng cao bỏ qua nhiều ngoại lai Điều phải trả giá việc tăng tỷ lệ FPR hay số lượng liệu bình thường bị phát sai tăng lên 16 Khi khử ngoại lai, không ngoại lai vượt mức ngưỡng bị loại bỏ mà liệu bình thường c ng bị loại bỏ khỏi tập liệu mẫu Đây liệu bình thường tạo nên khoảng cách lớn liệu bình thường khác nên ảnh hưởng đến tham số profile Sự ảnh hưởng liên quan đến liệu bình thường có khoảng cách lớn nên liệu bị phát sai bất thường dPCA Nói cách khác việc loại bỏ liệu bình thường có khoảng cách lớn làm cho tỷ lệ cảnh báo sai FPR dPCA tăng lên ột k thuật để khắc phục vấn đề sau thiết lập mức ngưỡng profile dPCA, chỉnh mức ngưỡng lên khoảng định 3.3 Phƣơng pháp phát khử ngoại lai K-Means K-means thuật toán phân cụm phổ biến áp dụng nhiều lĩnh vực K-means sử dụng giá trị trung bình (mean) đối tượng cụm làm tâm cụm phân nhóm đối tượng có vào K cụm (K cần xác định trước) cho khoảng cách đối tượng đến tâm cụm (centroid ) nhỏ Phương pháp để phát ngoại lai K-means sau: Để phát ngoại lai cần thiết lập cụm bình thường normal cluster cụm chứa ngoại lai outlier cluster Trong trường hợp K=2, có cụm bình thường cụm lại chứa ngoại lai Cụm chứa ngoại lai coi cụm có số lượng điểm nhỏ so với cụm bình thường Do vậy, kết phân cụm chọn cụm có số lượng điểm nhỏ cụm chứa ngoại lai Một điểm xi coi ngoại lai nếu: - xi nằm gần tâm cụm chứa ngoại lai cụm bình thường - xi nằm phạm vi giới hạn khoảng cách ngưỡng đến tâm cụm bình thường Những điểm phát ngoại lai bị loại bỏ tập liệu mẫu dPCA 3.4 Thử nghiệm phát khử ngoại lai 17 Quá trình thử nghiệm c ng thực liệu Kyoto Honeypot Việc thử nghiệm nhằm mục đích: đánh giả ảnh hưởng ngoại lai đến khả phát bất thường, khả phát ngoại lai udPCA, khả phát ngoại lai K-means, hiệu việc khử ngoại lai tập liệu mẫu Tập liệu mẫu gồm có 10% ngoại lai, 90% lại kết nối bình thường Mức ngưỡng d đặt 75% đến 80% ECDF Bảng 3.2 trình bày kết phát ngoại lai udPCA, đó: - Tỷ lệ phát ngoại lai: tỷ lệ số lượng ngoại lai phát xác tổng số ngoại lai thử nghiệm Thông số thực chất TPR Tỷ lệ cao chứng tỏ khả phát ngoại lai cao - Tỷ lệ phát sai ngoại lai: tỷ lệ số lượng liệu bình thường phát sai ngoại lai tổng số liệu bình thường thử nghiệm Thơng số thực chất FPR Bảng 3.2 Kết phát ngoại lai udPCA T lệ phát T lệ phát c wi k 1/ i 14 99.8 16.7 1/ i 14 99.4 16.7 1/ i 14 100 16.6 1/ i 14 99.2 16.7 1/ i 14 97.7 17.0 1/ i ngoại lai ) ngoại lai ) 14 98.8 22.3 Bảng 3.3 kết phát ngoại lai K-means ức ngưỡng khoảng cách Euclidean dùng K-means xác định tương ứng với 75% đến 80% hàm phân bố tích l y thực nghiệm Kết cho thấy K-means c ng phát ngoại lai với hiệu tương đương với udPCA 18 Bảng 3.3 Kết phát ngoại lai K-Means T lệ phát ngoại lai T lệ phát ) ngoại lai (%) 100 15.2 100 24.1 99.7 21.8 99.3 18.0 Bảng 3.4 biểu diễn kết phát dPCA1T chương trước khử ngoại lai cho tập liệu mẫu Ngoại lai làm ảnh hưởng đến khả phát bất thường, cụ thể làm tỷ lệ TPR suy giảm Bảng 3.4 Kết dPCA1T trước loại bỏ ngoại lai c wi k Mức ngƣỡng TPR (%) FPR (%) 42.4 1.4 1/ i 41.5 1.1 1/ i 14 27.8 2.3 1/ i 29.3 2.2 1/ i 14 28.3 2.8 1 26.4 2.5 Bảng 3.5 biểu diễn kết phát dPCA mức ngưỡng (dPCA1T) sau khử ngoại lai cho tập liệu mẫu Bảng 3.5 Kết dPCA1T sau loại bỏ ngoại lai c wi k Mức ngƣỡng 95% TPR FPR (%) (%) 99.9 15.9 Mức ngƣỡng 99% TPR FPR (%) (%) 99.9 6.7 19 1/ i 100 19.6 100 7.6 1/ i 14 100 20.8 100 6.6 1/ i 100 19.6 100 6.7 1/ i 14 100 20.8 100 6.1 1 17.1 98.9 6.7 100 ức ngưỡng 95% mức ngưỡng giống d ng cho dPCA chương 2; ức ngưỡng 99% mức ngưỡng nâng lên để b vào lượng liệu bình thường bị loại bỏ trình khử ngoại lai cho tập mẫu Nhận xét: Việc khử ngoại lai tập liệu mẫu làm tăng tỷ lệ TPR dPCA so với dPCA trước khử ngoại lai bảng 3.4 Tuy nhiên, ngồi ngoại lai, số liệu bình thường có khoảng cách lớn c ng bị loại bỏ khỏi tập mẫu Điều ảnh hưởng đến chất lượng tập mẫu tham số profile Kết tỷ lệ cảnh báo sai FPR tăng lên đáng kể Việc chỉnh mức ngưỡng sau khử ngoại lai giảm tác động liệu bình thường bị Do tỷ lệ FPR giảm so với giữ nguyên mức ngưỡng 3.5 Kết luận chƣơng Các kết thử nghiệm cho thấy udPCA K-means phương pháp hiệu để khử ngoại lai Sau khử ngoại lai, tỷ lệ phát bất thường TPR dPCA tăng lên r rệt Hạn chế việc khử ngoại lai làm tăng tỷ lệ cảnh báo sai FPR Để khắc phục vấn đề này, luận án đề xuất k thuật chỉnh mức ngưỡng để b lại hao hụt liệu bình thường bị khử với udPCA Kmeans, cải thiện tỷ lệ FPR Tỷ lệ FPR cao dPCA sau khử ngoại lai chấp nhận số liệu bình thường gây đột biến lưu lượng c ng coi bất thường Thực tế người d ng có hành động hợp lệ vượt ngồi mức bình thường Việc phát luồng gây đột biến c ng cần thiết coi dạng bất thường 20 CHƢƠNG 4: HỆ THỐNG GIÁM SÁT VỚI PHƢƠNG PHÁP PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG 4.1 Mở đầu Trong chương này, luận án đề xuất việc ứng dụng phương pháp dPCA vào hệ thống giám sát triển khai thực tế cho mạng nội tổ chức, doanh nghiệp có kết nối Internet 4.2 Kiến trúc hệ thống giám sát Một hệ thống giám sát điển hình thường gồm phần chính: Các máy trinh sát phần trung tâm phân tích xử lý hay gọi trung tâm giám sát Máy trinh sát (sensor): Thu thập thông tin kiện mạng chuyển trung tâm giám sát để xử lý, phân tích Ngồi ra, máy trinh sát có thêm chức phân tích, phátđể có cảnh báo nhanh gửi trung tâm giám sát Sensor phần cho chức thu thập thơng tin thực thêm chức phân tích, phát (do cố mạng, tắc nghẽn, cơng mạng để có cảnh báo nhanh gửi trung tâm giám sát dPCA đề xuất tích hợp tiện ích vào phần mềm sensor, thực chức phân tích, phát lưu lượng bất thường qua điểm trinh sát Mặt khác, dPCA cài đặt trung tâm giám sát để thực chức phân tích, phát lưu lượng bất thường toàn phân đoạn mạng Để thu thập liệu lưu lượng cho dPCA sensor, sử dụng phần mềm cơng cụ Ntop, Fprobe để thu lưu lượng phân đoạn mạng có kết nối Internet Dữ liệu thuộc tính tổng hợp từ kết nối luồng tin Tập liệu thuộc tính sau lưu tạm thời máy trinh sát chuyển sở liệu trung tâm giám sát Trung tâm giám sát gồm 04 thành phần chính: 1) Thu thập thơng tin từ máy trinh sát xử lý liệu sơ bộ; Cơ sở liệu; 3) 21 Xử lý, phân tích, phát bất thường; 4) Quản trị hệ thống, hiển thị cảnh báo 4.3 Nhận ạng, phân loại ất thƣờng n ng ết hợp phát lƣu lƣợng bất thƣờng với phát công mạng Sau phát cần xác định nguyên nhân, phân loại bất thường ột số cơng trình nghiên cứu sử dụng phân lớp, phân cụm để phân loại bất thường vào lớp tạo sẵn cụm Các cơng trình khác sử dụng mẫu dấu hiệu để nhận dạng bất thường phổ biến Có thể kết hợp phát bất thường với phát xâm nhập dựa mẫu dấu hiệu để xác định kiểu công dựa tập luật sở liệu loại công biết Cách kiểm tra trực tiếp người đòi hỏi người quản trị, chun gia phân tích loại bất thường phát 4.4 Mơ hình ết hợp phát bất thƣờng với IDS Trong hệ thống giám sát, dPCA cần kết hợp với thành phần khác, đặc biệt phận phát xâm nhập dựa tập mẫu dấu hiệu (IDS) Dữ liệu đầu vào để tạo tập mẫu kiểm tra phần mềm phát xâm nhập IDS theo mẫu dấu hiệu ví dụ Snort, Suricata, Bro để loại bỏ công biết Tiếp đó, tập liệu mẫu qua khử ngoại lai để khử ngoại lai xuất Bộ biến đổi PCA d ng để tính tham số profile tính khoảng cách Khoảng cách vượt giá trị ngưỡng coi bất thường Kết phát kiểm tra lại IDS mẫu dấu hiệu phương pháp học máy dựa lớp bất thường biết Những bất thường nhận dạng kiểm tra trực tiếp Để tránh tải cho IDS theo mẫu dấu hiệu, liệu phát bình thường khơng phải kiểm tra lại tồn IDS theo mẫu dấu hiệu mà kiểm tra lại cách ngẫu nhiên để xem có cơng hay khơng 4.5 Mô thử nghiệm phát công c a dPCA 22 Luận án áp dụng dPCA để phát số loại tân công với tỷ lệ phát bảng 4.2 Từ kết thấy dPCA áp dụng để phát cơng Tuy nhiên loại cơng cần số lượng PC(k) khác để đạt kết tốt Bảng 4.2 Kết phát dPCA1T với số loại công IPPortGuestSmurf sweep Sweep Pwd (%) (%) c wi k 1 3 73.1 76.2 87.5 63.8 31.4 17.0 88.1 88.6 1/ i 86.2 76.2 19.4 86.8 1/ i 73.9 62.6 40.5 86.8 1/ i 81.6 88.1 49.8 98.1 1/ i 71.2 99.5 73.6 96.2 1/ i 16 67.7 13.3 82.7 98.1 1/ i 91.1 85.2 18.3 88.6 1/ i 90.2 80.4 37.1 98.1 1/ i 83.4 97.8 47.2 98.1 1/ i 86.1 87.6 66.0 88.7 1/ i 16 68.1 20.4 83.1 98.1 4.6 Kết luận chƣơng Trong chương 4, luận án trình bày kiến trúc hệ thống giám sát Luận án đề xuất áp dụng dPCA vào hệ thống giám sát có kết hợp với IDS mẫu dấu hiệu phương pháp nhận dạng bất 23 thường Kết mô phát số loại công cho thấy khả áp dụng dPCA để phát công khả thi thực tế KẾT LUẬN Luận án hạn chế phương pháp PCA có số đóng góp cụ thể sau: - Đề xuất công thức để tính khoảng cách miền PCA dựa cơng thức Minkowski có bổ sung thêm trọng số - Đề xuất phương pháp có tên dPCA phân cấp với mức ngưỡng: dPCA1T dPCA2T Kết thử nghiệm cho thấy thay đổi tham số để giảm độ phức tạp tính tốn so với cơng trình trước đó, trì hiệu phát tương đương mức chấp nhận - Đề xuất hai phương pháp phát khử ngoại lai tập liệu mẫu là: udPCA K-means Các kết thử nghiệm cho thấy, việc khử ngoại lai tập liệu mẫu với udPCA Kmeans làm tăng tỷ lệ TPR lên đáng kể áp dụng dPCA khử ngoại lai so với áp dụng dPCA chưa khử ngoại lai - Luận án đề xuất ứng dụng phương pháp dPCA vào hệ thống giám sát cho mục tiêu phân tích phát lưu lượng bất thường, phát cơng mạng phân đoạn mạng có kết nối Internet có kết hợp với phát xâm nhập dựa mẫu dấu hiệu 24 DANH MỤC CƠNG TRÌNH CƠNG BỐ CỦA TÁC GIẢ [1] Hai Hoang, Thuong Pham, Duong Nguyen 2010 , Design and [2] [3] [4] [5] [6] [7] [8] Deployment of a onitoring Sensor for Enterprise’s Networks , 55th International Scientific Colloquium (IWK), Ilmenau, Germany, pp.810-816 Hoàng Đăng Hải, Nguyễn Chung Tiến, Bùi Thanh Phong, Nguyễn Hà Dương, Nguyễn Trường Giang 2011 , Đề xuất giải pháp thiết kế thiết bị sensor cho hệ thống theo dõi an toàn mạng,” Hội nghị ICT.Rda'10 Hoàng Đăng Hải, Nguyễn Chung Tiến, Bùi Thanh Phong, Nguyễn Hà Dương, Nguyễn Trường Giang 2010 , Giải pháp giám sát an tồn mạng doanh nghiệp , Tạp chí Cơng nghệ Thông tin Truyền thông, Kỳ 2, tr 35-41 Nguyen Ha Duong, Hoang Dang Hai 2015 , A semi-supervised model for network traffic anomaly detection, in Proc of 17th International Conference on Advanced Communication Technology (ICACT), Korea, pp.70-75 Nguyen Ha Duong, Hoang Dang Hai 2015 , A model for network traffic anomaly detection, Transactions on Advanced Communications Technology (TACT), Vol 4, Issue 4, pp 644-650 Nguyễn Hà Dương, Hoàng Đăng Hải 2015 , Phát lưu lượng mạng bất thường sử dụng phương pháp PCA lựa chọn đặc tính liệu, Tạp chí Khoa học cơng nghệ, Chun san cơng trình nghiên cứu điện tử, viễn thông công nghệ thông tin, Học viện công nghệ Bưu viễn thơng,tập 53-số 2C, tr.52-64 Nguyễn Hà Dương 2015 , ột phương thức phát bất thường lưu lượng mạng, Kỷ yếu Hội thảo quốc gia 2015 điện tử, truyền thông công nghệ thông tin (REV-ECIT 2015), tr 92-95 Nguyễn Hà Dương, Hoàng Đăng Hải 2016 Phát lưu lượng mạng bất thường điều kiện liệu huấn luyện chứa ngoại lai, Tạp chí Khoa học cơng nghệ thơng tin truyền thơng, Học viện Bưu viễn thơng, Bộ Thơng tin Truyền thông, tập 1, số 1, tr.3-15 ... đánh giá vấn đề phân tích phát lưu lượng bất thường với phương pháp PCA, vấn đề nghiên cứu mở làm sở cho nghiên cứu đề xuất chương CHƢƠNG 2: PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG... - Luận án đề xuất ứng dụng phương pháp dPCA vào hệ thống giám sát cho mục tiêu phân tích phát lưu lượng bất thường, phát cơng mạng phân đoạn mạng có kết nối Internet có kết hợp với phát xâm nhập... vào hệ thống giám sát cho phân tích phát lưu lượng bất thường, phát cơng mạng phân đoạn mạng có kết nối Internet Phương pháp nghiên cứu sử dụng luận án nghiên cứu mơ hình tốn học kết hợp với

Ngày đăng: 07/11/2017, 16:16

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan