NGHIÊN cứu máy học và hệ MIỄN DỊCH NHÂN tạo TRONG PHÁT HIỆN VIRUS máy TÍNH

108 202 0
NGHIÊN cứu máy học và hệ MIỄN DỊCH NHÂN tạo TRONG PHÁT HIỆN VIRUS máy TÍNH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ────────────── Mai Trọng Khang NGHIÊN CỨU MÁY HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO TRONG PHÁT HIỆN VIRUS MÁY TÍNH LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TP HỒ CHÍ MINH - 2016 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  Mai Trọng Khang NGHIÊN CỨU MÁY HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO TRONG PHÁT HIỆN VIRUS MÁY TÍNH LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS VŨ THANH NGUYÊN TP HỒ CHÍ MINH - 2016 LỜI CẢM ƠN Trước tiên em xin gửi lời cảm ơn chân thành đến thầy PGS.TS Vũ Thanh Nguyên Cảm ơn thầy dành nhiều công sức hướng dẫn em tận tình để em hồn tất đề tài cách thuận lợi Cảm ơn quý thầy cô giảng dạy cao học trường Đại học công nghệ thông tin cung cấp cho em tri thức bổ ích, tạo động lực cho em nghiên cứu khoa học thực tốt đề tài Cảm ơn thầy cô khoa Công nghệ phần mềm, trường Đại học công nghệ thông tin hỗ trợ em công tác giảng dạy để em có thêm nhiều thời gian hồn thiện đề tài Cảm ơn thành viên UIT-Cloud giúp đỡ em tiếp cận nguồn tài nguyên máy tính lớn để trình cài đặt, thực nghiệm tiến hành hạn Cảm ơn ba mẹ, chị hai, người thân yêu thương ln bên cạnh lúc khó khăn Em xin chân thành cảm ơn Tp Hồ Chí Minh, tháng năm 2016 Mai Trọng Khang LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn kết nghiên cứu thực cá nhân hướng dẫn PGS.TS Vũ Thanh Nguyên Tơi xin hồn tồn chịu trách nhiệm luận văn Học viên Mai Trọng Khang MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU Chương TỔNG QUAN 10 1.1 Lý chọn đề tài 10 1.2 Mục đích nghiên cứu 11 1.3 Đối tượng phạm vi nghiên cứu; 12 1.3.1 Virus hệ thống đích 12 1.3.2 Máy học 12 1.3.3 Hệ miễn dịch nhân tạo 13 1.4 Các nghiên cứu liên quan 13 1.5 Ý nghĩa khoa học thực tiễn đề tài 15 1.6 Cấu trúc luận văn 16 Chương CƠ SỞ LÝ THUYẾT 17 2.1 Virus máy tính 17 2.1.1 Định nghĩa 17 2.1.2 Lịch sử virus máy tính 17 2.1.3 Khả lây lan virus máy tính 18 2.1.4 Một số kĩ thuật nhận dạng virus máy tính 19 2.2 Hệ miễn dịch nhân tạo 22 2.2.1 Hệ miễn dịch sinh học 22 2.2.2 Cấu trúc 23 2.2.3 Một số thuật toán hệ miễn dịch nhân tạo 24 2.2.4 Các lĩnh vực ứng dụng AIS 31 2.3 Mạng nơ-ron nhân tạo 32 2.3.1 Cấu trúc mạng nơ-ron nhân tạo 33 2.3.2 Một số loại mạng nơ-ron nhân tạo 35 2.3.3 Ứng dụng 37 Chương HƯỚNG TIẾP CẬN MẠNG MIỄN DỊCH NƠ-RON NHÂN TẠO TRONG PHÁT HIỆN VIRUS MÁY TÍNH 42 3.1 Các hướng tiếp cận tảng 42 3.1.1 Hướng tiếp cận giải thuật di truyền phát virus máy tính 42 3.1.2 Hướng tiếp cận mạng nơ-ron nhân tạo phát virus máy tính ………………………………………………………………………44 3.1.3 Hướng tiếp cận kết hợp mạng nơ-ron giải thuật di truyền phát virus máy tính 45 3.1.4 Hướng tiếp cận kết hợp giải thuật chọn lọc nhân mạng nơ-ron nhân tạo phát virus máy tính 47 3.2 Hướng tiếp cận kết hợp mạng miễn dịch nhân tạo mạng nơ-ron nhân tạo phát virus máy tính 54 3.2.1 Biểu diễn kháng thể / kháng nguyên 55 3.2.2 Các phát ANNs 56 3.2.3 Giải thuật huấn luyện AiNet 58 3.2.4 Phép đo độ thích nghi Tương tác kháng thể - kháng nguyên 61 3.2.5 Tương tác kháng thể - kháng thể 62 3.3 Các toán liên quan 64 3.3.1 Bài tốn Rút trích đặc trưng virus 64 3.4 Bài toán Xây dựng phân lớp tập tin 66 3.4.1 Cơ chế xác định mức độ nguy hiểm tập tin 67 3.4.2 Xây dựng phân lớp xác định nhãn tập tin 68 Chương CÀI ĐẶT 71 4.1 Hiện thực hoá ANIN 71 4.1.1 Xây dựng phát ANNs 71 4.1.2 Xây dựng giải thuật huấn luyện AiNet 75 4.1.3 Xây dựng lớp biểu diễn kháng thể 76 4.1.4 Xây dựng giao diện 78 4.2 Hiện thực hoá xây dựng liệu huấn luyện 81 4.2.1 Lớp TrainingData 82 4.2.2 Lớp Cluster 82 4.2.3 Lớp DataGeneration 83 4.2.4 Lớp Matching 84 4.2.5 Cài đặt giao diện 85 4.2.6 Giao diện 87 4.3 Xây dựng phân lớp tập tin 88 4.3.1 Cài đặt lớp đối tượng 88 4.3.2 Xây dựng giao diện 90 Chương THỬ NGHIỆM 92 5.1 Dữ liệu đầu vào 92 5.1.1 Xác định thông số 93 5.2 Phương pháp đánh giá 95 5.3 Kết thực nghiệm 96 Chương KẾT LUẬN 99 6.1 Các kết đạt 99 6.2 Hạn chế 99 6.3 Hướng phát triển 100 DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ 101 DANH MỤC TÀI LIỆU THAM KHẢO 102 PHỤ LỤC 104 DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Viết đầy đủ Ý nghĩa CNTT Công nghệ thông tin Công nghệ thông tin AV Anti - Virus Phần mềm chống virus HĐH Hệ điều hành Hệ điều hành ANN Artificial Neural Network GA Genetic Algorithm AIS Artificial Immune System AiNet Artificial Immune Network CLONALG Clonal Selection Negative Selection Algorithm ANIN Hệ miễn dịch nhân tạo Mạng miễn dịch nhân tạo Thuật toán chọn lọc nhân Thuật toán chọn lọc âm tính Artificial Neural Mạng miễn dịch nơ-ron nhân tạo Immune Network VDCA Giải thuật di truyền Algorithm NSA Mạng nơ-ron nhân tạo Virus Detection Thuật toán nhân phát virus Clonal Algorithm DANH MỤC CÁC BẢNG Bảng 2.1 So sánh giải thuật tiến hoá giải thuật chọn lọc nhân 28 Bảng 3.1 Các đối tượng giải thuật chọn lọc nhân 48 Bảng 4.1 Các thủ tục giải thuật huấn luyện AiNet 75 Bảng 4.2 Danh sách thông số mô đun xây dựng phát 80 Bảng 4.3 Các thuộc tính phương thức lớp DataGeneration 83 Bảng 4.4 Danh sách thông số quan xây dựng liệu huấn luyện 85 Bảng 4.5 Các lớp đối tượng phân lớp tập tin 89 Bảng 5.1 Thử nghiệm tương quan giá trị r trinh xây dựng liệu huấn luyện Dataset 5, Dataset 93 Bảng 5.2 Tỉ lệ phát tỉ lệ dương tính giả ANIN mơ hình [7] 96 Chương Cài đặt Hình 4.12 Các lớp đối tượng phân lớp tập tin 4.3.2 Xây dựng giao diện Giao diện phân lớp tập tin chia thành hai khu vực tách biệt, khu vực liên quan đến việc xây dựng phân lớp tập tin với thao tác tạo liệu huấn luyện vector lực huấn luyện phân lớp, khu vực lại sử dụng phân lớp vừa tạo sử dụng phân lớp lưu trữ trước dùng để phân lớp tập tin thư mục chọn 90 Chương Cài đặt Hình 4.13 Giao diện phân lớp kiểm tra tập tin 91 Chương Thử nghiệm Chương THỬ NGHIỆM 5.1 Dữ liệu đầu vào Như đề cập phần tổng quan, đề tài hướng đến việc xây dựng hướng tiếp cận để phát virus máy tính cá nhân với mơi trường hệ điều hành Windows Điều đòi hỏi người thực phải tiến hành thu thập lưu trữ tập tin virus để xây dựng liệu huấn luyện kiểm tra Do sách bảo mật từ trang web nghiên cứu virus, để tránh việc người sử dụng lạm dụng virus gây hại cho cộng đồng, nhiều bước đăng kí kiểm sốt chặt chẽ thiết lập, việc thu thập tập tin virus gặp nhiều khó khăn Để thu thập từ nguồn virus này, người thực đề tài trực tiếp lien hệ thông qua email chấp nhận ban quản trị trang virussign.com [13] Thêm vào đó, liệu virus thu thập trực tiếp từ trang vxheaven.org [14], trang web lưu trữ sưu tập tập tin độc hại lớn thường công trình nghiên cứu liên quan đến virus sử dụng Từ liệu thu thập được, liệu xây dựng với phân chia thích hợp tỉ lệ Các tập tin chọn cách ngẫu nhiên Dưới bảng mô tả liệu với tập tin chương trình trích xuất trực tiếp từ máy tính người thực Training set Virus Validation set Benign Virus Benign Test set Virus Benign Dataset 60 12 20 20 Dataset 120 24 40 40 Dataset 240 48 80 16 80 16 Dataset 300 60 100 20 100 20 Dataset 600 120 200 40 200 40 92 Chương Thử nghiệm Dataset 1200 240 400 80 400 80 5.1.1 Xác định thông số 5.1.1.1 Lựa chọn ngưỡng so khớp giai đoạn xây dựng liệu huấn luyện Trong đề tài này, ta chủ yếu sử dụng chế so khớp trùng chuỗi R-contiguous để xác định chuỗi tập chuỗi virus bị loại hay giữ lại Ở đây, r thông số quan trọng ảnh hưởng trực tiếp đến kết giai đoạn số lượng chuỗi dùng làm liệu huấn luyện, mức độ tách biệt chuỗi thuộc phân lớp khác nhau, thời gian xây dựng liệu huấn luyện,… từ ảnh hưởng đến kết giai đoạn theo sau Thử nghiệm tiến hành hai tập tin đầu vào Dataset Dataset ta cho thông số r nhận giá trị từ thấp đến cao Bảng 5.1 Thử nghiệm tương quan giá trị r trinh xây dựng liệu huấn luyện Dataset 5, Dataset Tên liệu Dataset Giá trị r Số chuỗi virus Số chuỗi 12 16 2359 20 22691 Dataset 12 16 2552 20 26098 Từ bảng trên, ta dễ dàng nhận thấy rằng, giá trị r gia 47053 47053 47053 56575 56575 56575 tăng số lượng chuỗi tập chuỗi virus tăng lên nhiều Ta giải thích cho điều sau: giá trị r nhỏ, ngưỡng so khớp nhỏ từ chuỗi tập virus dễ dàng gán khớp với chuỗi tập chuỗi Khi r =12, ta thấy toàn chuỗi nhị phân tập chuỗi virus bị loại ra, chứng tỏ giá trị r khắt khe Ngược lại, r tăng dần, độ khắt khe để giữ lại chuỗi tập chuỗi virus giảm xuống, nhiều chuỗi nhị phân 93 Chương Thử nghiệm giữ lại Tuy nhiên, r lớn dẫn tới số lượng chuỗi nhị phân gia tăng đột biến tách biệt chuỗi thuộc tập chuỗi virus với chuỗi thuộc tập chuỗi (khi r=20, tồn hai chuỗi giống liên tiếp 19 bits lại thuộc hai tập phân loại khác nhau.) Điều quan trọng tùy thuộc vào liệu tập tin đầu vào, ta tiến hành thực thao tác xây dựng liệu huấn luyện nhiều lần để lựa chọn giá trị r cho số lượng chuỗi nhị phân tập chuỗi virus thích hợp 5.1.1.2 Lựa chọn số nơ-ron lớp ẩn Trong trình thực mình, trình xây dựng phát xây dựng mạng nơ-ron tốt trọng số lẫn cấu trúc mạng Ở đây, ta cố định số lớp ẩn song lại cho phép linh hoạt số nơ-ron lớp ẩn cho giá trị tối đa mà ta quy định Việc lựa chọn giới hạn cho số lượng nơ-ron lớp ẩn quan trọng, ảnh hưởng trực tiếp đến độ phức tạp cấu trúc mạng, từ ảnh hưởng đến thời gian độ tốt trình huấn luyện Việc chọn giá trị cao gây lãng phí tài nguyên thấp khiến hệ thống khó học chức mong muốn không đủ tài nguyên cung cấp cho Trong thực nghiệm mình, nhóm lựa chọn giới hạn cho lớp ẩn 16 lớp ẩn thứ hai 5.1.1.3 Lựa chọn điều kiện dừng Hai thơng số định đến điều kiện dừng trình huấn luyện (ở giai đoạn xây dựng phát hiện) số kỉ nguyên tỉ lệ lỗi Số kỉ nguyên số vòng lặp mà sau kỷ nguyên, hệ thống biến đổi từ trạng thái sang trạng thái Số kỷ nguyên tối đa lựa chọn thực nghiệm 100, tức trình huấn luyện bị bắt buộc dừng lại sau 100 vòng lặp 94 Chương Thử nghiệm Tỉ lệ lỗi giá trị thường sử dụng để làm điều kiện dừng hệ thống học Ở đây, mục đích ta khơng phải tìm mạng nơ-ron tốt mà tập hợp mạng nơ-ron tốt từ kháng thể quần thể nhớ, tỉ lệ lỗi tính giá trị lỗi trung bình tất kháng thể quần thể nhớ Tuy nhiên, cần lưu ý rằng, giá trị khơng phản ánh xác mức độ tốt quần thể nhớ mà giá trị tính tốn nhằm thuận lợi cho việc xác định điều kiện dừng Bởi ta sử dụng giải thuật chọn lọc nhân để chọn tập hợp mạng nơ ron, ta không hướng đến việc mạng nơ ron tập hợp phải học tất mẫu (các kháng nguyên) đưa mà tập trung vào mẫu mà có khả học tốt Thơng thường, thường lựa chọn giá trị ngưỡng để dừng trình huấn luyện tỉ lệ lỗi đạt tới ngưỡng này, nhiên, việc xác định giá trị ngưỡng khơng dễ dàng phụ thuộc vào liệu đầu vào có trường hợp hệ thống hội tụ đến giá trị mà tỉ lệ lỗi không đạt tới ngưỡng dừng Trong thử nghiệm mình, nhóm khơng xác định cụ thể giá trị ngưỡng lỗi để dừng trình huấn luyện mà thay vào đó, độ tốt huấn luyện ký nguyên thể biểu đồ cột Việc cần làm quan sát biểu đồ cột lựa chọn thời điểm mà ta cho hệ thống đạt trạng thái tốt 5.2 Phương pháp đánh giá Để đánh giá mô hình ANIN, phương pháp sau sử dụng: Tỉ lệ phát tỉ lệ dương tính giả: Thí nghiệm thực hei6n5 nhầm nghiên cứu tỉ lệ phát tỉ lệ dương tính ảnh hưởng số lượng tập tin liệu lên tính hiểu mơ hình ANIN Sự tương quan giá trị nén Network Suppression threshold hiệu mơ hình: Trong bược Network Suppression giải thuật huấn luyện, có cặp phát có độ lực lẫn lớn giá trị ngưỡng định trước, bị loại 95 Chương Thử nghiệm phát bổ sung thêm vào quần thể Network Suppression Threshold (NST) có tác động đáng kể lên tổng độ phủ phát hiện, mà quan trọng đến tính hiệu ANIN Trong thử nghiệm này, nghiên cứu cách mà NST ảnh hưởng đến tỉ lệ phát tỉ lệ dương tính giả ANIN Sự so sánh kết thực nghiệm mơ hình ANIN mơ hình đề cập [7] tiến hành để nghiên cứu ưu điểm ANIN 5.3 Kết thực nghiệm Bảng 5.2 Tỉ lệ phát tỉ lệ dương tính giả ANIN mơ hình [7] Data Detection Rate % False Positive Rate % ANIN ANIN Method in [7] Method in [7] Dataset 95 100 0 Dataset 92.5 97.5 0 Dataset 93.75 96.25 6.25 12.5 Dataset 86 83 10 Dataset 87.5 84.5 7.5 7.5 Dataset 84.5 80.25 6.25 8.75 Average 89.875 90.25 4.17 6.56 Kết thử nghiệm trình bày Bảng 5.2 Tỉ lệ phát tỉ lệ dương tính giả ANIN mơ hình Mơ hình ANIN có có tỉ lệ cao (cao 95 % - thấp 84.5 %) Tỉ lệ phát tỉ lệ dương tính giả trung bình cho liệu 89.895 % 4.2 % Khi đó, với giá trị thơng số định trước cách thích hợp (với NST = 0.8 giá trị dừng 0.05), tỉ lệ phát mà ANIN đạt tới cao tỉ lệ dương tính giá trì mức chấp nhận (< 10 %) Ta quan sát thấy có tương quan kích thước tập liệu hiệu mơ hình Với tập liệu lớn, tỉ lệ phát giảm tỉ lệ dương tính 96 Chương Thử nghiệm giả tăng Khi kích thước liệu có xu hướng tăng, phát huấn luyện để mở rộng độ phủ chúng tương thích với gia tăng này, nhiên với kích thước liệu lớn, phát cần nhiều nỗ lực để bao phủ không gian liệu hiệu giảm sút số lượng phát ban đầu không đủ đáp ứng False Positive Rate Detection rate 120 88 100 87 82 Rate % 80 60 40 20 10 5 0.8 0.75 0.95 Network Suppression Threshold Hình 5.1 Sự tương quan giá trị Network Suppression Threshold hiệu ANIN Hình 5.1cho thấy tương quan giá trị NST tỉ lệ phát tỉ lệ dương tính giả sử dụng liệu huấn luyện validation dataset Kết cho thấy tỉ lệ phát đạt tới 88% với NST = 0.95 Ta quan sát thấy rằng, giá trị NST lớn, tỉ lệ phát cao Điều lý giải với giá trị NST lớn, trình huấn luyện trở nên gay go hơn, phát bị buộc phải bao pphủ vùng liệu thay cho vùng chiếm đóng Trong trường hợp này, với số lượng phát hiện, tổng độ phủ phát gia tăng giá trị NST tăng, kéo theo gia tăng tỉ lệ phát Tuy nhiên, NST lớn, sụt giảm nghiêm trọng thao tác với tập tin ANIN, tỉ lệ dương tính giả tăng lên Do vậy, việc lựa chọn giá trị NST để cân tỉ lệ phát tỉ lệ dương tính giả quan trọng 97 Chương Thử nghiệm Hình 5.2 So sánh hiệu ANIN [7] (Series1: ANIN detection rate, Series3: ANIN false positive rate, Series2: [7] detection rate, Series4: [7] false positive rate ) Như trình bày bảng Bảng 5.2 Hình 5.2, tỉ lệ phát trung bình mơ hình [7] cao ANIN Tuy nhiên, sử dụng liệu có kích thước lớn, tính hiệu ANIN trở nên tốt so với [7] Với liệu có kích thước nhỏ dataset 1, mơ hình CLONALG kết hợp ANN có tỉ lệ phát 100 % ANIN 95 % Khi áp dụng cho liệu 6, tỉ lệ phát [7] 84.5 % 80.25 % ANIN có tỉ lệ phát cao với giá trị 87.5% 84.5 % Mặc khác, xét đến tỉ lệ dương tính giả, ANIN có tỉ lệ nhỏ so với [7] Sự biến đổi tỉ lệ phát hai mơ hình lý giải cách loại bỏ phát thừa ANIN khiến cho với số lượng phát hiện, ANIN cố gắng giảm chồng lấn phát quần thể, đó, tổng độ phủ quần thể tốt nhhư hiệu thao tác với liệu 98 Chương Kết luận Chương KẾT LUẬN 6.1 Các kết đạt Sau quãng thời gian dài nghiên cứu tri thức cần thiết để xây dựng đề tài, cao học viên đạt số kết quả: Nắm số kiến thức cần thiết máy tính như khái niệm, phân loại, cách mà chương trình virus lây lan hướng tiếp cận thường sử dụng để phát virus máy tính Thu thập tri thức mơ hình máy học giải thuật di truyền, mạng nơ-ron nhân tạo, mơ hình hệ miễn dịch nhân tạo chọn lọc âm tính, chọn lọc nhân bản, mạng miễn dịch nhân tạo… Xây dựng thành công hướng tiếp cận mới, dựa mơ hình lý thuyết nghiên cứu, từ tiến hành cài đặt thành chương trình có giao diện thân thiện, hỗ trợ trình xây dựng liệu huấn luyện, hình thành phát phân lớp tập tin Nhiều kĩ thuật lập trình nghiên cứu áp dụng vào trình cài đặt Threading, Serialization… Đến thời điểm tại, cao học viên với nhóm nghiên cứu cơng bố hai báo khoa học 6.2 Hạn chế Bên cạnh số kết khả quan đạt được, nhiều hạn chế tồn động đòi hỏi phải tiến hành giải nghiên cứu sau này:  Đề tài tập trung vào loại virus thực thi hệ điều hành Windows  Việc lựa chọn thông số chủ yếu dựa vào thực nghiệm thơng số mặc định, chưa có nghiên cứu tổng quát việc lựa chọn tất thông số mức độ ảnh hưởng thông số đến kết sau 99 Chương Kết luận  Thời gian trình huấn luyện lâu ứng dụng nhiều kĩ thuật lập trình để rút ngắn thời gian thực  Tính hiệu hướng tiếp cận bắt đầu giảm số lượng liệu lớn  Chưa thực đủ thuyết phục để tiến hành thương mại 6.3 Hướng phát triển Để chuẩn bị cho nghiên cứu xa hơn, nhiều vấn đề cần phải xem xét giải định hướng phát triển:  Giải tốt hạn chế tồn đọng  Vận dụng tốt kĩ thuật lập trình để khắc phục phần hao phí thời gian trình huấn luyện  Mở rộng phạm vi ứng dụng hướng tiếp cận nghiên cứu thêm nhiều mơ hình huấn luyện hiệu deep learning, kết hợp với kĩ thuật cloudcomputing để phát triển ứng dụng antivirus nhỏ gọn, hiệu  Tỉ lệ cảnh báo nhầm cao hạn chế lớn, cần xây dựng giải pháp để giảm bớt tỉ lệ cảnh báo nhầm mà không làm giảm tỉ lệ phát virus  Số lượng chuỗi nhị phân q trình huấn luyện đơi lớn rút trích trực tiếp từ tập tin sạch, điều đòi hỏi ta phải tìm cách giảm số lượng chuỗi cách xây dựng lọc, quan tâm đến chuỗi nhị phân phân bố rộng rãi thay tất chuỗi 100 DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ Vu Thanh Nguyen et al (2014), "A combination of Clonal Selection Algorithm and Artificial Neural Networks for Virus Detection," Advances in Computer Science and its Applications, vol 279, pp 95-100 Vu Thanh Nguyen, Tan Toan Nguyen, Khang Trong Mai, and Tuan Dinh Le (2014), "Negative Selection Algorithm and Artificial Immune Network for Virus Detection," in First International Conference on Future Data and Security Engineering 2014, Ho Chi Minh City, pp 97 -106 Vu Thanh Nguyen, Khang Trong Mai, and Tuan Dinh Le (2015), “A Combination of Artificial Neural Network and Artificial Immune System for Virus Detection”, Rev jounal on Electronics and Communications, vol 5, no 3–4, pp 52-57 101 DANH MỤC TÀI LIỆU THAM KHẢO [1] Virus News (Dec 2014), http://www.kaspersky.com/about/news/virus/2014/Kaspersky-Lab-isDetecting-325000-New-Malicious-Files-Every-Day [2] Dipankar Dasgupta and Luis Fernando Niño (2009), Immunological Computation - Theory and Applications.: CRC Press [3] Yi Chen, A Narayanan, Shaoning Pang, and Ban Tao (May 2012), "Multiple sequence alignment and artificial neural networks for malicious software detection," in 2012 Eighth International Conference on Natural Computation, Chongqing , pp 261-265 [4] Murad Abdo Rassam and Mohd Aizaini Maarof ( 2012), "Artificial Immune Network Clustering approach for Anomaly Intrusion Detection," Journal of Advances in Information Technology, vol 3, pp 147-154 [5] Shivani Shah, Himali Jani, and Sathvik Shetty (December 2013), "Virus Detection using Artificial Neural Networks," International Journal of Computer Applications , vol 84, no 5, pp 17-23 [6] Suha Afaneh and Raed Abu Zita (2013), "Virus detection using clonal selection algorithm with Genetic Algorithm," Applied Soft Computing, vol 13, no 1, pp 239-246 [7] Vu Thanh Nguyen et al (2014), "A combination of Clonal Selection Algorithm and Artificial Neural Networks for Virus Detection," Advances in 102 Computer Science and its Applications, vol 279, pp 95-100 Vu Thanh Nguyen, Tan Toan Nguyen, Khang Trong Mai, and Tuan [8] Dinh Le (2014), "Negative Selection Algorithm and Artificial Immune Network for Virus Detection," in First International Conference on Future Data and Security Engineering 2014, Ho Chi Minh City Warren S McCulloch and Walter Pitts (December 1943), "A logical [9] calculus of the ideas immanent in nervous activity Bulletin of Mathematical Biophysics," The bulletin of mathematical biophysics, vol 5, no 4, pp 115133 [10] Agoston Eiben and James Smith (2003), Introduction to evolutionary computing.: Springer [11] Leandro Nunes de Castro and Fernado José Von Zuben (2002), "Learning and optimization using the clonal selection principle," in Evolutionary Computation.: IEEE, pp 239-251 [12] Niels Kaj Jerne (1974), "Towards a network theory of the immune system," Ann Immunol (Paris), pp 373-389 [13] VirusSign- Malware Research & Data Center (Aug 2016), http://www.virussign.com/ [14] VX Heaven (2016), http://vxheaven.org/ 103 PHỤ LỤC 104 ... tốn phát virus máy tính 1.3.3 Hệ miễn dịch nhân tạo Hệ miễn dịch nhân tạo (AIS - Artificial Immune System) [2] nhóm mơ hình tính tốn mơ chức hệ miễn dịch sinh học người động vật Hệ miễn dịch nhân. ..ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  Mai Trọng Khang NGHIÊN CỨU MÁY HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO TRONG PHÁT HIỆN VIRUS MÁY TÍNH LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH... vấn đề virus máy tính Trong bối cảnh đề tài, Nghiên cứu số thuật tốn máy học hệ miễn dịch nhân tạo phát virus máy tính tiến hành nhằm xây dựng hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo (ANIN-

Ngày đăng: 23/12/2018, 06:18

Từ khóa liên quan

Mục lục

  • Trang bìa

  • CH1401006

    • LỜI CẢM ƠN

    • LỜI CAM ĐOAN

    • MỤC LỤC

    • DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT

    • DANH MỤC CÁC BẢNG

    • DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

    • MỞ ĐẦU

    • Chương 1. TỔNG QUAN

      • 1.1 Lý do chọn đề tài

      • 1.2 Mục đích nghiên cứu

      • 1.3 Đối tượng và phạm vi nghiên cứu

        • 1.3.1 Virus và hệ thống đích

        • 1.3.2 Máy học

        • 1.3.3 Hệ miễn dịch nhân tạo

      • 1.4 Các nghiên cứu liên quan

      • 1.5 Ý nghĩa khoa học và thực tiễn của đề tài

      • 1.6 Cấu trúc luận văn

    • Chương 2. CƠ SỞ LÝ THUYẾT

      • 2.1 Virus máy tính

        • 2.1.1 Định nghĩa

        • 2.1.2 Lịch sử virus máy tính

        • 2.1.3 Khả năng lây lan của virus máy tính

        • 2.1.4 Một số kĩ thuật nhận dạng virus máy tính

          • 2.1.4.1 Nhận dạng chính xác

          • 2.1.4.2 Các kĩ thuật nhận dạng tương đối.

            • 2.1.4.2.1 Kiểu nhận dạng Heuristic

            • 2.1.4.2.2 Cơ chế nhận dạng theo hành vi

            • 2.1.4.2.3 Cơ chế mô phỏng máy thật.

      • 2.2 Hệ miễn dịch nhân tạo

        • 2.2.1 Hệ miễn dịch sinh học

        • 2.2.2 Cấu trúc cơ bản

    • Hình 2.1 Cấu trúc phân tầng của AIS

      • 2.2.3 Một số thuật toán trong hệ miễn dịch nhân tạo

        • 2.2.3.1 Giải thuật chọn lọc âm tính

    • Hình 2.2 Mô hình thuật toán chọn lọc âm tính

      • 2.2.3.2 Chọn lọc nhân bản

    • Hình 2.3 Sơ đồ giải thuật chọn lọc nhân bản

    • Thuật toán chọn lọc nhân bản:

    • Bảng 2.1 . So sánh giải thuật tiến hoá cơ bản và giải thuật chọn lọc nhân bản

      • 2.2.3.3 Mạng miễn dịch nhân tạo

      • 2.2.4 Các lĩnh vực ứng dụng AIS

        • 2.2.4.1 Điều khiển

        • 2.2.4.2 An ninh máy tính

        • 2.2.4.3 Tối ưu hóa

        • 2.2.4.4 Khai phá dữ liệu

      • 2.3 Mạng nơ-ron nhân tạo

        • 2.3.1 Cấu trúc cơ bản của mạng nơ-ron nhân tạo

          • 2.3.1.1 Cấu trúc của một nơ-ron nhân tạo

    • Hình 2.4 Cấu tạo nơ-ron nhân tạo

      • 2.3.1.2 Cấu trúc của mạng nơ-ron

    • Hình 2.5 Cấu trúc mạng nơ-ron đa lớp

      • 2.3.2 Một số loại mạng nơ-ron nhân tạo

        • 2.3.2.1 Mạng dẫn tiến

    • Hình 2.6 Mạng dẫn tiến

      • 2.3.2.2 Mạng hồi quy Hopfield

    • Hình 2.7 Mạng hồi quy

      • 2.3.2.3 Mạng cạnh tranh

      • 2.3.2.4 Mạng nơ-ron hàm radial

    • Hình 2.8 Mạng nơ-ron hàm radial

      • 2.3.3 Ứng dụng

        • 2.3.3.1 Ứng dụng trong khoa học người máy

    • Hình 2.9 Cấu trúc mạng nơ-ron trong robot di chuyển

      • 2.3.3.2 Hệ logic huấn luyện phổ biến

    • Hình 2.10 Mạng nơ-ron huấn luyện logic

      • 2.3.3.3 Ứng dụng trong thương mại điện tử

      • 2.3.3.4 Nhận dạng sóng và xử lý tín hiệu

    • Hình 2.11 Mạng nơ-ron nhận dạng mẫu theo thời gian

      • 2.3.3.5 Ứng dụng y sinh học và cảm biến thông minh

      • 2.3.3.6 Khả năng dự đoán

    • Chương 3. HƯỚNG TIẾP CẬN MẠNG MIỄN DỊCH NƠ-RON NHÂN TẠO TRONG PHÁT HIỆN VIRUS MÁY TÍNH

      • 3.1 Các hướng tiếp cận nền tảng

        • 3.1.1 Hướng tiếp cận giải thuật di truyền trong phát hiện virus máy tính

          • 3.1.1.1 Giới thiệu giải thuật di truyền

          • 3.1.1.2 Hướng tiếp cận

    • Ưu điểm:

    • Nhược điểm:

      • 3.1.2 Hướng tiếp cận mạng nơ-ron nhân tạo trong phát hiện virus máy tính

      • 3.1.3 Hướng tiếp cận kết hợp mạng nơ-ron và giải thuật di truyền trong phát hiện virus máy tính

    • Ưu điểm:

      • 3.1.4 Hướng tiếp cận kết hợp giải thuật chọn lọc nhân bản và mạng nơ-ron nhân tạo trong phát hiện virus máy tính

        • 3.1.4.1 Hướng tiếp cận

    • Thuật giải:

    • Hình 3.1 Sơ đồ giải thuật chọn lọc nhân bản

    • Bước 1:

    • Bước 2:

    • Ưu điểm:

    • Nhược điểm:

      • 3.2 Hướng tiếp cận kết hợp mạng miễn dịch nhân tạo và mạng nơ-ron nhân tạo trong phát hiện virus máy tính

        • 3.2.1 Biểu diễn kháng thể / kháng nguyên

        • 3.2.2 Các bộ phát hiện ANNs

    • Hình 3.2 Cấu trúc tổng quát của một đối tượng ANNs

      • 3.2.3 Giải thuật huấn luyện AiNet

    • Hình 3.3 Giaỉ thuật mạng miễn dịch nhân tạo

      • 3.2.4 Phép đo độ thích nghi : Tương tác kháng thể - kháng nguyên

      • 3.2.5 Tương tác kháng thể - kháng thể

    • Hình 3.4 Giải thuật xác định tương tác mạng nơ-ron nhân tạo

      • 3.3 Các bài toán liên quan

        • 3.3.1 Bài toán Rút trích đặc trưng virus

    • Hình 3.5 Cơ chế rút trích chuỗi nhị phân

    • Hình 3.6 Sơ đồ quy trình xây dựng dữ liệu huấn luyện

      • 3.3.2 Bài toán Xây dựng bộ phân lớp tập tin

        • 3.3.2.1 Cơ chế xác định mức độ nguy hiểm của một tập tin

    • FILE DANGEROUSLEVEL ALGORITHM

    • Hình 3.7 Giải thuật xác định độ nguy hiểm của một tập tin

      • 3.3.2.2 Xây dựng bộ phân lớp xác định nhãn của một tập tin

      • 3.3.2.3 Xây dựng dữ liệu huấn luyện cho bộ phân lớp

      • 3.3.2.4 Xây dựng bộ phân lớp

    • Chương 4. CÀI ĐẶT

      • 4.1 Hiện thực hoá ANIN

        • 4.1.1 Xây dựng bộ phát hiện ANNs

    • Hình 4.1 Lớp biểu diễn một đối tượng nơ-ron

    • Hình 4.2 Lớp biểu diễn đối tượng Layer

    • Hình 4.3 Lớp biểu diễn đối tượng mạng nơ-ron nhân tạo

    • Hình 4.4 Lớp biểu diễn đối tượng NetworkCollection và hàm kich hoạt BipolarSigmoid

      • 4.1.2 Xây dựng giải thuật huấn luyện AiNet

    • Bảng 4.1 Các thủ tục của giải thuật huấn luyện AiNet

      • 4.1.3 Xây dựng lớp biểu diễn kháng thể

        • 4.1.3.1 Xây dựng lớp quản lý kháng thể, kháng nguyên

        • 4.1.3.2 Xây dựng lớp biểu diễn hàm mục tiêu

    • Hình 4.5 Lớp biễu diễn đối tượng kháng thể, môi trường, hàm mục tiêu

      • 4.1.4 Xây dựng giao diện

    • Hình 4.6 Mô hình tổng quát của module

      • 4.1.4.1 Danh sách các thông số:

    • Bảng 4.2 Danh sách các thông số của mô đun xây dựng các bộ phát hiện

      • 4.1.4.2 Giao diện thông số và mô tả kết quả

    • Hình 4.7 Giao diện module xây dựng các bộ phát hiện

      • 4.2 Hiện thực hoá bộ xây dựng dữ liệu huấn luyện

    • Hình 4.8 Mô hình tổng quát của bộ xây dựng dữ liệu huấn luyện.

      • 4.2.1 Lớp TrainingData

      • 4.2.2 Lớp Cluster

      • 4.2.3 Lớp DataGeneration

    • Bảng 4.3 Các thuộc tính và phương thức chính của lớp DataGeneration

    • Hình 4.9 Lớp biểu diễn đối tượng DataGeneration

      • 4.2.4 Lớp Matching

    • Hình 4.10 Các lớp biểu diễn cơ chế so khớp hai chuỗi

      • 4.2.5 Cài đặt giao diện

    • Bảng 4.4 Danh sách thông số quan trong của bộ xây dựng dữ liệu huấn luyện

      • 4.2.6 Giao diện

    • Hình 4.11 Giao diện bộ xây dựng dữ liệu huấn luyện

      • 4.3 Xây dựng bộ phân lớp tập tin

        • 4.3.1 Cài đặt các lớp đối tượng

    • Bảng 4.5 Các lớp đối tượng trong bộ phân lớp tập tin

    • Hình 4.12 Các lớp đối tượng trong bộ phân lớp tập tin

      • 4.3.2 Xây dựng giao diện

    • Hình 4.13 Giao diện bộ phân lớp và kiểm tra tập tin

    • Chương 5. THỬ NGHIỆM

      • 5.1 Dữ liệu đầu vào

        • 5.1.1. Xác định thông số

          • 5.1.1.1. Lựa chọn ngưỡng so khớp trong giai đoạn xây dựng dữ liệu huấn luyện

          • 5.1.1.2. Lựa chọn số nơ-ron lớp ẩn

          • 5.1.1.3. Lựa chọn điều kiện dừng

      • 5.2 Phương pháp đánh giá

      • 5.3 Kết quả thực nghiệm

    • Bảng 5.2 Tỉ lệ phát hiện và tỉ lệ dương tính giả của ANIN và mô hình [7]

    • Chương 6. KẾT LUẬN

      • 6.1 Các kết quả đạt được

      • 6.2 Hạn chế

      • 6.3 Hướng phát triển

    • DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ

    • DANH MỤC TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan