KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG PHÁT HIỆN XÂM NHẬP TRÁI PHÉP

18 462 0
KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG PHÁT HIỆN XÂM NHẬP TRÁI PHÉP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Đỗ Xuân Cường KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG PHÁT HIỆN XÂM NHẬP TRÁI PHÉP Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LƯƠNG THẾ DŨNG LỜI CẢM ƠN Đầu tiên em xin gửi lời cảm ơn sâu sắc tới TS Lương Thế Dũng, người hướng dẫn khoa học, tận tình bảo, giúp đỡ em thực luận văn Em xin cảm ơn thầy cô trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên giảng dạy truyền đạt kiến thức cho em Em xin trân thành cảm ơn đồng chí Lãnh đạo Sở Thông tin Truyền thông đồng nghiệp tạo điều kiện giúp đỡ em hoàn thành nhiệm vụ học tập Em xin bày tỏ lòng biết ơn gia đình, bạn bè người thân động viên khuyến khích giúp đỡ suốt trình hoàn thành luận văn Mặc dù cố gắng hoàn thành luận văn với tất nỗ lực thân, luận văn thiếu sót Kính mong nhận ý kiến đóng góp quý Thầy, Cô bạn bè đồng nghiệp Em xin trân thành cảm ơn! ii LỜI CAM ĐOAN Luận văn kết nghiên cứu tổng hợp kiến thức mà thân thu thập trình học tập trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên, hướng dẫn, giúp đỡ thầy cô bạn bè đồng nghiệp, đặc biệt hướng dẫn TS Lương Thế Dũng – Trưởng khoa An toàn thông tin, Học viện Kỹ thuật Mật mã Em xin cam đoan luận văn sản phẩm chép công trình khoa học Thái Nguyên, ngày tháng HỌC VIÊN Đỗ Xuân Cường năm 2015 iii MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC HÌNH VẼ vii LỜI NÓI ĐẦU CHƯƠNG I: TỔNG QUAN VỀ TẤN CÔNG MẠNG MÁY TÍNH VÀ CÁC PHƯƠNG PHÁP PHÁT HIỆN 1.1 Các kỹ thuật công mạng máy tính 1.1.1 Một số kiểu công mạng 1.1.2 Phân loại mối đe dọa bảo mật hệ thống 1.1.3 Các mô hình công mạng 1.2 Một số kỹ thuật công mạng 12 1.2.1 Tấn công thăm dò 12 1.2.2 Tấn công xâm nhập 12 1.2.3 Tấn công từ chối dịch vụ 13 1.2.4 Tấn công từ chối dịch vụ cổ điển 13 1.2.5 Tấn công dịch vụ phân tán DdoS 14 1.3 Hệ thống phát xâm nhập trái phép 18 1.3.1 Khái niệm hệ thống phát xâm nhập trái phép 18 1.3.2 Các kỹ thuật phát xâm nhập trái phép 21 1.3.3 Ứng dụng kỹ thuật khai phá liệu cho việc phát xâm nhập trái phép 24 CHƯƠNG II: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 2.1 Phân cụm phân hoạch 26 26 2.1.1 Thuật toán K-means 27 2.1.2 Thuật toán CLARA 30 2.1.3 Thuật toán CLARANS 31 2.2 Phân cụm phân cấp 33 2.2.1 Thuật toán CURE 34 iv 2.2.2 Thuật toán CHAMELEON 37 2.3 Phân cụm dựa mật độ 39 2.3.1 Thuật toán DBSCAN 40 2.3.2 Thuật toán OPTICS 42 2.4 Phân cụm dựa lưới 44 2.4.1 Thuật toán STING 45 2.4.2 Thuật toán CLIQUE 47 2.4.3 Thuật toán WaveCluster 49 2.5 Phân cụm dựa mô hình 52 2.5.1 Thuật toán EM 52 2.5.2 Thuật toán COBWEB 54 2.6 Phân cụm liệu mờ 55 CHƯƠNG III: ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG PHÁT HIỆN XÂM NHẬP TRÁI PHÉP 3.1 Mô hình toán 56 56 3.1.1 Thu thập liệu 56 3.1.2 Trích rút lựa chọn thuộc tính 59 3.1.3 Xây dựng phân cụm 62 3.2 Xây dựng thực nghiệm phát xâm nhập trái phép 63 3.2.1 Môi trường công cụ thực nghiệm 63 3.2.2 Tiến hành thực nghiệm kết đạt 64 KẾT LUẬN 71 v DANH MỤC CÁC TỪ VIẾT TẮT TT Viết tắt Nội dung CNTT Công nghệ thông tin ATTT An toàn thông tin CSDL Cơ sở liệu IDS Hệ thống phát xâm nhập PHXN Phát xâm nhập KDD Khám phá tri thức sở liệu KPDL Khai phá liệu PCDL Phân cụm liệu PAM Thuật toán phân cụm phân hoạch vi DANH MỤC CÁC BẢNG Bảng 3.1: Bảng mô tả lớp công từ chối dịch vụ (DoS) 57 Bảng 3.2: Bảng mô tả lớp công trinh sát (Probe) 58 Bảng 3.3: Bảng mô tả lớp công leo thang đặc quyền (U2R) 58 Bảng 3.4: Bảng mô tả lớp công truy cập từ xa (R2L) 59 Bảng 3.5: Bảng mô tả 41 thuộc tính tập liệu KDD Cup 1999 61 Bảng 3.6: Bảng phân phối số lượng ghi 62 Bảng 3.7: Kết phân cụm K-means với cụm k khác 65 Bảng 3.8: Kết phân cụm EM với cụm k khác 67 Bảng 3.9: Bảng so sánh kết phân cụm thuật toán K-means EM 70 vii DANH MỤC HÌNH VẼ Hình 1.1: Mô hình công truyền thống Hình 1.2: Mô hình công phân tán 10 Hình 1.3: Các bước công mạng 10 Hình 1.4: Tổng quan sơ đồ hình công DDoS 16 Hình 1.5: Đặt sensor phía sau hệ thống Firewall 21 Hình 1.6: Mô tả dấu hiệu xâm nhập 22 Hình 1.7: Quá trình khai phá liệu việc xây dựng mô hình PHXN 24 Hình 2.1 Ví dụ bước thuật toán k-means 29 Hình 2.2: Các cụm liệu khám phá CURE 35 Hình 2.3: Ví dụ thực phân cụm thuật toán CURE 37 Hình 2.4: Mô hình CHAMELEON, Phân cụm phân cấp dựa k-láng giềng gần mô hình hóa động 38 Hình 2.5: Hình dạng cụm khám phá thuật toán DBSCAN 42 Hình 2.6: Sắp xếp cụm OPTICS phụ thuộc vào ε [8] 44 Hình 2.7: Một mẫu không gian đặc trưng chiều 51 Hình 2.8: Đa phân giải không gian đặc trưng hình 2.7 a) Tỷ lệ 1; b) Tỷ lệ 2; c) Tỷ lệ 52 Hình 3.1: Các bước xây dựng mô hình phát xâm nhập trái phép 56 Hình 3.2: Số lượng ghi có tập liệu thực nghiệm 62 Hình 3.3: Tập liệu đưa vào phân cụm qua Weka Explorer 64 Hình 3.4: Tham số cài đặt phân cụm K-means với Weka Explorer 65 Hình 3.5: Tham số cài đặt phân cụm EM với Weka Explorer 66 Hình 3.6: Trực quan kết sau phân cụm (k=5) với Weka Explorer 67 Hình 3.7: Phân cụm k-means Cluster 3.0 68 Hình 3.8: Mô hình đồ họa trực quan kết sau kiểu công 69 Hình 3.9: Biểu đồ so sánh kết phân cụm thuật toán K-means EM 70 LỜI NÓI ĐẦU Công nghệ thông tin liên tục phát triển thay đổi, nhiều phần mềm đời mang đến cho người nhiều tiện ích hơn, lưu trữ nhiều liệu hơn, tính toán tốt hơn, chép truyền liệu máy tính nhanh chóng thuận tiện hơn, Hệ thống mạng máy tính đơn vị trang bị tồn nhiều lỗ hổng nguy an toàn thông tin Các vụ xâm nhập mạng lấy cắp thông tin nhạy cảm phá hủy thông tin diễn ngày nhiều, thủ đoạn kẻ phá hoại ngày tinh vi Công nghệ phát xâm nhập trái phép hầu hết dựa phương pháp đối sánh mẫu, phương pháp cho kết phát tốt, nhiên đòi hỏi hệ thống phát xâm nhập trái phép phải xây dựng sở liệu mẫu khổng lồ liên tục phải cập nhật Vì lĩnh vực nghiên cứu để tìm phương pháp phát xâm nhập trái phép hiệu nhiều người quan tâm Trong đó, hướng quan trọng lĩnh vực dựa kỹ thuật khai phá liệu [1] Hiện hầu hết quan, tổ chức, doanh nghiệp có hệ thống mạng máy tính riêng kết nối với mạng Internet ứng dụng nhiều chương trình, phần mềm CNTT vào hoạt động sản xuất kinh doanh Việc làm góp phần tích cực quản lý, điều hành, kết nối, quảng bá chìa khoá thành công cho phát triển chung họ cộng đồng Trong hệ thống mạng máy tính có chứa nhiều liệu, thông tin quan trọng liên quan đến hoạt động quan, tổ chức, doanh nghiệp Sự phát triển mạnh hệ thống mạng máy tính vùng đất có nhiều thuận lợi cho việc theo dõi đánh cắp thông tin nhóm tội phạm tin học, việc xâm nhập bất hợp pháp đánh cắp thông tin tổ chức, đơn vị đặt cho giới vấn đề làm để bảo mật thông tin tổ chức, đơn vị Phát xâm nhập bảo đảm an toàn an ninh mạng yếu tố quan tâm hàng đầu các tổ chức, đơn vị Đã có đơn vị thực việc thuê đối tác thứ với việc chuyên đảm bảo cho hệ thống mạng đảm bảo an toàn thông tin cho đơn vị mình, có đơn vị đưa kế hoạch tính toán chi phí cho việc mua sản phẩm phần cứng, phần mềm để nhằm đáp ứng việc đảm bảo an toàn an ninh thông tin Tuy nhiên giải pháp tổ chức, đơn vị phải thực cân đối sách tài năm với mục đích cho giải pháp an toàn thông tin tối ưu có chi phí rẻ đảm bảo thông tin trao đổi an toàn, bảo vệ thông tin đơn vị trước công tội phạm công nghệ từ bên mà đề tài Kỹ thuật phân cụm liệu phát xâm nhập trái phép dựa mã nguồn mở phát triển giúp phần yêu cầu tổ chức, đơn vị an toàn thông tin đảm bảo an toàn cho hệ thống mạng Đề tài “Kỹ thuật phân cụm liệu phát xâm nhập trái phép” học viên thực với mong muốn xây dựng cách hệ thống nguy tiềm ẩn xâm nhập trái phép vào mạng máy tính, phương pháp phân cụm liệu cụ thể cách thức để ứng dụng kỹ thuật phân cụm liệu phát xâm nhập trái phép, đảm bảo an toàn an ninh thông tin cho tổ chức, đơn vị 3 CHƯƠNG I: TỔNG QUAN VỀ TẤN CÔNG MẠNG MÁY TÍNH VÀ CÁC PHƯƠNG PHÁP PHÁT HIỆN 1.1 Các kỹ thuật công mạng máy tính Hiện chưa có định nghĩa xác thuật ngữ "tấn công" (xâm nhập, công kích) Mỗi chuyên gia lĩnh vực ATTT luận giải thuật ngữ theo ý hiểu Ví dụ, "xâm nhập - tác động đưa hệ thống từ trạng thái an toàn vào tình trạng nguy hiểm" Thuật ngữ giải thích sau: "xâm nhập - phá huỷ sách ATTT" "là tác động dẫn đến việc phá huỷ tính toàn vẹn, tính bí mật, tính sẵn sàng hệ thống thông tin xử lý hệ thống" Tấn công (attack) hoạt động có chủ ý kẻ phạm tội lợi dụng thương tổn hệ thống thông tin tiến hành phá vỡ tính sẵn sàng, tính toàn vẹn tính bí mật hệ thống thông tin Tấn công (attack, intrustion) mạng tác động trình tự liên kết tác động với để phá huỷ, dẫn đến việc thực hoá nguy cách lợi dụng đặc tính dễ bị tổn thương hệ thống thông tin Có nghĩa là, trừ nguy thương tổn hệ thông tin trừ bỏ khả thực công Để thực công mạng, người thực công phải có hiểu biết giao thức TCP/IP, có hiểu biêt vể hệ điều hành sử dụng thành thạo số ngôn ngữ lập trình Khi kẻ công xác định phương hướng công vào hệ thống 1.1.1 Một số kiểu công mạng Có nhiều dạng công mạng biết đến nay, dựa vào hành động công phân thành loại công thăm dò, công sử dụng mã độc, công xâm nhập mạng công từ chối dịch vụ 4 Hoặc chia thành loại công chung công chủ động công thụ động - Tấn công chủ động (active attack): Kẻ công thay đổi hoạt động hệ thống hoạt động mạng công làm ảnh hưởng đến tính toàn vẹn, sẵn sàng xác thực liệu - Tấn công bị động (passive attack): Kẻ công cố gắng thu thập thông tin từ hoạt động hệ thống hoạt động mạng làm phá vỡ tính bí mật liệu Dựa vào nguồn gốc công phân loại công thành loại hình công bao gồm: công từ bên công từ bên ngoài, công trực tiếp - Tấn công bên bao gồm hành vi mang tính chất xâm nhập hệ thống nhằm mục đích phá hoại Kẻ công bên thường người nằm hệ thống mạng nội bộ, lấy thông tin nhiều quyền cho phép Tấn công không chủ ý: Nhiều hư hại mạng người dùng mạng vô ý gây nên Những người vô ý để hacker bên hệ thống lấy password làm hỏng tài nguyên mạng thiếu hiểu biết Tấn công có chủ ý: Kẻ có chủ ý chống lại qui tắc, qui định sách an ninh mạng đưa - Tấn công bên công xuất phát từ bên hệ thống Internet hay kết nối truy cập từ xa; gồm có: + Kẻ công nghiệp dư (“script-kiddy”): Dùng script tạo sẵn tạo nên các thiệt hại mạng 5 + Kẻ công đích thực (“true- hacker”): Mục đích nhóm người thực công mạng để người thừa nhận khả họ để tiếng + Kẻ công chuyên nghiệp (“the elite”): Thực công mạng để thu lợi bất Tấn công bên dạng tất công trực tiếp, dạng công thông thường sử dụng giai đoạn đầu để chiếm quyền truy cập Phổ biến cách dò tìm tên người sử dụng mật Tội phạm mạng sử dụng thông tin liên quan đến chủ tài khoản ngày tháng năm sinh, tên vợ (chồng) hoặc số điện thoại để dò tìm thông tin tài khoản mật với mục đích chiếm quyền điều khiển tài khoản, thông thường tài khoản có mật đơn giản tội phạm mạng dò tìm mật qua thông tin chủ tài khoản, cách tiếp cận việc chiếm quyền truy nhập cách tìm tài khoản mật tài khoảng khác dùng chương trình để dò tìm mật Phương pháp số khả hữu dụng thành công đến 30% Một kiểu công bên khác đề cập đến hình thức nghe trộm, việc nghe trộm thông tin mạng đưa lại thông tin có ích tên, mật người sử dụng, thông tin mật chuyển qua mạng Việc nghe trộm thường tiến hành sau kẻ công chiếm quyền truy nhập hệ thống, thông qua chương trình cho phép đưa card giao tiếp mạng (Network Interface Card-NIC) vào chế độ nhận toàn thông tin lưu truyền mạng Những thông tin dễ dàng lấy Internet - Một số lỗi khác liên quan đến người, hệ thống kiểu công trực tiếp từ bên có mức độ phức tạp khó khăn hơn, nguy hiểm yếu tố người nhiều điểm yếu hệ thống bảo mật - Khi mạng máy tính bị công, bị chiếm lượng lớn tài nguyên máy chủ, mức độ chiếm lượng tài nguyên tùy thuộc vào khả huy động công tội phạm mạng, đến giới hạn định khả cung cấp tài nguyên máy chủ hết việc từ chối yêu cầu sử dụng dịch vụ người dùng hợp pháp bị từ chối Việc phát động công tội phạm mạng tùy thuộc vào số lượng máy tính ma mà tội phạm mạng kiểm soát, khả kiểm soát lớn thời gian để công làm sập hoàn toàn hệ thống mạng nhanh cấp độ công tăng nhanh hơn, tội phạm mạng lúc công nhiều hệ thống mạng khác tùy vào mức độ kiểm soát chi phối máy tính ma 1.1.2 Phân loại mối đe dọa bảo mật hệ thống a) Mối đe dọa bên Thuật ngữ mối đe dọa bên sử dụng để mô ta kiểu công thực từ người tổ chức có quyền truy cập vào hệ thống mạng Các cách công từ bên thực từ khu vực coi vùng tin cậy hệ thống mạng Mối đe dọa khó phòng chống nhân viên tổ chức có quyền hạn hệ thống mạng truy cập vào mạng liệu bí mật doanh nghiệp Phần lớn doanh nghiệp có tường lửa đường biên mạng họ tin tưởng hoàn toàn vào ACL (Access Control List) quyền truy cập vào server để qui định cho bảo mật bên Quyền truy cập server thường bảo vệ tài nguyên server không cung cấp bảo vệ cho mạng Mối đe dọa bên thường thực nhân viên, tổ chức bất bình, muốn “quay mặt” lại với doanh nghiệp Nhiều phương pháp bảo mật liên quan đến vành đai hệ thống mạng, bảo vệ mạng bên khỏi kết nối bên ngoài, truy cập Internet Khi vành đai hệ thống mạng bảo mật, phần tin cậy bên có khuynh hướng bị bớt nghiêm ngặt Khi kẻ xâm nhập vượt qua vỏ bọc bảo mật cứng cáp hệ thống mạng, chuyện lại thường đơn giản Các mạng không dây giới thiệu lĩnh vực quản trị bảo mật Không giống mạng có dây, mạng không dây tạo khu vực bao phủ bị can thiệp sử dụng có phần mềm adapter mạng không dây Không tất liệu mạng bị xem ghi lại mà công vào mạng thực từ bên trong, nơi mà sở hạ tầng dễ bị nguy hiểm nhiều Vì vậy, phương pháp mã hóa mạnh sử dụng mạng không dây b) Mối đe dọa từ bên Mối đe dọa bên từ tổ chức, phủ, cá nhân cố gắng truy cập từ bên mạng doanh nghiệp bao gồm tất người quyền truy cập vào mạng bên Thông thường, kẻ công từ bên cố gắng từ server quay số kết nối Internet Mối đe dọa bên mà doanh nghiệp thường phải bỏ nhiều hầu hết thời gian tiền bạc để ngăn ngừa c) Mối đe dọa cấu trúc Mối đe dọa cấu trúc mối đe dọa phổ biến hệ thống doanh nghiệp Các hacker vào nghề, thường gọi script kiddies, sử dụng phần mềm để thu thập thông tin, truy cập thực kiểu công DoS vào hệ thống doanh nghiệp 8 Script kiddies tin tưởng vào phần mềm kinh nghiệm hacker trước Khi script kiddies nhiều kiến thức kinh nghiệm, họ tiến hành phá hoại lên doanh nghiệp không chuẩn bị Trong trò chơi kiddie, doanh nghiệp thường hàng triệu đô la tin tưởng cộng đồng Nếu web server doanh nghiệp bị công, cộng đồng cho hacker phá vỡ bảo mật doanh nghiệp đó, thật hacker công chỗ yếu server Các server Web, FTP, SMTP vài server khác chứa dịch vụ có nhiều lổ hổng để bị công, server quan trọng đặt sau nhiều lớp bảo mật Cộng đồng thường không hiểu phá vỡ trang web doanh nghiệp dễ nhiều so với việc phá vỡ sở liệu thẻ tín dụng doanh nghiệp Cộng đồng phải tin tưởng doanh nghiệp giỏi việc bảo mật thông tin riêng tư d) Mối đe dọa có cấu trúc Mối đe dọa có cấu trúc khó ngăn ngừa phòng chống xuất phát từ tổ chức cá nhân sử dụng vài loại phương pháp luận thực công Các hacker với kiến thức, kinh nghiệm cao thiết bị tạo mối đe dọa Các hacker biết gói tin tạo thành phát triển mã để khai thác lỗ hổng cấu trúc giao thức Họ biết biện pháp sử dụng để ngăn ngừa truy cập trái phép, hệ thống IDS cách chúng phát hành vi xâm nhập Họ biết phương pháp để tránh cách bảo vệ Trong vài trường hợp, cách công có cấu trúc thực với trợ giúp từ vài người bên Đây gọi mối đe dọa có cấu trúc bên Cấu trúc không cấu trúc mối đe dọa bên bên 1.1.3 Các mô hình công mạng a) Mô hình công truyền thống Mô hình công truyền thống tạo dựng theo nguyên tắc “một đến một” “một đến nhiều”, có nghĩa công xảy từ nguồn gốc Mô tả: Tấn công “một đến một” Hình 1.1: Mô hình công truyền thống b) Mô hình công phân tán Khác với mô hình truyền thống mô hình công phân tán sử dụng quan hệ “nhiều đến một” “nhiều đến nhiều” Tấn công phân tán dựa công “cổ điển” thuộc nhóm “từ chối dịch vụ”, xác dựa công Flood hay Storm (những thuật ngữ hiểu tương đương “bão”, “lũ lụt” hay “thác tràn”) 10 Hình 1.2: Mô hình công phân tán c) Các bước công mạng Hình 1.3: Các bước công mạng Xác định mục tiêu công Thu thập thông tin, tìm lỗ hổng Lựa chọn mô hình công Thực công Xóa dấu vết cần Các kiểu công có nhiều hình thức khác nhau, thông thường thực qua bước theo hướng mô tả sau: + Xác định mục tiêu công: Xác định rõ mục tiêu cần công, nơi chuẩn bị công

Ngày đăng: 03/08/2016, 08:57

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan