Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security

21 595 0
Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH —&– BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: Khai mỏ dữ liệu trong bảo mật hệ thống Data mining in system security GVHD: GS.TSKH. Hoàng Văn Kiếm HVTH: Hà Minh Ái – CH1101001 Lớp: Cao học CNTT khóa 6 TP.HCM, 06-2012 Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 1 MỤC LỤC Danh sách hình vẽ 2 Tài liệu tham khảo 3 Thuật ngữ viết tắt 4 A. ĐẶT VẤN ĐỀ 5 B. NỘI DUNG 6 I. Khai mỏ dữ liệu (Data mining) 6 1. Giới thiệu 6 2. Các bài toán điển hình 8 II. Bảo mật hệ thống 10 III. Khai mỏ dử liệu trong bảo mật hệ thống 12 1. Phát hiện đối tượng ẩn danh 13 2. Gom nhóm cảnh báo phát hiện xâm nhập 17 C. KẾT LUẬN 20 Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 2 DANH SÁCH HÌNH VẼ Hình 1 – Quá trình khám phá tri thức 8 Hình 2 – Mô hình hệ thống mạng bảo mật 11 Hình 3 – Chu kỳ bảo mật 12 Hình 4 – Mô hình khai mỏ dữ liệu trong hệ thống mạng 13 Hình 5 – Phân cấp bộ tạo 18 Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 3 TÀI LIỆU THAM KHẢO [1] Hoàng Kiếm (chủ biên), Bài giảng cao học môn học Cơ sở tri thức và ứng dụng, Đại học Khoa học tự nhiên TP.HCM [2] Marcus A.Maloof, Machine Learning and Data Mining for Computer Security, Nhà xuất bản Springer, 2006 [3] Anoop Singhal, Data warehousing and Data mining techniques for cyber security, Nhà xuất bản Springer, 2007 [4] S.Prabhu, Data mining and Warehousing, Nhà xuất bản New Age International Limited, 2007 [5] Thông tin từ Internet Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 4 THUẬT NGỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CLARA Clustering Alarms for Root cause Analysis Gom nhóm cảnh báo cho việc phân tích nguyên nhân ban đầu CRM Customer Relationship Management Quản lý quan hệ khách hàng CSDL Cơ sở dữ liệu DNS Domain Name System Hệ thống phân giải tên miền DoS Denial of Service Từ chối dịch vụ FTP File Transfer Protocol Giao thức truyền tập tin HR Human Resources Nguồn nhân lực HTTP HyperText Transfer Protocol Giao thức truyền siêu văn bản IDS Intrusion Detection System Hệ thống phát hiện xâm nhập LAN Local Area Network Mạng cục bộ MIB Management Information Base Phần chứa thông tin quản lý NAT Network Address Translation Biên dịch địa chỉ mạng NFR Network Flight Recorder Bộ ghi sự đào tẩu khỏi mạng OLAP On-Line Analytical Processing Quá trình phân tích trực tuyến SYN Synchronous Đồng bộ TCP/IP Transmission Control Protocol / Internet Protocol Giao thức điều khuyển truyền dẫn và Internet WAN Wide Area Network Mạng diện rộng Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 5 A. ĐẶT VẤN ĐỀ Ngày nay, cùng với sự phát triển mạnh mẽ của Internet, nhân loại chìm ngập, sở hữu nguồn tri thức, thông tin dữ liệu khổng lồ được lưu trữ ở khắp nơi trên thế giới. Việc tận dụng, khai thác tối đa nguồn dữ liệu đó để phục vụ hoạt động kinh doanh, cuộc sống con người trở thành bài toán, thách thức cho ngành công nghệ thông tin. Các ứng dụng thành công bậc điển hình như kết quả tìm kiếm của Google khi đăng nhập và không đăng nhập, tính năng suggestion friends và news stream của Facebook, website bán sách trực tuyến amazon.com, …. Công nghệ thông tin phát triển với những thành tựu vượt bậc. Thế giới xuất hiện các trào lưu mạng xã hội, mạng không biên giới, ảo hóa, điện toán đám mây, truyền thông hợp nhất, thương mại điện tử, …. Đây là môi trường hoạt động thuận lợi của các tin tặc (hacker). Chúng tấn công mạng, cài mã độc, liên tục thích ứng với các biện pháp bảo vệ và đưa ra chiến thuật mới để phá vỡ các quy định về quyền riêng tư và an ninh mạng. Nhu cầu bảo mật hệ thống được đặt ra. Dựa vào việc phân tích hành vi, số giao dịch bất thường để nhận diện, dự đoán, phòng thủ hữu hiệu. Bài thu hoạch này ngoài việc tìm hiểu chung về Khai mỏ dữ liệu, Bảo mật hệ thống, còn đi sâu vào tìm hiểu, khám phá và Phân tích ứng dụng của khai mỏ dữ liệu trong bảo mật hệ thống. Qua đó thấy được tầm quan trọng, hiệu quả của công nghệ khai mỏ dữ liệu và ứng dụng chúng trong việc phát hiện xâm nhập, bất thường, lạm dụng, khai thác tính năng trong lĩnh vực bảo mật hệ thống. Xin gửi lời cảm ơn chân thành đến GS.TSKH. Hoàng Kiếm đã hướng dẫn tận tình các phương pháp nghiên cứu, tiếp cận công nghệ tri thức nói chung và khai mỏ dữ liệu nói riêng. Đồng thời, Thầy cũng chia sẻ những kinh nghiệm, gợi mở, tiếp cận vấn đề đang được quan tâm trong lĩnh vực công nghệ tri thức và ứng dụng của nó trong thực tế. Do bài thu hoạch làm với tư cách cá nhân nên chỉ dừng ở mức nghiên cứu công nghệ và ứng dụng. Nghiên cứu chuyên sâu, làm rõ vấn đề, sản phẩm ứng dụng sẽ được thực hiện tiếp trong chuyên đề “Khai mỏ dữ liệu”. Trong quá trình nghiên cứu đề tài này không tránh khỏi thiếu sót, mong Thầy và các bạn góp ý để bài thu hoạch hoàn thiện hơn. Chân thành cảm ơn Thầy và các bạn ! Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 6 B. NỘI DUNG I. Khai mỏ dữ liệu (Data mining) 1. Giới thiệu Khai mỏ dữ liệu ( data mining ) là quá trình tìm kiếm, khai thác, phát hiện các mối tương quan, quy tắc, mô hình, các mẫu có giá trị tiềm ẩn bên trong khối dữ liệu lớn, kho cơ sở dữ liệu (CSDL) của các đơn vị, doanh nghiệp, tổ chức ở những lĩnh vực quan hệ. Ngoài thuật ngữ khai mỏ dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL ( knowlegde mining from databases ), trích lọc dữ liệu ( knowlegde extraction ), phân tích dữ liệu hay mẫu ( data/pattern analysis ), khảo cổ dữ liệu ( data archaeology ), nạo vét dữ liệu ( data dredging ). Khai mỏ dữ liệu liên quan đến xác suất thống kê, máy học, trí tuệ nhân tạo, CSDL, thuật toán, tính toán song song, thu nhận tri thức từ hệ chuyên gia và dữ liệu trừu tượng. Hiện nay, các hệ quản trị CSDL như SQL server, Oracle đã tích hợp tiện ích khai mỏ dữ liệu chạy trên hệ thống hiệu năng cao ( high performance ), sẵn sàng cao ( high available ), máy khách/máy chủ ( client/server ), xử lý song song ( parallel programming ). Khai mỏ dữ liệu bắt đầu từ các tập hợp dữ liệu để xây dựng một giả thuyết. Khai mỏ dữ liệu thực hiện phân tích dữ liệu từ nhiều kích thước, góc độ, phân loại, thăm dò ( exploratory ), quan điểm khác nhau; định vị lại việc truyền tải; rồi đưa ra những thông tin hữu ích hỗ trợ người tìm kiếm, truy xuất dữ liệu theo thời gian thực, đưa ra quyết định đầu tư, dự báo xu hướng phát triển, hành vi tương lai, phân tích thử nghiệm. Khai mỏ dữ liệu được ứng dụng nhiều trong tài chính, bán hàng, công nghiệp sản xuất, marketing, y học, viễn thông, thông tin khoa học (thời tiết, bão lụt, động đất), …. Các vấn đề quan tâm nổi bật như giá thành, mẫu, cách thức quảng cáo, kỹ năng nhân viên, chính sách kinh tế, nhu cầu thị trường, khuyến mãi, giảm giá, độ hài lòng của khách hàng, lợi nhuận, …. Ngành công nghiệp / Lĩnh vực ứng dụng Phân tích / Khai mỏ dữ liệu năm 2011 (Nguồn http://www.kdnuggets.com/polls/) [228 người bình bầu] (%) 2011 (trên) (%) 2010 (dưới) CRM/ Phân tích người tiêu dùng (57) 25.0% 26.8% Ngân hàng (43) 18.9% 19.2% Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 7 Chăm sóc sức khỏe/ HR (38) 16.7% 13.1% Giáo dục (37) 16.2% 9.9% Phát hiện gian lận (32) 14.0% 12.7% Khoa học (31) 13.6% 10.3% Mạng xã hội (30) 13.2% 6.6% Chấm điểm tín dụng (29) 12.7% 8.0% Tiếp thị trực tiếp/ Gây quỹ (28) 12.3% 11.3% Bảo hiểm (28) 12.3% 10.3% Tài chính (26) 11.4% 11.3% Viễn thông/ Cáp (25) 11.0% 10.8% Bán lẻ (24) 10.5% 8.0% Y tế/ Thuốc (22) 9.6% 8.0% Công nghệ sinh học/ Nghiên cứu cấu trúc gen (21) 9.2% 5.6% Chính phủ/ Quân đội (17) 7.5% 6.1% Du lịch/ Bệnh viện (17) 7.5% 1.4% Quảng cáo (16) 7.0% 9.9% Khai phá sử dụng web (16) 7.0% 8.9% Phần mềm (16) 7.0% 0.0% Thương mại điện tử (12) 5.3% 7.0% Sản xuất (12) 5.3% 8.0% Tìm kiếm/ Khai phá nội dung web (12) 5.3% 6.6% Đầu tư/ Chứng khoán (10) 4.4% 5.6% Giải trí/ Ca nhạc/ Tivi/ Điện ảnh (8) 3.5% 3.3% Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 8 An ninh/ Chống khủng bố (4) 1.8% 1.9% Chính sách xã hội/ Phân tích khảo sát (4) 1.8% 0.9% Thư rác/ Chống thư rác (3) 1.3% 0.9% Khác (17) 11.7% 7.5% Khai mỏ dữ liệu là một phần của khám phá tri thức trong CSDL ( knowledge discovery in database ). Quá trình khám phá tri thức được cụ thể bằng mô hình sau: Hình 1 – Quá trình khám phá tri thức ü (1): Trích chọn dữ liệu cần khai mỏ từ tập dữ liệu lớn theo quy tắc định trước do người dùng chỉ ra hoặc truy vấn nhận được ü (2): Bước đầu xử lý dữ liệu: Nhất quán, lọc nhiễu, rút gọn, rời rạc hóa dữ liệu ü (3): Biến đổi dữ liệu bằng cách chuẩn hóa, làm mịn dữ liệu ü (4): Khai mỏ dữ liệu bằng kỹ thuật phân tích nhằm tìm kiếm, phát hiện, trích chọn các mẫu thông tin, mối quan hệ tìm ẩn trong tập dữ liệu ü (5): Biến đổi, biển diễn dữ liệu trên dạng đồ thị, cây, bảng, … và đánh giá tri thức vừa khai mỏ được theo quan điểm người dùng 2. Các bài toán điển hình Khai mỏ dữ liệu được ứng dụng rộng rãi vì có thể làm việc với nhiều kiểu dữ liệu khác nhau như dữ liệu quan hệ, dữ liệu đa chiều, dữ liệu chuỗi thời gian, dữ liệu văn bản, …. OLAP ( On-Line Analytical Processing ) là phương pháp phân tích dữ liệu đa chiều phổ biến. Một số bài toán điển hình về khai mỏ dữ liệu: - Phát hiện luật kết hợp (Association rules): Việc tìm ra các mối liên hệ giữa các thuộc tính, trường mô tả đối tượng trong tập dữ liệu nhờ tần suất xuất hiện cùng nhau của chúng và xây dựng thành các luật cụ thể. Nếu thuật toán xét qua tất cả các liên kết giá trị thuộc tính và thời gian càng dài thì thông tin có độ tương quan càng nhiều và chính xác trong tập các mẫu. Đây là dạng biểu diễn tri thức đơn Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 9 giản. Luật kết hợp bao gồm những giá trị thuộc tính, mức hỗ trợ (%), sự tin cậy (%) theo thuật toán Apriori. Luật kết hợp có dạng: A => B Cặp thuộc tính giá trị: (X i ,Y j ) với i, j = 0, 1, 2, …, n Luật này thường ứng dụng trong lĩnh vực kinh doanh, y sinh học, tài chính, chứng khoán, bảo mật. Ví dụ, khi kẻ đột nhập có hành vi tấn công phần vật lý (physical) hệ thống thì cũng tấn công phần mạng (network); hoặc người phụ nữ đi siêu thị thì thường mua nước hoa, son phấn. - Mô tả và phân lớp (classification) dữ liệu: Đánh dấu những đối tượng dữ liệu có đặc trưng, mô hình, chức năng riêng; rồi xếp vào một trong những lớp đã biết trước nhằm đặc trưng hóa và phân biệt dữ liệu. Hướng tiếp cận này gọi là học có giám sát, thường sử dụng các kỹ thuật của máy học như cây quyết định, mạng nơron nhân tạo, …. Mô tả tập trung vào tìm kiếm các mẫu mà con người có thể hiểu được để mô tả dữ liệu. Biểu diễn, ngôn ngữ giả thuyết, ngôn ngữ mô tả khái niệm dùng để xây dựng các mô hình. Ví dụ, khi phát hiện sự kiện hoặc quan sát bất thường khi khai mỏ dữ liệu trong bảo mật hệ thống thì phân chúng vào một trong các lớp của mô hình; trong dữ liệu loại tin tặc tấn công, các lớp bị tấn công bao gồm lớp vật lý (physical), lớp liên kết dữ liệu (data link), lớp mạng (network), lớp vận chuyển (transport), lớp phiên (session), lớp trình bày (presentation), và lớp ứng dụng (application); hoặc trong siêu thị có nhiều mặt hàng hóa như thực phẩm thức ăn, đồ uống, mỹ phẩm, quần áo, thiết bị, … Mô hình dựa trên sự phân tích một tập các dữ liệu như nguyên tắc suy diễn (if-then) từ các tập dữ liệu thống kê; cây quyết định: một tập các quyết định biểu diễn dưới dạng cây; phương pháp hàng xóm gần nhất (nearest neighbor): phân loại từng bản ghi, thông tin trong tập dữ liệu dựa trên sự kết hợp của k records có độ giống nhau nhất trong tập dữ liệu quá khứ, Phương pháp trung bình thông tin lẫn nhau: Tính hữu ích của thông tin (j) = !(" # , $) %&{' ( }) * &{+,,} / 0(1 2 ,3) 4(5 6 )7(8) Trong đó: C: Lớp [...]... những mật khẩu không được mã hóa và rời khỏi mạng Một dạng tấn công khác, xâm nhập vật lý để đặt thiết bị để đoạt khóa mã hóa III Khai mỏ dữ liệu trong bảo mật hệ thống Nhiều vấn đề khai mỏ dữ liệu cổ điển áp dụng trong lĩnh vực bảo mật hệ thống ở giai đoạn phát hiện của chu kỳ bảo mật hệ thống như lựa chọn, xây dựng, học tập gia tăng hoặc học qua mạng, nhiễu trong tập dữ liệu, phân phối dữ liệu sai... nhận cụm báo động đươc xác định bởi CLARA Hà Minh Ái – CH1101001 19 Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống C KẾT LUẬN Ứng dụng khai mỏ dữ liệu trong bảo mật hệ thống nhằm tìm kiếm, phát hiện, phân tích, tổng hợp, báo cáo, hỗ trợ ra quyết định để tăng cường an ninh hệ thống Việc phát hiện xâm nhập linh hoạt hơn khi có mô hình và cập nhật dữ liệu thường xuyên, học toàn bộ không gian miền... thống gồm mạng, hệ điều hành, ứng dụng, điểm nhạy cảm Bảo mật hệ thống thường kết các yếu tố như bảo mật, tính toàn vẹn và xác thực Hình 2 – Mô hình hệ thống mạng bảo mật Kẻ xâm nhập, thăm dò thường hướng đến hệ thống kết nối Internet Các tổ chức đang tri n khai hàng loạt các biện pháp để ngăn chăn các cuộc tấn công này Các vấn đề quan tâm của bảo mật hệ thống bao gồm việc phát hiện, đáp ứng, ngăn chặn... truy cập vào Windows Registry của Microsoft sử dụng thuật toán phát hiện bất thường dựa vào xác suất Hệ thống phát hiện hành vi đăng ký bất thường bằng cách đào tạo trên một tập dữ liệu truy Hà Minh Ái – CH1101001 14 Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống cập đăng ký bình thường Sau đó sử dụng mô hình này để phát hiện các giá trị ngoại lai được tạo ra từ cùng hệ thống trong dữ liệu mới... II Bảo mật hệ thống Nỗ lực bảo vệ kết nối máy tính, người dùng, đối tác, máy chủ web, mail, … với hệ thống mạng ngày càng trở nên quan trọng hơn Bảo mật hệ thống là một lĩnh vực rộng bao gồm nhiều khía cạnh cả về lý thuyết và thực tiễn Nó đóng vai trò quan trọng trong lĩnh vực tài chính, ngân hàng, tình báo, … Phạm vi bảo vệ Hà Minh Ái – CH1101001 10 Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống. .. định) và gom nhóm (thuật toán k-means) trong khối dữ liệu lớn để cải thiện an ninh mạng, hệ thống phòng thủ Các ý tưởng tương tác với một số khía cạnh bảo mật đang gặp khó khăn vì dữ liệu thích hợp có sẵn không được kiểm tra chặt chẽ, liên kết Việc cải thiện hiệu suất phòng thủ hiện có góp phần giảm tải cách tiếp cận khai mỏ dữ liệu Ứng dụng khai mỏ dữ liệu trong các lĩnh vực như tài chính, bảo hiểm,... mạng) và đáp ứng (giảm nhẹ, phân tích, phục hồi, cải thiện) hành vi vi phạm này Phản ứng này thường bao gồm phân tích lý do tại sao các cơ chế bảo vệ không thành công và cải thiện chúng để ngăn chặn lỗi trong tương lai Hà Minh Ái – CH1101001 11 Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống Hình 3 – Chu kỳ bảo mật Mô hình hệ thống thông thường được xây dựng trên cơ sở phân tán, cho phép lưu trữ và. .. nhiễu trong tập dữ liệu, phân phối dữ liệu sai lệch, khai thác phân phối Kỹ thuật khai mỏ dữ liệu hữu ích trong việc xác định mô hình hoạt động, hành vi đề nghị bạn hay thù Phiên phát hiện sử dụng sai Hà Minh Ái – CH1101001 12 Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống mục đích, thống kê các mã độc hại, mẫu thử nghiệm để tương tác nhận thức an ninh mạng của toàn bộ lưu lượng mạng Việc xem xét...Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống vj: Giá trị của thuộc tính thứ j P(vj,C): Tỷ lệ mà thuộc tính thứ j có giá trị vj trong lớp Ci P(vj): Tỷ lệ mà n-gram thứ j nhận giá trị vj trong dữ liệu mẫu P(C): Tỷ lệ dữ liệu mẫu thuộc lớp C - Gom nhóm (Clustering): Gom các đối tượng dữ liệu vào một nhóm Các đối tượng này có thể tương tự với một đối tượng khác trong cùng nhóm, hoặc không... định vào dữ liệu nguồn Hình 4 – Mô hình khai mỏ dữ liệu trong hệ thống mạng Khi áp dụng các thuật toán, cần thu thập đủ dữ liệu, xử lý trực tuyến (cùng lúc theo thời gian) Đối với tập dữ liệu lớn và thường xuyên thay đổi, cần sử dụng thuật toán gia tăng dùng cho các mẫu mới để sửa đổi mô hình hiện tại Thuật toán dựa vào khoảng cách (hàng xóm, gần nhất) tính toán khoảng cách giữa vị trí quan sát và mẫu . Khai mỏ dữ liệu trong bảo mật hệ thống Hà Minh Ái – CH1101001 6 B. NỘI DUNG I. Khai mỏ dữ liệu (Data mining) 1. Giới thiệu Khai mỏ dữ liệu ( data mining ) là quá trình tìm kiếm, khai. HỌC CÔNG NGHỆ THÔNG TIN ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH —&– BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: Khai mỏ dữ liệu trong bảo mật hệ thống Data mining. liệu, Bảo mật hệ thống, còn đi sâu vào tìm hiểu, khám phá và Phân tích ứng dụng của khai mỏ dữ liệu trong bảo mật hệ thống. Qua đó thấy được tầm quan trọng, hiệu quả của công nghệ khai mỏ dữ liệu

Ngày đăng: 10/04/2015, 15:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan