tóm tắt luận án tiến sĩ NGHIÊN CỨU MỘT SỐ KỸ THUẬT phát hiên giả mạo trên wep

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _______________________ Lê Đăng Nguyên NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÁT HIỆN GIẢ MẠO TRÊN WEB Chuyªn ngµnh : Cơ sở toán học cho Tin học M· sè: 62 46 01 10 DỰ THẢO TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2014 2 Công trình được hoàn thành tại Khoa Toán – Cơ – Tin học, Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS. TS Lê Trọng Vĩnh PGS. TS Đỗ Trung Tuấn Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . …………………………… . Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . …………………………… Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vào hồi giờ ngày tháng năm 20 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội 3 LỜI NÓI ĐẦU Internet đã mở ra một làn sóng mới về xu hướng phát triển của xã hội - thời đại của công nghệ thông tin và truyền thông. Nhiều dịch vụ trực tuyến được phát triển mạnh mẽ trong thương mại điện tử, thanh toán trực tuyến, kinh doanh, tài chính, công nghiệp, an ninh, y tế,… cho phép người sử dụng truy cập, khai thác và chia sẻ thông tin mọi lúc mọi nơi. Song song với những tiến bộ và lợi ích mang lại, Internet cũng là không gian rộng mở cho kẻ xấu lợi dụng thực hiện những vụ tấn công, truy cập trái phép vào các hệ thống máy tính và mạng của người dùng. Hệ thống phát hiện xâm nhập mạng IDS (Intrusion Detection System) có nhiệm vụ phân tích các thông tin, theo dõi, phát hiện và ngăn chặn sự xâm nhập trái phép tài nguyên làm tổn hại đến tính bảo mật, tính toàn vẹn và tính sẵn sàng của hệ thống. Có nhiều cách tiếp cận khác nhau trong việc phát triển hệ thống IDS. Trong số đó, so khớp mẫu là một kỹ thuật được sử dụng phổ biến trong các hệ thống phát hiện và ngăn chặn xâm nhập mạng. Việc phát hiện các nguy cơ tiềm ẩn trong hệ thống phát hiện xâm nhập mạng được thực hiện bằng cách so khớp nội dung gói tin với các mẫu đã biết. Với sự đa dạng về số lượng các đợt tấn công, hình thức tấn công thì việc thu thập đầy đủ các mẫu làm cho kích thước tập mẫu ngày càng tăng nhanh. Có rất nhiều thuật toán so khớp mẫu Error! Reference source not found.,50] đã được sử dụng trong hệ thống phát hiện xâm nhập Snort Error! Reference source not found.,6]. Tuy nhiên, các thuật toán này vẫn tồn tài một số vấn đề như hiệu năng giảm và tiêu tốn nhiều thời gian thực hiện khi số lượng các mẫu tăng lên. Do vậy, việc nghiên cứu cải tiến hay đề xuất các thuật toán so khớp mới đáp ứng việc so khớp đồng thời nhiều mẫu trong các hệ thống phát hiện xâm nhập là một nhu cầu cấp thiết và đây là mục tiêu thứ nhất của luận án này. Với mục tiêu này, luận án đã (i) phân tích đánh giá về hiệu năng cũng như thời gian thực hiện các thuật toán so khớp đơn mẫu trên hệ thống phát hiện thâm nhập Snort; (ii) Đưa ra các cải tiến cho thuật toán so khớp đa mẫu Aho - Corasick bằng cách sử dụng kỹ thuật nén dòng và bảng chỉ số nhằm nâng cao hiệu quả của thuật toán, các phân tích và so sánh thực tế nhằm kiểm nghiệm lý thuyết cũng đã được thực hiện trên hệ thống Snort ; (iii) Luận án cũng đề xuất một thuật toán so khớp đa mẫu mới bằng cách xây dựng biểu đồ của các mẫu kết hợp với danh sách liên kết làm giảm thời gian thực hiện việc so khớp đồng thời đa mẫu. Việc cài đặt thực nghiệm của thuật toán với trong sự so sánh với một số thuật toán đã tồn tại cũng đã triển khai trên hệ thống Snort. Một vấn đề khác cũng liên quan đến an toàn đó là vấn đề giả mạo (phishing hay fake) nói chung và giả mạo web nói riêng. Giả mạo và phát tán trên mạng là một loại tội phạm kỹ thuật xã hội đáng chú ý trên mạng. Cũng giống như xâm nhập mạng, nhiệm vụ đầu tiên là phải nhận biết (phát hiện) được các cuộc xâm nhập, việc đầu tiên để ngăn chặn và xóa bỏ các trang web giả mạo là phát hiện ra chúng. Có rất nhiều các cách tiếp cận khác nhau để phát hiện các trang web giả mạo. Một đặc tính nổi bật nhất của trang web giả mạo là nó phải tương tự như trang web gốc. Điều này có nghĩa là hai trang web gốc và web giả mạo có cấu trúc giống nhau. Mặt khác, DOM là tên gọi tắt của Document Object Model - tạm dịch Mô hình đối tượng tài liệu - là một chuẩn được định nghĩa bởi W3C dùng để truy xuất và thao tác trên các tài 4 liệu có cấu trúc dạng HTML hay XML bằng các ngôn ngữ lập trình thông dịch (scripting language) như Javascript, PHP, Python, Do vậy, để so sánh hai trang web với nhau chúng ta có thể so sánh hai DOM-Tree tương ứng của chúng. Đây là mục tiêu thứ hai của luận án. Cây (Tree) là một dạng đặc biệt của đồ thị (Graph), vì vậy với mục tiêu thứ hai, luận án đã nghiên cứu bài toán tổng quát hơn đó là so khớp đồ thị. Các kết quả của luận án đã (i) Đưa ra thuật toán mới dựa trên thuật toán di truyền để so khớp các đồ thị không chính xác. Thuật toán mới có thể áp dụng đối với lớp đồ thị vô hướng, có hướng, có trọng số hay gán nhãn. (ii) Áp dụng việc so khớp đồ thị vào việc so khớp các DOM-Tree để phát hiện các trang web giả mạo. Với các mục tiêu của luận án như trên, luận án được tổ chức thành ba chương như sau. Chương 1 trình bày tổng quan về xâm nhập mạng và giả mạo trên mạng. Chương 2 được dùng để trình về các thuật toán so khớp đơn mẫu và đa mẫu áp dụng trong việc phát hiện xâm nhập mạng. Chương 3 trình bày về so khớp đồ thị và phát hiện các trang website giả mạo. Cuối cùng là phần kết luận và hướng phát triển của luận án. Chương 1. TỔNG QUAN VỀ THÂM NHẬP VÀ GIẢ MẠO TRÊN MẠNG 1.1 Giới thiệu Internet đã mở ra một làn sóng mới về xu hướng phát triển của xã hội - thời đại của công nghệ thông tin và truyền thông. Nhiều dịch vụ trực tuyến được phát triển mạnh mẽ trong thương mại điện tử, thanh toán trực tuyến, kinh doanh, tài chính, công nghiệp, an ninh, y tế,… cho phép người sử dụng truy cập, khai thác và chia sẻ thông tin mọi lúc mọi nơi. Tất cả các dịch vụ này làm cho mạng máy tính trở thành mục tiêu hấp dẫn cho sự lạm dụng và tổn thương đến cộng đồng người sử dụng. Nói cách khác, song song với những tiến bộ và lợi ích mang lại, Internet cũng là không gian rộng mở cho kẻ xấu lợi dụng thực hiện những vụ tấn công, đột nhập, truy cập trái phép vào các hệ thống máy tính và mạng của người dùng. Vì thế, bên cạnh việc phát triển các dịch vụ và ứng dụng trên mạng, an ninh thông tin và an toàn hệ thống là một vấn đề hết sức quan trọng cần được quan tâm nghiên cứu thường xuyên. Vấn đề an ninh thông tin và an toàn hệ thống bao gồm rất nhiều chủ đề, do vậy luận án này chỉ tập trung nghiên cứu chính về phát hiện xâm nhập mạng và sự giả mạo trên mạng. 1.2 Xâm nhập trái phép 1.2.1 Một số kỹ thuật xâm nhập trái phép Tấn công (attack) là sự vi phạm chính sách an toàn bảo mật của hệ thống đó. Có rất nhiều kỹ thuật được dùng để xâm nhập mạng như: - Trap-door; Logic Bomb; Trojan Horse; Worm; Zombies; Man-in-the-Middle; Eavesdropping;IP Address Spoofing/ Identity Spoofing 1.2.2 Một số giải pháp kỹ thuật ngăn chặn xâm nhập Các biện pháp ngăn chặn đột nhập được sử dụng khá phổ biến gồm tường lửa, xác thực, mã hóa, Tường lửa (Firewall): Mã hóa dữ liệu (Data Encryption); Xác thực (Authentication); Quyền truy cập (Access Rights): 1.2.3 Hệ thống phát hiện xâm nhập trái phép 1.2.3.1. Hệ thống phát hiện xâm nhập mạng 1.2.3.2. Phân loại hệ thống phát hiện xâm nhập mạng 5 Người ta thường phân loại các hệ thống IDS dựa trên nguồn cung cấp dữ liệu cho phát hiện đột nhập. Có hai loại hệ thống phát hiện đột nhập (IDS) cơ bản: - Hệ thống phát hiện đột nhập cho mạng (NIDS: Network – based IDS) - Hệ thống phát hiện đột nhập cho host (HIDS: Host – based IDS) 1.2.3.3. Hệ thống phát hiện xâm nhập Snort 1.2.3.3.1. Kiến trúc của Snort Snort bao gồm nhiều thành phần (module), với mỗi module có một chức năng riêng. Các module chính đó là: Giải mã gói tin (Packet Decoder); Tiền xử lý (Preprocessors); Phát hiện (Detection Engine); Truy cập và cảnh báo (Logging and Alerting System); Kết xuất thông tin (Output Module) 1.2.4 Một số nghiên cứu liên quan đến hệ thống phát hiện xâm nhập Có hai phương pháp chính để phát hiện xâm nhập mạng: dựa trên trên đặc trưng (signature-based) và dựa trên bất thường (anomaly- based). Trong cách tiếp cận đầu tiên, mô hình tấn công hay hành vi của kẻ xâm nhập được mô hình hóa (dấu hiệu tấn công được mô hình hóa). Ở đây, hệ thống sẽ báo hiệu xâm nhập xảy ra mỗi khi một phép so khớp trùng nhau được xác định. Trong cách tiếp cận thứ hai, hành vi bình thường của mạng là được mô hình hóa. Trong cách tiếp cận này, hệ thống sẽ đưa ra các cảnh bảo khi hành vi mạng không khớp với bình thường. Cách tiếp cận của chúng tôi: Sử dụng các thuật toán so khớp đơn mẫu, so khớp đa mẫu và ứng dụng so khớp đa mẫu trong việc phát hiện xâm nhập mạng. Áp dụng của thuật toán so khớp đồ thị vào việc phát hiện trang web giả mạo dựa vào cấu trúc DOM của chúng. 1.3 Giả mạo 1.3.1. Giới thiệu Giả mạo là một hành vi giả mạo ác ý nhằm lấy được các thông tin nhạy cảm như tên người dùng, mật khẩu và các chi tiết thẻ tín dụng bằng cách giả dạng thành một chủ thể tin cậy trong một giao dịch điện tử. Do vậy, việc nghiên cứu và phát hiện các trang web giả mạo là một nhu cầu cấp thiết hiện nay. 1.3.2. Một số kỹ thuật Sử dụng thư điện tử giả mạo; Sử dụng các trang web giả mạo; Bắt trước URL; Cập nhật thông tin cá nhân; Che giấu URL; Nhiễm độc DNS: Tuy nhiên, trong khuôn khổ của luận án này, chúng tôi chỉ tập trung nghiên cứu về giả mạo web. 1.3.3. Một số nghiên cứu liên quan đến giả mạo web Phần lớn các trang web giả mạo đều cố gắng bắt trước các trang web hợp lệ đến mức tốt nhất có thể để người dùng có đủ tự tin tiết lộ những thông tin nhạy cảm. Hầu hết các trang lừa đảo đều làm tốt việc tạo giao diện hợp lệ bằng cách sao chép cách bố trí trang, font, kiểu, logo và thậm chí các thông tin bảo mật của trang hợp lệ. Thực tế, nhiều liên kết trong trang lừa đảo vẫn thực sự kết nối đến trang hợp lệ, điều này khiến nó giống với các trang hợp lệ hơn. Nhìn chung, cách tiếp cận để phát hiện các trang web giả mạo bước đầu là kiểm tra xem “hình dáng” hay cấu trúc của chúng có giống nhau không, nếu giống thì sẽ sử dụng thêm một số kỹ thuật khác để làm rõ các chi tiết kỹ thuật để phát hiện đó là trang web giả mạo hay trang web hợp lệ. Mặt khác, DOM là tên gọi tắt của Document Object Model - tạm dịch Mô hình đối tượng tài liệu - là một chuẩn được định nghĩa bởi W3C Error! Reference source not found. dùng để truy xuất và thao tác trên các tài liệu có cấu trúc dạng HTML hay XML bằng các ngôn ngữ lập trình thông dịch 6 (scripting language) như Javascript, PHP, Python, Do vậy, hướng tiếp cận của chúng tôi là sẽ chuyển các trang web về cấu trúc DOM của chúng dưới dạng cây (Tree), sau đó so sánh xem hai trang web có giống nhau hay không bằng cách so sánh các DOM- Tree. Nếu hai trang web có cấu trúc giống nhau thì có thể nghi ngờ, tiếp theo chúng tôi sử dụng các thuật toán so khớp để so sánh các thành phần chi tiết của chúng để phát hiện trang web giả mạo. Và đây là mục tiêu thứ hai của luận án. 1.4 Mục tiêu và cấu trúc của luận án i) Nghiên cứu về hệ thống phát hiện xâm nhập. Phát triển và áp dụng các thuật toán so khớp mẫu vào việc xây dựng các hệ thống phát hiện xâm nhập. ii) Nghiên cứu về giả mạo web. Phát triển các thuật toán so khớp có cấu trúc (đồ thị) vào việc phát hiện các trang web giả mạo. Với các mục tiêu của luận án như trên, ngoài phần mở đầu, luận án được tổ chức thành ba chương như sau. Chương 1: Trình bày tổng quan về xâm nhập mạng và giả mạo trên mạng. Chương 2: Trình về các thuật toán so khớp đơn mẫu và đa mẫu áp dụng trong việc phát hiện xâm nhập mạng. Chương 3: Trình bày về so khớp đồ thị và phát hiện các trang web giả mạo. Cuối cùng là phần kết luận và hướng phát triển của luận án. 1.5 Các kết quả của luận án Với mục tiêu áp dụng các thuật toán so khớp trong việc phát triển các hệ thống phát hiện xâm nhập trái phép, luận án đã đạt được các kết quả như sau: (i) Phân tích đánh giá về hiệu năng cũng như thời gian thực hiện các thuật toán so khớp đơn mẫu trên hệ thống phát hiện thâm nhập Snort; (ii) Đưa ra các cải tiến cho thuật toán so khớp đa mẫu Aho – Corasick bằng cách sử dụng kỹ thuật nén dòng và bảng chỉ số nhằm nâng cao hiệu quả của thuật toán, các phân tích và so sánh thực tế nhằm kiểm nghiệm lý thuyết cũng đã được thực hiện trên hệ thống Snort ; (iii) Luận án cũng đề xuất một thuật toán so khớp đa mẫu mới bằng cách xây dựng biểu đồ của các mẫu kết hợp với danh sách liên kết làm giảm thời gian thực hiện việc so khớp đồng thời đa mẫu. Việc cài đặt thực nghiệm của thuật toán với trong sự so sánh với một số thuật toán đã tồn tại cũng đã triển khai trên hệ thống Snort. Với mục tiêu phát hiện các trang web giả mạo, luận án đã đạt được các kết quả như sau: (iv) Đưa ra thuật toán mới dựa trên thuật toán di truyền để so khớp các đồ thị không chính xác. Thuật toán mới có thể áp dụng đối với lớp đồ thị vô hướng, có hướng, có trọng số hay gán nhãn. (v) Áp dụng việc so khớp đồ thị vào việc so khớp các DOM-Tree để phát hiện các trang web giả mạo. 1.6 Kết chương Trong chương này, luận án đã trình bày chi tiết việc phát hiện xâm nhập trái phép và giả mạo trên mạng. Về phát hiện xâm nhập trái phép, luận án đã trình bày lại các kỹ thuật xâm nhập trái phép hiện đã được sử dụng bởi kẻ tấn công; các giải pháp kỹ thuật nhằm ngăn chặn các kỹ thuật xâm nhập trái phép được biết; kiến trúc tổng quát của một hệ thống phát hiện xâm nhập và chi tiết một hệ thống phát hiện xâm nhập trái phép dựa trên mã nguồn mở Snort – cái sẽ là nền tảng để triển khai thử nghiệm các 7 thuật toán đề xuất trong các chương tiếp theo. Các cách tiếp cận của cộng đồng khoa học trong nước và trên thế giới cho việc nghiên cứu và phát triển hệ thống phòng chống xâm nhập được phân tích và trình bày tóm tắt. Dựa vào sự phân tích này, luận án cũng xác định được mục tiêu thứ nhất của luận án. Tiếp theo, luận án đã trình bày về vấn nạn giả mạo đặc biệt là giả mạo web. Các cách tiếp cận của cộng đồng khoa học trong nước và trên thế giới cho việc nghiên cứu và phát triển hệ thống phát hiện web giả mạo được phân tích và trình bày tóm tắt. Từ đó, luận án cũng đã xác định được mục tiêu thứ hai. Chương 2. SO KHỚP TRONG PHÁT HIỆN XÂM NHẬP MẠNG 2.1 Bài toán so khớp chuỗi Các thuật toán so khớp chuỗi có thể phân loại theo hai tiêu chí: - Dựa trên số lượng mẫu, có hai loại: so khớp đơn mẫu (Single Pattern) và so khớp đa mẫu (Multiple Patterns). - Dựa trên cơ sở thiết kế thuật toán, có ba loại: so khớp dựa trên tiền tố (prefix), so khớp hậu tố (suffix) và so khớp thừa số (factor). Tất cả các thuật toán so khớp chuỗi đều có 2 giai đoạn là: tiền xử lý và tìm kiếm. Việc đánh giá các thuật toán được thực hiện dựa trên dung lượng bộ nhớ sử dụng và tốc độ so khớp. Các thuật toán so khớp được phân loại theo cách tiếp cận xây dựng thuật toán và số lượng mẫu được cho trong hình 2.4. Thuật toán so khớp đầu tiên được biết đến là Brute ForceError! Reference source not found Void Brute_Force ( char *x, int m, char y, int n) { /* Searching */ For ( int j = 0 ; j <= n – m ; j++ ) { For (int i = 0; i < m && x[i] == y [ y + j ]; i++ ) { If ( i >= m ) OUTPUT (j); } } } 2.2 Các thuật toán so khớp đơn mẫu 2.2.1 Thuật toán Knuth-Morris-Pratt (KMP) Thuật toán tính mảng Next như sau: int* InitNext(char *p,int m) { int i,j,*kmpNext; i = -1; j = 0; *kmpNext = -1; while (j < m ) { while (i > -1)&&( p[i] != p[j]) i = *(kmpNext + i); i++; j++; 8 if (p[i]== p[j]) *( kmpNext + j) = *( kmpNext + i); else *( kmpNext + j) = i; } return kmpNext; } Thuật toán Knuth - Morris – Pratt int KMP(char *p, char *t) { int i, j, M = strlen(p), N = strlen(t); InitNext(p); for (i = 0, j = 0; j < M && i < N; i++, j++) while ((j >= 0) && (t[i] != p[j])) j = next[j]; if (j == M) return i - M; else return i; } 2.2.2 Thuật toán Boyer-Moore (BM) Phát biểu thuật toán: Thuật toán sẽ lưu cách dịch thứ nhất trong mảng gs kích thước m + 1 và cách dịch thứ hai được lưu trong mảng bc với kích thước 256 (tương ứng với 256 ký tự của bảng mã ASCII). Mảng bc được tính như sau: int* PreBC (char *x,int m) { int i,j,*bc; for (j=0;j<256;j++) *(bc[j]) = m; for (i=0;i<=m-2;i++) *(bc[x[i]]) = m – i - 1; return bc; } Việc tính mảng gs khá phức tạp, ta tính gián tiếp qua một mảng suff int* Suffixes (char *x,int m) { int f,g,i,*suff; *(suff + m - 1) = m ; g = m - 1; for (i=m-2;i>=0;i ) {if(( i > g)&& (*(suff+i+m–1–f)!= i–g)) *(suff+i)=min{*(suff+i+m–1–f),i–g}; else {if (i < g) g = i; f= i; while ((g>=0) && (x[g]==x[g+m–1–f])) g ; *(suff+i) = f – g; } } return suff; } int* PreGS (char *x,int m) { int *suff,*gs,i,j; 9 suff= Suffixes(x,m); for (i=0;i<m;i++) *(gs+i)=m; j=0; for (i=m-1;i>=-1;i ) if ((i==-1)||(*(suff+i)==i+1)) while (j<m-1-i) {if (*(gs+j)==m) *(gs+j)= m-1–i; j++; } for (i=0;i<=m-2;i++) *(gs+m-1– *(suff+i)) = m–1-i; return gs; } Thuật toán Boyer – Moore int Boyer_Moore(char *x,int m,char *y,int n) { int *gs, *bc, i, j, kq; gs= PreGS(x,m); bc=PreBC(x,m); j= 0; while (j<=n-m) { i= m -1; while ((i >=0)&&(x[i]==y[i + j])) i ; if (i<0) { kq=j; j=j+gs[0];} else j=j+max{gs[i],bc[y[i+j]] – m +i +1}; } return kq; } 2.2.3 Thuật toán Karp-Rabin Phát biểu thuật toán int ReHash(int a,int b,int h,int d) { return((h–a*d) << 1 ) + b; } intKarp_Rabin(char *x,int m,char *y,int n) { int d,hx,hy,i,j,kq; d= 1; for (i=1;i<=m-1;i++) d=d<<1; hx=hy=0; for (i=0;i<=m-1;i++) { hx= ((hx<<1) + x[i]); hy= ((hy<<1) + y[i]); } if ((hx == hy)&&(x== y[0 . . m – 1])) kq=0; j= m; while (j < n) { 10 hy = ReHash(y[j–m],y[j],hy,d); if ((hx==hy)&&(x==y[j–m+1 j])) kq=(j – m + 1); j++; } return kq; } 2.2.4 Thuật toán Boyer-Moore Horspool (BMH) 2.2.5 Thuật toán BDM và BOM 2.3 Các thuật toán so khớp đa mẫu 2.3.1 Thuật toán Aho-Corasick (AC) Algorithm 1 Aho-Corasick Algorithm 1: procedure AC (y,n,q 0 )  Input  y ← array of n bytes representing the text input  n ← integerrepresenting the text leght  q 0 ← initial state 2: state ← q 0 3: For i = 1 → n do → Matching 4: While g(state, y[i]) = fail do → whileg(state, y[i]) is undefined 5: state ← f(state) → use the failure function 6: end while 7: state←g(state, y[i]) 8: Ifo(state) ≠ then 9: output I → This an accepting state, i.e. state A 10: end if 11:end for 12:end procedure 2.3.2 Thuật toán Commentz-Walter (CW) 1. Procedure CW(y,n,m,p,root)  Input:  y ← array of n bytes representing the text input  n ← integer representing the text length  m ← array of keyword lengths  p ← number of keywords  root ← root node of the trie 2. v ← root The current node 3. i ← min {m[0], m[1], . . . , m[p-1]} i point to the current position in y 4. j ← 0 j indicates depth of the current node v 5. while i ≤ n do 6. while v has child v’ labeled y[i – j] do 7. v ← v’ 8. j ← j + 1 [...]... Tiếp theo, luận án trình bày một cách tiếp cận mới cho việc so khớp đồ thị dựa trên thuật toán di truyền trong chi tiết Thuật toán đề xuất có thể áp dụng trên một số lớp đồ thị như vô hướng, có hướng, có trọng số hay gán nhãn Cuối cùng là việc áp dụng của thuật toán so khớp đồ thị vào việc phát hiện trang web giả mạo dựa vào cấu trúc DOM của chúng 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong luận án này, với... chi tiết các thuật toán so khớp đa mẫu được sử dụng trong hệ thống Snort version 2.6 Sự đánh giá so sánh bằng lý thuyết và thực nghiệm của các thuật toán này cũng được triển khai Tiếp theo luận án đề xuất một cải tiến cho thuật toán Aho-Corasick bằng kỹ thuật nén dòng và bảng chỉ số Các thực nghiệm chỉ ra thuật toán cải tiến đã đạt được hiệu năng tốt hơn thuật toán ban đầu khi thực nghiệm trên hệ thống... của luận án Với mục tiêu phát hiện các trang web giả mạo, luận án đã đạt được các kết quả như sau: (iv) Đưa ra thuật toán mới dựa trên thuật toán di truyền để so khớp các đồ thị không chính xác Thuật toán mới có thể áp dụng đối với lớp đồ thị vô hướng, có hướng, có trọng số hay gán nhãn (v) Áp dụng việc so khớp đồ thị vào việc so khớp các DOM-Tree để phát hiện các trang web giả mạo Với kết quả này, luận. .. quả của thuật toán, các phân tích và so sánh thực tế nhằm kiểm nghiệm lý thuyết cũng đã được thực hiện trên hệ thống Snort ; (iii) Luận án cũng đề xuất một thuật toán so khớp đa mẫu mới bằng cách xây dựng biểu đồ của các mẫu kết hợp với danh sách liên kết làm giảm thời gian thực hiện việc so khớp đồng thời đa mẫu Việc cài đặt thực nghiệm của thuật toán với trong sự so sánh với một số thuật toán đã tồn... áp dụng các thuật toán so khớp trong việc phát triển các hệ thống phát hiện xâm nhập trái phép, luận án đã đạt được các kết quả như sau: (i) Phân tích đánh giá về hiệu năng cũng như thời gian thực hiện các thuật toán so khớp đơn mẫu trên hệ thống phát hiện thâm nhập Snort; (ii) Đưa ra các cải tiến cho thuật toán so khớp đa mẫu Aho – Corasick bằng cách sử dụng kỹ thuật nén dòng và bảng chỉ số nhằm nâng... nghiệm trên hệ thống Snort Cuối cùng, luận án trình bày đề xuất thuật toán mới cho so khớp đa mẫu dựa trên kỹ thuật xây dựng biểu đồ cấu trúc các mẫu kết hợp với danh sách liên kết Các kết quả thực nghiệm chỉ ra thuật toán được đề xuất có hiệu quả tốt hơn một số thuật toán hiện hành cả về không gian và thời gian Chương 3 SO KHỚP ĐỒ THỊ VÀ PHÁT HIỆN CÁC WEBSITE GIẢ MẠO 3.1 Cấu trúc DOM-Tree 3.1.1 Khái... bài toán tìm đẳng cấu đồ thị con 3.2.4 Thuật toán di truyền cho bài toán so khớp đồ thị Thuật toán di truyền là một trong những thuật toán tiến hóa, hình thành dựa trên quan niệm cho rằng, quá trình tiến hóa tự nhiên là quá trình hoàn hảo và hợp lý nhất, tự nó đã mang tính tối ưu Như đã nói ở mục trên, với hai đồ thị GM = (VM , EM) và GD= (VD,ED) với |VM| = m, |VD| = n (m < n) ta phải đi tìm một ánh... hay không, chúng ta hoàn toàn có thể so sánh xem hai DOM-Tree tương ứng của chúng Mặt khác, 19 cây chỉ là một dạng đặc biệt của đồ thị Vì vậy, tổng quát hơn trong phần này chúng tôi sẽ nghiên cứu bài toán so khớp đồ thị 3.2.1 Một số khái niệm về đồ thị 3.2.2 Bài toán so khớp đồ thị 3.2.3 Một số cách tiếp cận 3.2.3.1 Một số định nghĩa và ký hiệu : Cho đồ thị gán nhãn G ={V, E, LV, LE, bởi ma trận kề... procedure 2.3.4 Thuật toán RSI (Recursive Shift Indexing)và MDH (Multi-Phase Dynamic Hash) 2.3.5 Một số thuật toán khác 2.3.6 Các kết quả thực nghiệm Để đánh giá thời gian thực thi và yêu cầu bộ nhớ của các thuật toán với các hướng tiếp cận khác nhau, chúng tôi đã triển khai cài đặt các thuật toán AC, AC-BM, SBMH, SBOM, WM, RSI, MDH trên ngôn ngữ lập trình C Điều kiện thực nghiệm kiểm chứng trên các máy... *dfa.NextState[state.getChar];} return r;} 2.4.3 Thực nghiệm và đánh giá 15 Bảng 3 : Thống kê không gian trạng thái thực nghiệm trên Snort với các tập luật chuẩn Tập luật Ftp Smtp Web-misc Oracle Số lượng mẫu Số lượng ký tự 96 104 160 337 466 989 2.052 11.128 Thuật toán AC gốc Số lần Tổng số chuyển trạng trạng thái thái 402 406 715 719 1.420 1.425 6.793 6.804 Thuật toán AC cải tiến Số lần Tổng số chuyển trạng trạng thái thái 391 . NHIÊN _______________________ Lê Đăng Nguyên NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÁT HIỆN GIẢ MẠO TRÊN WEB Chuyªn ngµnh : Cơ sở toán học cho Tin học M· sè: 62 46 01 10 DỰ THẢO TÓM. Một vấn đề khác cũng liên quan đến an toàn đó là vấn đề giả mạo (phishing hay fake) nói chung và giả mạo web nói riêng. Giả mạo và phát tán trên mạng là một loại tội phạm kỹ thuật xã hội đáng. tin cậy trong một giao dịch điện tử. Do vậy, việc nghiên cứu và phát hiện các trang web giả mạo là một nhu cầu cấp thiết hiện nay. 1.3.2. Một số kỹ thuật Sử dụng thư điện tử giả mạo; Sử dụng

tóm tắt luận án tiến sĩ NGHIÊN CỨU MỘT SỐ KỸ THUẬT phát hiên giả mạo trên wep

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan