Nghiên cứu và thử nghiệm một số thuật toán phát hiện các đồ thị con thường xuyên

MỞ ĐẦU Hiện nay, phương pháp khai phá liệu phải đối diện với vấn đề số lượng ngày gia tăng đối tượng liệu phức tạp Bên cạnh đồ thị cấu trúc liệu tổng quát, sử dụng để mô hình hóa đối liệu tượng phức tạp vấn đề khai phá đồ thị thường xuyên vấn đề quan trọng khai phá đồ thị Việc khai phá đồ thị để tìm đồ thị thường xuyên nhằm xác định tất đồ thị tập liệu đồ thị với giá trị ngưỡng cho trước [1],[3] Những khó khăn vấn đề khai phá đồ thị thường xuyên nảy sinh hai vấn đề, là: liệt kê tất đồ thị CSDL đồ thị tính toán hàm hỗ trợ đồ thị CSDL Do đỉnh đồ thị xếp theo nhiều cách, đồ thị có số lượng lớn hình học tương đương, gọi đồ thị đẳng cấu Để liệt kê tất đồ thị con, ta phải tính toán phù hợp với quy tắc biểu diễn đồ thị để giải vấn đề đồ thị đẳng cấu Hơn nữa, việc kiểm tra đồ thị có chứa CSDL đồ thị hay không xem toán NP-khó gọi toán đồ thị đẳng cấu Trong tất trường hợp, việc tính toán hàm hỗ trợ chiếm chi phí nhiều việc tìm đồ thị thường xuyên CSDL Tuy nhiên, phức tạp vấn đề giảm CSDL đồ thị có thêm thông tin đỉnh cạnh gán nhãn Có thể sử dụng nhãn để hạn chế đỉnh tạo thành cặp trình kiểm tra đẳng cấu đồ thị Tuy nhiên, CSDL đồ thị chưa gán nhãn có số nhãn độ phức tạp toán làm giảm đáng kể kích thước tập liệu Như vậy, vấn đề khai phá đồ thị nói chung khai phá đồ thị thường xuyên nói riêng gặp nhiều khó khăn, ta cần lựa chọn phương pháp thuật toán phù hợp để giải cho toán cụ thể, đem lại hiệu cao ý nghĩa thực tiễn đề tài  Nội dung luận văn vấn đề cần giải quyết: Tìm hiểu phương pháp khai phá liệu đồ thị Tìm hiểu thuật toán phát đồ thị thường xuyên CSDL đồ thị Cài đặt thử nghiệm thuật toán phát đồ thị thường xuyên CSDL đồ thị  Phương pháp nghiên cứu + Nghiên cứu khai phá liệu đồ thị với trọng tâm phát đồ thị thường xuyên CSDL đồ thị + Tìm hiểu nguồn thông tin từ sách,bài báo,tạp chí, Internet ,liên quan đến khai phá liệu đồ thị  Cấu trúc luận văn chia làm chương: Chương 1: “ Tổng quan khai phá liệu đồ thị ” trình bày tổng quan hướng nghiên cứu khai phá liệu đồ thị Chương 2: “ Phát cấu trúc thường xuyên ” trình bày sở lý thuyết đồ thị, cách tiếp cận dựa Apriori, cách tiếp cận dựa phát triển mẫu Chương 3: “ Các thuật toán phát đồ thị thường xuyên ” trình bày số thuật toán phát đồ thị thường xuyên theo chiến lược tìm kiếm theo chiều rộng chiều sâu Chương 4: “ Thiết kế hệ thống thử nghiệm ” trình bày kết cài đặt thuật toán chương CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: Khai phá liệu đồ thị số lĩnh vực quan trọng khai phá liệu Hầu hết nguồn liệu biểu diễn dạng cấu trúc liệu đồ thị, chẳng hạn như: liệu từ mạng Internet, mạng xã hội, cấu trúc protein, hợp chất hóa học, Do đó, khai phá liệu đồ thị nhằm tìm kiếm thông tin hữu ích lượng lớn liệu vấn đề nhà nghiên cứu tổ chức CNTT quan tâm 1.1.1 Định nghĩa liệu lớn: Hiện nay, thuật ngữ “Dữ liệu lớn” (Big data) thu hút quan tâm đặt thách thức với nhà nghiên cứu, nhà cung cấp dịch vụ công nghệ thông tin tổ chức, doanh nghiệp Dữ liệu lớn xem đời tất yếu trình bùng nổ thông tin Trong nhiều năm qua, doanh nghiệp thường đưa định kinh doanh dựa liệu giao dịch lưu trữ sở liệu quan hệ Ngoài liệu quan trọng lại thường dạng tiềm năng, phi truyền thống, phi cấu trúc lại khai thác cách hữu ích, giảm chi phí lưu trữ tính toán Khi liệu lớn được khai thác phân tích, kết hợp với liệu doanh nghiệp truyền thống doanh nghiệp có nhìn toàn diện sâu sắc tình hình kinh doanh họ, dẫn tới nâng cao suất vị cạnh tranh Do đó, ngày có nhiều công ty tìm kiếm để có liệu phi truyền thống có giá trị công việc kinh doanh Có thể định nghĩa cách chung “Dữ liệu lớn” tập hợp tập liệu lớn và/hoặc phức tạp mà phương pháp CNTT chưa thể phân tích xử lý tốt chúng Dữ liệu lớn bao gồm tính chất độ lớn lưu trữ (Volume), đa dạng, phức tạp (Variety) tăng trưởng nhanh chóng (Velocity)[8] Dữ liệu lớn thường đề cập tới kiểu liệu sau: - Dữ liệu doanh nghiệp truyền thống: bao gồm thông tin khách hàng, liệu giao dịch, liệu kế toán tổng hợp - Dữ liệu cảm biến máy sinh liệu: bao gồm ghi chi tiết gọi, nhật ký web, hệ đo thông minh, liệu từ cảm biến, hệ thống liệu truyền thống - Dữ liệu xã hội: bao gồm luồng thông tin phản hồi khách hàng, liệu từ trang nhật ký mạng xã hội Twitter, Facebook, 1.1.2 Giải pháp liệu lớn số nhà cung cấp dịch vụ: * Giải pháp Big data Oracle Oracle nhà cung cấp cung cấp giải pháp hoàn chỉnh tích hợp để giải đầy đủ yêu cầu liệu lớn doanh nghiệp Các liệu lớn Oracle tập trung ý tưởng phát triển kiến trúc liệu doanh nghiệp để kết hợp liệu lớn cung cấp giá trị kinh doanh, linh hoạt, hiệu suất để giải yêu cầu liệu lớn với doanh nghiệp Với việc giới thiệu ứng dụng Quản lý Dữ liệu lớn (Oracle Big Data Appliance), Oracle cung cấp giải pháp hoàn chỉnh đáp ứng yêu cầu liên quan đến liệu lớn doanh nghiệp Thiết bị xử lý liệu lớn Oracle Big Data Appliance, với máy chủ sở liệu Oracle Exadata Máy chủ thông tin hỗ trợ định Oracle Exalytics mới, giúp khách hàng có để thu thập, tổ chức, phân tích khai thác tối đa giá trị liệu lớn Oracle Big Data Appliance tích hợp dễ dàng với sở liệu Oracle Database 11g, Oracle Exadata Database Machine Oracle Exalytics Business Intelligence Machine * Giải pháp Big Data Microsoft Giải pháp Big Data Microsoft dựa tảng SQL Server, Hadoop, Windows Azure Windows Server, cung cấp công cụ quản lý, mở rộng nhằm đạt nhìn sâu sắc liệu doanh nghiệp, thúc đẩy hiệu kinh doanh Microsoft Big Data cho phép quản lý loại liệu nào, kích thước vị trí Microsoft sử dụng SQL Server 2012 SQL Server Parallel Data Warehouse để quản lý liệu lớn có cấu trúc Với liệu phi cấu trúc, Microsoft sử dụng Hadoop Windows Azure Windows Server, cho phép xử lý liệu phi cấu trúc với quy mô hàng petabyte Với liệu luồng, Microsoft sử dụng công cụ SQL Server StreamInsight để quản lý liệu luồng với thời gian thực Microsoft Big Data cho phép làm phong phú thêm liệu với loại liệu nào: Cửa hàng liệu Azure Marketplace cho phép doanh nghiệp có liệu bên thứ ba; công cụ phòng thí nghiệm Data Explorer Azure dành cho tập liệu đề xuất Data Hub dành cho việc tạo cửa hàng liệu riêng 1.2 TỔNG QUAN VỀ KHAI PHÁ ĐỒ THỊ CON THƯỜNG XUYÊN: Cho CSDL đồ thị D, hàm hỗ trợ đồ thị G D, viết sup(G, D) số lượng đồ thị D có chứa đồ thị G cạnh tạo nên đồ thị Cho giá trị ngưỡng hỗ trợ cực tiểu smin, vấn đề khai phá đồ thị thường xuyên bao gồm việc tìm đồ thị liên thông thường xuyên D Có hai nhóm phương pháp đề xuất để giải vấn đề trên, là: nhóm phương pháp khai phá theo chiều rộng nhóm phương pháp khai phá theo chiều sâu: Một số kỹ thuật khai phá theo chiều rộng như: kỹ thuật AGM phát triển Inokuchi, kỹ thuật FSG đề xuất Kuramochi Karypis Các kỹ thuật khai phá đồ thị theo mức mức chứa đồ thị có nhiều đỉnh cạnh so với mức trước Các đồ thị thường xuyên mức tìm cách, tạo đồ thị ứng viên với cặp đồ thị mức tại, sau lọc đồ thị không thường xuyên Ưu điểm kỹ thuật dựa nguyên tắc ưu tiên cách đồ thị xem thường xuyên tất đồ thị thường xuyên Vì đồ thị tìm sau tìm đồ thị nó, loại bỏ đồ thị không thường xuyên mà không cần phải tính toán hàm hỗ trợ chúng cách kiểm tra đồ thị chúng thường xuyên Tuy nhiên, nhóm phương pháp tìm kiếm theo chiều rộng có hai vấn đề là: sinh nhiều đồ thị ứng viên yêu cầu lưu trữ đồ thị thường xuyên mức Nhóm phương pháp khai phá theo chiều sâu khắc phục vấn đề cách tìm kiếm đồ thị theo chiều sâu, kể đến số thuật toán như: gSpan đề xuất Han Yan, FFSM đề xuất Huan, GASTON Nijssen Kok Tư tưởng nhóm phương pháp bắt đầu với đồ thị có chứa đỉnh cạnh thường xuyên, kỹ thuật mở rộng đệ quy cách thêm cạnh hai đỉnh thêm đỉnh kết nối tới đỉnh khác Vì đồ thị không thường xuyên đồ thị nó, không cần mở rộng tới đồ thị không thường xuyên Các đồ thị không thường xuyên bỏ bớt mà không xảy rủi ro trình khai phá 1.3 KẾT LUẬN Chương trình bày tổng quan khai phá liệu đồ thị có nêu vấn đề khai phá liệu đồ thị tìm thông tin hữu ích lượng lớn liệu, đưa định nghĩa chung liệu lớn (Big Data) giải pháp Big Data Oracle Microsoft Trình bày tổng quan khai phá đồ thị thường xuyên theo hai nhóm phương pháp nhóm phương pháp khai phá theo chiều rộng nhóm phương pháp khai phá theo chiều sâu với ưu nhược điểm hai nhóm phương pháp CHƯƠNG 2: PHÁT HIỆN CÁC CẤU TRÚC CON THƯỜNG XUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒ THỊ Chúng ta biểu diễn tập đỉnh đồ thị g V(g) tập cạnh E(g) Một hàm nhãn L ánh xạ đỉnh cạnh tới nhãn Một đồ thị glà đồ thị đồ thị g’ khác tồn đồ thị đẳng cấu từ g tới g’ 2.1.1 Định nghĩa 2.1 (Graph): Chomột nhãn node chữ (alphabet) LV nhãn cạnh chữ LE đồ thị g (có hướng) định nghĩa gồm thành phần g=(V , E, µ, ν), đó: • V biểu diễn tập hữu hạn node • E⊆V×V biểu diễn tập cạnh • µ:V→LV biểu diễn hàm ghi nhãn node • ν:E→LE biểu diễn hàm ghi nhãn cạnh Tập V coi tập định danh nút thường chọn V = {1, , | V |} Trong V xác định nút, tập cạnh E thể cấu trúc đồ thị Đó nút u ∈ V kết nối với nút v ∈ V cạnh= (u, v) (u, v) ∈ E Hàm ghi nhãn sử dụng để tích hợp thông tin node cạnh vào đồ thị cách gán thuộc tính từ LV LE tới node cạnh tương ứng Đồ thị định nghĩa bao gồm số trường hợp đặc biệt Để định nghĩa đồ thị vô hướng, cho thể yêu cầu u , v   E cho cạnh u , v   E cho ν(u, v) = ν(v, u) Trong trường hợp đồ thị không thuộc tính, bảng chữ nhãn xác định LV  L E  , node cạnh gán nhãn null nhãn Đồ thị rỗng định nghĩa gε =( , ,µε,νε) 2.1.2 Định nghĩa 2.2 (Subgraph): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị, đồ thị g1 đồ thị g2 , ký hiệu g1⊆g2 • V1⊆V2 • E1=E2∩(V1×V1) • µ1(u) = µ2(u) cho tất u ∈ V1 • ν1(u, v)=ν2(u, v) cho tất (u, v) ∈ E1 Ngược lại, đồ thị g2 gọi đồ thị g1 điều kiện thứ hai định nghĩa thay E1⊆ E2 2.1.3 Định nghĩa 2.3 (Graph Isomorphism): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị.Một đồ thị đẳng cấu g1 g2 hàm song ánh f:V1→V2 thỏa mãn: • µ1(u)=µ2(f (u)) cho tất node u∈ V1 • Cho cạnh e1=(u, v)∈E1, tồn cạnh e2=(f (u), f (v))∈ E2 cho ν1(e1)=ν2(e2) • Cho cạnh e2=(u, v)∈E2, tồn cạnh e1=(f-1(u), f-1(v))∈ E1 cho ν1(e1)=ν2(e2) Hai đồ thị g1 g2 gọi đẳng cấu tồn đồ thị đẳng cấu chúng Hình 2.1 (b) đẳng cấu với (a), (c) đẳng cấu với đồ thị (a) 2.1.4 Định nghĩa 2.4 (Subgraph Isomorphism): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị Một hàm đơn ánh f:V1→V2 gọi đồ thị đẳng cấu từ g1 tới g2 tồn đồ thị g⊆g2 cho f đồ thị đẳng cấu g1 g Một đồ thị đẳng cấu tồn từ g1 tới g2 đồ thị g2 lớn trở thành đồ thị đẳng cấu tới đồ thị g1 nhỏ cách loại bỏ số node số cạnh Để minh họa hai đồ thị với đồ thị đẳng cấu chúng xem hình 2.1(a) hình 2.1(c) 2.1.5 Định nghĩa 2.5 (Maximum Common Subgraph, MCS): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị Một đồ thị g =(V,E,µ,ν) gọi đồ thị phổ biến g1 g2 tồn đồ thị đẳng cấu từ g tới g1 từ g tới g2 Một đồ thị phổ biến g1 g2 gọi đồ thị phổ biến cực đại (MCS) không tồn đồ thị phổ biến khác g1 g2 mà có node nhiều g Hình 2.2.Hai đồ thị: (a) (b) đồ thị phổ biến cực đại (c) 10 4.1.3 Biểu diễn đồ thị Công cụ biễu diễn đồ thị có chức đồ họa hóa đồ thị từ tệp liệu đầu vào tệp liệu đầu Mỗi liệu đồ thị tệp tương ứng với form đồ họa đồ thị.Giao diện công cụ hiển thị đồ thị sau: Hình 4.2 Giao diện biễu diễn đồ thị Chọn tệp liệu đồ thị, tùy chọn "Đỉnh màu" phép nhãn đỉnh có màu, sau nhấn nút "Hiển thị", đồ thị tương ứng hiển thị Ví dụ Hình 4.3 form biểu diễn liệu đồ thị Hình 4.3 Biễu diễn đồ thị 56 4.2 ĐÁNH GIÁ 4.2.1 Kiểm tra thuật toán Trong trình xây dựng cài đặt thuật toán, điều quan trọng tính đắn thuật toán Học viên đưa vào số liệu mẫu nhỏ để mô hình hóa đồ họa, Hình 4.4 biễu diễn tập CSDL đồ thị đầu vào, ngưỡng hỗ trợ tối thiệu 80% kết cho đồ thị thường xuyên thỏa mãn ngưỡng biễu diễn Hình 4.5 Hình 4.4 Cơ sở liệu đồ thị đầu vào 57 Hình 4.5 Tập kết đồ thị thường xuyên 4.2.2 Đánh giá thuật toán Ngày nay, với đời công nghệ lưu trữ xử lý liệu lớn, học viên nghiên cứu lựa chọn thuật toán gSpan để cài đặt hạ tầng Thuật toán gSpan có ưu điểm so với thuật toán AGM FSG không tạo ứng viên, làm giảm chi phí tính toán không gian lưu trữ Do đó, thuật toán lựa chọn tốt cho giải pháp cài đặt hạ tầng lưu trữ xử lý liệu lớn để giải toán tìm đồ thị thường xuyên tập CSDL đồ thị lớn Trong luận văn này, học viên đưa vào số mẫu liệu thu số kết khả quan Nó phản ánh tính đắn thuật toán toán Nếu liệu vào với khối lượng đồ thị giao dịch nhỏ, thuật toán chạy nhanh Nhưng khối lượng đồ thị giao dịch lớn, kết trả chậm Đồng thời, tham số ngưỡng tối thiểu có ảnh hưởng lớn tới 58 thời gian xử lý Nếu ngưỡng tối thiểu nhỏ thuật toán chon kết chậm, ngưỡng tối thiểu lớn thuật toán cho kết nhanh Ở Hình 4.6 biểu diễn hiệu suất thuật toán chạy với tập liệu đồ thị, mà đồ thị 500 đỉnh, 1500 cạnh, ngưỡng hộ trợ tối thiệu 40%, số lượng đồ thị giao dịch thay đổi từ 500 đến 5000 đồ thị, thời gian thay đổi tương ứng Hình 4.6 Hiệu suất thuật toán chạy với số đồ thị giao dịch thay đổi Trong Hình 4.7biểu diễn hiệu suất thuật toán chạy với tập liệu đồ thị, mà đồ thị 500 đỉnh, 1500 cạnh, số lượng đồ thị giao dịch 3000 đồ thị ngưỡng hỗ trợ tối thiểu thay đổi từ 40% đến 90% , thời gian thay đổi tương ứng 59 Hình 4.7 Hiệu suất thuật toán chạy với ngưỡng hỗ trợ tối thiểu thay đổi 4.3.KẾT LUẬN Phần mềm thử nghiệm cài đặt thuật toán tìm đồ thị thường xuyên CSDL đồ thị học viên phát triển dựa thuật toán gSpan X Yan and J Han đưa Thuật toán gSpan triển khai hạ tầng lưu trữ xử lý liệu lớn với kết khả quan Sử dụng môi trường máy ảo Java để chạy ứng dụng biễu diễn đồ thị đồ họa cài đặt phần mềm thử nghiệm lên hạ tầng lưu trữ xử lý liệu lớn Đồng thời học viên chạy số liệu mẫu có đánh giá kết thuật toán 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Nội dụng luận văn tìm hiểu vấn đề lý thuyết khai phá liệu đồ thị: bao gồm sở lý thuyết đồ thi,cách tiếp cận phát cấu trúc thường xuyên dựa vào thuật toán Apriori cách tiếp cận dựa phát triển mẫu,nội dung thuật toán phát đồ thị thường xuyên với ngưỡng hỗ trợ tối thiểu minsup cho trước tập sở liệu đồ thị Luận văn tập trung vào hai chiến lược tìm kiếm chiến lược tìm kiếm theo chiều rộng gồm thuật toán Subdue, FSM chiến lược tìm kiếm theo chiều sâu gồm thuật toán gSpan, FFSM, Grew Chương trình thử nghiệm xây dựng nhằm chứng minh tính khả thi kết nghiên cứu Chương trình hoàn thiện cần có đầu tư nhiều mặt thời gian công sức Đề tài tiếp tục phát triển để đem lạiứng dụng đáp ứng yêu cầu thực tế HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Xây dựng chương trình thực nghiệm với giao diện đồ họa thân thiện với người dùng trình nhập tham số đầu vào thuật toán.Tiếp tục nghiên cứu cài đặt thuật toán khai phá đồ thị thường xuyên khác (Subdue, FSM FFSM,Grew) để khẳng định tính hiệu chúng khai phá liệu đồ thị từ kho liệu đồ thị lớn 61 TÀI LIỆU THAM KHẢO Tiếng Anh: [1] D.J.Cook and L.B.Holder (2000), Graph Base Data Mining, IEEE Intelligent Systems, 15(2),pp 32-41 [2] J Huan, W Wang, and J Prins (2003), Efficient mining of frequent subgraph in the presence of isomorphism In Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM),pp.549-552 [3] L.B.Holder,D.J.Cook and S.Djoko(1994), Substructure Discovery in the SUBDUE System.In Proceedings of the AAAI Workshop on Knowledge Discovery in Databases, pp 169 -180 [4] J R Ullman (1976), An algorithm for subgraph isomorphism.Journal of theACM,23(1),pp.31–42 [5] M Moy(May 2005) Using tmods to run the best friends group detection algorithm 21st CenturyTechnologies Internal Publication [6] Jun Huan, Wei Wang, Jan Prins, Efficient Mining of Frequent Subgraph in the Presence of Isomorphism, pp.1-16 [7] Lawrence B Holder,Nikhil S Ketkar,Diane J Cook,Subdue: Compression-Based Frequent Pattern Discovery in Graph Data, pp.5-6 [8] Bismita Srichandan, Rajshekhar Sunderraman, OO-FSG: An ObjectOriented Approach to Mine Frequent Subgraphs,pp.11-12 [9] Xifeng Yan,Jiawei Han,gSpan: Graph-Based Substructure Pattern Mining, pp.5-6 [10] Lawrence B Holder,Diane J Cook,Mining Graph Data interscience a john wiley & sons, inc., publication ,pp 101-154 62 Wiley- 63 LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn tự sưu tầm, tra cứu phát triển thuật toán đáp ứng nội dung yêu cầu đề tài Nội dung luận văn chưa công bố hay xuất hình thức không chép từ công trình nghiên cứu Tất phần mã nguồn chương trình tự tìm kiếm xây dựng thử nghiệm Nếu sai xin xin hoàn toàn chịu trách nhiệm Thái Nguyên, tháng 09 năm 2014 Người cam đoan Nguyễn Ngọc Anh i LỜI CẢM ƠN Em xin chân thành cảm ơn Thầy, Cô giáo khoa Công nghệ thông tin cán bộ, nhân viên phòng Đào tạo trường Đại học Công nghệ thông tin & truyền thông - Đại học Thái nguyên nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học K11I - trường Đại học Công nghệ thông tin & truyền thông thuộc Đại học Thái nguyên động viên, giúp đỡ nhiệt tình chia sẻ với kinh nghiệm học tập, công tác suốt khoá học Tôi xin chân thành cảm ơn Ban giám hiệu trường Đại học công nghiệp thành phố Hồ Chí Minh, ban lãnh đạo sở trường Đại học công nghiệp thành phố Hồ Chí Minh sở Thanh hóa, lãnh đạo khoa công nghệ sở tạo điều kiện tốt để hoàn thành tốt đẹp khoá học Cao học Đặc biệt xin bày tỏ lòng biết ơn sâu sắc đến thầy giáoTS.Nguyễn Như Sơn tận tình giúp đỡ hình thành, nghiên cứu hoàn chỉnh luận văn Mặc dù có nhiều cố gắng, song hạn hẹp thời gian, điều kiện nghiên cứu trình độ, luận văn không tránh khỏi khiếm khuyết Em chân thành mong nhận đóng góp ý kiến thầy, cô giáo đồng nghiệp gần xa Thái nguyên, tháng 09 năm 2014 Người thực luận văn Nguyễn Ngọc Anh ii DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Công nghệ thông tin CNTT Công nghệ thông tin Cơ sở liệu CSDL Cơ sở liệu Directed Acyclic Graph DAG Đồ thị định hướng phi chu trình FSM Khai phá đồ thị thường xuyên AGM Khai phá đồ thị dựa Apriori Frequent Subgraphs Mining Apriori Graph Mining Fast Frequent Subgraph Mining Canonical Adjacency Matrix Maximum Common Subgraph FFSM Khai phá đồ thị thường xuyên bền vững CAM Ma trận kề tắc MCS Đồ thị phổ biến cực đại iii DANH MỤC HÌNH VẼ , BẢNG BIỂU Hình 2.1 (b) đẳng cấu với (a), (c) đẳng cấu với đồ thị (a) 10 Hình 2.3 Mẫu sở liệu đồ thị 11 Hình 2.4 Các đồ thị thường xuyên 11 Hình 2.5: Tám thứ tự nhận từ có thứ tự 13 Hình 3.1 Đồ thị hình A sau nén biểu diễn hình B 21 Hình 3.2–Biểu diễn đồ thị tập liệu 24 Hình 3.3 Cây tìm kiếm theo chiều sâu 27 Hình 3.4 Mã DFS/ Đồ thị gia tăng 30 Hình 3.5 Biểu diễn hai đồ thị đẳng cấu 33 Hình 3.6 Ba ma trận kề đồ thị gán nhãn P hình 3.5 34 Hình 3.7 Biểu diễn ma trận riêng cực đại 34 ‘Hình 3.8 Cây CAM đồ thị P hình 3.5 37 Hình 3.9 Biểu diễn thao tác hòa nhập cho bốn trường hợp 40 Hình 3.10 Cây CAM tối ưu đồ thị P biểu diễn hình 3.5 42 Hình 4.1 Tệp input.lgp biểu diễn đồ thị đầu vào 55 Hình 4.2 Giao diện biễu diễn đồ thị 56 Hình 4.3 Biễu diễn đồ thị 56 Hình 4.4 Cơ sở liệu đồ thị đầu vào 57 Hình 4.5 Tập kết đồ thị thường xuyên 58 Hình 4.6 Hiệu suất thuật toán chạy với số đồ thị giao dịch thay đổi 59 Hình 4.7 Hiệu suất thuật toán chạy với ngưỡng hỗ trợ tối thiểu thay đổi 60 iv MỤC LỤC MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: 1.1.1 Định nghĩa liệu lớn: 1.1.2 Giải pháp liệu lớn số nhà cung cấp dịch vụ: 1.2 TỔNG QUAN VỀ KHAI PHÁ ĐỒ THỊ CON THƯỜNG XUYÊN: 1.3 KẾT LUẬN CHƯƠNG 2: PHÁT HIỆN CÁC CẤU TRÚC CON THƯỜNG XUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒ THỊ 2.1.1 Định nghĩa 2.1 (Graph): 2.1.2 Định nghĩa 2.2 (Subgraph): 2.1.3 Định nghĩa 2.3 (Graph Isomorphism): 2.1.4 Định nghĩa 2.4 (Subgraph Isomorphism): 10 2.1.5 Định nghĩa 2.5 (Maximum Common Subgraph, MCS): 10 2.1.6 Định nghĩa 2.6 (Frequent Graph) 11 2.2 CÁC DẠNG CHUẨN CỦA CÂY 11 2.2.1 Dạng chuẩn theo chiều rộng: 15 2.2.2 Dạng chuẩn theo chiều sâu: 16 2.3 CÁCH TIẾP CẬN DỰA TRÊN APRIORI 17 2.4 CÁCH TIẾP CẬN DỰA TRÊN SỰ PHÁT TRIỂN MẪU 19 2.5 KẾT LUẬN 20 CHƯƠNG 3: CÁC THUẬT TOÁN PHÁT HIỆN ĐỒ THỊ CON THƯỜNG XUYÊN 21 3.1 CHIẾN LƯỢC TÌM KIẾM THEO CHIỀU RỘNG: 21 3.1.1 Thuật toán SUBDUE 21 3.1.2 Thuật toán FSG 24 3.2 CHIẾN LƯỢC TÌM KIẾM THEO CHIỀU SÂU: 26 v 3.2.1 Thuật toán gSpan (Graph-Based Substructure Pattern Mining) 26 3.2.2 Thuật toán FFSM 31 3.2.3 Thuật toán GREW .44 3.3 KẾT LUẬN 50 CHƯƠNG 4: THIẾT KẾ HỆ THỐNG THỬ NGHIỆM THUẬT TOÁN 51 4.1 CÀI ĐẶT THỬ NGHIỆM THUẬT TOÁN gSpan 51 4.1.1 Mã lệnh thuật toán gSpan .51 4.1.2 Dữ liệu thử nghiệm 53 4.1.3 Biểu diễn đồ thị 56 4.2 ĐÁNH GIÁ 57 4.2.1 Kiểm tra thuật toán .57 4.2.2 Đánh giá thuật toán 58 4.3.KẾT LUẬN 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61 TÀI LIỆU THAM KHẢO 62 vi [...]... một tập nhãn L, một cây mã DFS chứa vô hạn số đồ thị, chỉ xét các đồ thị con thường xuyên trong một cơ sở dữ liệu vô hạn Kích thước của một cây DFS là vô hạn Hình 3.4 biểu diễn một cây mã DFS, các node mức nth chứa mã DFS của các đồ thị (n-1) – cạnh Qua việc tìm kiếm của cây mã, tất cả các mã DFS tối thiểu của các đồ thị con thường xuyên có thể được phát hiện Nghĩa là tất cả các đồ thị con thường xuyên. .. hòa nhập hai đồ thị đồng dạng nhưng khác nhau về đồ thị con thường xuyên được phát hiện trong lời gọi cuối cùng của thuật toán 2.3 Thủ tục phát sinh ứng viên được biểu diễn trên dòng 4 các đồ thị mới được hình thành và sau đó được kiểm tra tần suất xuất hiện của chúng Các đồ thị con thường xuyên được phát hiện và sử dụng để phát sinh các ứng viên lớn hơn trong các vòng lặp kế tiếp Thuật toán 2.3 Apriori(D,... quan về các phương pháp hiệu quả khai phá các cấu trúc con thường xuyên đồng thời đưa ra hai cách tiếp cận đó là tiếp cận dựa trên Apriori và tiếp cận dựa trên sự phát triển mẫu 20 CHƯƠNG 3: CÁC THUẬT TOÁN PHÁT HIỆN ĐỒ THỊ CON THƯỜNG XUYÊN 3.1 CHIẾN LƯỢC TÌM KIẾM THEO CHIỀU RỘNG: 3.1.1 Thuật toán SUBDUE Subdue được B Holder đề xuất năm 1988, sử dụng tìm kiếm tia để phát hiện các đồ thị con thường xuyên. .. thị con thường xuyên nhúng với g được phát hiện Đệ quy dừng khi không có đồ thị con thường xuyên được phát sinh nữa .Thuật toán 2.4 đơn giản nhưng không hiệu quả Vấn đề là sự kém hiệu quả ở việc mở rộng đồ 19 thị. Cùng một đồ thị có thể được phát hiện nhiều lần Ví dụ có thể tồn tại n đồ thị (n-1)- cạnh khác nhau có thể được mở rộng tới cùng đồ thị n – đỉnh Việc phát hiện lặp đi lặp lại cùng một đồ thị. .. là một đẳng cấu tới G’ và ngược lại * Định nghĩa 3.9 Một đồ thị gán nhãn G là một đồ thị con đẳng cấu với một đồ thị gán nhãn G’ ký hiệu G  G ' nếu tồn tại một đồ thị con G '' của G sao cho G đẳng cấu với G '' * Định nghĩa 3.10: Cho một tập đồ thị GD (được xem như một cơ sở dữ liệu đồ thị) và một ngưỡng  (0    1) , độ support của một đồ thị G ký hiệu là Sup G được định nghĩa như một phần của các. .. Graph) Cho một tập dữ liệu đồ thị có gán nhãn D={G1,G2, ,Gn},support(g) ( hoặc frequency(g)) là phần trăm (hoặc số) của các đồ thị trong D trong đó g là một đồ thị con Một đồ thị là thường xuyên nếu độ hỗ trợ của nókhông nhỏ hơn ngưỡng hỗ trợ tối thiểu minsupport Hình 2.3 Mẫu cơ sở dữ liệu đồ thị Hình 2.4 Các đồ thị con thường xuyên Ví dụ 2.1: Hình 2.3 biểu diễn một mẫu cơ sở dữ liệu đồ thị biểu diễn... ký hiệu là Sup G được định nghĩa như một phần của các đồ thị trong GD mà G là đồ thị con đẳng cấu 33 G là thường xuyên nếu Sup G   Khai phá đồ thị con thường xuyên là cho một ngưỡng  và một cơ sở dữ liệu đồ thị GD, tìm tất cả các đồ thị con thường xuyên trong GD Hình 3.6 Ba ma trận kề của đồ thị gán nhãn P trong hình 3.5 Ba ma trận kề của đồ thị P trong hình 3.5, sau khi áp dụng sắp xếp thứ tự tuyệt... diễn các đồ thị trong tập dữ liệu 24 Vấn đề đồ thị đẳng cấu cần được giải quyết trong khi đếm độ hỗ trợ của đồ thị con trong tập dữ liệu Hai đồ thị là đẳng cấu nếu đỉnh và nhãn cạnh là như nhau và cùng hướng Trong ví dụ đồ thị có hướng được giả định từ số đỉnh thấp đến số đỉnh cao hơn Ví dụ3.2 Nếu đếm số đồ thị con xuất hiện A-E-B trong ba đồ thị, thì kết quả là 3 nhưng thực sự chỉ có hai đồ thị một. .. LUẬN Phát hiện các cấu trúc con thường xuyên là một trong những nhiệm vụ cơ bản trong khai phá dữ liệu có cấu trúc từ việc phát hiện các mẫu có thể được sử dụng cho những đặc trưng của những bộ dữ liệu có cấu trúc, phân loại và phân nhóm các cấu trúc phức tạp, xây dựng các chỉ số đồ thị và thực hiện việc tìm kiếm tương tự trong cơ sở dữ liệu đồ thị lớn Chương 2 trình bày cơ sở lý thuyết đồ thị và tổng... thước k để phát sinh các đồ thị ứng viên kích thước k+1 Để tránh những chi phí như vậy, những thuật toán không dựa trên Apriori gần đây đã được phát triển, hầu hết các thuật toán này áp dụng phương pháp luận sự phát triển mẫu mà có mục đích để mở rộng các mẫu trực tiếp từ một mẫu đơn 2.4 CÁCH TIẾP CẬN DỰA TRÊN SỰ PHÁT TRIỂN MẪU Một đồ thị g có thể được mở rộng bằng cách thêm vào một cạnh mới e Đồ thị mới ... toán phát đồ thị thường xuyên CSDL đồ thị Cài đặt thử nghiệm thuật toán phát đồ thị thường xuyên CSDL đồ thị  Phương pháp nghiên cứu + Nghiên cứu khai phá liệu đồ thị với trọng tâm phát đồ thị thường. .. trước Các đồ thị thường xuyên mức tìm cách, tạo đồ thị ứng viên với cặp đồ thị mức tại, sau lọc đồ thị không thường xuyên Ưu điểm kỹ thuật dựa nguyên tắc ưu tiên cách đồ thị xem thường xuyên tất đồ. .. Chương 3: “ Các thuật toán phát đồ thị thường xuyên ” trình bày số thuật toán phát đồ thị thường xuyên theo chiến lược tìm kiếm theo chiều rộng chiều sâu Chương 4: “ Thiết kế hệ thống thử nghiệm ”

Nghiên cứu và thử nghiệm một số thuật toán phát hiện các đồ thị con thường xuyên

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan