Nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu

87 318 1
Nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN NGUYỄN THẾ ĐẠT NGHIÊN CỨU HÌNH PHÂN CỤM THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Thái Nguyên – 2017 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT THÁI NGUYÊN NGUYỄN THẾ ĐẠT NGHIÊN CỨU HÌNH PHÂN CỤM THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN Thái Nguyên – 2017 i LỜI CAM ĐOAN Tên là: Nguyễn Thế Đạt Sinh ngày: 09/01/1979 Học viên lớp cao học CK14 - Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên Hiện công tác tại: Trường THCS Hạp Lĩnh – TP Bắc Ninh – Bắc Ninh Xin cam đoan: Đề tài “Nghiên cứu hình phân cụm thứ bậc đồ thị liệu” Thầy giáo PGS.TS Đoàn Văn Ban hướng dẫn công trình nghiên cứu riêng Tất tài liệu tham khảo nguồn gốc, xuất xứ rõ ràng Tác giả xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai hoàn toàn chịu trách nhiệm trước hội đồng khoa học trước pháp luật Thái Nguyên, ngày 15 tháng năm 2017 Tác giả luận văn Nguyễn Thế Đạt ii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban, luận văn với đề tài “Nghiên cứu hình phân cụm thứ bậc đồ thị liệu”đã hoàn thành Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban tận tình dẫn, giúp đỡ hoàn thành luận văn Khoa sau Đại học Trường Đại học công nghệ thông tin truyền thông giúp đỡ trình học tập thực luận văn Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ suốt trình học tập, thực hoàn thành luận văn Thái Nguyên, ngày 15 tháng năm 2017 Tác giả luận văn Nguyễn Thế Đạt iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC HÌNH VẼ .vii MỞ ĐẦU CHƯƠNG 1: PHÂN CỤM DỮ LIỆUPHÂN CỤM ĐỒ THỊ DỮ LIỆU 1.1 Phân cụm liệu 1.1.1 Khái niệm mục tiêu phân cụm liệu 1.1.2 Một số khái niệm cần thiết tiếp cận phân cụm liệu .7 1.1.3 Một số kỹ thuật phân cụm liệu 10 1.1.4 Các ứng dụng phân cụm liệu 16 1.2 Phân cụm đồ thị liệu 17 1.2.1 hình đồ thị liệu 17 1.2.2 Các loại độ đo 18 1.2.3 Một số kỹ thuật phân cụm đồ thị liệu 23 1.3 Kết luận chương 28 CHƯƠNG 2: PHÂN CỤM THỨ BẬC CÁC ĐỒ THỊ DỮ LIỆU 29 2.1 Thuật toán CHAMELEON 29 2.2 Thuật toán CURE .31 2.3 Thuật toán Girvan-Newman 34 2.3.1 Giới thiệu độ đo modularity 34 2.3.2 Độ đo trung gian .35 2.3.3 Thuật toán phân cụm Girvan-Newman 36 2.4 Thuật toán CNM (Clauset-Newman-Moore) 39 2.5 Thuật toán Rosvall-Bergstrom 42 iv 2.6 Thuật toán INC (Incre-Comm-Extraction) 47 2.6.1 Nội dung thuật toán 47 2.6.2 Độ phức tạp thuật toán .49 2.6.3 Độ đo chất lượng phân cụm thuật toán 50 2.7 Kết luận chương 51 CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN PHÂN CỤM THỨ BẬC TRONG PHÂN CỤM ĐỒ THỊ DỮ LIỆU CÁC MẠNG Xà HỘI 52 3.1 Bài toán phân cụm mạng xã hội .52 3.2 Xây dựng chương trình ứng dụng phân cụm đồ thị mạng xã hội 53 3.2.1 Giai đoạn 1: Thu thập liệu 53 3.2.2 Giai đoạn 2: Xử lý liệu 54 3.2.3 Giai đoạn 3: Xây dựng ứng dụng phân cụm thứ bậc đồ thị mạng xã hội 55 3.3 Các kết thực nghiệm đánh giá 56 3.3.1 Thời gian thực thi thuật toán 57 3.3.2 Số cụm phân chia 58 3.3.3 Chất lượng phân cụm .58 3.4 Phân cụm đồ thị mạng xã hội dựa mối quan tâm người dùng 58 3.4.1 Giới thiệu 58 3.4.2 hình hóa liệu 60 3.4.3 Xây dựng liệu 62 3.4.4 Xây dựng ứng dụng 66 3.4.5 Thực nghiệm đánh giá INC 69 3.5 Kết luận chương 74 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75 TÀI LIỆU THAM KHẢO 76 v DANH MỤC BẢNG Bảng 3.1: Kết thực thi thuật toán…………………………………………57 Bảng 3.2: Kết thực thi thuật toán INC CNM…………………………….69 vi DANH MỤC CÁC TỪ VIẾT TẮT Từ cụm từ CNM Từ tiếng Anh Clauset-Newman-Moore Phân cụm thứ bậc tích tụ sở liệu CSDL CURE Từ tiếng Việt Clustering Using Representatives GN Girvan-Newman INC Incre-Comm-Extraction MCL Markov Clustering RB Rosvall-Bergstrom Phân cụm liệu sử dụng điểm đại diện Phân cụm phân chia Phân cụm theo hình Markov vii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Ví dụ phân cụm liệu Hình 1.2: Ví dụ phân cụm nhà dựa khoảng cách Hình 1.3: Ví dụ phân cụm nhà dựa kích cỡ Hình 1.4: Các chiến lược phân cụm thứ bậc .11 Hình 1.5: Ví dụ phân cụm dựa theo mật độ 12 Hình 1.6: Cấu trúc phân cụm dựa lưới 13 Hình 1.7: Ví dụ phân cụm dựa hình .14 Hình 1.8: Các cách mà cụm đưa 16 Hình 1.9: (a) Tối ưu đường kính cực tiểu tổng cực tiểu tạo cụm B A lại tốt thực tế (b) Tối ưu K-means tạo cụm B A lại tốt .20 Hình 1.10: Minh họa hình đồ thị cho bước ngẫu nhiên …………………….25 Hình 2.1: Phân cụm Chameleon .31 Hình 2.2: Sự di chuyển trung tâm cụm .32 Hình 2.3: Sự sáp nhập cụm 32 Hình 2.4: Cụm liệu khai phá thuật toán CURE 33 Hình 2.5: Ví dụ phát cụm sử dụng thuật toán Girvan - Newman 38 Hình 2.6: Khung làm việc sở để phân cụm đồ thị trình truyền thông…42 Hình 2.7: Ví dụ mã Huffman .43 Hình 2.8: Phân hoạch vào lượng tối ưu modul 45 Hình 3.1: Các bước thực chương trình .53 Hình 3.2: Ví dụ tập liệu Dolphins.gml 54 Hình 3.3: Tập liệu Dolphins.txt 54 Hình 3.4: Nạp file liệu đầu vào 55 Hình 3.5: Kết chạy thuật toán phân cụm CNM cho liệu dolphins.txt 56 Hình 3.6: Kết chạy thuật toán Girvan-Newman cho liệu dolphins.txt 56 Hình 3.7: Biểu đồ so sánh thời gian thực thi thuật toán 57 Hình 3.8: Biểu đồ so sánh số lượng cụm 58 viii Hình 3.9: Biểu đồ so sánh chất lượng phân cụm .58 Hình 3.10: Đăng tin bình luận Facebook 60 Hình 3.11: Một phần danh sách tài khoản Facebook 62 Hình 3.12: Giao diện đăng ký ứng dụng Facebook API 63 Hình 3.13: Thu thập liệu thủ công với Graph API Explorer 63 Hình 3.14: Thu thập liệu tự động với Facebook API 64 Hình 3.15: Một phần liệu thu thập cập nhật SQL Server 64 Hình 3.16: Một phần liệu danh sách số lượng ID người dùng bình luận tường Facebook tương ứng .65 Hình 3.17: Một phần liệu mạng xã hội dựa mối quan tâm người dùng 66 Hình 3.18: Giao diện tự động thu thập liệu 67 Hình 3.19: Kết chạy chương trình phân cụm với INC CNM 68 Hình 3.20: Một phần biểu đồ dendrogram kết phân cụm với INC 68 Hình 3.21: Đồ thị so sánh thời gian thực thi INC CNM 69 Hình 3.22: Đồ thị so sánh số lượng cụm theo INC CNM 70 Hình 3.23: Đồ thị tương quan số lượng cụm với giá trị s 70 Hình 3.24: Đồ thị so sánh chất lượng phân cụm theo INC CNM 70 Hình 3.25: Đồ thị tương quan chất lượng cụm với giá trị s 71 Hình 3.2.6: Kết phân chia cụm lớn thành cụm (bất động sản, chứng khoán, ô tô, xe máy ) 72 Hình 3.27: Kết phân chia cụm lớn yêu thích đồ nội thất, lưu niệm, thời trang thành cụm (giày dép, đồng hồ,hoa tươi, quà lưu niệm, ngân hàng ) 72 Hình 3.28: Kết phân cộng động quan tâm tới Phật giáo 73 Hình 3.29: Kết phân cộng động quan tâm tới mỹ phẩm, thẩm mỹ, bệnh viện thẩm mỹ phân chia theo INC 73 63 Hình 3.12: Giao diện đăng ký ứng dụng Facebook API Lúc này, ta sử dụng ngôn ngữ lập trình, cụ thể ta sử dụng Visual Studio 2012 (C#) để xây dựng ứng dụng sử dụng Facebook API để thu thập liệu thông qua công cụ Graph API Explorer Một ví dụ thu thập thông tin bình luận người dùng tường Facebook dùng Graph API Explorer thủ công sau: Hình 3.13: Thu thập liệu thủ công với Graph API Explorer 64 Để thu thập tự động, ta sử dụng thư viện Facebook.dll với tham số AppId, Access token ứng dụng đăng ký Riêng giá trị Access token phải truy cập vào ứng dụng để lấy lại mã giá trị giới hạn phiên làm việc Dữ liệu thu thập theo năm, theo số bình luận tối đa trang liệu trả Vì thời gian thu thập liệu lâu số lượng bình luận trang lớn nên ta thu thập liệu theo khoảng khác với nhiều ứng dụng thực thi thời điểm Trong khuôn khổ luận văn thu thập liệu bình luận tính từ năm 2016 trở Bộ liệu thu thập lưu trữ SQL Server 2008 với dung lượng lên tới 4.5 GB Hình 3.14: Thu thập liệu tự động với Facebook API Hình 3.15: Một phần liệu thu thập cập nhật SQL Server 65 Như hình 3.14, 3.15, liệu trả định dạng Json, tiến hành đọc định dạng tách danh sách ID đếm số lượng người dùng đơn bình luận tường Facebook tương ứng Hình 3.16: Một phần liệu danh sách số lượng ID người dùng bình luận tường Facebook tương ứng 3.4.3.2 Tiền xử lý liệu, xây dựng cấu trúc mạng xã hội dựa mối quan tâm người dùng Với liệu thu thập được, số tường Facebook không thu thập liệu tài khoản thiết lập quyền không cho phép thu thập tự động thông qua Facebook API Ta tiến hành loại bỏ ghi số ghi người tham gia bình luận (dưới 100 người) để liệu ý nghĩa Sau ta tiến hành xây dựng liệu đồ thị mạng xã hội thu thập theo hình giới thiệu 3.4.2, tiến hành xuất file FacebookGraphWeight.txt để làm đầu vào cho thuật toán INC phân cụm Định dạng file FacebookGraphWeight.text gồm dòng cạnh đồ thị với thông số: đỉnh đầu, đỉnh cuối, số người bình luận chung, số người bình luận tường facebook đỉnh đầu, số người bình luận tường facebook đỉnh cuối 66 Dựa giá trị này, chương trình tính trọng số cạnh đồ thị theo công thức 3.4.2 Sau tiền xử lý liệu, liệu thu thập gồm 1500 đỉnh (FacebookID), 109445 cạnh 2.604.079 người dùng Facebook đơn tham gia bình luận tường Hình 3.17: Một phần liệu mạng xã hội dựa mối quan tâm người dùng 3.4.4 Xây dựng ứng dụng Dựa nghiên cứu chương trước, ta tiến hành cài đặt ứng dụng để đánh giá kết đạt liệu thực nghiệm Các chức ứng dụng demo sau: 3.4.4.1 Tự động thu thập xây dựng liệu Được phát triển ngôn ngữ C#.NET với Visual Studio 2012 hệ quản trị CSDL Microsoft SQL Server 2008, kết hợp với thư viện hỗ trợ lập trình Facbook API Người dùng nhập vào chuỗi Access Token ứng dụng theo phiên làm việc Facebook, nhập vào tham số thời gian thu thập tính từ năm nào, số bình luận tối đa thu trang (nếu liệu lớn Facebook phân trang kết trả về), thu thập cho ID facebook nằm khoảng (áp dụng cho việc chạy nhiều tiến trình đồng thời - chạy ứng dụng thu thập thời gian) Bấm nút "Thu thập comments" để tự động thu thập bình luận ghi vào sở liệu: 67 Hình 3.18: Giao diện tự động thu thập liệu Sau thu thập xong bình luận, bấm nút "Tách Facebook ID" để tách riêng ID người dùng bình luận tương ứng với tường Facebook lựa chọn Sau tách xong, bấm nút "Xây dựng mạng cụm" để tạo file liệu đầu vào cho việc phân cụm 3.4.4.2 Phân cụm đồ thị mạng xã hội với CNM INC Ứng dụng kế thừa từ thư viện mã nguồn mở SNAP [23] viết Visual C++ Console phục vụ cho mục đích nghiên cứu thuật toán phân cụm Trong thư viện cài đặt thuật toán CNM áp dụng cho đồ thị vô hướng trọng số Tiến hành phát triển CNM cho đồ thị vô hướng trọng số theo yêu cầu thuật toán INC trình bày 2.6 Sau tiến hành cài đặt thuật toán INC dựa thuật toán CNM với tham số đầu vào đồ thị mạng xã hội thu thập số s (cận kích thước cụm) Kết xuất số lượng cụm, thời gian thực thuật toán độ đo chất lượng phân cụm với thuật toán INC CNM để tiện theo dõi, so sánh kết 68 Hình 3.19: Kết chạy chương trình phân cụm với INC CNM Ngoài việc xuất kết chung hình, chương trình xuất file kết chi tiết (danh sách cụm thành viên cụm) định dạng file Json phục vụ cho việc biểu diễn trực quan biểu đồ dendrogram phân chia cụm 3.4.4.3 Biểu diễn trực quan kết phân cụm với CNM cải tiến Để biểu diễn trực quan kết phân cụm, em xây dựng ứng dụng ASP.NET với C# để vẽ biểu đồ dendrogram file kết định dạng Json, sử dụng phần mềm mã nguồn mở D3 [27] Để việc biểu diễn xác, định dạng file Json nghiên cứu kỹ lưỡng xuất tương ứng vòng lặp đệ quy thuật toán INC Hình 3.20: Một phần biểu đồ dendrogram kết phân cụm với INC 69 3.4.5 Thực nghiệm đánh giá INC Để đánh giá kết thuật toán INC, tác giả tiến hành thực nghiệm liệu thu thập 3.4.3 Cấu hình máy tính sử dụng để tiến hành thực nghiệm sau: - Hệ điều hành: Windows 8.1 64bit - Processor: Intel(R) Celeron(R) CPU G1840 @2.80GHz - RAM: 8GB Kết thực thi thuật toán INC CNM cho bảng 3.2 đây: Facebook Dataset (1500) Số cụm s Bộ liệu Chất lượng phân cụm (Modularity) INC CNM INC CNM 321 92 284 2651.66 10 224 2730.1 15 188 2785.667 20 168 2754.92 30 140 2713.86 40 137 2721.756 50 135 2719.86 2480.094 1212.408 Thời gian thực thi (giây) INC CNM 8.25 7.35 Bảng 3.2: Kết thực thi thuật toán INC CNM 3.4.5.1 Thời gian thực thi thuật toán Với liệu đầu vào thu thập được: đồ thị 1500 đỉnh 109445 cạnh, thuật toán INC cho thời gian chạy 6.60(s), CNM 5.99(s) Như thấy tốc độ INC không chênh lệch nhiều so với CNM Thời gian (giây) 10 8.25 7.35 INC CNM Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) Hình 3.21: Đồ thị so sánh thời gian thực thi INC CNM 70 3.4.5.2 Số lượng cụm tìm Kết thực nghiệm tên liệu thu thập cho thấy số lượng cụm tìm thuật toán INC 321 cụm, vượt trội so với thuật toán CNM (92 cụm) Số cộng đồng 400 321 300 200 92 100 INC CNM Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) Hình 3.22: Đồ thị so sánh số lượng cụm theo INC CNM Khi người dùng đưa vào tham số s (cận kích thước cụm), số lượng Số cộng đồng cụm thu tỷ lệ nghịch với giá trị s 400 321 284 224 188 200 168 140 137 135 INC 0 10 15 20 30 40 50 Giá trị tham số s Hình 3.23: Đồ thị tương quan số lượng cụm với giá trị s 3.4.5.3 Chất lượng phân chia cụm Kết thực nghiệm tên liệu thu thập cho thấy chất lượng phân Giá trị modun hóa (mật độ) cụm thuật toán INC 2480,094, vượt trội so với thuật toán CNM (1212,408) 3000 2500 2480.094196 2000 1500 INC 1212.407817 1000 CNM 500 Facebook Dataset (1500) Bộ liệu (số đỉnh mạng xã hội) Hình 3.24: Đồ thị so sánh chất lượng phân cụm theo INC CNM 71 Khi người dùng đưa vào tham số s (cận kích thước cụm), chất lượng cụm thay đổi Chất lượng cụm biến thiên tăng dần đạt giá trị cao s=15 (D = 2785.667), sau giảm dần s tăng lên Khi s tăng giá trị D tiến tới giá trị phân chia cụm CNM 1212.408 Độ đo đun dày đặc 2850 2785.667 2800 2754.92 2730.1 2750 2700 2713.86 2721.756 2719.86 2651.66 2650 INC 2600 2550 2500 2480.094196 2450 2400 2350 2300 10 15 20 30 40 50 Giá trị tham số s Hình 3.25: Đồ thị tương quan chất lượng cụm với giá trị s 3.4.5.4 Đánh giá trực quan biểu đồ kết Căn biểu đồ dendrogram biểu diễn kết phân cụm mạng xã hội với liệu thu thập cho thấy chất lượng phân chia cụm tốt Các nút bên biểu diễn cụm mức khác nhau, nút tường Facebook Các cụm mức cuối kết phân chia theo INC, mức thứ hai kết phân chia theo thuật toán CNM Hình 3.26 ví dụ phân chia cụm lớn từ CNM (cụm quan tâm tới ô tô, xe máy, bất động sản, chứng khoán) thành cụm với thuật toán INC Đối với cụm quan tâm tới ô tô, thuật toán chia nhỏ thành cụm quan tâm tới dòng xe khác (Lamborghini, Renault, Lexus, Kia, Honda, Toyota ) phân khúc khác (xe bình dân, xe sang ) 72 + Hình 3.26: Kết phân chia cụm lớn thành cụm (bất động sản, chứng khoán, ô tô, xe máy ) Hình 3.27 ví dụ phân chia cụm lớn từ CNM (yêu thích đồ nội thất, lưu niệm, thời trang, ngân hàng) thành cụm với thuật toán INC Đối với cụm quan tâm tới thời trang, thuật toán chia nhỏ thành cụm quan tâm tới loại khác giày dép, đồng hồ, mũ, quần áo, Hình 3.27: Kết phân chia cụm lớn yêu thích đồ nội thất, lưu niệm, thời trang thành cụm (giày dép, đồng hồ,hoa tươi, quà lưu niệm, ngân hàng ) 73 Hình 3.28: Kết phân cộng động quan tâm tới Phật giáo Hình 3.29: Kết phân cộng động quan tâm tới mỹ phẩm, thẩm mỹ, bệnh viện thẩm mỹ phân chia theo INC * Đánh giá chung:  Thuật toán INC cho thời gian thực thi nhanh, không lâu so với CNM  Thuật toán cho số lượng cụm tìm thấy nhiều nhiều so với thuật toán CNM  Khi giá trị s tăng dần số cụm tìm giảm dần chất lượng cụm giảm dần 74  Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độ đo đun hóa mật độPhân tích trực quan kết cho thấy việc phân chia cụm INC xác 3.5 Kết luận chương Trong chương 3, em giới thiệu kiến thức liên quan đến mạng xã hội toán phân cụm đồ thị liệu mạng xã hội Để áp dụng thuật toán phân cụm phân cấp nghiên cứu để phân cụm liệu đồ thị mạng xã hội, em tiến hành thu thập 05 liệu mạng xã hội cài đặt, thực nghiệm 03 thuật toán nghiên cứu 05 liệu tiến hành đánh giá kết đạt Qua kết thực nghiệm cho thấy, thuật toán Clauset-Newman-Moore thuật toán cho kết tốt phân cụm đồ thị liệu mạng xã hội, thời gian thực thi thuật toán, số lượng cụm tìm chất lượng phân cụm Do thuật toán CNM cho số cụm ít, nhiều cụm kích thước lớn Trên thực tế, với toán phân cụm đồ thị mạng xã hội cần phân cụm thành cụm kích thước nhỏ nhằm phản ánh rõ nét tính chất phần tử cụm (cụ thể mối quan tâm người dùng mạng xã hội tới lĩnh vực, chủ đề cụ thể) nên thuật toán INC cải tiến từ thuật toán CNM xây dựng để đáp ứng mục tiêu đó, qua hỗ trợ hoạt động truyền thông, quảng cáo, marketing online hướng tới cụm đối tượng người dùng cụ thể 75 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Mạng xã hội toán phân cụm người dùng mạng xã hội vấn đề nhiều nhà nghiên cứu quan tâm thời đại Các toán phát cộng đồng dựa thuật toán phân cụm ứng dụng rộng rãi nhiều lĩnh vực đời sống kinh tế, trị, xã hội, khoa học công nghệ, Những kết luận văn:  Trình bày kiến thức tổng quan đồ thị liệu, phương pháp phân cụm đồ thị liệu, tập trung vào phương pháp phân cụm phân cấp đồ thị liệu Trên sở thuật toán nghiên cứu  Cài đặt thuật toán thử nghiệm 05 liệu mạng xã hội thực tế (các liệu chuẩn sử dụng đánh giá thuật toán phân cụm đồ thị mạng xã hội)  Kết thực nghiệm cho thấy thuật toán CNM (Clauset-Newman-Moore) thuật toán tốt cho phân cụm để phát cộng đồng mạng xã hội với tốc độ tính toán nhanh nhất, chất lượng phân cụm tốt tương đương với thuật toán Girvan-Newman theo tiêu chí đánh giá độ đo Modularity  Chất lượng phân chia cụm INC tốt nhiều so với CNM xét độ đo đun hóa mật độPhân tích trực quan kết cho thấy việc phân chia cụm INC xác Hướng phát triển đề tài Mặc cố gắng với thời gian thực luận văn không nhiều, khối lượng kiến thức cần nghiên cứu nhiều nên luận văn tồn hạn chế cần khắc phục thời gian tới, cụ thể như: - Việc đánh giá kết cần tiến hành nhiều liệu hơn, kích thước liệu lớn - Cài đặt đánh giá kết nhiều thuật toán để thấy đầy đủ điểm mạnh, yếu thuật toán - Hiển thị kết phân cụm trực quan hơn, làm việc với loại liệu đầu vào khác file gml 76 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu, NXBGD Lê Minh Tiến (2006), “Tổng quan phương pháp phân tích mạng xã hội nghiên cứu xã hội” Tạp chí khoa học xã hội Số Nguyễn Hoàng Tú Anh (2009), Giáo trình "Khai thác liệu ứng dụng", Đại học Khoa học Tự nhiên TP HCM Tiếng Anh B W Kernighan and S Lin, An efficient heuristic procedure for partitioning graphs Bell System Technical Journal 49, 291-307 (1970) Clauset A, Newman MEJ, Moore C (2004), Finding community structure in very large networks Phys Rev E 70(6):066,111 Doan Nhat Quang (2013), New models for hierarchical and topological clustering, Ph D Thesis PARIS 13 UNIVERSITY - SORBONNE PARIS CITÉ Girvan M, Newman MEJ (2002), Community structure in social and biological networks PNAS 99(12):7821–7826 Girvan, M & Newman, M.E.J (2004) Finding and evaluating community structure in networks Physical review E, Statistical, nonlinear, and soft matter physics, 69 Hanene Azzag, Gilles Venturini, Antoine Oliver et Christiane Guinot (2007), A hierarchical ant based clustering algorithm and its use in three real-world applications, European Journal of Operational Research, vol 179, no 3, June 2007 10 H Azzag, N Monmarch´e, M Slimane, G Venturini, C Guinot (2012), AntTree: a New Model for Clustering with Artificial Ants 11 Istvan Jonyer, Diane J Cook, Lawrence B Holder (2002), Graph-Based Hierarchical Conceptual Clustering, Journal of Machine Learning Research 12 M Girvan, M E J Newman (2002), Community structure in social and biological networks, Proc Natl Acad Sci., 99(12), 7821 13 M E J Newman (2004), Fast algorithm for detecting community structure in networks Phys Rev E 69, 066133 77 14 Martin Rosvall, Carl T Bergstrom (2007), "Maps of random walks on complex networks reveal community structure", Department of Biology, University of Washington, Seattle 15 Newman, M.E.J (2006) Modularity and community structure in networks Proceedings of the National Academy of Sciences, 103, 8577-8582 16 Newman, M.E.J (2004) Detecting community structure in networks The European Physical Journal B - Condensed Matter and Complex Systems, 38, 321-330 17 Network data sets (truy cập ngày 10/2/2017) http://www-personal.umich.edu/~mejn/netdata/ 18 P Eades and Q.W Feng (1996), Multilevel visualization of clustered graphs, In Proceedings of the Symposium on Graph Drawing, GD ’96, pages 101–112, Berkeley, California, USA, September 1996 19 Pinney J,Westhead D (2007), Betweenness-based decomposition methods for social and biological networks Interdiscipl StatBioinf pp 87–90 20 Reinhard Diestel (2005), Graph Theory, Springer-Verlag Heidelberg, NY, 2005 21 Santo Fortunato (2010), Community detection in graphs 22 Social Networks Datasets (truy cập ngày 10/2/2017) https://snap.stanford.edu/data/#socnets 23 Teuvo Kohonen (2001), Self-Organizing Maps, Third Edition, Springer, Heidelberg 24 Zhang S, Ning X, Ding C (2009), Maximizing modularity density for exploring modular organization of protein interaction networks In: Third international symposium on optimization and systems biology, pp361–370 25 Zheng Chen (2009), Graph-based Clustering and its Application in Coreference Resolution, The Graduate Center, The City University of New York 26 http://mbostock.github.com/d3/ 27 http://snap-graph.sourceforge.net 28 http://developers.facebook.com/ 29 http://julianhopkins.net 30 https://link.springer.com/article/10.1007/s13278-014-0170-z 31 http://www-personal.umich.edu/~mejn/netdata/ ... nghiên cứu sâu phân cụm đồ thị liệu: khái niệm đồ thị liệu, độ đo phân cụm liệu nói chung đồ thị liệu nói riêng, kỹ thuật phân cụm đồ thị Chương II: Phân cụm có thứ bậc đồ thị liệu Nghiên cứu, ... cho việc phân cụm mạng xã hội Đối tượng phạm vi nghiên cứu ▪ Đối tượng nghiên cứu:  Tập đồ thị liệu  Các cụm đồ thị  Các mạng xã hội ▪ Phạm vi nghiên cứu  Phân cụm có thứ bậc đồ thị liệu ... vậy, chọn đề tài "Nghiên cứu mô hình phân cụm có thứ bậc đồ thị liệu" với mục đích tìm hiểu sâu phương pháp phân cụm có thứ bậc áp dụng cho đồ thị liệu, mà cụ thể luận văn đồ thị liệu mạng xã hội

Ngày đăng: 23/06/2017, 13:04

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan