Họ thuật toán Ginvan - Newman trong phát hiện cộng đồng và cài đặt thử nghiệm trên mạng xã hội trực tuyến Twitter

50 2.3K 29
Họ thuật toán Ginvan - Newman trong phát hiện cộng đồng và cài đặt thử nghiệm trên mạng xã hội trực tuyến Twitter

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Trung Hiếu HỌ THUẬT TOÁN GIRVAN-NEWMAN TRONG PHÁT HIỆN CỘNG ĐỒNG VÀ CÀI ĐẶT THỬ NGHIỆM TRÊN MẠNG XÃ HỘI TRỰC TUYẾN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Trần Trung Hiếu HỌ THUẬT TỐN GIRVAN-NEWMAN TRONG PHÁT HIỆN CỘNG ĐỒNG VÀ CÀI ĐẶT THỬ NGHIỆM TRÊN MẠNG XÃ HỘI TRỰC TUYẾN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn : PGS.TS Hà Quang Thụy Cán đồng hướng dẫn : ThS Nguyễn C m Tú HÀ NỘI - 2011 LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc tới thầy Hà Quang Thụy, người trực tiếp hướng dẫn tận tình đóng góp ý kiến q báu suốt q trình em làm khóa luận tốt nghiệp Em xin gửi lời cảm ơn tới giáo viên đồng hướng dẫn, cô Nguyễn CNm Tú anh chị bạn phịng thí nghiệm KT-SISLAB, người tận tình giúp đỡ em q trình làm khóa luận Tiếp theo em xin gửi lời cảm ơn đến đến thầy cô giáo trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội, tận tâm truyền đạt kiến thức quý báu làm tảng để em bước vào đời Em xin gửi lời cảm ơn tới hỗ trợ từ đề tài QG.10.38 q trình em làm khóa luận Cuối cùng, em xin cảm ơn cha mẹ, bạn bè người thân, người bên em, khuyến khích động viên em sống, học tập Sinh viên Trần Trung Hiếu LỜI CAM ĐOAN Tơi xin cam đoan mơ hình phát cộng đồng mạng xã hội trực tuyến Twitter thực nghiệm dựa họ thuật tốn Girvan-Newman trình bày khóa luận tơi thực hướng dẫn PGS TS Hà Quang Thụy ThS Nguyễn CNm Tú Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 22 tháng năm 2011 Sinh viên Trần Trung Hiếu TÓM TẮT KHÓA LUẬN Mạng xã hội toán phát cộng đồng mạng xã hội nội dung nghiên cứu thời sự, nhiều nhà khoa học thuộc nhiều lĩnh vực xã hội học, kinh tế, khoa học máy tính, sinh học, … quan tâm nghiên cứu [xx] Các nhà khoa học đề xuất thuật toán phát cộng đồng mạng xã hội, thuật tốn Girvan-Newman Girvan Newman đề xuất năm 2002 cải tiến thuật tốn sử dụng phổ biến tính hiệu chúng [xxx] Trong khóa luận này, chúng tơi sâu nghiên cứu họ thuật tốn GirvanNewman cho phát cộng đồng, tập trung vào thuật toán CONGA (Cluster Overlapping Newman Girvan Algorithm) Steve Gregory đề xuất năm 2007 Chúng tơi đề nghị mơ hình áp dụng thuật toán CONGA phát cộng đồng mạng trực tuyến Twitter Hệ thống thực nghiệm phát cộng đồng Twitter xây dựng dựa phần mềm CONGA (Steve Gregory, 2010) giao diện chương trình ứng dụng Twitter API (Yusuke Yamamoto cộng sự, 2009) Kết phân cụm thử nghiệm đồ thị Twitter (do xây dựng) đánh giá theo phân lớp SVM cho độ đo F1 khoảng 81% cho thấy mơ hình đặt có tính khả thi MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG PHÁT HIỆN CỘNG ĐỒNG TRONG MẠNG XÃ HỘI 1.1 Giới thiệu mạng xã hội 1.1.1 Sự phát triển mạng xã hội 1.1.2 Khái niệm mạng xã hội 1.2 Cộng đồng mạng xã hội toán khai phá cộng đồng 1.3 Một số ví dụ mạng xã hội cấu trúc cộng đồng 1.4 Kết luận chương 1: 11 CHƯƠNG HỌ THUẬT TOÁN GIRVAN-NEWMAN VỀ PHÁT HIỆN CỘNG ĐỒNG 12 2.1 Khái quát thuật toán phát cộng đồng 12 2.2 Họ thuật toán Girvan-Newman 14 2.2.1 Giới thiệu thuật toán Girvan-Newman nguyên thủy 14 2.2.2 Họ thuật toán Girvan-Newman 15 2.2.3 Thuật toán CONGA 18 2.2.4 Kết luận chương 22 CHƯƠNG MÔ HÌNH PHÁT HIỆN CỘNG ĐỒNG TRONG MẠNG XÃ HỘI TRỰC TUYẾN TWITTER 23 3.1 Sơ mạng xã hội trực tuyến Twitter 23 3.2 Mơ hình phát cộng đồng Twitter 23 3.2.1 Mơ hình 23 3.2.2 Phân tích thành phần mơ hình 25 3.3 Kết luận chương 26 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 27 4.1.Mô tả thực nghiệm 27 4.1.1 Mô tả liệu 27 4.1.2 Môi trường thực nghiệm (phần cứng hệ điều hành) 29 4.1.3 Các công cụ phần mềm sử dụng 30 4.2 Thực nghiệm đánh giá 33 4.2.1 Thực nghiệm 33 4.2.2 Đánh giá 34 4.3 Kết luận chương 39 KẾT LUẬN VÀ PHƯƠNG HƯỚNG 40 TÀI LIỆU THAM KHẢO 41 DANH SÁCH CÁC HÌNH VẼ Hình 1: Một ví dụ sociogram Hình 2: Ví dụ đồ thị đơn giản với cộng đồng giới hạn nét gạch nối Hình 3: Mơ hình câu lạc karate Zachary, mơ hình chuNn cho toán phát cộng đồng mạng xã hội Hình 4: Mơ hình biểu diễn mạng lưới cộng tác nhà khoa học SFI 10 Hình 5: Mạng Lusseau biểu diễn lồi cá heo Doubtful Sound, New Zealand 10 Hình 6: Ví dụ phép phân chia đỉnh đồ thị 19 Hình 7: Tìm phép phân chia tối ưu trường hợp hình 21 Hình 8: Mơ hình đề xuất giải toán phát cộng đồng mơ hình mạng xã hội trực tuyến Twitter 24 Hình 9: Minh họa file liệu chứa cấu trúc cạnh đồ thị 28 Hình 10: Hình vẽ mơ tả phần đồ thị xây dựng 29 Hình 11: Định dạng liệu đầu vào phần mềm CONGA 32 Hình 12: Kết chạy thử nghiệm thuật toán CONGA đồ thị xây dựng command line 34 Hình 13: Biểu đồ mơ tả thực nghiệm với 10 phần kết trung bình 38 DANH SÁCH CÁC BẢNG Bảng Môi trường thực nghiệm (phần cứng hệ điều hành) 30 Bảng 2: Độ đo Jaccard Rand thuật toán CONGA GN áp dụng cho mạng karate hình 35 Bảng 3: Độ đo vad overlap cho số mạng áp dụng thuật toán CONGA 37 Bảng 4: Độ xác phân lớp SVM dựa phân chia cộng đồng thuật toán CONGA 38 LỜI MỞ ĐẦU Lý thuyết đồ thị lần đưa Euler vào năm 1736.Từ đến người ta thực nhiều nghiên cứu đồ thị tính chất nó.Vào kỷ 20, đồ thị trở nên phổ biến ứng dụng rộng rãi nhiều khía cạnh đời sống sinh học, xã hội học, công nghệ thơng tin, mạng thơng tin,…Vào năm 1930 tốn phân tích mạng xã hội đời trở thành chủ đề quan trọng xã hội học.Trong đó, việc phân tích phát cộng đồng mạng xã hội nhu cầu thiết thời điểm nay, ứng dụng quan trọng cộng đồng lĩnh vực đời sống xã hội, khoa học máy tính, sinh học, kinh tế, trị,… Nội dung đề tài nghiên cứu toán phát cộng đồng mạng xã hội, phương pháp tiếp cận sử dụng thời điểm tại, từ đưa giải pháp xây dựng mạng xã hội từ cài đặt thử nghiệm thuật tốn phát cộng đồng Khóa luận chia thành phần sau: Chương 1: Phát cộng đồng mạng xã hội Chương 2: Họ thuật toán Girvan-Newman phát cộng đồng Chương 3: Mơ hình phát cộng đồng mạng xã hội trực tuyến Twitter Chương 4: Thực nghiệm đánh giá kết CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ Để thi hành mơ hình đề xuất chương 3, chương khóa luận trình bày thực nghiệm đánh giá việc xây dựng đồ thị biểu diễn mạng xã hội dựa mạng xã hội trực tuyến Twitter cài đặt thử nghiệm thuật toán CONGA lên mơ hình xây dựng 4.1.Mơ tả thực nghiệm 4.1.1 Mô tả liệu Dữ liệu dùng để xây dựng mơ hình mạng xã hội dựa mạng xã hội trực tuyến Twitter lấy từ API (application programming interface) mà Twitter cung cấp cho người sử dụng để tương tác với sở liệu Twitter.Từ Twitter API, ta thu thập thơng tin người sử dụng trực tuyến Twitter, ID, tên truy cập, danh sách bạn bè, follower following, status, mNu tin Tweet mà người sử dụng gửi đi, Tuy nhiên, Twitter đặt hạn chế truy cập sở liệu qua API : IP thông thường gửi tối đa 150 yêu cầu (nếu có quyền truy cập Twitter cung cấp mở rộng thành 350 yêu cầu giờ); thông tin số người sử dụng đặc biệt không thu thập nhu cầu bảo vệ thông tin cá nhân người sử dụng Chúng tiến hành thu thập liệu người sử dụng Twitter phương pháp loang: bắt nguồn từ người sử dụng phổ biến lựa chọn, từ tiến hành thu thập thơng tin 10 người danh sách (following list) người Với người vừa thu thập lại tiến hành thu thập thông tin 10 người danh sách người đó; thu số lượng người cần thiết Cách thu thập có ưu điểm người sử dụng thu để xây dựng mạng xã hội có mối quan hệ với nhau, từ đồ thị xây dựng có liên kết định Như có lợi thu thập liệu cách ngẫu nhiên, có khả phần lớn người sử dụng ta thu khơng có quan hệ với nhau, từ dẫn đến đồ thị ta xây dựng có số cạnh khơng có cạnh Từ liệu người sử dụng thu thập được, ta tiến hành bước loại bỏ liệu khơng phù hợp, ví dụ người sử dụng có số lượng bạn bè lớn (trên 27 vài trăm nghìn người) ảnh hưởng đến tốc độ tính tốn; người sử dụng khơng cơng khai thơng tin cá nhân mình, Sau bước này, chúng tơi thu thập thông tin 400 người sử dụng, với ID, tên truy nhập danh sách following 400 người đó.Danh sách lưu dạng file text với mục đích xác định cạnh đồ thị sau này, với tổng cộng 172,398 dịng dòng biểu diễn cho người sử dụng người danh sách following Tiếp theo từ liệu người sử dụng xử lý, tiến hành xây dựng đồ thị, đỉnh đại diện cho người sử dụng thu thập cạnh biểu diễn quan hệ người đỉnh Ở đây, đồ thị cần xây dựng đồ thị vô hướng, nên ta coi tồn cạnh A B A thuộc danh sách B B thuộc danh sách A Kết sau bước này, xây dựng đồ thị biểu diễn phần mạng xã hội Twitter thực tế, với 400 đỉnh 2890 cạnh đại diện cho người sử dụng mối quan hệ (following) họ Đồ thị biểu diễn dạng file text dịng số đỉnh, dòng biểu diễn cạnh nối đỉnh đồ thị Hình mơ tả cấu trúc file text : Hình Minh họa file liệu chứa cấu trúc cạnh đồ thị Trong dịng đầu số đỉnh đồ thị, dòng có dạng A B biểu diễn cạnh nối đỉnh A đỉnh B 28 Hình 10 minh họa cho phần đồ thị xây dựng được.Do số lượng đỉnh tương đối nhiều mật độ cạnh lớn, việc mơ tả trực quan hồn tồn đồ thị mạng xã hội khơng khả thi Hình 10 Hình vẽ mơ tả phần đồ thị xây dựng 4.1.2 Môi trường thực nghiệm (phần cứng hệ điều hành) Thực nghiệm tiến hành môi trường thực nghiệm sau: 29 Bảng Môi trường thực nghiệm (phần cứng hệ điều hành) Chi tiết phần cứng Chỉ số CPU Intel Pentium D 3.00 Ghz RAM 2048 MB HDD 160 GB OS Window XP SP3 4.1.3 Các công cụ phần mềm sử dụng Để thực nghiệm mơ hình xây dựng mạng xã hội dựa mạng xã hội trực tuyến Twitter cài đặt thử nghiệm thuật toán phát cộng đồng CONGA, sử dụng thư viện phần mềm sau: o Twitter4j: Bộ thư viện mã nguồn mở Java hỗ trợ tương tác với Twitter API Yusuke Yamamoto cộng phát triển năm 2009 o CONGA Software: Phần mềm mã nguồn mở hỗ trợ cài đặt thuật toán CONGA tác giả thuật tốn Steve Gregory thiết kế cơng bố năm 2010 o Java Netbean IDE 6.7: Công cụ lập trình Window, Unix hỗ trợ người sử dụng lập trình Java, PHP, C/C++, Bộ thư viện mã nguồn mở Twitter4j thiết kế với mục đích giúp người sử dụng có khả tương tác với Twitter API qua Java lấy liệu từ Twitter.Bộ thư viện Yusuke Yamamoto, lập trình viên người Nhật cộng phát triển năm 2009[10].Bộ thư viện mã nguồn mở, tải từ trang web http://twitter4j.org/en/index.html Bộ thư viện gồm package sau [10]: o Twitter4j: package quan trọng thư viện.Package có chứa lớp interface biểu diễn cho thành phần đối tượng Twitter, ví dụ interface IDs, User, Location, Status, Tweet, DirectMessage, Relationship, Friendship, o Twitter4j.api: package chứa interface biểu diễn phương thức Twitter API Các phương thức bao gồm phương thức 30 người sử dụng tài khoản họ (biểu diễn interface AccountMethods UserMethods), danh sách mối quan hệ (interface ListMethods FriendshipMethods), truy vấn tìm kiếm người sử dụng (SearchMethods, SavedSearchesMethods, ).Nói chung package biểu diễn tính mà API cung cấp cho người sử dụng o Twitter4j.auth: chứa lớp quyền hạn (authorization) ví dụ : truy cập vào tài khoản bảo vệ, số lượng yêu cầu o Twitter4j.conf: chứa lớp cấu thay đổi tính chất cấu hình twitter4j o Twitter4j.json: chứa lớp cách mô tả đối tượng có định dạng JSON o Twitter4j.management: chứa phương thức quản lý, thống kê tính tốn thư viện o Twitter4j.media:hỗ trợ chức phương tiện truyền thông upload ảnh đại diện, chia sẻ hình, video, o Twitter4j.util: chứa số tiện ích, chuyển đổi thời gian, số tiện ích người sử dụng Trong chương trình lấy liệu nhằm xây dựng mơ hình mạng xã hội chủ yếu sử dụng phương thức package twitter4j twitter4j.api, có phương thức sử dụng để xem thơng tin cá nhân người sử dụng (showUser), lấy danh sách following người (getFriendList), tìm mối quan hệ bạn bè họ (existsFriendship), Phần mềm mã nguồn mở CONGA Software Steve Gregory thiết kế dạng file JAR thư viện Java.Phần mềm có mục đích tính tốn phép phân chia cạnh đỉnh thuật tốn CONGA, sau thực việc phân chia cộng đồng cho đồ thị Phần mềm tải từ địa http://www.cs.bris.ac.uk/~steve/networks/software/conga.html Đầu vào chương trình file text biểu diễn đồ thị đó, có hai định dạng sau: 31 Hình 11 Định dạng liệu đầu vào phần mềm CONGA [9] Trong định dạng thứ định dạng danh sách cạnh có cấu trúc tương tự định dạng file text biểu diễn đồ thị xây dựng.Sau nhận đầu vào thích hợp, người sử dụng chạy dịng lệnh sau CMD [9]: java –cp conga.jar CONGA ***.txt –e để thu kết phát cộng đồng đồ thị, đó, ***.txt file text biều diễn đồ thị Kết đưa hình cho ta biết đỉnh, cạnh loại bỏ bước, phân tích từ cộng đồng ban đầu cộng đồng với độ đo trung gian Kết đầu cho ta biết bước cuối đồ thị phân thành cộng đồng với kích cỡ Ngồi thuật tốn phát cộng đồng CONGA dạng phương pháp phân cụm phân cấp, cộng đồng cha phân thành cộng đồng con, cộng đồng lại tiếp tục chia nhỏ thành cộng đồng khác khơng chia nhỏ nữa.Chính vậy, chương trình cung cấp khả xem xét bước thuật tốn phân chia dịng lệnh với tham số -n[9] : java –cp conga.jar CONGA ***.txt –e –n X X số nguyên biểu diễn số lượng cộng đồng bước phân chia mà ta muốn xem.Ví dụ muốn xem cấu trúc cộng đồng giai đoạn đồ thị phân chia làm cộng đồng cần thay X = dòng lệnh 32 Từ thư viện phần mềm trên, khóa luận xây dựng chương trình để thực thi việc xây dựng mạng xã hội cài đặt thử nghiệm thuật tốn phát triển cộng đồng.Chương trình thực thi Java với cấu trúc gồm hàm sau đây: − getData(): sử dụng để thu thập danh sách người sử dụng từ Twitter theo phương pháp loang trình bày trên.Hàm ghi lại kết dạng file text User.txt − getFollowingList(): Đầu vào người sử dụng file User.txt (kết hàm getData()), đầu danh sách following người đó.Các liệu khơng phù hợp chuNn hóa file hình thức bắt ngoại lệ(Exception) Java xử lý ngoại lệ đó.Kết ghi file text Following.txt − buildGraph() : hàm đọc file User.txt Following.txt đưa mối quan hệ following cặp đỉnh đồ thị Từ ta xây dựng đồ thị với đỉnh file User cạnh dựa mối quan hệ following thu được.Dữ liệu đỉnh cạnh ghi vào file Graph.txt − normalize() : hàm chuNn hóa file Graph.txt thành định dạng đầu vào chuNn phần mềm CONGA 4.2 Thực nghiệm đánh giá 4.2.1 Thực nghiệm Với liệu thu thập được, tiến hành xây dựng đồ thị biểu diễn phần mạng xã hội trực tuyến Twitter.Đồ thị biểu diễn dạng file text với dòng đầu số đỉnh, dòng cạnh đồ thị Đồ thị bao gồm 400 đỉnh 2890 cạnh Sau đó, chúng tơi chuNn hóa liệu cho giống dạng liệu đầu vào phần mềm CONGA đưa vào chạy thử nghiệm.Kết thử nghiệm mơ tả hình 12 33 Hình 12 Kết chạy thử nghiệm thuật toán CONGA đồ thị xây dựng command line Kết rõ cho ta đồ thị ban đầu gồm 400 đỉnh, 2890 cạnh, tổng số phép phân chia đỉnh 1400 với đỉnh phân chia lần.Trong tổng số pha tính độ trung gian 4290 pha, thời gian tổng cộng cho việc phân chia cộng đồng 565062 ms, tức 10 phút 4.2.2 Đánh giá Để đánh giá thuật toán phát cộng đồng, S.Fortunato [2] trình bày phương pháp sử dụng đồ thị chuNn phân chia thành cộng đồng từ trước, sau áp dụng thuật toán cần đánh giá vào đồ thị chuNn so sánh độ tương tự cộng đồng thu với cộng đồng xác định từ trước, từ xác định độ xác thuật tốn so với thực tế Cụ thể hơn, tác giả giới thiệu phương pháp phương pháp đếm cặp Giả sử phép phân chia phân đồ thị thành hai cộng đồng con, ký hiệu phép phân chia X.Áp dụng thuật toán cần đánh giá phân chia đồ thị thành hai cộng đồng tương ứng thu phép phân chia khác ký hiệu Y Tác giả ký hiệu a11 số cặp đỉnh mà thuộc cộng đồng phép phân chia a00 số cặp đỉnh mà khác cộng đồng phép phân chia, a10 số cặp đỉnh mà cộng đồng 34 X khác cộng đồng Y, a01 số cặp đỉnh mà cộng đồng Y khác cộng đồng X.Từ tác giả nêu vài độ đo đánh giá, chúng tơi quan tâm đến phép đánh giá: o Hệ số Rand: Rand định nghĩa năm 1971, tỉ số số cặp đỉnh thuật toán phân phân vùng chia cho tổng số cặp đỉnh a11 + a00 a11 + a10 + a01 + a00 R ( x, y ) = o Hệ số Jaccard: tỉ số số cặp đỉnh phân vào cộng đồng phép phân chia số cặp đỉnh phân vào cộng đồng phép phân chia J ( x, y ) = a11 a11 + a10 + a01 Bảng 2: Độ đo Jaccard Rand thuật toán CONGA GN áp dụng cho mạng karate hình Rand index Jaccard Index CONGA 0.5989 0.4360 GN 0.9393 0.8921 Bảng kết độ đo Jaccard Rand thuật toán CONGA GN áp dụng cho mạng karate miêu tả Hình Chương 1.Kết thuật tốn GN cao GN tìm kết gần giống với thực tế (chỉ khác đỉnh) kết CONGA thấp CONGA tìm kết khác hẳn với thực tế ( đỉnh bên cộng đồng bị chuyển sang cộng đồng cộng thêm đỉnh thuộc hai cộng đồng đỉnh 1) Dựa vào bảng đưa nhận xét: với mạng karate, mạng đơn giản, rõ ràng không tồn chồng chéo cộng đồng , áp dụng thuật toán GN đưa lại hiệu tốt so với thuật toán CONGA 35 Đặc biệt áp dụng vào mạng hình mạng biểu diễn cá heo Lusseau, thuật toán CONGA GN đưa phép phân chia giống với thực tế, tức độ đo Rand Jaccard 1.Tuy nhiên có khác chút thuật tốn CONGA tìm đỉnh overlap thuộc cộng đồng lớn Ngoài độ đo trên, Fortunato [2] cịn trình bày nhiều độ đo khác dựa vào lý thuyết thông tin độ đo lượng thông tin Shannon Mackay đề xuất năm 2003, hay độ đo lượng thông tin tương hỗ chuNn hóa Danon cộng đề xuất năm 2005 Chi tiết độ đo trình bày tài liệu [2] Steve Gregory [4] nêu hai độ đo để đánh giá thuật tốn phát cộng đồng ơng ta.Hai độ đo mà tác giả đề xuất vad (vertex average degree – tạm dịch bậc trung bình đỉnh) overlap Hai độ đo sử dụng để đánh giá chất lượng phân cộng đồng mà có khả xảy chồng chéo lẫn nhau.Các độ đo thể công thức sau: ∑ | E (C ) | vad ( S ) = C∈S ∑| C | C∈S ∑| C | overlap( S ) = C ∈S |S| Trong S đồ thị, C cộng đồng đồ thị, E(C) số cạnh C Áp dụng tính toán hai độ đo cho hai mạng chuNn cho đồ thị xây dựng được, ta có bảng 36 Bảng 3: Độ đo vad overlap cho số mạng áp dụng thuật toán CONGA Vad Overlap Mạng karate 4.45 1.03 Mạng cá heo Lusseau 4.91 1.03 Mạng xây dựng 6.23 1.08 Trong đó, độ đo vad overlap mạng chúng tơi xây dựng tính tốn phân chia mạng thành cộng đồng Ta lưu ý thuật tốn CONGA chia mạng thành nhiều cộng đồng nữa, độ đo vad overlap thay đổi Đối với mạng khơng có sẵn phép phân chia cộng đồng thực tế mạng xã hội xây dựng được, đề phương pháp đánh giá sử dụng cộng đồng phân chia theo thuật toán, lấy phần đỉnh làm tập huấn luyện phần lại làm tập test cho qua máy phân lớp SVM để kiểm tra độ xác.Chúng đánh giá dựa vào phương pháp đánh giá 10-folds tỉ lệ liệu train liệu test 9:1.Dữ liệu train đỉnh biểu diễn dạng vector với số chiều tổng số đỉnh đồ thị, tức 400 chiều.Với đỉnh kề với đỉnh biểu diễn thành phần tương ứng với số thứ tự đỉnh vector nhận giá trị 1.Các thành phần lại vector nhận giá trị tương ứng với đỉnh không kề với đỉnh cần biểu diễn Theo phép phân chia cộng đồng dựa thuật tốn CONGA, chúng tơi thu cộng đồng con, cộng đồng lớn cộng đồng nhỏ.Chúng lấy cộng đồng 100 đỉnh biểu diễn đỉnh dạng vector.Các vector gán nhãn tương ứng với cộng đồng lớn cộng đồng nhỏ.Sau chia tập đỉnh làm hai phần, phần để làm tập huấn luyện phần làm tập test(theo cách phân chia trình bày).Cho tập huấn luyện qua máy phân lớp SVM kiểm tra mơ hình với tập test Ta thu độ xác phép phân lớp dựa SVM so với thuật toán phân chia cộng đồng CONGA (Bảng 4) 37 Bảng 4: Độ xác phân lớp SVM dựa phân chia cộng đồng thuật toán CONGA Precision(%) Recall(%) F-measure(%) Fold 83.33% 76.92% 80.00% Fold 78.57% 84.61% 81.48% Fold 92.30% 92.30% 92.30% Fold 63.15% 92.30% 75.00% Fold 78.57% 84.61% 81.48% Fold 71.42% 76.92% 74.06% Fold 85.71% 92.30% 88.88% Fold 84.61% 84.61% 84.61% Fold 66.67% 61.53% 64.00% Fold 10 80% 92.30% 85.71% Trung bình 78.43% 83.84% 80.75% Nhận xét: Dựa vào bảng kết thu đưa kết luận việc đánh giá thuật toán CONGA dựa vào phân lớp SVM tương đối khả quan.Độ đo F1 trung bình cho 10 fold 80.75%, có fold độ đo F1 lên tới 92.3% Dưới biểu đồ mô tả kết thực nghiệm áp dụng phân lớp SVM: Hình 13: Biểu đồ mơ tả thực nghiệm với 10 phần kết trung bình 38 4.3 Kết luận chương Chương nêu lên thực nghiệm xây dựng mơ hình mạng xã hội cài đặt thử nghiệm thuật tốn CONGA mơ hình mạng xã hội đó, bao gồm bước mơ tả liệu, công cụ phần mềm sử dụng, thực nghiệm số phương pháp đánh giá thuật tốn.Khi đánh giá thuật tốn mạng chúng tơi xây dựng được, sử dụng phân lớp SVM, kết đạt tính trung bình cho 10 folds 80.75%, coi chấp nhận 39 KẾT LUẬN VÀ PHƯƠNG HƯỚNG Mạng xã hội toán phát cộng đồng mạng xã hội vấn đề nhiều nhà nghiên cứu quan tâm thời đại nay.Các toán phát cộng đồng ứng dụng rộng rãi nhiều lĩnh vực đời sống kinh tế, trị, xã hội, khoa học cơng nghệ, Khóa luận đưa tổng quan mạng xã hội toán phát cộng đồng mạng xã hội, hướng tiếp cận điển hình cho tốn phát cộng đồng.Khóa luận trọng trình bày chi tiết họ thuật tốn Girvan-Newman bao gồm thuật tốn Girvan-Newman ngun thủy cải tiến nhằm tối ưu hiệu tính tốn.Trong khóa luận chọn thuật tốn CONGA phát triển từ GN Steve Gregory năm 2007 làm thuật toán để cài đặt thử nghiệm mơ hình mạng xã hội chúng tơi xây dựng Khóa luận đưa mơ thực nghiệm xây dựng mơ hình mạng xã hội dựa mạng xã hội trực tuyến Twitter cài đặt thuật tốn phát cộng đồng mơ hình xây dựng được.Kèm theo chúng tơi cài đặt thử nghiệm thuật toán GN thuật toán CONGA với số mạng xã hội thực tế đưa đánh giá Hướng phát triển nghiên cứu khóa luận mở rộng mơ hình mạng xã hội, tính toán trọng số bổ sung hướng cho đồ thị cho phù hợp.Tiếp theo dự định tìm hiểu cài đặt thêm số thuật tốn thuộc họ GN cho mạng xã hội đưa phương án phát triển thuật toán CONGA cách hợp lý cho đồ thị có trọng số có hướng 40 TÀI LIỆU THAM KHẢO Tài liệu tiếng Anh [1] Jiyang Chen, Community Mining-Discovery Communities in Social Network, Thesis, University of Alberta, 2010 [2] Santo Fortunato (2010), Community detection in graphs, Technical Report, Complex Networks and Systems Lagrange Laboratory, ISI Foundation, Torino, ITALY, arXiv:0906.0612v2 (2010) [3] M Girvan, M E J Newman (2002) Community structure in social and biological networks, Proc Natl Acad Sci., 99(12), 7821 (2002) [4] Steve Gregory: An Algorithm to Find Overlapping Community Structure in Networks PKDD 2007 [5] A Lancichinetti, S Fortunato, et F Radicchi, “Benchmark graphs for testing community detection algorithms,” Physical Review E, vol 78, Oct 2008, p 046110 [6] M E J Newman (2004) "Fast algorithm for detecting community structure in networks" Phys Rev E 69 (6): 066133.doi:10.1103/PhysRevE.69.066133 [7] M E J Newman and M Girvan, Finding and evaluating community structure in networks Preprint cond-mat/0308217 (2003) [8] Matthew J.Rattigan, Marc Maier, David Jensen (2007), Graph clustering with netword structure indices, ICML 2007, 783-790 Website [9] http://www.cs.bris.ac.uk/~steve/networks/ [10] http://twitter4j.org/en/ 41 ... phổ biến cho toán phát cộng đồng, đặc biệt họ thuật toán Girvan -Newman phát cộng đồng 11 CHƯƠNG HỌ THUẬT TOÁN GIRVAN -NEWMAN VỀ PHÁT HIỆN CỘNG ĐỒNG 2.1 Khái quát thuật toán phát cộng đồng Santo... nghiệm mạng xã hội dựa mạng xã hội trực tuyến Twitter cài đặt thuật toán CONGA thuộc họ thuật toán Girvan -Newman để phát cộng đồng mạng xã hội 23 Thu thập liệu(1) Tiền xử lý liệu (2) Mơ hình mạng xã. .. xây dựng mạng xã hội từ cài đặt thử nghiệm thuật tốn phát cộng đồng Khóa luận chia thành phần sau: Chương 1: Phát cộng đồng mạng xã hội Chương 2: Họ thuật toán Girvan -Newman phát cộng đồng Chương

Ngày đăng: 26/07/2014, 07:28

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan