MỘT mô HÌNH tìm KIẾM VAI TRÒ TRONG MẠNG xã hội TWITTER

46 404 0
MỘT mô HÌNH tìm KIẾM VAI TRÒ TRONG MẠNG xã hội TWITTER

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐINH THỊ HƯƠNG MỘT MÔ HÌNH TÌM KIẾM VAI TRÒ TRONG MẠNG XÃ HỘI TWITTER Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 60480104 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐINH THỊ HƯƠNG MỘT MÔ HÌNH TÌM KIẾM VAI TRÒ TRONG MẠNG XÃ HỘI TWITTER Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 60480104 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY HÀ NỘI - 2014 Lời cam đoan Tôi xin cam đoan luận văn “Một mô hình tìm kiếm vai trò mạng xã hội Twitter" công trình nghiên cứu riêng Các số liệu, kết trình bày luận văn hoàn toàn trung thực Tôi trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan Ngoại trừ tài liệu tham khảo này, luận văn hoàn toàn công việc riêng Luận văn hoàn thành thời gian học viên Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, ngày 25 tháng 10 năm 2014 Học viên Đinh Thị Hương Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy Phòng Thí nghiệm KTLab tận tình hướng dẫn suốt trình thực luận văn tốt nghiệp Luận văn thực khuôn khổ đề tài mã số BB-2012-B42-29 Bộ Công an Tôi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại học Công Nghệ Tôi xin gửi lời cảm ơn tới bạn lớp cao học K18 ủng hộ, khuy ến khích suốt trình học tập trường Cuối cùng, muốn gửi lời cảm ơn vô hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên suốt trình thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, ngày 25 tháng 10 năm 2014 Học viên Đinh Thị Hương Tóm tắt nội dung Phát vai trò mạng xã hội trực tuyến không gây ý giới học thuật mà giới kinh doanh Đối với nhà đầu tư, doanh nghiệp, việc quảng bá sản phẩm, thương hiệu dựa vai trò người có ảnh hưởng lớn mạng xã hội mang lại hiệu kinh tế cao Những nhận định, đánh giá hay khen, chê sản phẩm, mặt hàng người có vai trò định mạng xã hội đông đảo người dùng mạng dõi theo bị ảnh hưởng nhận định, đánh giá Các nghiên cứu gần chứng minh vai trò quan trọng mạng xã hội có ảnh hưởng lớn đến định mua sắm, ăn uống, tiêu dùng, hoạt động trị, biểu tình, bầu cử… người dùng khác mạng Chính lẽ mà nhu cầu tìm kiếm, phát vai trò mạng xã hội ngày tăng cao Luận văn tập trung nghiên cứu mô hình tìm kiếm vai trò mạng xã hội Twitter thực nghiệm tìm kiếm vai trò: người tiếng, người vận động quảng bá, người khởi tạo ý tưởng truyền tin Luận văn đề nghị mô hình tìm kiếm ba vai trò với số biến thể từ mô hình Vanesa Junquero-Trabado cộng [21]: (i) bổ sung đặc trưng số lượng retweet người dùng; (ii) sử dụng thuật toán K-mean suy rộng [10] thay sử dụng thuật toán K-mean; (iii) sử dụng phương án chuẩn hóa tốt (chuẩn hóa Max/Min) mà không xem xét phương án khác; (iv) không thực mở rộng tập mồi (seed) sau gán vai trò Luận văn thi hành phần mềm thử nghiệm mô hình tiến hành thực nghiệm liệu Đại học Stanford Kết thực nghiệm cho độ đo F-measure trung bình 81.1% Kết cho thấy phương pháp tìm kiếm vai trò mạng xã hội Twitter luận văn đề xuất triển khai khả quan, có khả ứng dụng thực tế Mở đầu Trong năm gần đây, mạng xã hội trực tuyến (online social networks: OSNs) phản ánh ngày phong phú đời sống xã hội tinh thần xã hội loài người khai phá liệu OSNs trở thành lĩnh vực khoa học công nghệ bật [11] thu hút quan tâm đặc biệt nhiều tổ chức, nhiều nhóm nghiên cứu giới, chẳng hạn dãy hội nghị hàng năm TREC Viện chuẩn khoa học Mỹ [microblog-track] Khai phá, phát vai trò mạng xã hội Twitter nội dung nghiên cứu, làm rõ mô hình toán học cho tương tác, vai trò người, tổ chức nhóm với việc phân tích mạng xã hội Twitter [16, 15].Việc phát hiện, tìm kiếm vai trò nhận quan tâm lớn nhà nghiên cứu, nhà đầu tư, doanh nghiệp, tổ chức trị Lợi ích việc tìm vai trò có ảnh hưởng lớn mạng xã hội mang lại hiệu rõ ràng, công ty, doanh nghiệp hay nhà tiếp thị dựa vai trò có ảnh hưởng lớn mạng để quảng bá thương hiệu, sản phẩm đến khách hàng, người tiêu dùng Nó công cụ thông tin giúp nhà doanh nghiệp giao tiếp với người quan tâm đến sản phẩm làm cho thương hiệu nhà doanh nghiệp trở nên quen thuộc với người chưa biết Luận văn tiến hành nghiên cứu phương pháp phát vai trò mạng xã hội Twitter bao gồm khảo sát mô hình phân tích mạng xã hội mô hình phát vai trò điển hình Từ đề xuất mô hình tìm kiếm vai trò mạng xã hội Twitter Một vai trò xã hội định nghĩa tập hợp đặc tính mô tả cách hành xử cá nhân mối liên hệ họ ngữ cảnh định Trong mô hình này, thực trích chọn đặc trưng người mạng xã hội, sử dụng thuật toán phân cụm để phân cụm người có đặc trưng tương đồng vào cụm Đối với vai trò cần tìm kiếm có tập độ đo phù hợp tương ứng với vai trò Từ độ đo phù hợp này, tìm kiếm cụm liệu mà có đặc trưng tương đồng với độ đo trả kết Luận văn thực nghiệm mô hình với kết đạt khả quan so với kết giới Nội dung luận văn chia thành chương sau: Chương 1: Luận văn giới thiệu khái quát mạng xã hội, mạng xã hội Twitter, toán phát vai trò mạng xã hội Chương 2: Luận văn đưa số nghiên cứu liên quan việc phát vai trò mạng xã hội nói chung mạng xã hội Twitter nói riêng Đồng thời chương trình bày thuật toán phân cụm hiệu để cải thiện kết toán Chương 3: Luận văn đề xuất mô hình tìm kiếm vai trò mạng xã hội Twitter Tư tưởng mô hình thể chương Đồng thời, luận văn trình bày chi tiết pha bước thực mô hình Chương 4: Thực nghiệm, kết đánh giá Tiến hành thực nghiệm theo mô hình đề xuất chương Phần kết luận: Tóm lược kết đạt luận văn định hướng phát triển tương lai Mục Lục Danh mục bảng biểu Danh mục viết tắt STT Thuật ngữ Chuẩn hóa Max/Min Chuẩn hóa Logarit Chuẩn hóa xếp hạng Chuẩn hóa điểm chuẩn Độ lệch chuẩn –Standard Deviation Lựa chọn giá trị lớn Lựa chọn giá trị lớn hệ trục Tính toán giá trị trung bình Quá trình gia tăng Viết tắt Max/Min Log Ranking Score Sdv MV MVA Avg Incr Chương Giới thiệu mạng xã hội, mạng xã hội Twitter toán khai phá vai trò mạng xã hội 1.1 Giới thiệu mạng xã hội 1.1.1 Sự phát triển mạng xã hội Jiyang Chen, 2010 [2] đưa giới thiệu khái quát phát triển trình nghiên cứu mạng xã hội (social network) Nhu cầu phân tích mạng xã hội năm 1930 nhanh chóng trở thành chủ đề quan trọng xã hội học Những người tiên phong lĩnh vực Jacob Moreno, Kurt Lewin Fritz Heider J.Moreno xây dựng mô hình đặt tên “sociometry” cách hỏi người xung quanh bạn họ ai, tìm hiểu mối quan hệ họ với người khác Sáng tạo Moreno ông tạo “sociogram”, cách để biểu diễn tính chất cấu hình mang tính xã hội Khái niệm “sociogram” sau dùng để biểu diễn đồ thị mạng xã hội Hình 1: Một ví dụ sociogram Trong K.Lewin, nghiên cứu hành vi nhóm, cho tính chất mặt cấu trúc đơn vị xã hội biểu diễn cách toán học lý thuyết đồ thị cấu trúc liên kết Trong nghiên cứu nhận thức xã hội, F.Heider phát minh thuyết cân bằng, ông cho tâm trí người hướng tới cân bằng cách giữ lại ý tưởng mà không mâu thuẫn với ý tưởng người khác, điều áp dụng vào thái độ với người xung quanh Những ý tưởng Lewin Heider sớm phát triển Frank Harary Dorwin Cartwright, nhóm tác giả sử dụng lý thuyết đồ thị để xây dựng công cụ hữu hiệu nghiên cứu mạng xã hội Cũng theo [2], năm 1950, nhà nghiên cứu từ khoa Xã hội Nhân chủng học trường đại học Manchester, dẫn đầu John Barnes, bắt đầu đặt trọng tâm nghiên cứu họ vào mối quan hệ đối tượng xã hội, thay thiết lập chuẩn mực định mức cho toàn cấu trúc xã hội trước; tìm hiểu xem cấu trúc mối quan hệ cá thể xã hội có ảnh hưởng đến toàn xã hội Từ đó, thuật ngữ “mạng xã hội”, lần Barnes nhắc đến vào năm 1954, đánh dấu phát triển thức việc phân tích cấu trúc mạng xã hội Dựa vào nghiên cứu Barnes cộng sự, vào năm 1969 1970, nhà nghiên cứu đại học Harvard Harrison C.White dẫn đầu tiếp tục nghiên cứu phát triển khía cạnh toán học mạng xã hội biểu diễn nhiều khái niệm quan trọng xã hội học, ví dụ khái niệm “vai trò xã hội”, sang công thức toán học tìm cách mô hình hóa tính toán chúng Ý tưởng nghiên cứu việc phát cấu trúc mạng xã hội không nên dựa vào hạng mục tiếng định nghĩa trước đó, mà phải dựa vào mối quan hệ cá thể mạng cách thức mà mối quan hệ cấu tạo thành mạng Trong nghiên cứu sau đó, Mark Granovetter đề giả thiết liên kết yếu, với nội dung “Nếu A có liên kết mạnh tới B C có khả B C tồn liên kết” Giả thiết Granovetter áp dụng tương đối hiệu số nghiên cứu sau Tóm lại phân tích mạng xã hội [6] sinh từ nhu cầu chung xã hội học, nhân chủng học, toán học, sinh học kinh tế học Ngày phân tích mạng xã hội áp dụng nhiều lĩnh vực kinh tế, tài chính…Tuy nhiên thời đại bùng nổ thông tin với số lượng kích thước mạng xã hội trực tuyến tăng lên không ngừng, vấn đề quản lý thông tin xã hội trở nên khó khăn Do đó, cần thiết phải áp dụng kỹ thuật khoa học máy tính để phân tích xác hiệu cấu trúc xã hội mạng xã hội 1.1.2 Khái niệm mạng xã hội Mạng xã hội cấu trúc mang tính xã hội cấu tạo từ nút cung, nút liên kết với nhiều cung, thể kiểu mối quan hệ cụ thể [2] Mỗi nút, gọi tác nhân (actor), biểu diễn cho đối tượng xã hội, người, tài liệu, tổ chức, quốc gia… Liên kết nút biểu diễn liên kết nút đó; liên kết mối quan hệ bạn bè, họ hàng, đồng nghiệp,… trao đổi tài chính, giao dịch, số liệu,… Các liên kết liên kết vô hướng (hay gọi liên kết đối xứng ), mối quan hệ nút A B mối quan hệ qua lại, ví dụ A bạn B, B bạn A, hay A B sống chung hộ,… Các liên kết liên kết có hướng, ví dụ A thích B, B chưa thích A, A nợ tiền B… Mặt khác, liên kết đánh trọng số, trọng số biểu diễn độ mạnh liên kết hai nút Để biểu diễn mạng xã hội, nhà phân tích mạng xã hội sử dụng hai cấu trúc phổ biến, đồ thị ma trận kề [11] Để tính toán phân tích liên kết mạng, người ta thường ưu tiên áp dụng lý thuyết đồ thị đồ thị công cụ hữu hiệu để thể thông tin mạng xã hội Trong biểu diễn đồ thị mạng xã hội, đỉnh dùng để biểu diễn nút cạnh dùng để biểu diễn liên kết nút Các cạnh đồ thị vô hướng hay có hướng, đánh trọng số tùy thuộc vào nhu cầu biểu diễn liên kết xã hội vô hướng hay có hướng, trọng số Mạng xã hội, mạng thực tế khác thường có mức độ mặt tổ chức tính thứ tự cao Mức độ phân bố rộng, với phần cuối thường theo luật dạng lũy thừa, vậy, nhiều đỉnh mức thấp tồn với số đỉnh mức cao [7] Hơn nữa, phân bố cạnh không đồng không toàn thể mà mức cục bộ, với mức độ tập trung cao cạnh số nhóm đỉnh đặc biệt, nhóm số lượng cạnh tập trung thấp Trong biểu diễn đồ thị mạng xã hội, số nhóm đỉnh có liên kết chặt chẽ với thành cụm, cụm nối với vài cạnh khác 1.2 Giới thiệu mạng xã hội Twitter Twitter trang web micro-blog Twitter Inc sở hữu phát triển [5], cung cấp dịch vụ mạng xã hội miễn phí cho phép người sử dụng gửi nhận tin nhắn gọi Tweet Twitter thực mạng xã hội nhắn tin Thành lập từ năm 2006, Twitter trở thành tượng phố biến toàn cầu Giới hạn độ dài tin nhắn, 140 kí tự, có tính tương thích với tin SMS (Short Message Service), mang đến cho cộng đồng mạng hình thức tốc ký đáng ý, sử dụng rộng rãi SMS Hiện nay, Twitter đạt đến số 500 triệu người sử dụng, với 65 triệu tweet sinh ngày, khoảng 800000 lượt truy vấn ngày Twitter miêu tả “SMS Internet” Các thuật ngữ sử dụng Twitter: - Tweet: Những tin nhắn có độ dài tối đa 140 ký tự gửi cho hiển thị profile cá nhân người 10 phương pháp mở rộng tập seed, nhóm tác giả sử dụng phương pháp là: không thực mở rộng, thứ hai thực mở rộng phương pháp tính giá trị trung bình cuối phương pháp gia tăng Trong trình thực nghiệm, nhóm tác giả đánh giá kết sử dụng kết hợp phương pháp (Sdv+Ne, MA + Avg, MA + Incr, MAV + Avg MA + Incr) Kết thực nghiệm với độ đo F cho thấy sử dụng phương pháp Sdv MV + Avg cho kết tốt phương pháp lại Do mô hình này, thực phương pháp Sdv để gán vai trò không thực mở rộng tập seed sau gán vai trò 3.2 Mô hình đề xuất Đầu vào: - Dữ liệu Twitter crawler theo hot trend topic Đặc trưng vai trò cần tìm kiếm Đầu ra: - Các cụm liệu có đặc trưng tương đồng với đặc trưng đưa vào tìm kiếm Các pha chính: Phân tích đặc trưng Phân cụm liệu Gán vai trò 32 Hình 8: Mô hình đề xuất Chi tiết bước pha chi tiết giải pháp đề xuất trình bày mục 3.2.1, 3.2.2, 3.2.3 3.2.1 Pha phân tích đặc trưng Trong pha phân tích đặc trưng, sau crawler liệu Twitter về, chia làm bước để phân tích trích chọn đặc trưng Bước 1: Mô hình hóa liệu: Biểu diễn đồ thị thực quan hệ với đỉnh cung mô hình [21] với đỉnh: người, tài liệu, tag cung: - Person – publishes: Người công khai Person –receives: người nhận Depicts: Mô tả 33 - Knows: Hiểu biết References: Tham khảo Bước 2: Đặc trưng hóa liệu Ngoài 14 vai trò mô hình [21], bổ sung thêm đặc trưng M15 –Số lượng retweet người p mạng - M1: Số lượng người p biết - M2: Số lượng người biết p - M3: Mối quan hệ tương tác p - M4: Hệ số phân cụm liên hệ biết, cho biết mức độ gắn kết người bạn p - M5: Độ sâu truyền thông trung bình người p Tính toán phạm vi tác động người p mạng Đặc trưng tính toán cách: o Xác định tài liệu p xuất o Xác định tất người bị ảnh hưởng từ tập tài liệu bước Coi người B nhận ảnh hưởng từ người A nếu: B nhận tài liệu từ A, tài liệu B tham khảo tài liệu A xuất bản; B ghi tên vào tài liệu A xuất o Đối với người i nhận ảnh hưởng từ p, tính khoảng cách i p, số lượng cạnh qua đường ngắn i p cách sử dụng mối quan hệ biết o Độ sâu trung bình trung bình khoảng cách xác định - - bước M6: Độ sâu truyền thông tối đa người p: độ sâu ảnh hưởng cao p đến mạng Nó tính M5, bước thuật toán tính mức tối đa thay mức trung bình M7: Số lượng tin nhắn mà p nhận M8: Số tài liệu mô tả p M9: Thời gian trung bình hành động ảnh hưởng p thực Với hành động ảnh hưởng hai người, tính toán khác biệt thời gian M10: Vị trí trung bình mà người p xuất dòng truyền thông Dòng xác định văn tài liệu tham khảo liên quan Ví dụ, tài liệu người B tham khảo tài liệu người A xuất bản, tài liệu người C tham chiếu B, nói A có vị trí 0, B có vị trí C có vị trí dòng 34 - M11: Số lượng ấn phẩm p M12: Ngày p tham gia vào mạng M13: Trung bình số lượng từ tài liệu p xuất M14: Tỷ lệ phần trăm từ mà tồn từ điển tập tài liệu p xuất Từ điển sử dụng từ điển Wordmet M15: Số lượng Retweet người p mạng Sau bước này, người biểu diễn vector đặc trưng 15 chiều Vi = Bước 3: Chuẩn hóa liệu Trong bước này, thực chuẩn hóa lại vector đặc trưng người Do phương pháp phân cụm áp dụng dựa khoảng cách tương đồng cá nhân, thực chuẩn hóa vector để phương pháp phân cụm hiệu Chúng sử dụng phương pháp chuẩn hóa Max/ Cho trước giá trị v độ đo m vector đặc trưng, áp dụng công thức biến đổi min(m) giá trị nhỏ tất độ đo m max(m) giá trị lớn Kết nằm khoảng [0,1] 3.2.2 Pha phân cụm liệu Sau liệu chuẩn hóa, tiến hành phân cụm người dựa hành vi tương đồng thành nhóm Trong pha này, sử dụng thuật toán KMean suy rộng (giải thuật Lọc filtering) để phân cụm người có hành vi tương đồng thành nhóm 3.2.3 Pha gán vai trò Sau phân cụm liệu, thực gán vai trò cho cụm với độ đo đặc trưng mà người dùng đưa vào tìm kiếm Trong phương pháp gán vai trò, sử dụng phương pháp độ lệch chuẩn Sdv, không thực mở rộng tập seed Mỗi cụm c có tập vec-tơ đặc trưng, vector đặc trưng Vi tương ứng với cá nhân cụm có giá trị: Vi = 35 Thực tính toán giá trị trung bình đặc trưng m i tất vector đặc trưng gán cụm c Sử dụng phương pháp độ lệch chuẩn (Sdv) để gán vai trò Đặt giá trị trung bình phân cụm cho phần tử Với phần tử cụm, tính toán độ lệch chuẩn tương ứng với Các độ đo phù hợp định nghĩa khoảng giá trị nhỏ lớn độ lệch chuẩn mà cụm tính giá trị trung bình Sau bước này, thu số cụm thỏa mãn đặc trưng người dùng đưa vào Chúng không thực mở rộng tập seed mà thực trả kết cho người dùng Trong mô hình này, thực tìm kiếm vai trò thực tìm kiếm vai trò người tiếng người vận động quảng bá giống mô hình Trabado cộng [21] Chúng đề xuất tìm kiếm thêm vai trò vai trò người khởi tao ý tưởng truyền tin (idea starter) [20] - Người tiếng: Là người đựơc theo dõi nhắc tới nhiều nhất, thường người công chúng Lady Gaga hay Gisele Bundchen Họ thu hút ý khán giả qua buổi giao lưu người nói với nói họ Do đó, họ người kết nối nhiều không thiết phải người có ảnh hưởng lớn Các độ đo thường dùng cho vai trò số lượng người theo dõi (M2) số lượng đề cập (M8) - Người vận động quảng bá: Một số người đóng vai trò chủ động việc truyền tải nội dung so với người khác Những người phân phối quan điểm dễ dàng tiếp nhận xu hướng có người bạn họ có ý tưởng hay không không ảnh hưởng lớn tới người khác [27] Độ đo phù hợp bao gồm thời gian vị trí (M9 M10) - Người khởi tạo truyền tin: Là cá nhân bắt đầu hội thoại Họ có xu hướng đánh giá cao tham gia phương tiện truyền thông môi trường ngoại truyến trực tuyến Họ sử dụng nhiều phương tiện truyền thông xã hội, nhiên có mạng lưới mối quan hệ tin cậy đa dạng đặc biệt môi trường trực tuyến Như kết điều này, mạng kết nối họ thường bị giới hạn có chất lượng cao Mặc dù người khởi tạo ý tưởng “bright idea”, họ người mà bắt đầu nói chuyện có kết nối tin cậy, môi trường phong phú cho 36 ý tưởng phát triển Họ có tỉ lệ lớn tài liệu retweet Độ đo đặc trưng: M2, M3, M11, M15 Tóm tắt chương 3: Chương luận văn trình bày tư tưởng phương pháp đề xuất cho toán tìm kiếm vai trò mạng xã hội Twitter Luận văn giới thiệu chi tiết pha bước pha phương pháp đề xuất Trong chương tiếp theo, luận văn tiến hành thực nghiệm dựa phương pháp xây dựng đánh giá kết đạt phương pháp đề xuất Chương Thực nghiệm đánh giá Dựa vào mô hình đề xuất chương 3, luận văn tiến hành thực nghiệm mô hình tìm kiếm vai trò mạng xã hội Twitter Để làm rõ mô hình đề xuất pha mô hình, thực nghiệm tiến hành khoảng thời gian tháng, từ ngày 15/07/2014 đến ngày 15/10/2014 4.1 Môi trường công cụ sử dụng thực nghiệm Cấu hình phần cứng: Thành phần Chỉ số CPU 1.90 GHz Core i5 Intel RAM 8GB OS Windows7 Bộ nhớ 500GB Bảng 1: Cấu hình phần cứng Các phần mềm sử dụng: 37 ST T Tên phần mềm Visual studio Weka Tác giả Nguồn http://www.microsoft.com/enus/download/det ails.aspx?id=34673 Machine http://www.cs.waikato.ac.nz/ml/weka/ Learning Group, University of Waikato Bảng 2: Các phần mềm sử dụng Ngoài công cụ trên, tiến hành cài đặt Project TweetAnalysis dựa ngôn ngữ C# bao gồm module sau: - - TweetAnalysis.CreateDatabase:Module thực tạo database TweetDB TweetAnalysis.Preprocessing: Module tiền xử lý liệu TweetAnalysis.ParseFileInfo:Modulet hực tạo bảng liệu: TweetTb1: lưu thông tin liệu ban đầu, bảng userTb1: lưu thông tin trích chọn đặc trưng TweetAnalysis.ParseTweet:Module tạo bảng lưu thông tin mối quan hệ người mạng xã hội Twitter TweetAnalysis.ParseParameter:Module trích chọn đặc trưng từ M1 đến M15 TweetAnalysis.TweetStandard: Thực chuẩn hóa đặc trưng sau trích chọn TweetAnalysis.LuachonSeed: Module lựa chọn tập seed 4.2 Tập liệu thử nghiệm Luận văn thực nghiệm miền liệu Twitter Hiện nay, mạng xã Twitter không cho phép người dùng crawl toàn liệu Tweet nên để thu thập liệu Tweet, thử xây dựng module để truy vấn liệu theo hot topic nhiên liệu crawler không nhiều Do sử dụng lại liệu 38 mà nhóm tác giả Trabado cộng cung cấp Nguồn liệu thực nghiệm công bố trang web: http://snap.stanford.edu/data/bigdata/twitter7/ Tập liệu bao gồm người tham gia mạng, tài liệu, mối quan hệ following/follower hash tag; liệu crawler từ tháng 6/2010 -12/2010 lưu trữ file text theo định dạng sau: T: Thời gian tài liệu (tweet) công bố U: User thực post tài liệu (tweet) W: Nội dung tài liệu (tweet) bao gồm liên kết hash tag 4.3 Thực nghiệm 4.3.1 Phân tích đặc trưng - Mô hình hóa liệu: Tương tự mô hình Trabado cộng biểu diễn liệu theo dạng đồ thị sử dụng mô hình quan hệ thực mạng xã hội người có khả công bố chia sẻ tài liệu với đỉnh cung (cạnh) trình bày phần - Tiềnxử lý liệu Tập liệu mà nhóm tác giả crawler có 40 triệu người, 26 triệu tweet 1000 triệu mối quan hệ following/follower Do thực công tác tiền xử lý lấy người tham gia tích cực mạng Và giữ người có 25 tài liệu công bố, 20 người theo dõi theo dõi 20 người  Tổng số người tích cực tham gia mạng 84868 người - Trích chọn đặc trưng: Trong mô hình Trabado cộng sự, nhóm tác giả sử dụng sở liệu đồ thị DEX [12] để thực load phân tích trích chọn đặc trưng liệu Tuy nhiên mô hình đề xuất, tự thực xây dựng sở liệu bảng biểu, sau thực trích chọn đặc trưng - Chuẩn hóa đặc trưng: 39 Sau trích chọn đặc trưng, thực phương pháp chuẩn hóa Max/min để chuẩn hóa liệu giá trị đặc trưng nằm khoảng [0,1] Kết phân bố giá trị số đặc trưng sau: Hình 9: Phân bố giá trị độ đo đặc trưng M1 Hình 10: Phân bố giá trị độ đo đặc trưng M2 Hình 6: Phân bổ giá trị độ đo đặc trưng M3 Hình 72: Phân bố giá trị độ đo đặc trưng M8 Hình 8: Phân bổ giá trị đọ đo đặc trưng M9 Hình 94: Phân bố giá trị độ đo đặc trưng M10 Hình 10: Phân bố giá trị độ đo đặc trưng M11 Hình 116: Phân bố giá trị độ đo đặc trưng M15 Nhận xét: Nhìn chung độ đo tuân theo quy luật phân bố.Chúng nhận độ đo tập liệu có đặc tính khác Có vài độ đo có nhiều 40 giá trị khác M3, M9, M15 số có vài giá trị M10 Có số độ đo có giá trị nằm tập trung khoảng M2,M8, M11 4.3.2 Pha phân cụm liệu Sau bước phân tích đặc trưng, thực chuẩn hóa file liệu theo định dạng file ArFF để làm đầu vào cho công cụ weka Để so sánh hiệu thuật toán phân cụm, Chúng tiến hành thực nghiệm với thuật toán K-mean suy rộng (giải thuật lọc) K- mean Trabado cộng [21] đưa kết thử nghiệm tốt với giá trị K =500 Do thực nghiệm với giá trị K xung quanh khoảng [400, 600] 4.3.3 Pha gán vai trò Chúng sử dụng phương pháp độ lệch chuẩn (Sdv) để thực tìm tập seed tương đồng với độ đo đặc trưng mà người dùng cần tìm kiếm Kết cấu sau: Vai trò Người tiếng Độ đo liên quan M2: [0,) M8: [0,) Người vận động quảng bá M9: [0,) M10: [0,) Người khởi tạo ý tưởng M2:[0,) truyền tin M3:[) M11: [0,) M15: [0,) Bảng 3: Kết tìm kiếm Số lượng người 688 496 388 4.4 Kết thử nghiệm phương pháp đánh giá Để đánh giá kết thử nghiệm hiệu thuật toán mô hình sử dụng độ đo F- measure Nó kết hợp của độ đo xác độ đo hồi tưởng Độ đo xác ký hiệu π số lượng người thỏa mãn tiêu chí tìm kiếm vai trò tổng số người gán vai trò Độ đo hồi tưởng ký hiệu ρ số người phù hợp với tiêu chí tìm kiếm vai trò tổng số người thực tế phù hợp với tiêu chí tìm kiếm vai trò Do độ đo F tính sau: F= 41 Như trình bày phần trên, pha phân cụm liệu, sử dụng thuật toán phân cụm K-mean suy rộng K- mean để so sánh hiệu thuật toán Nhìn chung thuật toán K-mean suy rộng cho hiệu tốt thời gian phân cụm nhanh thuật toán K-mean miền liệu Kết tốt với K =500: K 400 450 500 550 600 Độ đo F -measure K-mean suy rộng K -mean 80.4 78.7 79.3 80.1 81.1 80.2 78.7 77.6 79.4 78.3 Bảng 4: Kết thuật toán phân cụm Chúng tiến hành đánh giá kết thử nghiệm vai trò cụ thể Kết sau: Hình 12: Kết đánh giá Nhận xét: Độ xác trung bình việc tìm kiếm vai trò đạt 81.1% độ đo F-measure đạt kết cao với tìm kiếm vai trò người vận động quảng bá (83.3%), thấp với vai trò người tiếng (78%) Tóm tắt chương Trong chương này, tiến hành thực nghiệm, xem xét đánh giá kết trình thử nghiệm mô hình tìm kiếm vai trò mạng xã hội Twitter với việc tìm kiếm vai trò(Người tiếng, người vận động quảng bá người khởi tạo ý tưởng truyền tin) Qua phân tích đánh giá cho thấy tính đắn phương pháp sử dụng luận văn Kết luận 42 Kết đạt luận văn: Luận văn tìm hiểu số phương pháp khai phá, phát vai trò mạng xã hội từ đề xuất mô hình tìm kiếm vai trò mạng xã hội Twitter Luận văn thực nghiệm tìm kiếm vai trò (người tiếng, người vận động quảng bá, người khởi tạo ý tưởng truyền tin) Chúng cài đặt, thử nghiệm với mô hình đề xuất Kết việc tìm kiếm vai trò cho kết tốt (kết trung bình 81.1%), điều hoàn toàn khả thi cho việc xây dựng hệ thống tìm kiếm vai trò mạng xã hội Twitter Định hướng tương lai: Trong mô hình này, thực bước gán vai trò với đặc trưng người dùng đưa vào pha ngoại tuyến Trong thời gian tới, tiếp tục tiến hành xây dựng thành phần trực tuyến mô hình để hoàn thiện hệ thống tìm kiếm vai trò mạng xã hội trực tuyến Twitter Xem xét đến hướng nghiên cứu bổ sung thêm đặc trưng topic Tweet mà người dùng thường hay post vào pha trích trọn chọn đặc trưng để nâng cao hiệu tìm kiếm vai trò Tài liệu tham khảo [1] B J Biddle Recent developments in role theory.pages 67-92 Annual Review of Sociology, 1986 [2] L Backstrom, R Kumar, C Marlow, J Novak, and A Tomkins Preferential behavior in online groups In WSDM, pages 117-128 ACM, 2008 [3] Brendan O'Connor, Ramnath Balasubramanyan, Bryan R Routledge, Noah A Smith From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series, ICWSM page122-129,2010 43 [4] M Cha, H Haddadi, F Benevenuto, and P Gummadi Measuring user influence in twitter: The million follower fallacy In ICWSM, 2010 [5] Denjin Zhao, Mary Beth Rosson How and Why People Twitter: The Role that Microblogging Plays in Informal Communication at Work,2010 [6] Kate Ehrlich, Inga Carboni Inside Social Network Analysis,2006 [7] Amit Goyal, Francesco Bonchi, Laks V S Lakshmanan.Learning Influence Probabilities In Social Networks,2010 [8] S A Golder and J Donath Social roles in electronic communities In AOIR, 2004 [9] Jiyang Chen, Community Mining-Discovery Communities in Social Network, Thesis, University of Alberta, 2010 [10] Tapas Kanungo, David M.Mount, Ruth Silverman, Angela Y.Wu, “An Efficient K- Means Clustering Algorithm: Analysis and implementation”, IEEE transaction on patern analysis and machine intelligence, Vol.24,no.7,july 2002 [11] Jure Leskovec Dynamics of large networks, PhD Thesis, Carnegie Mellon University (ACM SIGKDD Dissertation Award 2009) [12] N.Martinez-Bazan, V Muntes- Mulero, S.Gomez- Villamor, J.Nin, M.Sanchez Martinez and J Larriba- Pey Dex: high-performance exploration on large graphs for information retrieval In CIKM, pages 573-582, 2007 [13] D Laniado, R Tasso, Y Volkovich, and A Kaltenbrunner When the wikipedians talk:Network and tree structure of wikipedia discussion pages In ICWSM The AAAI Press, 2011 [14] M Maia, J Almeida, and V Almeida Identifying user behavior in online social networks In Proceedings of the 1st Workshop on Social Network Systems,SocialNets '08, pages 1-6, New York, NY, USA, 2008.ACM [15] S Maneewong vatana and D.M Mount, “Analysis of Approximate Nearest Neighbor Searching with Clustered Point Sets” Proc.Workshop Algorithm Eng and Experiments (ALENEX '99),Jan 1999 44 [16] J.L Bentley.“Multidimensional Binary Search Trees Used for Associative Searching”Comm ACM,vol 18, pp 509-517, 1975 [17] R D Nolker and L Zhou Social computing and weighting to identify member roles in online communities In Web Intelligence, pages 87-93 IEEE Computer Society, 2005 [18] A Pal and S Counts Identifying topical authorities in microblogs In WSDM, pages 45-54, 2011 [19] Rosen-Zvi, M., Griths, T., Smyth, P., & Steyvers Learning author-topic models from text corpora Submitted to Journal of Machine Learning Research,2005 [20] Ramine Tinati, Leslie Carr, Wendy Hall, Jonny Bentwood “Identifying Communicator Roles in Twitter”, WWW 2012 – MSND'12 Workshop [21] Vanesa Junquero-Trabado, David Dominguez-Sal (2012) Building a role search engine for social media WWW (Companion Volume) 2012: 1051-1060 [22] H T Welser, D Cosley, G Kossinets, A Lin,F Dokshin, G Gay, and M Smith Finding social roles in wikipedia In Proceedings of the 2011 iConference, iConference '11, pages 122-129, New York, NY, USA, 2011 ACM [23] Wasserman.S, & Faust.F Social Network Applications.Cambridge University Press,1994 [24] H T Welser, E Gleave, D Fisher, and M Smith.Visualizing the signatures of social roles in online discussion groups The Journal of Social Structure, 8(2), 2007 [25] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu, Jingyi Guo (2010) Mining advisor-advisee relationships from research publication networks, KDD 2010: 203-212 [26] K Lee, J Caverlee, and S Webb Uncovering social spammers: social honeypots + machine learning In SIGIR, pages 435-442 ACM, 2010 45 Analysis: Methods and [27] E Bakshy, B Karrer, and L A Adamic Social influence and the diffusion of user-created content InACM Conference on Electronic Commerce, pages 325334 ACM, 2009 [28] J Bentwood, “Distributed Influence: Quantifying the Impact of Social Media,Edelman, 2008 [Online] [29] V Junquero-Trabado, N Trench-Ribes, M A.Aguila-Lorente, and D Dominguez-Sal Comparison of influence metrics in information diffusion networks In CASoN, pages 31-36 IEEE, 2011 [30] H Kwak, C Lee, H Park, and S Moon What is twitter, a social network or a news media? In WWW, pages 591-600, 2010 46

Ngày đăng: 01/07/2016, 12:56

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan