Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

15 232 0
Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN Ngành: Hệ thống Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Trần Thị Oanh Hà Nội – 2016 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn TS Trần Thị Oanh Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, xin chịu hoàn toàn trách nhiệm Hà Nội, ngày tháng năm 2016 HỌC VIÊN Nguyễn Văn Thành ii LỜI CẢM ƠN Trước hết, xin bày tỏ lòng biết ơn sâu sắc chân thành đến giáo viên hướng dẫn TS Trần Thị Oanh, người tận tình bảo định hướng nghiên cứu, đề xuất ý tưởng giúp đỡ mặt phương pháp luận việc kiểm tra cuối luận văn Tôi xin chân thành cảm ơn thày cô khoa Công nghệ Thông tin – Đại học Công nghệ - Đại học Quốc gia Hà Nội, khoa Công nghệ Thông tin - Viện Đại học Mở Hà Nội giúp đỡ nhiều trình học tập, nghiên cứu tạo điều kiện giúp công tác để có thời gian thực việc học tập hoàn thành luận văn Cuối cùng, xin bày tỏ lòng kính trọng biết ơn sâu sắc tới bố mẹ người động viên mặt tinh thần hỗ trợ nhiều mặt HỌC VIÊN Nguyễn Văn Thành iii MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC HÌNH VẼ, ĐỒ THỊ viii MỞ ĐẦU Chương 1: Tổng quan vấn đề nghiên cứu Khai phá liệu 1.1.1 Khái niệm 1.1.2 Quy trình khai phá liệu Bài toán khai phá quan điểm mạng truyền thông 1.2.1 Khái quát khai phá quan điểm 1.2.2 Khai phá quan điểm với mạng truyền thông Khai phá quan điểm sinh viên phương tiện truyền thông xã hội 1.3.1 Giới thiệu toán 1.3.2 Tình hình nghiên cứu giới 1.3.3 Tình hình nghiên cứu Việt Nam 10 1.3.4 Ý nghĩa mục tiêu toán 11 Kết luận chương 12 Chương 2: Các kiến thức tảng 13 Giới thiệu 13 2.1.1 Tổng quan toán phân loại 13 2.1.2 Các bước giải toán phân loại 13 2.1.3 Bài toán phân lớp văn 14 Bài toán phân lớp đa nhãn 14 Một số phương pháp phân lớp đa nhãn 15 2.3.1 Phương pháp chuyển đổi toán 16 2.3.2 Phương pháp thích nghi thuật toán 18 Một số mô hình học máy sử dụng cho toán 20 iv 2.4.1 Phân lớp Bayes 20 2.4.2 Cây định 22 Kết luận chương 26 Chương 3: Một mô hình giải toán khai phá liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên 27 Mô hình hoá toán 27 3.1.1 Xác định vấn đề không gian liệu 27 3.1.2 Phát biểu toán theo góc độ toán học 27 Một mô hình giải toán 28 3.2.1 Mô hình tổng thể 28 3.2.2 Môi trường thực nghiệm 31 Kết luận chương 32 Chương 4: Kết thực nghiệm 33 Thu thập tiền xử lý liệu 33 4.1.1 Thu thập liệu 33 4.1.2 Tiền xử lý liệu 34 4.1.3 Lựa chọn tập nhãn gán nhãn liệu 36 4.1.4 Một số thống kê liệu 38 Các công cụ phân tích sử dụng luận văn 42 4.2.1 MEKA 42 4.2.2 vnTokenizer 42 Thiết lập thực nghiệm 43 4.3.1 Chuyển đổi liệu 43 4.3.2 Chia tách liệu cho mục đích tập huấn thử nghiệm 44 4.3.3 Các độ đo đánh giá thực nghiệm 45 Huấn luyện mô hình kiểm tra 46 4.4.1 Thực nghiệm với Zero Rule để làm sở cho phân lớp 46 4.4.2 Thực nghiệm với Binary Relevance 46 4.4.3 Thực nghiệm với Label Combination 47 v Kết thực nghiệm 47 4.5.1 Thực nghiệm với Zero Rule để làm sở cho phân lớp 47 4.5.2 Thực nghiệm với Binary Relevance 48 4.5.3 Thực nghiệm với Label Combination 50 Phân tích lỗi 52 Kết luận chương 53 Chương 5: Kết luận hướng phát triển 54 TÀI LIỆU THAM KHẢO 56 vi DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT Chữ viết tắt Ý nghĩa Tiếng Việt Tiếng Anh MLC Multi Label Classification BR Binary Relevance LP Label Power-Set LC Label Combination BP-MLL Backpropagation for Multi-Label Learning vii DANH MỤC CÁC BẢNG Bảng 1.1 So sánh phân lớp đa lớp phân lớp đa nhãn Bảng 2.1 Mẫu liệu đa nhãn 16 Bảng 2.2 Dữ liệu chuyển đổi bẳng phương pháp Select Transformation 16 Bảng 2.3 Dữ liệu chuyển đổi bẳng phương pháp Ignore Transformation 17 Bảng 2.4 So sánh kết đầu AdaBoost.MH AdaBoost.MR 19 Bảng 3.1 Thông số phần cứng môi trường thực nghiệm 32 viii DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Quá trình khám phá tri thức Hình 1.2: Quy trình khai phá liệu Hình 2.1: Phương pháp chuyển đổi với Binary Relevance 17 Hình 2.2: Phân phối xác suất LP 18 Hình 3.1: Mô hình khai phá liệu trao đổi, thảo luận sinh viên diễn đàn 28 Hình 3.2 Mô hình xử lý chương trình Crawler 29 Hình 3.3 Mô tả trình chuyển đổi liệu sang định dạng ARFF 30 Hình 4.1: Dữ liệu sau tách từ 35 Hình 4.2: Cấu trúc tệp tin CSV chứa liệu gán nhãn 37 Hình 4.3: Biểu đồ thống kê nhãn liệu 39 Hình 4.4: Giao diện công cụ MEKA 42 Hình 4.5: Cấu trúc tệp tin ARFF liệu 43 Hình 4.6: Cấu trúc tệp tin ARFF chuyển sang dạng vector 44 Hình 4.7: Minh hoạ cross-validation với k=5 45 Hình 4.8: Giao diện chức phân lớp văn công cụ MEKA với phương pháp kfold Zero Rule 46 Hình 4.9: Giao diện chức phân lớp văn công cụ MEKA với phương pháp kfold 47 Hình 4.10: Giao diện chức phân lớp văn công cụ MEKA với phương pháp k-fold 47 Hình 4.11: Thống kê kết phương pháp k-fold với Label Combination Zero Rule 48 Hình 4.12: Thống kê kết phương pháp k-fold với Binary Relevance Multinomial Naïve Bayes 48 Hình 4.13 Thống kê độ đo nhãn (Threshold=0.9) với Binary Relevance Multinomial Naïve Bayes 49 Hình 4.14: Thống kê kết phương pháp k-fold với Binary Relevance J48 49 Hình 4.15 Thống kê độ đo nhãn (Threshold=0.1) với Binary Relevance J48 50 Hình 4.16: Thống kê kết phương pháp k-fold với Label Combination Multinomial Naïve Bayes 50 Hình 4.17 Thống kê độ đo nhãn với Label Combination Multinomial Naïve Bayes 51 Hình 4.18: Thống kê kết phương pháp k-fold với Label Combination J48 51 Hình 4.19 Thống kê độ đo nhãn với Label Combination J48 52 MỞ ĐẦU Trong việc ứng dụng khai phá liệu vào nhiều lĩnh vực khác đời sống, khai phá liệu lĩnh vực giáo dục dần có quan tâm mức Cần phải nhìn nhận thẳng giáo dục nhân tố định phát triển đất nước nhiều mặt Mục tiêu phát triển xã hội cách bền vững đặt cho giáo dục yêu cầu Giáo dục đào tạo có nhiệm vụ định hướng hoạch định sách cho đối tượng giáo dục hệ trẻ, lực lượng kế thừa việc xây dựng, bảo vệ phát triển đất nước tương lai cách đắn kịp thời Sự phát triển bùng nổ Internet kỷ 21 mang tới đa dạng phương tiện trao đổi, thảo luận chia sẻ hoạt động xã hội toàn giới Các trang web truyền thông xã hội Twitter, Facebook, YouTube diễn đàn cung cấp địa điểm tuyệt vời cho sinh viên để chia sẻ niềm vui, nỗi buồn giải toả cảm xúc tìm kiếm trợ giúp từ người Trên nhiều trang web truyền thông xã hội, sinh viên thảo luận chia sẻ vấn đề học tập hàng ngày họ cách không gò bó chân thực Các dấu chân kỹ thuật số sinh viên cung cấp số lượng lớn kiến thức tiềm ẩn quan điểm hoàn toàn cho nhà nghiên cứu giáo dục để hiểu kinh nghiệm sinh viên bên môi trường lớp học có kiểm soát Sự phong phú liệu truyền thông xã hội cung cấp hội để hiểu kinh nghiệm sinh viên, đặt khó khăn phương pháp luận việc đưa ý nghĩa liệu truyền thông xã hội cho mục đích giáo dục Việc phân tích tay tuý đối phó với quy mô ngày tăng liệu, thuật toán tự động tuý thường nắm bắt ý nghĩa sâu sắc liệu Qua việc quan sát đánh giá liệu từ trang diễn đàn sinh viên, nhận thấy vấn đề mà sinh viên gặp phải học tập rơi vào số loại định vấn đề áp lực thi cử học hành, thiếu nguồn tài liệu tham khảo, lo lắng định hướng nghề nghiệp, cảm xúc tiêu cực tâm lý đời sống Căn vào điều để thấy cần thiết việc áp dụng thuật toán phân lớp đa nhãn miền liệu đa dạng ngữ nghĩa phương tiện truyền thông xã hội Việc phân lớp liệu có hướng tiếp cận thông qua quy luật, mô hình hóa học máy Trong phương pháp tiếp cận học máy có nhiều ưu điểm không thời gian đưa luật, học từ liệu huấn luyện, dễ dàng mở rộng tái cấu trúc Các phân loại thường sử dụng phương pháp học máy Support Vector Machine(SVM), Naive Bayes, Maximum Entropy, Decision Tree, Nearest-Neighbors, Sparse Network of Winnows(SNoW) Dựa hiểu biết vấn đề, khó khăn sống kinh nghiệm học tập sinh viên, nhà hoạch định sách nhà giáo dục đưa định xác can thiệp kịp thời dịch vụ thích hợp giúp sinh viên vượt qua rào cản học tập Do đó, tiến hành nghiên cứu đề tài “Khai phá liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập sinh viên”, với mục đích đề xuất mô hình khai phá liệu hiệu cho phân tích quan điểm, kinh nghiệm vấn đề gặp phải học tập, đời sống sinh viên Dữ liệu cho toán lấy từ diễn đàn sinh viên trường Đại học Bách khoa Hà Nội Bố cục luận văn gồm chương: Chương 1: Tổng quan vấn đề nghiên cứu Giới thiệu khái quát toán khai phá quan điểm toán cụ thể với miền tin tức từ phương tiện truyền thông xã hội Chương 2: Các kiến thức tảng Giới thiệu kiến thức tảng toán khai phá quan điểm giới phương pháp phân lớp văn dựa mô hình học máy Chương 3: Một mô hình giải toán khai phá liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên Trên kiến thức sở trình bày chương 2, đưa mô hình áp dụng cho toán khai phá kinh nghiệm học tập sinh viên phương tiện truyền thông xã hội Chương 4: Kết thực nghiệm Trình bày trình thực nghiệm với công cụ Meka gán nhãn liệu kết thực nghiệm thu Bên cạnh đó, đưa nhận định nghiên cứu phân tích ưu nhược trường hợp lỗi kết thực nghiệm Chương 5: Kết luận hướng phát triển Tóm lược nội dung đạt luận văn , đồng thời hướng cần khắc phục đưa định hướng nghiên cứu 56 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thuỳ Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh (2006), Nghiên cứu, phân tích đánh giá thuật toán lọc văn theo nội dung Hà Quang Thuỵ, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá liệu Web, Nhà xuất Giáo dục Việt Nam Tiếng Anh Amanda Clare, Ross D King (2003), "Knowledge Discovery in Multi-Label Phenotype Data," Principles of Data Mining and Knowledge Discovery, vol 19, no 2, pp 42-49 Ashraf M Kibriya, Eibe Frank, Bernhard Pfahringer, Geoffrey Holmes (2005), AI 2004: Advances in Artificial Intelligence, Springer Berlin Heidelberg, Berlin, Germany Bing Liu (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, Chicago, United States of America C Shearer, (2000), "The CRISP-DM model: the new blueprint for data mining," Journal of Data Warehousing, vol 5, no 4, pp 13-22 David M W Powers (2011), "Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation," Journal of Machine Learning Technologies, vol 2, no 1, pp 37-63 David Taniar, Frank Dehne, Ada Wai Chee Fu, Feng Ling, Graeme Shanks, Chengqi Zhang (2005), International Journal of Data Warehousing and Mining, vol 1, no 3, pp 1-14 Ed Greengrass (2000), Information Retrieval: A Survey, University of Maryland, United States of America 10 F¨urnkranz, Johannes (1998), A Study Using n-gram Features for Text Categorization, Austrian Institute for Artificial Intelligence, Austria 11 Grigorios Tsoumakas, Ioannis Katakis, Ioannis (2005), Data Mining and Knowledge Discovery Handbook, Springer, New York 12 Hiteshri Modi, Mahesh Panchal (2012), "Experimental Comparison of Different Problem Transformation Methods for Multi-Label Classification using MEKA," 57 International Journal of Computer Applications (0975 – 8887), vol 59, no 15, pp 10-15 13 James Petterson, Tiberio Caetano (2010), "Reverse Multi-Label Learning,” Neural Information Processing Systems Conference, vol 23, no 1, pp 1912-1920 14 Jesse ReadEmail, Bernhard Pfahringer, Geoff Holmes, Eibe Frank (2009), "Classifier chains for multi-label classification," Journal Machine Learning, vol 85, no 3, pp 333-359 15 Ji Zhu, Hui Zou, Saharon Rosset, Trevor Hastie (2009), "Multi-class AdaBoost," Statistics and Its Interface, vol 2, no 3, pp 349-360 16 Karina Gibert, Miquel Sànchez-Marrè, Víctor Codina (2010), "Choosing the Right Data Mining Technique: Classification of Methods and Intelligent Recommendation," International Environmental Modelling and Software Society (iEMSs), vol 2, no 3, pp 1933-1940 17 Klaus Krippendorff (2004), "Realiability in content Communication Research, vol 30, no 3, pp 411-433 analysis," Human 18 Krzysztof Dembczy´nski, Weiwei Cheng, Eyke H¨ullermeier (2010), "Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains," Proceedings of the 27th International Conference on Machine Learning (ICML-10), vol 27, pp 279-286 19 Matthew Lombard, Jenifer Snyder-Duch, Cheryl Campanella Bracken (2006), "Content analysis in mass communication: Assesment and reporting of intercoder reliability," Human Communication Research, vol 28, no 4, pp 587-604 20 Marco L Better (2007), Data Mining Techniques for Prediction and Classification in Discrete Data Application, ProQuest, United States of America 21 Mohamed J Zaki, Wagner Meira JR (2014), Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, New York, United States of America 22 Mohammad S Sorower (2010), A literature survey on algorithms for multi-label learning, Oregon State University, Corvallis, United States of America 23 Rodrigo C Barros, Márcio P Basgalupp, Alex A Freitas (2014), "Evolutionary Design of Decision-Tree Algorithms Tailored to Microarray Gene Expression Data Sets," IEEE Transactions on Evolutionary Computation, vol 18, no 6, pp 873892 24 Ronald E Walpole, Raymond H Myers, Sharon L Myers, Keying Ye (2012), Probability & Statistics for Engineering and the Sciences Eighth Edition, Duxbury Press, United States of America 58 25 Vidhya.K.A, G.Aghila (2010), "A Survey of Naïve Bayes Machine Learning approach in Text Document Classification," (IJCSIS) International Journal of Computer Science and Information Security, vol 7, no 2, pp 85-99 26 Xin Chen, Mihaela Vororeanu, Krisna Madhavan (2014), "Mining Social Media Data for Understanding Student's Learning Experiences," IEEE Transactions on Learning Technologies, vol 7, no 3, pp 246-259 ... tài Khai phá liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập sinh viên , với mục đích đề xuất mô hình khai phá liệu hiệu cho phân tích quan điểm, kinh nghiệm vấn đề gặp phải học. ..ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN Ngành: Hệ thống Thông Tin Chuyên... cứu giáo dục để hiểu kinh nghiệm sinh viên bên môi trường lớp học có kiểm soát Sự phong phú liệu truyền thông xã hội cung cấp hội để hiểu kinh nghiệm sinh viên, đặt khó khăn phương pháp luận việc

Ngày đăng: 03/03/2017, 18:12

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan