Ứng dụng một số phương pháp khai thác dữ liệu để dự đoán kết quả tốt nghiệp

71 80 0
Ứng dụng một số phương pháp khai thác dữ liệu để dự đoán kết quả tốt nghiệp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học : PGS.TS Lê Hoàng Thái Luận văn Thạc sĩ bảo vệ Trường Đại học Công Nghệ TP.HCM ngày 23 tháng năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng PGS.TS Võ Đình Bảy Chủ tịch PGS.TS Quản Thành Thơ Phản biện TS Cao Tùng Anh Phản biện TS Vũ Thanh Hiền Ủy viên TS Nguyễn Thị Thúy Loan Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CƠNG NGHỆ TP HCM PHỊNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Hồng Vũ Giới tính: Nam Ngày, tháng, năm sinh: 22/01/1985 Nơi sinh: Đồng Nai Chuyên ngành: Công nghệ thông tin MSHV: 1441860043 I- Tên đề tài: Ứng dụng số phương pháp khai thác liệu để dự đoán kết tốt nghiệp II- Nhiệm vụ nội dung: Đề tài sử dụng kỹ thuật k-means, thuật toán Apriori, chuyển đổi liệu để xây dựng hệ thống dự đoán kết tốt nghiệp sinh viên để phục vụ cho phận cố vấn học tập việc giúp đỡ sinh viên có thái độ học tập tốt III- Ngày giao nhiệm vụ: 23/01/2016 IV- Ngày hoàn thành nhiệm vụ: 29/03/2017 V- Cán hướng dẫn: PGS.TS Lê Hoàng Thái CÁN BỘ HƯỚNG DẪN KHOA CÔNG NGHỆ THÔNG TIN (Họ tên chữ ký) (Họ tên chữ ký) PGS.TS Lê Hoàng Thái i LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Ứng dụng số phương pháp khai thác liệu để dự đoán kết tốt nghiệp” cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tơi xin cam đoan khơng có sản phẩm nghiên cứu người khác sử dụng luận văn mà khơng trích dẫn theo quy định Học viên thực Luận văn Nguyễn Hoàng Vũ ii LỜI CÁM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới PGS.TS Lê Hoàng Thái – Trường Đại học Khoa học tự nhiên TP Hồ Chí Minh tận tình bảo hướng dẫn tơi suốt trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn dạy bảo, giúp đỡ, tạo điều kiện khuyến khích tơi q trình học tập nghiên cứu thầy cô giáo, cán quản lý Trường Đại học Cơng nghệ TP Hồ Chí Minh Tơi xin chân thành cám ơn Trường Đại học Khoa học xã hội & nhân văn TP Hồ Chí Minh tạo điều kiện thời gian công tác để tơi tham gia hồn thành khóa đào tạo chương trình Cao học Và cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, người thân bạn bè người ln bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! TP.HCM, ngày tháng năm 2017 Nguyễn Hoàng Vũ iii TÓM TẮT Đề tài chia giai đoạn: Giai đoạn 1: đề tài sử dụng sở liệu điểm trung bình học kỳ sinh viên tốt nghiệp trường ĐH Khoa học xã hội & nhân văn, sử dụng thuật toán K-means để gom cụm liệu dựa vào độ tương đồng tính khoảng cách Euclide Qua bước chuyển liệu điểm cho thành biến ngôn ngữ, dùng thuật tốn Apriori để sinh luật cho q trình dự đốn kết Giai đoạn 2: dựa vào tập luật có giai đoạn 1, dùng định để dự đoán kết sinh viên dựa vào giá trị điểm trung bình nhập vào từ ứng dụng Từ hai giai đoạn đề tài xây dựng hệ thống dự đoán kết tốt nghiệp sinh viên để hỗ trợ cho cố vấn học tập kịp thời tư vấn cho sinh viên trình học đại học iv ABSTRACT The study is divided into two phases: Phase 1: The topic uses a database of eight semesters of graduates from the University of Social Sciences and Humanities, using K-means algorithm to aggregate data sets based on Similarity is calculated by the Euclidean distance By fuzzing the point data into language variables, Apriori algorithm is used to generate the rule for the prediction process Phase 2: Based on the first set of rules, use decision trees to predict student outcomes based on the average scores entered from the application Based on the two phases, the study builds on student graduation forecasting systems to assist the academic counselor in timely counseling students during college v MỤC LỤC TÓM TẮT iii ABSTRACT iv MỤC LỤC v DANH MỤC HÌNH ẢNH viii DANH MỤC CÁC BẢNG BIỂU ix CHƯƠNG GIỚI THIỆU TỔNG QUAN 1 Mở đầu Giới thiệu .1 Các nghiên cứu liên quan 3.1 Các nghiên cứu giới 3.2 Các nghiên cứu nước CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Một số định nghĩa .6 2.2 Xác định tương đồng chuỗi 2.2.1 Khoảng cách Euclide 2.2.2 Chuẩn hóa chuỗi giá trị .7 2.2.3 Độ tương đồng dựa dãy chung dài 2.3 Khám phá tri thức dựa sở liệu chuỗi .8 2.3.1 Tiền xử lý liệu 2.3.2 Khám phá luật 10 2.4 Các kỹ thuật khám phá tri thức .10 2.4.1 Gom cụm sở liệu chuỗi 10 2.4.2 Thuật toán khai thác luật kết hợp 13 2.4.3 Phân lớp liệu định .21 CHƯƠNG XÂY DỰNG HỆ THỐNG LUẬT 32 3.1 Phát biểu toán 32 3.2 Mục tiêu đề tài 32 3.2.1 Về mặt lý thuyết: .33 3.2.2 Về mặt ứng dụng: .33 3.2.2.1 Xây dựng tập luật .33 vi 3.2.2.2 Tiến hành dự đoán cho sinh viên .36 3.3 Minh họa bước thực toán 37 3.3.1 Chuẩn hóa liệu: 38 3.3.2 Gom cụm liệu 38 3.3.3 Chuyển đổi liệu 40 3.3.4 Xây dựng tập luật: 40 3.3.5 Tiến hành dự đoán cho sinh viên 42 3.3.6 Kết luận .44 CHƯƠNG TRIỂN KHAI ỨNG DỤNG VÀ KẾT QUẢ THỰC NGHIỆM 45 4.1 Làm liệu .45 4.2 Chuẩn hóa liệu 47 4.3 Xây dựng tập luật 48 4.3.1 Độ tương đồng dựa chuẩn hóa chuỗi liệu 48 4.3.2 Khám phá luật dựa vào thuật toán Apriori liệu gom cụm 51 4.3.3 Khám phá tri thức dựa sở liệu chuỗi 54 4.3.4 Phân lớp liệu định 55 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57 5.1 Kết đạt .57 5.2 Nhận xét 57 5.2.1 Ưu điểm: 57 5.2.2 Khuyết điểm: 58 5.3 Hướng phát triển .58 vii DANH MỤC CÁC CHỮ VIẾT TẮT Ký hiệu, viết tắt Ý nghĩa tiếng Việt Ý nghĩa tiếng Anh HK Học kỳ Semester CSDL Cơ sở liệu Database CMND Chứng minh nhân dân Identity card viii DANH MỤC HÌNH ẢNH Hình 2.1 Minh họa chuỗi kết Hình 2.2 Minh họa biến đổi chuẩn hóa liệu 10 Hình 2.3 Minh họa kết thuật tốn AprioriTID 19 Hình 2.4 Sơ đồ đường định cho bảng 1.3 .22 Hình 2.5 Minh họa cho định 29 Hình 3.1 Sơ đồ bước sinh luật đề tài .34 Hình 3.2 Sơ đồ bước dự đoán kết cho sinh viên 36 Hình 3.3 Sơ đồ đường định cho bảng 3.7 .44 Hình 4.1 Danh sách số phần tử thuộc nhóm 51 Hình 4.2 Danh sách luật xây dựng 52 46  Loại bỏ dòng liệu khơng xác định như: sinh viên khơng có điểm, mơn học mở khơng có số tín (NULL), giá trị số tiết môn học không có, …  Chuyển liệu dạng bảng điểm theo niên khóa, học kỳ Bảng 4.2 Dữ liệu sinh viên theo niên khóa 47 4.2 Chuẩn hóa liệu Chuẩn hóa liệu dạng bảng có điểm theo học kỳ MASV HK1 HK2 HK3 HK4 HK5 HK6 HK7 HK8 0660001 4.6428 6.1785 6.3260 4.6666 5.7666 7.5303 6.3928 7.0833 0660002 6.1190 5.4285 5.4800 6.2708 6.9137 7.9032 6.9411 6.9000 … … … … … … … … … - Chuẩn hóa liệu dạng bảng có điểm theo năm học MASV NĂM NĂM NĂM NĂM 0660001 5.4107 5.4963 6.6484 6.7380 0660002 5.7738 5.8754 7.4085 6.9205 … … … … … 48 Bảng 4.3 Minh họa chuẩn hóa liệu - Dữ liệu sau chuẩn hóa có:  16.896 sinh viên  Mỗi sinh viên có điểm học kỳ, tổng số record là: 135.168 4.3 Xây dựng tập luật 4.3.1 Độ tương đồng dựa chuẩn hóa chuỗi liệu - Gọi X dòng liệu sau chuẩn hóa, X có dạng: X = (x1, x2, x3, x4, x5, x6, x7, x8) X = (x1, x2, x3, x4) - Gọi Ex giá trị trung bình xi - Chuẩn hóa X ký hiệu 𝑋̅ = (𝑥̅1 , ̅̅̅, 𝑥2 … , ̅̅̅), 𝑥𝑛 với 𝑥̅𝑖 = 𝑥𝑖 − 𝐸𝑥 49 Bảng 4.4 Minh họa chuẩn hóa liệu chuỗi liệu - Dựa vào khoảng cách Euclide để tính độ tương đồng cặp chuỗi chuẩn hóa  Chọn mẫu để tính độ tương đồng  Tính độ tương đồng cặp chuỗi 50 0660001 0660001 0660003 0660004 0660005 0660006 0660007 0660008 0660010 0660011 0660014 2.1 0.74 2.02 1.23 1.84 0.95 1.72 0.85 1.16 1.94 1.22 2.44 1.27 2.32 1.82 2.29 1.75 2.03 1.02 1.93 0.78 1.33 0.61 0.78 2.63 1.33 2.06 1.59 2.22 1.73 2.58 1.53 1.74 1.04 1.21 2.04 1.88 2.11 1.82 0660003 2.1 0660004 0.74 1.94 0660005 2.02 1.22 2.03 0660006 1.23 2.44 1.02 2.63 0660007 1.84 1.27 1.93 1.33 2.58 0660008 0.95 2.32 0.78 2.06 1.53 2.04 1.32 1.43 1.24 0660010 1.72 1.82 1.33 1.59 1.74 1.88 1.32 1.43 1.08 0660011 0.85 2.29 0.61 2.22 1.04 2.11 0.91 1.43 0660014 1.16 1.75 0.78 1.73 1.21 1.82 1.24 1.08 0.74 0.74 Bảng 4.5 Tính độ tương đồng sinh viên - Thuật toán k-means: gom cụm dựa độ tương đồng  Xác định trọng tâm, trọng tâm nhóm  Đưa giá trị vào nhóm tính lại trọng tâm  Q trình lập lặp lại không thay đổi trọng tâm Bảng Trọng tâm nhóm 51 - Số phần tử chia vào nhóm theo trọng tâm tính bảng 4.6 Bảng 4.7 Gom nhóm sinh viên theo trọng tâm 4.3.2 Khám phá luật dựa vào thuật toán Apriori liệu gom cụm - Xác định nhóm để tìm tập luật Hình 4.1 Danh sách số phần tử thuộc nhóm 52 - Sau lựa chọn nhóm để xây dựng tập luật, ứng dụng tìm tập luật sau: Hình 4.2 Danh sách luật xây dựng - Làm tròn liệu điểm sinh để biến đổi dạng biến ngôn ngữ Bảng 4.8 Dữ liệu làm tròn điểm số sinh viên 53 - Các giá trị thể bảng liệu:  9, 10: Xuất sắc  8: Giỏi  7: Khá  6: Trung bình Khá  5: Trung bình  Nhỏ 5: Yếu, Kém - Xét giá trị học kỳ học kỳ ta có tập giá trị sau:  Trung bình Khá → Khá (6 → 7)  Trung bình Khá → Trung bình (6 → 5)  Trung bình → Trung bình (5 → 5)  Trung bình Khá → Trung bình Khá (6 → 6)  Khá → Khá (7 → 7) - Từ tập giá trị trên, dựa vào ngưỡng cho phép, xác định tập luật - Tương tự, xét luật sau:  HK2 → HK3  HK3 → HK4  HK4 → HK5  HK5 → HK6  HK6 → HK7  HK7 → HK8 - Sau xác định luật theo học kỳ, ta định luật có vế trái học kỳ:  HK1 HK2 → HK3 54  HK2 HK3 → HK4  …  HK6 HK7 → HK8 - Từ đó, xây dựng tập luật có vế trái tăng 4.3.3 Khám phá tri thức dựa sở liệu chuỗi Bảng 4.9 Dữ liệu minh họa cho khám phá tri thức - Cho tập liệu chuỗi hình vẽ - Giả sử xây dựng luật dựa vào chuỗi giá trị liên tiếp - Gọi chuỗi thứ i tập hợp, ví dụ:  a1 = (6, 7, 8), a2 = (7, 8, 8), a3 = (8, 8, 8), a4 = (8, 8, 7), a5 = (8, 7, 7), a6 = (7, 7, 8), a7 = (6, 5, 6), a8 = (5, 6, 7), a9 = (6, 7, 7), a10 = (7, 7, 7),…  Dòng sau biến đổi có kết quả: (a1, a2, a3, a4, a5, a6)  Dòng sau biến đổi có kết quả: (a7, a8, a9, a10, a10, a10) 55 Bảng 4.10 Dữ liệu sau biến đổi - Tìm tập phổ biến dựa số lần xuất tập liệu - Mỗi ai, xác định luật: HKj HKj+1 → HKj+2 - Thay đổi chiều dài chuỗi để tăng thêm giá trị vế trái 4.3.4 Phân lớp liệu định - Giả sử tập luật cần xây dựng dựa vào giá trị HK1, HK2, HK3 để kết luận HK4 56 Bảng 4.11 Dữ liệu minh họa cho định - Chọn thuộc tính phân hoạch tốt Trong ví dụ trên, chọn thuộc tính HK3, ta có kết sau: o Nếu HK3 = “Giỏi” HK4 = “Giỏi” o Nếu HK3 = “Khá” HK4 = “Khá” o Nếu HK3 khác hai giá trị xét tiếp thuộc tính khác  Nếu HK1 = “Trung bình” HK4 = “Trung bình Khá”  Ngược lại, xét thuộc tính HK2  Nếu HK2 = “Trung bình” HK4 = “Khá”  Nếu HK2 = “Trung bình Khá” 50% HK4 = “Trung bình Khá”, 50% HK4 = “Khá” - Tương tự ta xây dựng luật để tìm kết cuối sinh viên 57 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết đạt - Do phương pháp gom cụm dựa vào trọng tâm chọn ngẫu nhiên nên kết chênh lệch Để khắc phục, ta gom cụm nhiều lần để kết tốt - Do kết học tập dao động lớn (có nhiều loại), chọn minsupp = 20% để chọn nhiều phần tử Chọn ngưỡng độ tin cậy minconf = 50% để thu luật có độ tin cậy cao - Kết học tập dao động từ nhỏ đến lớn, có loại (Xuất sắc, Giỏi, Khá, TB Khá, Trung bình, Yếu, Kém) nên tỷ lệ nhỏ, độ tin cậy để xác định luật phải lớn để xác định xác - Các luật theo dạng:  “Nếu kết học kỳ Trung bình học kỳ sau Trung bình”  “Nếu kết học kỳ Xuất sắc học kỳ sau Giỏi” 5.2 Nhận xét - Đề tài chủ yếu quan tâm đến mối liên hệ giá trị sở liệu Tuy nhiên, liệu có nhiều khuyết điểm điểm sinh viên, đăng ký học tập, việc học lại,…dẫn đến số giá trị không xuất Đề tài mong muốn đưa cách tiếp cận sở liệu sinh viên để rút nhiều kết luận, giúp việc quản lý giáo dục tốt 5.2.1 Ưu điểm: - Khai thác liệu học tập sinh viên để giúp người quản lý cải thiện chất lượng đào tạo, biết thành tích học tập sinh viên qua nhiều học kỳ - Chương trình chuẩn hóa liệu thơ thành liệu theo học kỳ, năm, đồng thời loại bỏ liệu không phù hợp  Dữ liệu sinh viên Trường Đại học tương đối giống nhau, 58 việc chuẩn hóa dạng liệu khác tương tự  Qua kết gom cụm, nhận mẫu phổ biến, từ đánh giá xác tình hình chất lượng 5.2.2 Khuyết điểm:  Các luật đưa có dạng A → B, bất lợi có mẫu đại diện xuất Ví dụ: Loại Xuất sắc Kém xuất  Nếu sử dụng phương pháp k-means phần tử đại diện cho mẫu luật khơng xuất sở liệu, trọng tâm trung bình cộng tất mẫu nhóm  Do khơng có nhiều thời gian thực nên đề tài dừng lại mức độ phát luật từ sở liệu, chưa lựa chọn tập luật tối ưu 5.3 Hướng phát triển - Khai thác liệu áp dụng nhiều lĩnh vực khác nhau, lĩnh vực có số liệu theo dõi theo quy luật quán - Do liệu khai thác kết học tập sinh viên học kỳ chính, nên mức độ khai thác dừng lại việc dự đoán kết học tập Phát triển nâng mức độ dự đoán từ kết tuyển sinh đại học, dự đoán theo thời gian,… từ sở liệu phong phú - Đề tài mang tính minh họa cho phần lý thuyết nhiều hơn, chưa thể ứng dụng rõ ràng 59 Tài liệu tham khảo Tiếng Anh [1] Ahmet Tekin (2014), “Early Prediction of Students’ Grade Point Averages at Graduation: A Data Mining Approach”, Eurasian Journal of Educational Research [2] David Hand, Heikki Mannila, Padhraic (2001), Principles of Data Mining, Massachusett Institute of Technology, Cambridge [3] Edin Osmanbegović, Mirza Suljic (2012), “Data Mining Approach for Predicting Student Performance”, Economic Review – Journal of Economics and Business, Volume X, Issue [4] J Han and M Kamber (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann, San Francisco, CA [5] M Kantardzic (2011), Data Mining: Concepts, Models, Method, and Algorithms, John Wiley & Sons, New York, NY [6] P Berkhin (2001), Survey of Clustering Data Mining Techniques, Research paper [7] Rakesh Agrawal, Ramakrishman Srikant (1994), Fast Algorithms for Mining Association Rules, Santiago [8] Sahil P Karkhanis, Shweta S Dumbre, PhD (2015), “A Study of Application of Data Mining and Analytics in Education Domain”, International Journal of Computer Applications (0975 – 8887), Volume 120 – No.22 [9] V Ramesh, P Parkavi, K Ramar (2013), “Predicting Student Performance: A Statistical and Data Mining Approach”, International Journal of Computer Applications (0975 – 8887), Volume 63 – No.8 [10] Yiming Ma, Bing Liu, Ching Kian Wong, Philip S Yu, Shuik Ming Lee (2000), Targeting the Right Student Using Data Mining, ACM SIGKDD 60 Tiếng Việt [11] Nguyen Thai Nghe, Các đề tài hướng dẫn sinh viên tốt nghiệp, Previously Master’s Student, AIT, Thailand, and currently Lecturer, Can Tho University, Viet Nam [12] Nguyễn Thị Thanh Thủy, Nguyễn Trần Quốc Vinh (2012), “Ứng dụng khai phá liệu xây dựng công cụ dự đoán kết học tập sinh viên”, Trường ĐH Đà Nẵng [13] Võ Thị Ngọc Liên (2013), “Dự đoán kết học tập sinh viên trường nghề sử dụng phương pháp hồi quy bayes”, Trường ĐH Lạc Hồng ... Ứng dụng số phương pháp khai thác liệu để dự đoán kết tốt nghiệp II- Nhiệm vụ nội dung: Đề tài sử dụng kỹ thuật k-means, thuật toán Apriori, chuyển đổi liệu để xây dựng hệ thống dự đoán kết tốt. .. LỜI CAM ĐOAN Tôi xin cam đoan luận văn Ứng dụng số phương pháp khai thác liệu để dự đoán kết tốt nghiệp cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố... sở liệu sử dụng độ đo tương đồng thích hợp gom cụm đối tượng Có nhiều phương pháp gom cụm thực sở liệu cho kết tốt Phương pháp gom cụm chia làm loại: phương pháp dựa độ tương đồng phương pháp dựa

Ngày đăng: 31/12/2018, 16:02

Từ khóa liên quan

Mục lục

  • TÓM TẮT

  • ABSTRACT

  • MỤC LỤC

  • DANH MỤC HÌNH ẢNH

  • DANH MỤC CÁC BẢNG BIỂU

  • CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN

    • 1. Mở đầu

    • 2. Giới thiệu

    • 3. Các nghiên cứu liên quan

      • 3.1 Các nghiên cứu trên thế giới

      • 3.2 Các nghiên cứu trong nước

      • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT

        • 2.1. Một số định nghĩa

        • 2.2. Xác định sự tương đồng giữa các chuỗi

          • 2.2.1. Khoảng cách Euclide

          • 2.2.2. Chuẩn hóa chuỗi giá trị

          • 2.2.3. Độ tương đồng dựa trên dãy con chung dài nhất

          • 2.3. Khám phá tri thức dựa trên cơ sở dữ liệu chuỗi

            • 2.3.1. Tiền xử lý dữ liệu

            • 2.3.2. Khám phá luật

            • 2.4. Các kỹ thuật khám phá tri thức

              • 2.4.1. Gom cụm trên cơ sở dữ liệu chuỗi

                • 2.4.1.1. Phương pháp k-means

                • 2.4.1.2. Phương pháp Greedy

                • 2.4.2. Thuật toán khai thác luật kết hợp

                  • 2.4.2.1. Các định nghĩa

                  • 2.4.2.2. Phát sinh luật kết hợp

                  • 2.4.3. Phân lớp dữ liệu bằng cây quyết định

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan