Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học thủy lợi

98 4 0
  • Loading ...
1/98 trang

Thông tin tài liệu

Ngày đăng: 02/12/2016, 04:39

Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy Lợi HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN XUÂN HẢI KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG DỰ BÁO TIẾN TRÌNH HỌC TẬP CỦA SINH VIÊN ĐẠI HỌC THỦY LỢI LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2016 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN XUÂN HẢI KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG DỰ BÁO TIẾN TRÌNH HỌC TẬP CỦA SINH VIÊN ĐẠI HỌC THỦY LỢI CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN ĐÌNH HÓA HÀ NỘI - 2016 i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình TÁC GIẢ Nguyễn Xuân Hải ii LỜI CÁM ƠN Trước hết, xin bày tỏ lòng biết ơn gửi lời cám ơn chân thành đến TS Nguyễn Đình Hóa - người hướng dẫn khoa học, tận tình bảo hướng dẫn tìm hướng nghiên cứu, tiếp cận thực tế, tìm kiếm tài liệu, xử lý phân tích số liệu, giải vấn đề… Ngoài ra, trình học tập, nghiên cứu thực đề tài nhận nhiều quan tâm, góp ý, hỗ trợ quý báu quý thầy cô, đồng nghiệp, bạn bè người thân… nhờ hoàn thành luận văn cao học Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Cha mẹ người thân gia đình hỗ trợ, tạo điều kiện thuận lợi cho suốt thời gian qua đặc biệt thời gian theo học khóa thạc sỹ; Các Quý thầy cô Học viện Công nghệ Bưu Viễn thông truyền đạt cho kiến thức bổ ích suốt hai năm học vừa qua; Ban Giám hiệu, Phòng chức đặc biệt Phòng Đào tạo ĐH&SĐH – Trường Đại học Thủy lợi tạo điều kiện tối đa cho học tập, nghiên cứu suốt thời gian qua Trong trình nghiên cứu mình, hướng dẫn nhiệt tình, nghiêm túc TS Nguyễn Đình Hóa thầy cô giáo Học viện Công nghệ Bưu Chính Viễn thông, Đại học Thủy lợi với nỗ lực cá nhân tránh thiếu sót Tác giả chân thành mong nhận ý kiến đóng góp từ quý Thầy, Cô bạn bè đồng nghiệp Trân trọng cám ơn Tác giả Nguyễn Xuân Hải iii MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN………………………………………………………………………………………………ii MỤC LỤC….…………………………………………………………………………………………….…iii DANH MỤC TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC HÌNH VẼ vii MỞ ĐẦU…………………………… ………………………………………………………………………1 Tính cấp thiết đề tài Tổng quan vấn đề nghiên cứu Mục đích, đối tượng, phạm vi phương pháp nghiên cứu Cấu trúc luận văn CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN DỰ BÁO 1.1 Tổng quan khai phá liệu 1.2 Một số phương pháp khai phá liệu Phân lớp (Classification) Phân cụm (Clustering) Luật kết hợp (Association Rules) 1.3 Tổng quan toán dự báo Khái niệm Đặc điểm toán dự báo Các phương pháp đánh giá cho toán phân lớp, dự báo 10 1.4 Một số kỹ thuật khai phá liệu toán dự báo/phân lớp 11 Các phương pháp định 11 Các phương pháp K-láng giềng gần 12 Các phương pháp dựa luật 13 Các phương pháp Bayes «ngây thơ» mạng tin cậy Bayes 14 1.5 Kết luận chương 14 CHƯƠNG KHAI PHÁ DỮ LIỆU VÀ CÁC CÔNG CỤ HỌC MÁY 16 2.1 Cây định 16 Tổng quan định 16 Cấu trúc định 17 Xây dựng định 18 Biến đổi định thành luật 22 Một số thuật toán xây dựng định 22 iv 2.2 K Láng giềng gần 41 2.2.1 Tổng quan K láng giềng gần 41 2.2.2 Thuật toán K láng giềng gần 41 2.3 Kết luận chương 52 CHƯƠNG DỰ BÁO TIẾN TRÌNH HỌC TẬP CỦA SINH VIÊN ĐẠI HỌC THỦY LỢI……………………………………………………………………………………………………… …53 3.1 Giới thiệu toán 53 3.2 Phân tích xây dựng mô hình toán 53 Phân tích toán 53 Mô hình toán 54 3.3 Thực nghiệm 59 Phương pháp đánh giá tập liệu 59 Các độ đo dùng để dự báo 59 Mô hình dự báo tiến trình học tập sinh viên 60 3.4 Đánh giá thuật toán 64 3.5 Kết luận chương 65 KẾT LUẬN…………………………………………… …………………………………………………67 TÀI LIỆU THAM KHẢO 69 PHỤ LỤC……… …………………………………………………………………………………………70 PHỤ LỤC KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT CÂY QUYẾT ĐỊNH ID3 70 PHỤ LỤC KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT CÂY QUYẾT ĐỊNH C4.5 76 PHỤ LỤC KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT K LÁNG GIỀNG GẦN NHẤT 83 v DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa CNTT Công nghệ thông tin CSDL Cơ sở liệu ĐATN Đồ án tốt nghiệp ĐHTL Đại học Thủy lợi GD&ĐT Giáo dục Đào tạo KNN KDD K-fold SV Sinh viên 10 TBTLDK Điểm trung bình tích lũy đến kỳ 11 TBTLK Điểm trung bình tích lũy kỳ 12 TCTLDK Tổng số tín tích lũy đến kỳ 13 TCTLK Tổng số tín tích lũy kỳ K Nearest Neighbors (K láng giềng gần nhất) Knowlegde Discovery in Databases (Quy trình khám phá tri thức sở liệu) K-fold cross validation (Đánh giá chéo dựa k phần) vi DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Tập mẫu huấn luyện chơi đá bóng (1) 24 Bảng 2.2 Tập mẫu huấn luyện chơi đá bóng (2) 30 Bảng 2.3 Tập mẫu huấn luyện chơi đá bóng (3) 32 Bảng 2.4 Tỷ lệ Gain cho thuộc tính Độ ẩm lần tạo thứ 34 Bảng 2.5 Tỷ lệ Gain cho thuộc tính Độ ẩm lần tạo thứ hai 37 Bảng 2.6 Chuẩn hóa Min – Max, Z-Score thuộc tính tuổi 44 Bảng 2.7 Chuẩn hóa Min - Max thuộc tính tuổi tỷ lệ Na/K 47 Bảng 2.8 Ước tính huyết áp cho bệnh nhân 17 tuổi với tỷ lệ Na/K=12.5 50 Bảng 3.1 Danh sách thuộc tính đầu vào toán 56 Bảng 3.2 Danh sách thông tin đầu toán 57 Bảng 3.3 Các độ đo dùng để dự báo 59 Bảng 3.4 So sánh tỷ lệ dự báo tiến độ xác phương án lấy liệu đầu vào 61 Bảng 3.5 So sánh tỷ lệ dự báo xử lý học vụ xác phương án lấy liệu đầu vào 61 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quá trình khám phá, phát tri thức từ liệu [4] Hình 1.2 Ví dụ trình học kỹ thuật phân lớp Hình 1.3 Ví dụ trình phân lớp, dự báo Hình 1.4 Đánh giá độ xác phân lớp với phương pháp holdout [8] 10 Hình 1.5 Cây định cho kiện mua máy tính 11 Hình 2.1 Ví dụ phép phân tách tốt [4] 19 Hình 2.2 Cấp Cây định (ID3) với nút gốc Quang cảnh 26 Hình 2.3 Cấp thứ hai Cây định (ID3) với nhánh Nhiệt độ 26 Hình 2.4 Cấp thứ hai Cây định (ID3) với nhánh Gió 27 Hình 2.5 Cấp thứ hai Cây định (ID3) với nhánh Độ ẩm 27 Hình 2.6 Cấp thứ hai Cây định (ID3) với nút thuộc tính Độ ẩm 28 Hình 2.7 Mô hình định xây dựng thuật toán ID3 28 Hình 2.8 Cấp Cây định (C4.5) với nút gốc Quang cảnh 32 Hình 2.9 Cấp Cây định (C4.5) với nút gốc Gió 33 Hình 2.10 Cấp Cây định (C4.5) với nút gốc Độ ẩm 34 Hình 2.11 Cấp Cây định (C4.5) với nút gốc Nhiệt độ 35 Hình 2.12 Cấp thứ hai Cây định (C4.5) với nhánh Nhiệt độ 36 Hình 2.13 Cấp thứ hai Cây định (C4.5) với nhánh Gió 37 Hình 2.14 Cấp thứ hai Cây định (C4.5) với nhánh Ngày 38 Hình 2.15 Mô hình Cây định xây dựng thuật toán C4.5 39 Hình 2.16 Ví dụ minh họa thuật toán K-NN (1) 42 Hình 2.17 Ví dụ minh họa thuật toán K-NN (2) 46 Hình 2.18 Minh họa phân loại hồ sơ sử dụng thuật toán K-NN 51 Hình 3.1 Mô hình toán 55 Hình 3.2 Thông tin tiến trình học tập sinh viên 55 Hình 3.3 Quá trình phân lớp 58 Hình 3.4 Tỷ lệ dự báo xác theo Cây định (ID3) 62 Hình 3.5 Tỷ lệ dự báo xác theo Cây định (C4.5) 63 Hình 3.6 Tỷ lệ dự báo xác theo K láng giềng gần 64 Hình 3.7 Đánh giá độ xác phương pháp dự báo kết học vụ 65 Hình 3.8 Đánh giá độ xác phương pháp dự báo tiến độ học tập 65 MỞ ĐẦU Tính cấp thiết đề tài Mục tiêu chung em sinh viên bậc phụ huynh bước chân vào Trường Đại học Đại học Tuy nhiên, với mô hình đào tạo theo tín hầu hết trường Đại học nói chung Đại học Thủy lợi nói riêng việc tìm hiểu, thích nghi với quy chế đào tạo điều không dễ dàng (trong trình học 12 năm phổ thông người học đào tạo theo niên chế) Trong thực tế, nhiều sinh viên giữ thói quen cũ từ thời phổ thông (thang điểm, phương thức học tập…) trình học đại học, từ phát sinh trường hợp đáng tiếc mà thiếu hiểu biết, em bỏ lỡ hội Ví dụ Đại học Thủy lợi, có trường hợp sinh viên học đạt hầu hết môn (Điểm D tức từ 4-5.4 điểm theo thang 10 đạt [1]) lại không đủ điều kiện làm Đồ án tốt nghiệp (điều kiện làm Đồ án tốt nghiệp không nợ môn điểm trung bình chung môn 2.0 theo thang điểm [3]), từ dẫn đến việc em bị chậm tiến độ học tập… Để em sinh viên phụ huynh phần có nhìn rõ ràng tương lai việc học tập Trường Đại học mà không cần phải hiểu sâu quy chế đào tạo theo tín chỉ: Đó khả hoàn thành chương trình học nào? Có đảm bảo tiến độ theo khung chung nhà trường hay không? Có nguy bị cảnh báo học tập hay không? Từ đó, em gia đình có định hợp lý, kịp thời thời gian học tập Giải pháp tác giả đưa cung cấp cho sinh viên gia đình thông tin dự báo tiến trình học tập tương lai sinh viên dựa liệu sinh viên Thông qua đó, sinh viên đưa định kịp thời, hợp lý cho việc học tập mình; nhà trường có giải pháp kịp thời để quan tâm, cảnh báo, khuyến khích em sinh viên; gia đình nhìn nhận hỗ trợ, động viên em mình… Xuất phát từ thực tế mục tiêu vậy, tác giả thực đề tài luận văn có tên “Khai phá liệu ứng dụng dự báo tiến trình học tập sinh viên Đại học Thủy lợi” để giải vấn đề nêu 75 2.6 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 93.61% Phân lớp KHONG MOT HAI BA THOIHOC Precision KHONG 5300 220 37 12 95.15% MOT 37 28 51.39% HAI 40 71 10 58.68% BA 22 21 47.73% THOIHOC 0 223 98.67% TP Rate 99.23% 13.26% 63.96% 42.00% 88.49% 93.61% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.42 0.004 0.477 0.992 0.39 0.952 0.64 0.008 0.587 0.885 0.001 0.987 0.133 0.006 0.514 Weighted Avg 0.937 0.346 0.922 === Confusion Matrix === a b c d e < classified as 21 0 28 | a = BA 5300 40 | b = KHONG 37 71 | c = HAI 12 10 223 | d = THOIHOC 22 220 0 37 | e = MOT Recall 0.42 0.992 0.64 0.885 0.133 0.937 F-Measure 0.447 0.971 0.612 0.933 0.211 0.924 ROC Area 0.965 0.936 0.966 0.97 0.867 0.935 Class BA KHONG HAI THOIHOC MOT 2.7 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 94.92% Phân lớp KHONG MOT HAI BA THOIHOC TP Rate KHONG MOT HAI BA THOIHOC Precision 5425 126 81 22 95.92% 15 43 31 47.25% 0 0.00% 52.94% 254 97.32% 99.58% 24.29% 0.00% 21.43% 90.71% 94.92% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.907 0.001 0.973 0.996 0.396 0.959 0.214 0.001 0.529 0.243 0.008 0.473 0.001 Weighted Avg 0.95 0.358 0.929 === Confusion Matrix === a b c d e < classified as 254 22 2 | a = THOIHOC 5425 15 | b = KHONG 31 | c = BA 126 43 | d = MOT 81 0 | e = HAI Recall 0.907 0.996 0.214 0.243 0.95 F-Measure 0.939 0.977 0.305 0.321 0.938 ROC Area 0.98 0.952 0.978 0.879 0.935 0.951 Class THOIHOC KHONG BA MOT HAI 76 PHỤ LỤC KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT CÂY QUYẾT ĐỊNH C4.5 Dự báo tiến độ 1.1 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 76.57% Phân lớp KHONGDUNG DUNG Precision KHONGDUNG DUNG TP Rate 4180 1157 78.32% 258 443 63.20% 94.19% 27.69% 76.57% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.942 0.723 0.783 0.277 0.058 0.632 Weighted Avg 0.766 0.547 0.743 === Confusion Matrix === a b < classified as 4180 258 | a = KHONGDUNG 1157 443 | b = DUNG Recall 0.942 0.277 0.766 F-Measure 0.855 0.385 0.731 ROC Area 0.725 0.725 0.725 Class KHONGDUNG DUNG 1.2 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 80.54% Phân lớp KHONGDUNG DUNG Precision KHONGDUNG 4075 812 83.38% DUNG 363 788 68.46% TP Rate 91.82% 49.25% 80.54% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.918 0.507 0.834 0.493 0.082 0.685 Weighted Avg 0.805 0.395 0.794 === Confusion Matrix === a b < classified as 4075 363 | a = KHONGDUNG 812 788 | b = DUNG Recall 0.918 0.493 0.805 F-Measure 0.874 0.573 0.794 ROC Area 0.803 0.803 0.803 Class KHONGDUNG DUNG 1.3 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 82.11% Phân lớp KHONGDUNG DUNG Precision KHONGDUNG 3976 618 86.55% DUNG 462 982 68.01% TP Rate 89.59% 61.38% 82.11% 77 Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.896 0.386 0.865 0.614 0.104 0.68 Weighted Avg 0.821 0.311 0.816 === Confusion Matrix === a b < classified as 3976 462 | a = KHONGDUNG 618 982 | b = DUNG Recall 0.896 0.614 0.821 F-Measure 0.88 0.645 0.818 ROC Area 0.794 0.794 0.794 Class KHONGDUNG DUNG 1.4 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 83.37% KHONGDUNG DUNG Phân lớp KHONGDUNG 4037 401 DUNG 603 997 87.00% 71.32% Precision Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.91 0.377 0.87 0.623 0.09 0.713 Weighted Avg 0.834 0.301 0.828 === Confusion Matrix === a b < classified as 4037 401 | a = KHONGDUNG 603 997 | b = DUNG Recall 0.91 0.623 0.834 F-Measure 0.889 0.665 0.83 TP Rate 90.96% 62.31% 83.37% ROC Area 0.834 0.834 0.834 Class KHONGDUNG DUNG 1.5 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 85.38% KHONGDUNG DUNG Phân lớp KHONGDUNG 3945 493 DUNG 390 1210 91.00% 71.05% Precision Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.889 0.244 0.91 0.756 0.111 0.711 Weighted Avg 0.854 0.209 0.857 === Confusion Matrix === a b < classified as 3945 493 | a = KHONGDUNG 390 1210 | b = DUNG Recall 0.889 0.756 0.854 F-Measure 0.899 0.733 0.855 TP Rate 88.89% 75.63% 85.38% ROC Area 0.835 0.835 0.835 Class KHONGDUNG DUNG 1.6 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 85.34% Phân lớp KHONGDUNG DUNG Precision KHONGDUNG 3911 358 91.61% DUNG 527 1242 70.21% TP Rate 88.13% 77.63% 85.34% 78 Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.881 0.224 0.916 0.776 0.119 0.702 Weighted Avg 0.853 0.196 0.859 === Confusion Matrix === a b < classified as 3911 527 | a = KHONGDUNG 358 1242 | b = DUNG Recall 0.881 0.776 0.853 F-Measure 0.898 0.737 0.856 ROC Area 0.882 0.882 0.882 Class KHONGDUNG DUNG 1.7 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 89.33% Phân lớp KHONGDUNG DUNG Precision KHONGDUNG 4015 221 94.78% DUNG 423 1379 76.53% TP Rate 90.47% 86.19% 89.33% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.905 0.138 0.948 0.862 0.095 0.765 Weighted Avg 0.893 0.127 0.899 === Confusion Matrix === a b < classified as 4015 423 | a = KHONGDUNG 221 1379 | b = DUNG Recall 0.905 0.862 0.893 F-Measure 0.926 0.811 0.895 ROC Area 0.891 0.891 0.891 Class KHONGDUNG DUNG Dự báo kết xét học vụ 2.1 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 91.24% Phân lớp KHONG MOT HAI BA KHONG 5409 39 MOT 446 0 HAI 70 BA 0 THOIHOC 18 12 0.00% 57.85% 40.00% Precision 92.07% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.992 0.798 0.921 0 0.972 0.009 0.579 0.423 1 0.002 0.4 Weighted Avg 0.912 0.721 0.848 Recall 0.992 0.972 0.423 0.912 THOIHOC TP Rate 0 0 22 100.00% 99.17% 0.00% 97.22% 100.00% 42.31% 91.24% F-Measure 0.955 0.725 0.595 0.571 0.877 ROC Area 0.589 0.513 0.968 0.756 0.999 0.589 Class KHONG MOT HAI THOIHOC BA 79 === Confusion Matrix === a b c d e 5409 39 446 0 70 0 18 12 22 0 0 | | | | | < classified as a = KHONG b = MOT c = HAI d = THOIHOC e = BA 2.2 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 90.16% Phân lớp KHONG MOT HAI BA KHONG 5347 28 MOT 320 24 HAI 160 16 BA 0 29 THOIHOC 32 7 0.00% 30.19% 40.85% Precision 91.21% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0 0.993 0.787 0.912 0.531 0.09 0.006 0.302 0.906 0.007 0.408 Weighted Avg 0.902 0.702 0.841 === Confusion Matrix === a b c d e 320 24 5347 28 32 52 7 160 16 0 29 | | | | | Recall 0.993 0.531 0.09 0.906 0.902 THOIHOC TP Rate 0 0 52 100.00% 99.31% 0.00% 8.99% 90.63% 53.06% 90.16% F-Measure 0.951 0.693 0.139 0.563 0.866 ROC Area 0.532 0.732 0.868 0.957 0.915 0.73 Class MOT KHONG THOIHOC HAI BA < classified as a = MOT b = KHONG c = THOIHOC d = HAI e = BA 2.3 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 91.07% Phân lớp KHONG MOT HAI BA KHONG 5298 18 MOT 281 0 74 HAI 113 23 BA 78 THOIHOC 14 17 Precision 92.83% 0.00% 46.00% 44.83% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.169 0.005 0.46 0.995 0.573 0.928 0.001 0.719 0.001 0.971 0.929 0.016 0.448 Weighted Avg 0.911 0.505 0.858 Recall 0.169 0.995 0.719 0.929 0.911 THOIHOC TP Rate 0 100 97.09% 99.51% 0.00% 16.91% 92.86% 71.94% 91.07% F-Measure 0.247 0.961 0.826 0.605 0.88 ROC Area 0.96 0.775 0.606 0.954 0.969 0.776 Class HAI KHONG MOT THOIHOC BA 80 === Confusion a b 23 113 18 5298 281 14 1 Matrix === c d e 0 0 0 74 100 17 78 | | | | | < classified as a = HAI b = KHONG c = MOT d = THOIHOC e = BA 2.4 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 90.26% Phân lớp KHONG MOT HAI BA KHONG 5194 MOT 365 74 0 HAI 105 43 BA 50 0 THOIHOC 14 28 Precision 91.46% 54.41% 54.43% 0.00% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.169 0.011 0.544 0.997 0.584 0.915 0.751 0.001 0.965 0 0.277 0.006 0.544 Weighted Avg 0.903 0.505 0.872 === Confusion Matrix === a b c d e < classified as 74 365 0 | a = MOT 5194 0 | b = KHONG 14 139 28 | c = THOIHOC 50 0 | d = BA 105 43 | e = HAI Recall 0.169 0.997 0.751 0.277 0.903 THOIHOC TP Rate 0 139 96.53% 99.73% 16.86% 27.74% 0.00% 75.14% 90.26% F-Measure 0.257 0.954 0.845 0.368 0.877 ROC Area 0.596 0.754 0.961 0.974 0.966 0.756 Class MOT KHONG THOIHOC BA HAI 2.5 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 95.31% HAI BA THOIHOC Phân lớp KHONG MOT KHONG 5437 0 MOT 106 106 0 HAI 92 27 0 BA 34 0 THOIHOC 14 17 185 Precision 96.23% 68.39% 56.25% 0.00% 100.00% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.227 0.004 0.563 0.998 0.362 0.962 0.5 0.008 0.684 0.83 0 Weighted Avg 0.953 0.327 0.94 Recall 0.227 0.998 0.5 0.83 0.953 F-Measure 0.323 0.98 0.578 0.907 0.944 ROC Area 0.971 0.88 0.754 0.97 0.963 0.881 TP Rate 99.78% 50.00% 22.69% 0.00% 82.96% 95.31% Class HAI KHONG MOT THOIHOC BA 81 === Confusion Matrix === a b c d e 27 92 0 5437 0 106 106 0 17 14 185 0 34 0 | | | | | < classified as a = HAI b = KHONG c = MOT d = THOIHOC e = BA 2.6 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 93.64% HAI BA THOIHOC Phân lớp KHONG MOT KHONG 5302 39 0 MOT 219 58 HAI 37 70 BA 49 THOIHOC 10 14 223 98.24% Precision 95.21% 50.43% 56.91% 25.00% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.02 0.001 0.25 0.993 0.384 0.952 0.631 0.009 0.569 0.878 0.001 0.982 0.207 0.01 0.504 Weighted Avg 0.936 0.34 0.92 === Confusion Matrix === a b c d e < classified as 1 0 49 | a = BA 5302 39 | b = KHONG 37 70 | c = HAI 10 14 223 | d = THOIHOC 219 0 58 | e = MOT Recall 0.02 0.993 0.631 0.878 0.207 0.936 F-Measure 0.036 0.972 0.598 0.927 0.294 0.924 ROC Area 0.976 0.822 0.964 0.972 0.622 0.823 TP Rate 99.25% 20.71% 63.06% 1.96% 87.80% 93.64% Class BA KHONG HAI THOIHOC MOT 2.7 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 95.03% HAI BA THOIHOC Phân lớp KHONG MOT KHONG 5432 15 0 MOT 124 50 HAI 85 0 BA 39 THOIHOC 21 3 254 Precision 95.90% 46.73% 11.11% 25.00% 100.00% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.904 0.996 0.396 0.959 0.024 0.001 0.25 0.282 0.01 0.467 0.012 0.001 0.111 Weighted Avg 0.95 0.358 0.93 Recall 0.904 0.996 0.024 0.282 0.012 0.95 F-Measure 0.95 0.977 0.043 0.352 0.021 0.938 ROC Area 0.976 0.87 0.955 0.652 0.958 0.87 TP Rate 99.63% 28.25% 1.16% 2.38% 90.39% 95.03% Class THOIHOC KHONG BA MOT HAI 82 === Confusion a b 254 21 5432 124 85 Matrix === c d e < classified as 3 | a = THOIHOC 15 | b = KHONG 39 | c = BA 50 | d = MOT 0 | e = HAI 83 PHỤ LỤC KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT K LÁNG GIỀNG GẦN NHẤT Chọn k Trong trình thực nghiệm, tác giả tiến hành xây dựng mô hình nhiều phương án lựa chọn k (k=1,2,…,10), kết dự báo chênh lệch không nhiều phương án lựa chọn k khác Tổng hợp kết dự báo với phương án lựa chọn k sau: 1.1 Đối với dự báo tiến độ Giá trị K k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10 Kỳ Kỳ Kỳ Kỳ Kỳ Kỳ Kỳ 76.45% 76.45% 76.45% 76.42% 76.40% 76.40% 76.40% 76.43% 76.43% 76.43% 80.29% 80.34% 80.37% 80.37% 80.41% 80.41% 80.41% 80.41% 80.41% 80.41% 82.25% 82.23% 82.25% 82.25% 82.25% 82.25% 82.25% 82.25% 82.26% 82.26% 83.50% 83.50% 83.45% 83.49% 83.47% 83.47% 83.47% 83.47% 83.42% 83.36% 85.51% 85.54% 85.49% 85.49% 85.49% 85.53% 85.54% 85.54% 85.57% 85.51% 85.38% 85.38% 85.41% 85.41% 85.41% 85.41% 85.41% 85.41% 85.44% 85.44% 89.32% 89.32% 89.37% 89.37% 89.37% 89.40% 89.43% 89.43% 89.43% 89.43% Độ xác TB 83.24% 83.25% 83.26% 83.26% 83.26% 83.27% 83.27% 83.28% 83.28% 83.26% 1.2 Đối với dự báo kết học vụ Giá trị K k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10 Kỳ Kỳ Kỳ Kỳ Kỳ Kỳ Kỳ 91.02% 91.06% 91.06% 91.06% 91.07% 91.07% 91.11% 91.11% 91.11% 91.12% 90.11% 90.15% 90.10% 90.10% 90.13% 90.06% 89.98% 89.98% 89.98% 89.98% 91.09% 91.07% 91.09% 91.09% 91.12% 91.12% 91.11% 91.09% 91.07% 91.07% 90.23% 90.20% 90.13% 90.11% 90.08% 90.08% 89.90% 89.85% 89.83% 89.78% 95.13% 95.13% 95.03% 94.90% 94.92% 94.95% 94.93% 94.95% 94.90% 94.90% 93.56% 93.46% 93.47% 93.46% 93.34% 93.19% 93.18% 93.19% 93.21% 93.21% 94.92% 94.88% 94.83% 94.85% 94.85% 94.88% 94.88% 94.90% 94.88% 94.88% Độ xác TB 92.29% 92.28% 92.24% 92.22% 92.22% 92.19% 92.15% 92.15% 92.14% 92.14% 84 Dự báo tiến độ 2.1 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 76.45% KHONGDUNG DUNG Phân lớp KHONGDUNG 4183 255 DUNG 1167 433 Precision 78.19% 62.94% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.943 0.729 0.782 0.271 0.057 0.629 Weighted Avg 0.764 0.551 0.741 === Confusion Matrix === a b < classified as 4183 255 | a = KHONGDUNG 1167 433 | b = DUNG Recall 0.943 0.271 0.764 F-Measure 0.855 0.378 0.729 TP Rate 94.25% 27.06% 76.45% ROC Area 0.752 0.752 0.752 Class KHONGDUNG DUNG 2.2 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 80.29% Phân lớp KHONGDUNG DUNG Precision KHONGDUNG 4053 805 83.43% DUNG 385 795 67.37% TP Rate 91.32% 49.69% 80.29% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === Weighted Avg TP Rate 0.913 0.497 0.803 FP Rate 0.503 0.087 0.393 Precision 0.834 0.674 0.792 Recall 0.913 0.497 0.803 F-Measure 0.872 0.572 0.792 ROC Area 0.844 0.844 0.844 Class KHONGDUNG DUNG === Confusion Matrix === a 4053 805 b < classified as 385 | a = KHONGDUNG 795 | b = DUNG 2.3 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 82.25% KHONGDUNG DUNG Phân lớp KHONGDUNG 3957 481 DUNG 591 1009 87.01% 67.72% Precision Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: TP Rate 89.16% 63.06% 82.25% 85 === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.892 0.369 0.87 0.631 0.108 0.677 Weighted Avg 0.822 0.3 0.819 === Confusion Matrix === a b < classified as 3957 481 | a = KHONGDUNG 591 1009 | b = DUNG Recall 0.892 0.631 0.822 F-Measure 0.881 0.653 0.82 ROC Area 0.866 0.866 0.866 Class KHONGDUNG DUNG 2.4 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 83.50% KHONGDUNG DUNG Phân lớp KHONGDUNG 4042 396 DUNG 600 1000 87.07% 71.63% Precision Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.911 0.375 0.871 0.625 0.089 0.716 Weighted Avg 0.835 0.299 0.83 === Confusion Matrix === a b < classified as 4042 396 | a = KHONGDUNG 600 1000 | b = DUNG Recall 0.911 0.625 0.835 F-Measure 0.89 0.668 0.831 TP Rate 91.08% 62.50% 83.50% ROC Area 0.877 0.877 0.877 Class KHONGDUNG DUNG 2.5 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 85.51% KHONGDUNG DUNG Phân lớp KHONGDUNG 3988 450 DUNG 425 1175 90.37% 72.31% Precision Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.899 0.266 0.904 0.734 0.101 0.723 Weighted Avg 0.855 0.222 0.856 === Confusion Matrix === a b < classified as 3988 450 | a = KHONGDUNG 425 1175 | b = DUNG Recall 0.899 0.734 0.855 F-Measure 0.901 0.729 0.855 TP Rate 89.86% 73.44% 85.51% ROC Area 0.893 0.893 0.893 Class KHONGDUNG DUNG 2.6 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 85.38% Phân lớp KHONGDUNG DUNG Precision KHONGDUNG 3907 352 91.74% DUNG 531 1248 70.15% TP Rate 88.04% 78.00% 86 Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.88 0.22 0.917 0.78 0.12 0.702 Weighted Avg 0.854 0.193 0.86 === Confusion Matrix === a b < classified as 3907 531 | a = KHONGDUNG 352 1248 | b = DUNG Recall 0.88 0.78 0.854 F-Measure 0.898 0.739 0.856 ROC Area 0.912 0.912 0.912 Class KHONGDUNG DUNG 2.7 Đối với việc sử dụng liệu học kỳ để dự báo Tập liệu gồm 6038 ghi, tỷ lệ dự báo 89.32% KHONGDUNG DUNG Phân lớp TP Rate KHONGDUNG 4012 426 90.40% DUNG 219 1381 86.31% 94.82% 76.43% Precision 89.32% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.904 0.137 0.948 0.863 0.096 0.764 Weighted Avg 0.893 0.126 0.899 === Confusion Matrix === a b < classified as 4012 426 | a = KHONGDUNG 219 1381 | b = DUNG Recall 0.904 0.863 0.893 F-Measure 0.926 0.811 0.895 ROC Area 0.923 0.923 0.923 Class KHONGDUNG DUNG Dự báo kết xét học vụ 3.1 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 91.02% HAI BA THOIHOC TP Rate Phân lớp KHONG MOT KHONG 5414 35 99.27% MOT 448 0 0.00% HAI 65 0 90.28% BA 4 0 0.00% THOIHOC 23 12 27 43.55% 0.00% 58.04% 0.00% 100.00% 91.02% Precision 91.82% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.993 0.825 0.918 0.001 0.903 0.008 0.58 0.327 0.001 Weighted Avg 0.91 0.746 0.845 === Confusion Matrix === a b c d e < classified as 5414 35 | a = KHONG 448 0 | b = MOT 65 0 | c = HAI 23 12 17 | d = THOIHOC 4 0 | e = BA Recall 0.993 0.903 0.327 0.91 F-Measure 0.954 0.707 0.493 0.874 ROC Area 0.768 0.732 0.982 0.847 0.94 0.768 Class KHONG MOT HAI THOIHOC BA 87 3.2 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 90.11% HAI BA THOIHOC Phân lớp KHONG MOT KHONG 5343 27 MOT 321 3 19 HAI 149 27 BA 10 18 THOIHOC 32 50 94.34% Precision 91.35% 13.64% 40.91% 37.50% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.009 0.003 0.136 0.992 0.774 0.913 0.51 0.001 0.943 0.152 0.007 0.409 0.563 0.005 0.375 Weighted Avg 0.901 0.69 0.852 === Confusion Matrix === a b c d e < classified as 321 19 | a = MOT 5343 27 | b = KHONG 32 50 | c = THOIHOC 149 27 | d = HAI 10 0 18 | e = BA Recall 0.009 0.992 0.51 0.152 0.563 0.901 F-Measure 0.016 0.951 0.662 0.221 0.45 0.869 ROC Area 0.796 0.873 0.876 0.968 0.959 0.872 TP Rate 99.24% 0.87% 15.17% 56.25% 51.02% 90.11% Class MOT KHONG THOIHOC HAI BA 3.3 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 91.09% HAI BA THOIHOC Phân lớp KHONG MOT KHONG 5291 27 MOT 282 67 HAI 109 33 0 BA 74 THOIHOC 16 10 15 96 97.96% Precision 92.82% 40.00% 46.48% 46.25% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.243 0.006 0.465 0.994 0.564 0.929 0.017 0.002 0.4 0.691 0.98 0.881 0.014 0.463 Weighted Avg 0.911 0.498 0.882 === Confusion Matrix === a b c d e < classified as 33 103 0 | a = HAI 27 5291 1 | b = KHONG 282 67 | c = MOT 10 16 96 15 | d = THOIHOC 74 | e = BA Recall 0.243 0.994 0.017 0.691 0.881 0.911 F-Measure 0.319 0.96 0.032 0.81 0.607 0.883 ROC Area 0.975 0.891 0.824 0.949 0.977 0.892 TP Rate 99.38% 1.69% 23.24% 88.10% 69.06% 91.09% Class HAI KHONG MOT THOIHOC BA 88 3.4 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 90.23% HAI BA THOIHOC Phân lớp KHONG MOT KHONG 5193 MOT 364 69 HAI 103 42 BA 47 THOIHOC 17 23 141 94.00% Precision 91.46% 53.08% 59.15% 33.33% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.157 0.011 0.531 0.997 0.584 0.915 0.762 0.002 0.94 0.059 0.001 0.333 0.271 0.005 0.592 Weighted Avg 0.902 0.505 0.874 === Confusion Matrix === a b c d e < classified as 69 364 | a = MOT 5193 | b = KHONG 17 141 23 | c = THOIHOC 47 | d = BA 103 42 | e = HAI Recall 0.157 0.997 0.762 0.059 0.271 0.902 F-Measure 0.243 0.954 0.842 0.1 0.372 0.877 ROC Area 0.814 0.881 0.979 0.973 0.966 0.882 TP Rate 99.71% 15.72% 27.10% 5.88% 76.22% 90.23% Class MOT KHONG THOIHOC BA HAI 3.5 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 95.13% HAI BA THOIHOC Phân lớp KHONG MOT KHONG 5433 8 0 MOT 109 102 HAI 89 29 BA 32 0 THOIHOC 20 17 180 99.45% Precision 96.09% 69.39% 53.70% 0.00% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.244 0.004 0.537 0.997 0.375 0.961 0.481 0.008 0.694 0.807 0.994 0 Weighted Avg 0.951 0.339 0.939 === Confusion Matrix === a b c d e < classified as 29 89 | a = HAI 5433 0 | b = KHONG 109 102 | c = MOT 17 20 180 | d = THOIHOC 32 0 | e = BA Recall 0.244 0.997 0.481 0.807 0.951 F-Measure 0.335 0.979 0.568 0.891 0.943 ROC Area 0.974 0.94 0.896 0.973 0.956 0.94 TP Rate 99.71% 48.11% 24.37% 0.00% 80.72% 95.13% Class HAI KHONG MOT THOIHOC BA 89 3.6 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 93.56% HAI BA THOIHOC TP Rate Phân lớp KHONG MOT KHONG 5301 40 0 99.23% MOT 221 37 22 13.21% HAI 37 71 63.96% BA 30 19 37.25% THOIHOC 16 10 221 87.01% 98.66% Precision 95.05% 50.00% 58.68% 45.24% 93.56% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.373 0.004 0.452 0.992 0.397 0.951 0.64 0.008 0.587 0.87 0.001 0.987 0.132 0.006 0.5 Weighted Avg 0.936 0.351 0.92 === Confusion Matrix === a b c d e < classified as 19 0 30 | a = BA 5301 40 | b = KHONG 37 71 | c = HAI 16 10 221 | d = THOIHOC 22 221 0 37 | e = MOT Recall 0.373 0.992 0.64 0.87 0.132 0.936 F-Measure 0.409 0.971 0.612 0.925 0.209 0.922 ROC Area 0.99 0.936 0.977 0.983 0.869 0.936 Class BA KHONG HAI THOIHOC MOT 3.7 Đối với việc sử dụng liệu học kỳ để dự báo kết xét học vụ học kỳ Tập liệu gồm 6038 ghi, tỷ lệ dự báo 94.92% Phân lớp KHONG MOT HAI BA THOIHOC TP Rate 251 97.29% 99.58% 23.73% 0.00% 21.43% 89.32% 94.92% KHONG 5429 15 MOT 127 42 HAI 83 0 BA 31 THOIHOC 25 Precision 95.82% 46.15% 0.00% 52.94% Tỷ lệ độ đo phân lớp ma trận nhầm lẫn: === Detailed Accuracy By Class === TP Rate FP Rate Precision 0.893 0.001 0.973 0.996 0.404 0.958 0.214 0.001 0.529 0.237 0.008 0.462 0.001 Weighted Avg 0.949 0.366 0.928 === Confusion Matrix === a b c d e < classified as 251 25 | a = THOIHOC 5429 15 | b = KHONG 31 | c = BA 127 42 | d = MOT 83 0 | e = HAI Recall 0.893 0.996 0.214 0.237 0.949 F-Measure 0.931 0.977 0.305 0.313 0.936 ROC Area 0.987 0.952 0.988 0.885 0.959 0.952 Class THOIHOC KHONG BA MOT HAI [...]... tiến hành thực hiện đề tài luận văn nghiên cứu về vấn đề khai phá dữ liệu và ứng dụng vào giải quyết bài toán thực tế là dự đoán tiến trình học tập của sinh viên Đại học Thủy lợi Mục đích, đối tượng, phạm vi và phương pháp nghiên cứu Luận văn tiến hành nghiên cứu, tìm hiểu các vấn đề cơ bản về khai phá dữ liệu, các công cụ học máy Từ đó ứng dụng vào việc xây dựng mô hình dự báo tiến trình học tập của. .. luận văn đưa ra Chương 3: Dự báo tiến trình học tập của sinh viên Đại học Thủy lợi Trong chương này, tác giả giới thiệu về bài toán dự báo tiến độ học tập, cảnh báo sinh viên khi thuộc đối tượng bị cảnh báo học tập, xây dựng mô hình của bài toán, đưa ra kết quả thực nghiệm của bài toán với các phương pháp đã lựa chọn ở chương 2 Tác giả có sử dụng phương pháp đánh giá độ chính xác của thuật toán Tại chương... dung của luận văn được trình bày trong ba phần chính như sau: 1 Phần mở đầu 2 Phần nội dung: bao gồm ba chương Chương 1: Tổng quan về Khai phá dữ liệu trong bài toán dự báo Nội dung của chương trình bày một số kiến thức tổng quan về khai phá dữ liệu, những kiến thức cơ bản nhất về bài toán dự báo và một số kỹ thuật khai phá dữ liệu trong bài toán dự báo Đề xuất phương pháp sử dụng để ứng dụng vào giải... thiệu về quá trình thực nghiệm cho bài toán, tổng hợp, so sánh và đánh giá các kết quả của bài toán 3 Phần kết luận 4 CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN DỰ BÁO 1.1 Tổng quan về khai phá dữ liệu Có nhiều định nghĩa về khai phá dữ liệu, trong đó có thể kể đến như [5]: Định nghĩa của Ferruzza: Khai phá dữ liệu là tập hợp các phương pháp được dùng trong tiến trình khám phá tri thức... phương pháp và thuật toán mới liên tục 15 được công bố Điều này chứng tỏ những ưu thế, lợi ích và khả năng ứng dụng thực tế to lớn của khai phá dữ liệu Nội dung của chương đã trình bày một số kiến thức tổng quan về khai phá dữ liệu, những kiến thức cơ bản nhất về bài toán phân lớp dữ liệu và một số kỹ thuật khai phá dữ liệu trong bài toán phân lớp, dự báo như phương pháp cây quyết định, phương pháp K... quả của một trận đấu (thắng hay thua) hay đánh giá tiến trình học tập của một sinh viên (đúng tiến độ hay không; có thể bị cảnh báo học tập với mức nào) Cây phân loại này cũng chính là cây quyết định sẽ được sử dụng trong bài toán dự đoán tiến trình học tập của sinh viên Đại học Thủy lợi trong luận văn này Cấu trúc của cây quyết định Cây quyết định là một cấu trúc được sử dụng để chia liên tiếp một tập. .. các văn bản pháp quy và các hướng dẫn 3 thực hiện quy chế đào tạo theo tín chỉ; dữ liệu về chương trình đào tạo tạo, điểm, kết quả học vụ của sinh viên Đại học Thủy lợi hay các công nghệ liên quan đến khai phá dữ liệu để tổng hợp thu thập thông tin Từ đó phân tích được các yêu cầu của công việc, vận dụng các kết quả lý thuyết vào bộ dữ liệu cụ thể của Trường Đại học Thủy lợi để đánh giá và phân tích... đề nghiên cứu Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực hiện nay như: Tài chính, chứng khoán; Sinh học; Viễn thông Dự báo là tiên đoán những sự việc sẽ xảy ra trong tương lai, trên cơ sở phân tích khoa học về các dữ liệu đã thu thập... dữ liệu [4] 5 Quy trình khám phá tri thức trong cơ sở dữ liệu (KDD) thường tuân theo các bước như hình 1.1 trên đây: Bước 1- Gom dữ liệu: là tập hợp dữ liệu từ các nguồn khác nhau Dữ liệu được gom lại từ một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web Bước 2 - Trích lọc dữ liệu: dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó phục vụ mục đích khai. .. quá trình kết xuất ra tri thức từ kho dữ liệu mà trong đó khai phá dữ liệu là công đoạn quan trọng nhất [5] 1.2 Một số phương pháp khai phá dữ liệu Phân lớp (Classification) Phân lớp là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào một trong số các lớp đã được biết trước đó Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Như thế quá trình phân lớp có thể sử dụng
- Xem thêm -

Xem thêm: Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học thủy lợi, Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học thủy lợi, Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học thủy lợi

Gợi ý tài liệu liên quan cho bạn

Nạp tiền Tải lên
Đăng ký
Đăng nhập