Khai phá dữ liệu kết quả học tập sinh viên trường đại học công nghiệp thực phẩm tp HCM

80 453 2
Khai phá dữ liệu kết quả học tập sinh viên trường đại học công nghiệp thực phẩm tp HCM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM TRẦN THỊ VÂN ANH KHAI PHÁ DỮ LIỆU KẾT QUẢ HỌC TẬP SINH VIÊN TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - TRẦN THỊ VÂN ANH KHAI PHÁ DỮ LIỆU KẾT QUẢ HỌC TẬP SINH VIÊN TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS LƢ NHẬT VINH TP HỒ CHÍ MINH, tháng năm 2016 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thơng tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Trần Thị Vân Anh ii LỜI CÁM ƠN Tôi xin chân thành cảm ơn thầy hƣớng dẫn Tiến sĩ Lƣ Nhật Vinh, khoa Công nghệ thông tin – Trƣờng Đại học Cơng nghiệp Thực phẩm TP.HCM tận tình hƣớng dẫn suốt thời gian thực luận văn Hai ngƣời muốn gửi lời cảm ơn sâu sắc ba mẹ đáng kính tơi chăm sóc nhỏ để tơi n tâm học tập, nghiên cứu làm việc, cảm ơn lời động viên tinh thần từ ngƣời chồng giúp vƣợt qua khó khăn, cảm ơn Ngân Khánh mang lại niềm vui nguồn động lực cho mẹ Tôi xin cảm ơn khoa Công nghệ thông tin – Trƣờng Đại học Công nghệ Tp Hồ Chí Minh, thầy Võ Đình Bảy góp ý, định hƣớng, động viên tinh thần thƣờng xuyên cho tập thể lớp Cao học 14SCT11 Xin cảm ơn bạn bè đồng nghiệp trƣờng Đại học Công nghiệp thực phẩm TP.HCM, anh chị, bạn lớp Cao học giúp đỡ chia sẻ với trình học tập thực luận văn Trần Thị Vân Anh iii TĨM TẮT Trong đào tạo tín chỉ, sinh viên đƣợc tự đăng ký học phần Trong số học phần phải đăng ký có học phần có thuộc tính bắt buộc có học phần có thuộc tính tự chọn Đối với học phần bắt buộc, sinh viên đƣợc yêu cầu phải hoàn thành Đối với học phần tự chọn, sinh viên có quyền chọn học phần theo ý riêng Đối với sinh viên chƣa tìm hiểu rõ mục tiêu, tính áp dụng học phần tự chọn việc chọn lựa học phần điều mẽ gây tâm lý lúng túng Ngay cố vấn học tập lớp khó tƣ vấn xác cho sinh viên khơng tiếp cận đƣợc chi tiết liệu điểm Do đó, luận văn tiến hành nghiên cứu số giải thuật học có giám sát lĩnh vực máy học sở số liệu thu thập đƣợc kết học tập sinh viên Cụ thể, luận văn nghiên cứu lý thuyết giải thuật: Mạng nơron nhân tạo – ANN (Artificial Neural Networks), Máy vector hỗ trợ - SVM (Support Vector Machines) định - DT (Decision Tree).Trên sở phân tích giải thuật này, luận văn đề xuất sử dụng giải thuật ANN cho toán đặt Trƣớc hết, luận văn giới thiệu tổng quan lĩnh vực khai thác liệu giáo dục (EDM) cơng trình nghiên cứu liên quan Đặc biệt, luận văn tập trung vào nghiên cứu áp dụng giải thuật học có giám sát để khai thác liệu học tập sinh viên Nội dung chƣơng 2, luận văn giới thiệu giải thuật học có giám sát vào nghiên cứu chi tiết giải thuật ANN, SVM DT Dựa ngôn ngữ C#, chƣơng luận văn trình bày phần cài đặt thực nghiệm giải thuật ANN Trong chƣơng 4, luận văn tiến hành đánh giá kết thực nghiệm đƣa kết luận đồng thời trình bày hạn chế chƣa thực đƣợc định hƣớng phát triển tƣơng lai iv ABSTRACT In academic credit system, students need to register subjects by themselves Some of these subjects are compulsory and some others are optional For the compulsory subjects, students have to complete all of these subjects For the optional subjects, students can select the subjects that they prefer In case students without understanding the objectives and applicability of the optional subjects, selecting new subjects may cause embarrassed Moreover, their advisors may also hardly provide suitable advices to students as these advisors not clear about the ability of each student Therefore, this thesis studied some supervised learning algorithms in the field of machine learning based on student result Specifically, we applied theoretically three algorithms: ANN (Artificial Neural Networks), SVM (Support Vector Machines) and DT (Decision Tree) The derived results then proposed to use ANN algorithm to solve the given problem Firstly, thesis provided an overview of the field of educational data mining (EDM) and other relevant studies In particular, the thesis focused on the study applied supervised learning algorithms for data mining student result In chapter 2, thesis introduced generally theory of supervised learning algorithms and focused more into ANN, SVM and DT algorithms Based on the C # language, the experimental settings for the ANN algorithm were given in chapter Finally, chapter was to assess empirical and provide conclusions This chapter also identified some limitations of the thesis and provided the orientation for future study v MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN .ii TÓM TẮT iii ABSTRACT iv MỤC LỤC v DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC BIỂU ĐỒ, ĐỒ THỊ, HÌNH ẢNH ix MỞ ĐẦU 10 CHƢƠNG 1.TỔNG QUAN 12 1.1 Giới thiệu 12 1.2 Giới thiệu khai thác liệu giáo dục (EDM) 14 1.2.1 EDM ứng dụng dự báo đánh giá khả ngƣời học 16 1.2.2 EDM ứng dụng phân tích hành vi ngƣời học 17 1.3 Các vấn đề luận văn cần nghiên cứu 18 1.4 Tổng kết chƣơng 20 CHƢƠNG 2.CƠ SỞ LÝ THUYẾT 21 2.1 Tổng quan học có giám sát (Supervised Learning) 21 2.1.1 Giới thiệu 21 2.1.2 Tổng quan giải thuật học có giám sát 21 2.2 Giải thuật máy vector hỗ trợ - SVM 24 2.2.1 Giới thiệu giải thuật SVM 24 2.2.2 SVM tuyến tính .24 2.2.3 SVM đa lớp 34 2.3 Cây định .35 2.3.1 Cấu trúc định 35 2.3.2 Các kiểu Cây định .36 2.3.3 Các bƣớc để xây dựng 37 vi 2.3.4 Một số ƣu điểm định 38 2.3.5 Một số điểm yếu định 40 2.3.6 Thuật toán ID3 40 2.3.7 Thuật toán C4.5 48 2.4 Mạng ANN .55 2.4.1 Giới thiệu 55 2.4.2 Cấu trúc mạng Nơron 55 2.4.3 Phân loại cấu trúc mạng Nơron 56 2.4.4 Hàm hoạt động 57 2.4.5 Tiến trình học 57 2.4.6 Giải thuật Back – Propagation 59 2.5 Đánh giá giải thuật 61 2.6 Tổng kết chƣơng 63 CHƢƠNG 3.CÀI ĐẶT THỰC NGHIỆM 64 3.1 Mơ tả tốn 64 3.2 Tiền xử lý liệu 66 3.3 Cài đặt thực nghiệm .67 3.3.1 Ví dụ thực nghiệm 70 3.4 Tổng kết chƣơng 75 CHƢƠNG 4.KẾT LUẬN 76 DANH MỤC TÀI LIỆU THAM KHẢO 77 vii DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt Thuật ngữ tiếng Anh Diễn giải ANN Artificial Neural Networks Mạng ANN DM Data Mining Khai thác liệu DT Decision tree Cây định EDM Education Data Mining Khai thác liệu giáo dục LMS Learning managerment systems Hệ thống quản trị học ITS Intelligent tutoriol system Hệ thống hƣớng dẫn thông minh SVM Support Vector Machines Máy vector hỗ trợ KNN K Nearest Neighbours K láng giềng gần NB Naïve Bayer Mạng NB SRM Structural Risk Minimization Cực tiểu hóa rủi ro có cấu trúc viii DANH MỤC CÁC BẢNG Bảng 1.1 Kế hoạch đào tạo học kỳ hệ Đại học ngành Công nghệ sinh học 12 Bảng 2.1 Bảng liệu chơi golf .36 Bảng 3.1 Khung chƣơng trình đào tạo học kỳ ngành Công nghệ sinh học 63 Bảng 3.2 Khung chƣơng trình đào tạo học kỳ ngành Công nghệ sinh học 64 64 CHƢƠNG CÀI ĐẶT THỰC NGHIỆM 3.1 Mô tả tốn Trƣờng Đại học Cơng nghiệp Thực phẩm TP HCM áp dụng chƣơng trình đào tạo tín từ năm 2006 đến Trong nhiều năm áp dụng cải tiến đạt đƣợc kết đáng kể Hệ thống tín trƣờng vào khn khổ đáp ứng tin thần tín Sinh viên lựa chọn lịch học, chọn giảng viên theo nhƣ mong muốn, đăng ký học vƣợt muốn đẩy nhanh tiến độ học tập Do đặc trƣng nhà trƣờng, sinh viên khóa nhập học học kỳ đầu nhà trƣờng tiến hành đăng ký môn học cho sinh viên mà bƣớc cho sinh viên tự đăng ký học phần Cụ thể lớp 02DHSH (khóa 20112015) gồm có 200 sinh viên nhập học tiến hành đăng ký môn học học kỳ gồm học phần theo khung chƣơng trình ngành Cơng nghệ sinh học hệ đại học nhƣ sau: Bảng 3.1 Khung chƣơng trình đào tạo học kỳ ngành Công nghệ sinh học Học kỳ 1: 14 Tín 17201001 Giáo dục thể chất 60 tiết 17200004 Giáo dục quốc phòng an ninh 45 tiết Bắt buộc Bắt buộc 17200005 Giáo dục quốc phòng an ninh 45 tiết Bắt buộc 17201006 Giáo dục quốc phòng an ninh 45 tiết Bắt buộc 17201007 Giáo dục quốc phòng an ninh 30 tiết Bắt buộc 21200001 Anh văn 2(2,0,4) Bắt buộc 18200001 Toán cao cấp A1 2(2,0,4) Bắt buộc 18200013 Vật lý đại cƣơng 2(2,0,4) Bắt buộc 04200001 Hóa đại cƣơng 2(2,0,4) Bắt buộc 10 08200001 Sinh học đại cƣơng 2(2,0,4) Bắt buộc 11 19200004 Pháp luật đại cƣơng 2(2,0,4) Bắt buộc 12 18200016 Logic học 2(2,0,4) Tự chọn bắt buộc 65 Trong học kỳ này, sinh viên học 11 học phần bắt buộc học phần tự chọn bắt buộc Đến học kỳ thứ 2, việc học sinh viên vào ổn định có phận cố vấn học tập phụ trách việc cố vấn đăng ký môn học Trong học kỳ sinh viên tự động đăng ký học phần theo tƣ vấn CVHT chƣơng trình học kỳ nhƣ sau: Bảng 3.2 Khung chƣơng trình đào tạo học kỳ ngành Công nghệ sinh học Học kỳ 2: 22 Tín Học phần bắt buộc 20 17201002 Giáo dục thể chất 2 19200001 Những nguyên lý chủ nghĩa Mác – Lênin 5(5,0,10) 21200002 Anh văn 2(2,0,4) 21200001 (a) 18200002 Toán cao cấp A2 2(2,0,4) 18200001 (a) 18200003 Toán cao cấp A3 2(2,0,4) 18200014 Vật lý đại cƣơng 2(2,0,4) 18200013 (a) 18202015 Thí nghiệm vật lý đại cƣơng 1(0,1,1) 18200014 (c) 04200005 Hóa hữu 2(2,0,4) 09200009 Môi trƣờng ngƣời 2(2,0,4) 10 13200001 Quản trị học 2(2,0,4) 11 04200010 Hóa phân tích 2(2,0,4) 12 30 tiết 04202011 Thí nghiệm Hố phân tích Học phần tự chọn 1(0,1,1) Phƣơng pháp tính 2(2,0,4) 18200009 18200012 Quy hoạch thực nghiệm 2(2,0,4) 18200008 Quy hoạch tuyến tính 2(2,0,4) 17201001(a) Trong học kỳ 2, sinh viên đăng ký 12 học phần bắt buộc học phần tự chọn nhƣ bảng 3.2 Trong nhóm học phần tự chọn, sinh viên chọn ba học phần: Phƣơng pháp tính, Quy hoạch thực nghiệm Quy hoạch tuyến tính 66 Trong giai đoạn đăng ký học phần, sinh viên lúng túng khâu khơng rõ nên chọn học phần cho phù hợp với thân Một số lý sinh viên xem xét nhƣ: Một là, chọn học phần mà thân sinh viên u thích Hai là, chọn học phần ý kiến số đơng Ba là, chọn học phần kinh nghiệm sinh viên trƣớc,…Nắm đƣợc khó khăn vấn đề lựa chọn môn học tự chọn sinh viên Tác giả nhận thấy cần phải có công cụ hỗ trợ cho vấn đề này, công cụ đƣa dự báo cụ thể điểm số cho sinh viên để từ sinh viên tự tin đăng ký mơn học xây dựng kế hoạch học tập thật tốt 3.2 Tiền xử lý liệu Bài toán dự báo kết học tập tiến hành tập số liệu thu thập đƣợc bao gồm liệu điểm học tập môn học học kỳ thuộc ngành công nghệ sinh học 200 sinh viên hệ Đại học khóa 02 Dữ liệu thu thập đƣợc từ Phịng Đào tạo Trƣờng Đại học Cơng nghiệp Thực phẩm TP HCM Dữ liệu đƣợc cung cấp dƣới dạng thô file excel (.xlsx) kết điểm đƣợc cung cấp theo học kỳ riêng biệt nên tác giả phải trải qua công đoạn kết nối tập liệu từ nhiều tập điểm kết học tập từ Phòng Đào tạo để đƣa liệu định dạng mong muốn dễ hiểu (.csv) Dữ liệu thu thập đƣợc chƣa đáp ứng yêu cầu cho việc khai phá liệu nên tác giả qua số bƣớc xử lý nhƣ sau: (1) Chọn thuộc tính phù hợp (Filtering Attributes): tập liệu thu thập đƣợc có số thuộc tính nhƣ điểm học tập học phần: giáo dục thể chất 1, 2; giáo dục quốc phòng anh ninh 1,2,3,4 Anh văn học phần mà nhà trƣờng cấp chứng riêng, học phần có tính chất riêng biệt nên toán tác giả khơng xét thuộc tính điểm học phần Khi đó, thuộc tính điểm học phần học kỳ đƣợc xem xét bao gồm học phần: Toán cao cấp A1, Vật 67 lý đại cƣơng 1, Hóa đại cƣơng, Sinh học đại cƣơng, Pháp luật đại cƣơng, Logic học (2) Lọc mẫu liệu nhiễu (noise) thiếu giá trị (Filtering samples): tập liệu thu thập đƣợc có trƣờng hợp sinh viên nhập học học không đầy đủ Điều gây tình trạng tồn liệu nhiễu (noise) thiếu giá trị thuộc tính (3) Làm liệu (Transformation): tập liệu chứa thuộc tính số nên khơng thực bƣớc 3.3 Cài đặt thực nghiệm Đầu vào toán tập liệu bao gồm điểm tổng kết học phần học kỳ 1: (1) Toán cao cấp A1, (2) Vật lý đại cƣơng 1, (3) Hóa đại cƣơng, (4) Sinh học đại cƣơng, (5) Pháp luật đại cƣơng, (6) Logic học Hình 3.1 Mơ hình dự báo kết học tập 68 Phân tích mơ hình xử lý Pha huấn luyện: Tinh chỉnh trọng số mạng ANN Dữ liệu đầu vào: gồm m thành phần x1 , x2 , xm thành phần xi giá trị điểm học phần tƣơng ứng với sinh viên thứ j Lớp ẩn: gồm 14 nút ứng với hàm kích hoạt trọng số kết nối từ nút thứ xi đến nút ẩn hi wii đƣợc khởi tạo nhƣ sau: wii  f ( xi ) Với f hàm kích hoạt Lớp đầu ra: gồm 11 nút mơ tả giá trị điểm từ 0,1, ,10 Qúa trình huấn luyện: Tinh chỉnh trọng số kết nối Công thức để tinh chỉnh trọng số w[ j ]  n *  * w[ j ]  (1   )error * input[ j ] Trong đó: β tỷ lệ % output đúng, (1-β) tỷ lệ % output sai Hàm kích hoạt (Bipolar sigmoid) f ( x)   Trong α hệ số điều  e  x chỉnh Hàm lỗi: tính sai số đầu Err  n  pfi  pr Trong pfi điểm dự báo n i 1 lần thứ i Pha kiểm thử: Dữ liệu đầu vào ngẫu nhiên độc lập với liệu kiểm thử, có cấu trúc giống liệu huấn luyện x1 , x2 , xm Mạng ANN sau huấn luyện có tập vector trọng số Ứng với tập vector đầu vào vector trọng số đƣa dự báo Hàm kích hoạt: f ( x)  1  e  x 69 Hàm mục tiêu phân lớp: chọn phân lớp Yk, với k số hàm mục tiêu đƣợc tính theo cơng thức sau: k  arg min{ pf  Y j , j  0, , n  10} Trong đó, pf giá trị dự báo, Yj giá trị phân lớp Thuật toán huấn luyện: Đầu vào: X  x1 , x2 , xm Đầu ra: tập trọng số kết nối W  w1 , w2 , wm Phương pháp: Khởi tạo số lần lặp n =150000, count=1 Trong (count

Ngày đăng: 17/11/2016, 16:14

Từ khóa liên quan

Mục lục

  • CHƯƠNG 1. TỔNG QUAN

    • 1.1. Giới thiệu

    • 1.2. Giới thiệu về khai thác dữ liệu giáo dục (EDM)

      • 1.2.1. EDM ứng dụng trong dự báo và đánh giá khả năng của người học.

      • 1.2.2. EDM ứng dụng trong phân tích hành vi người học.

      • 1.3. Các vấn đề luận văn cần nghiên cứu

      • 1.4. Tổng kết chương

      • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT

        • 2.1. Tổng quan về học có giám sát (Supervised Learning)

          • 2.1.1. Giới thiệu

          • 2.1.2. Tổng quan về giải thuật học có giám sát

          • 2.2. Giải thuật máy vector hỗ trợ - SVM

            • 2.2.1. Giới thiệu giải thuật SVM

            • 2.2.2. SVM tuyến tính

            • 2.2.3. SVM đa lớp

            • 2.3. Cây quyết định

              • 2.3.1. Cấu trúc của cây quyết định

              • 2.3.2. Các kiểu Cây quyết định

              • 2.3.3. Các bước chính để xây dựng cây

              • 2.3.4. Một số ưu điểm của cây quyết định

              • 2.3.5. Một số điểm yếu của cây quyết định

              • 2.3.6. Thuật toán ID3

                • 2.3.6.1. Một số ưu, khuyết điểm của thuật toán ID3

                • 2.3.7. Thuật toán C4.5

                  • 2.3.7.1. Một số cải tiến của C4.5 so với thuật toán ID3

                  • 2.4. Mạng ANN

                    • 2.4.1. Giới thiệu

                    • 2.4.2. Cấu trúc mạng Nơron

                    • 2.4.3. Phân loại cấu trúc mạng Nơron

                      • 2.4.3.1. Mạng dẫn tiến một lớp

Tài liệu cùng người dùng

Tài liệu liên quan