Ứng dụng khai phá dữ liệu để dự báo điểm chuyên ngành của sinh viên chuyên ngành tin học kinh tế trường đại học kinh tế huế

71 221 1
Ứng dụng khai phá dữ liệu để dự báo điểm chuyên ngành của sinh viên chuyên ngành tin học kinh tế trường đại học kinh tế huế

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC HUẾ ĐẠI HỌC KINH TẾ HUẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ TẾ H U Ế - - KI N H KHÓA LUẬN TỐT NGHIỆP Ọ C Ứng dụng khai phá liệu để dự báo điểm chuyên ngành ẠI H sinh viên chuyên ngành Tin học Kinh tế TR Ư Ờ N G Đ Trường Đại học Kinh tế Huế TRƯƠNG VĂN QUỐC ANH KHÓA HỌC: 2014-2018 ĐẠI HỌC HUẾ ĐẠI HỌC KINH TẾ HUẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ N H TẾ H U Ế - - Ọ C KI KHÓA LUẬN TỐT NGHIỆP H Ứng dụng khai phá liệu để dự báo điểm chuyên ngành Đ ẠI sinh viên chuyên ngành Tin học Kinh tế TR Ư Ờ N G Trường Đại học Kinh tế Huế Sinh viên thực hiện: Giảng viên hướng dẫn: Trương Văn Quốc Anh Th.S Mai Thu Giang Lớp: K48B THKT Niên khóa: 2010-2014 Huế, 2018 i Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Lời Cảm Ơn Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc đến quý thầy cô giáo trường Đại học Kinh tế Huế đặc biệt quý thầy cô Khoa Hệ thống Thông tin Kinh tế truyền dạy cho em nhiều kiến thức kinh nghiệm quý báu suốt trình học tập trường tạo điều kiện hỗ trợ cho em hoàn thành đề tài H U Ế Em xin gửi lời cảm ơn chân thành đến thạc sĩ Mai Thu Giang, cô tận tình truyền dạy kinh nghiệm kiến thức quý báu hỗ trợ em suốt q trình thực đề tài Cơ giúp đỡ em nhiều từ việc lên ý tưởng đề tài ban đầu hướng dẫn thực đề tài sau góp ý để đề tài hồn thành tốt N H TẾ Em xin gửi lời cảm ơn đến phòng Đào tạo Đại học cung cấp sở liệu ban đầu điều kiện thuận lợi khác để em hoàn thành tốt đề tài H Ọ C KI Cuối em xin gửi lời cảm ơn chân thành đến bố mẹ, người thân bạn bè khích lệ động viên em suốt thời gian qua để em hoàn thành tốt đề tài N G Đ ẠI Mặc dù có nhiều cố gắng, thời gian, kĩ thân nhiều hạn chế nên khơng thể tránh khỏi sai sót, mong q thầy, bạn đóng góp, bảo để đề tài hồn thiện TR Ư Ờ Em xin chân thành cảm ơn! Huế, năm 2018 Sinh viên i Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang MỤC LỤC LỜI CẢM ƠN i MỤC LỤC ii DANH MỤC HÌNH VẼ iv DANH MỤC BẢNG BIỂU vi PHẦN I ĐẶT VẤN ĐỀ .1 Lí chọn đề tài Mục tiêu nghiên cứu Ế Đối tượng nghiên cứu U Phạm vi nghiên cứu .2 TẾ H Phương pháp nghiên cứu Cấu trúc khóa luận N H PHẦN II NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU KI CHƯƠNG CƠ SỞ LÝ LUẬN Ọ C 1.1 Tổng quan khai phá liệu H 1.1.1 Khái niệm Đ ẠI 1.1.2 Quá trình khai phá liệu G 1.2 Khai phá liệu giáo dục N 1.3 Các phương pháp khai phá liệu Ư Ờ 1.3.1 Mạng nơ ron (neural) TR 1.3.2 Cây định (J48) .10 1.3.3 K - lân cận .14 1.3.4 Support Vector Machine .16 1.3.5 Naïve Bayes 17 1.4 Đánh giá độ xác mơ hình phân lớp phương pháp K-fold cross validation .18 1.5 Trích chọn thuộc tính khai phá liệu 19 1.6 Phương pháp đánh giá 20 1.6.1 Độ xác (Accuracy) 20 1.6.2 Precision Recall 21 ii Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang 1.6.3 Gain – Lift chart 22 1.6.4 Root Means Square Error .22 1.6.5 Receiver Operator Characteristic (ROC) 23 1.7 Giới thiệu phần mềm Weka 24 1.7.1 Giới thiệu chung 24 1.7.2 Môi trường Explorer .25 CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU GIÁO DỤC VÀ ĐỀ XUẤT MƠ HÌNH NGHIÊN CỨU ĐỐI VỚI TRƯỜNG ĐẠI HỌC KINH TẾ HUẾ .27 2.1 Các nghiên cứu liên quan 27 U Ế 2.2 Mô tả toán 37 H 2.3 Quy trình nghiên cứu 40 TẾ CHƯƠNG ỨNG DỤNG WEKA TRONG DỰ BÁO ĐIỂM CHUYÊN NGÀNH N H TIN HỌC KINH TẾ 41 KI 3.1 Mơ tả thí nghiệm .41 Ọ C 3.2 Kết thí nghiệm 47 H 3.3 Lưu sử dụng mơ hình dự báo .56 Đ ẠI PHẦN III KẾT LUẬN VÀ ĐỀ XUẤT 60 G Kết luận .60 Ờ N Đề xuất phát triển 61 TR Ư DANH MỤC TÀI LIỆU THAM KHẢO 62 iii Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang DANH MỤC HÌNH VẼ Hình Cấu trúc nơ ron (neural) Hình Mơ hình mạng nơ ron truyền thẳng Hình Mơ hình mạng nơ ron hồi quy Hình Kiến trúc hai chiều mạng Kohonen 10 Hình Mơ hình định 11 Hình Thuật tốn K-NN 15 Ế Hình Mặt phân tách phi tuyến tính khơng gian giả thuyết trở thành siêu phẳng không gian đặc trưng 17 H U Hình Cross-validation với 5-fold 19 TẾ Hình Precision Recall 21 N H Hình 10 Biểu đồ Lift-chart 22 KI Hình 11 Biểu đồ Root Means Square Error 23 Ọ C Hình 12 Đồ thị ROC 24 H Hình 13 Cửa sổ Weka 25 ẠI Hình 14 Mơi trường Explorer 26 Đ Hình Trường Đại học Kinh tế Huế 38 N G Hình Chương trình đào tạo chuyên ngành Tin học Kinh tế 39 Ư Ờ Hình Sơ đồ quy trình nghiên cứu 40 TR Hình Dữ liệu thơ ban đầu 41 Hình Giá trị trống đánh dấu 42 Hình Dữ liệu sau trình tiền xử lý 42 Hình Dữ liệu sau tải lên weka 44 Hình Loại bỏ trường liệu dư thừa 44 Hình Thiết lập trích chọn thuộc tính quan trọng 45 Hình Các thuộc tính quan trọng chọn 46 Hình Huấn luyện mơ hình mạng nơ ron 46 Hình Kết huấn luyện mơ hình 47 Hình 10 Lưu mơ hình dự báo 47 iv Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Hình 11 Lưu mơ hình vào tập tin 56 Hình 12 Tải mơ hình vào nhớ 56 Hình 13 Chọn tập liệu cần dự báo 57 Hình 14 Thiết lập thơng số 58 Hình 15 Sử dụng mơ hình để dự báo cho liệu 58 TR Ư Ờ N G Đ ẠI H Ọ C KI N H TẾ H U Ế Hình 16 Kết dự báo điểm học phần với mơ hình định 58 v Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang DANH MỤC BẢNG BIỂU Bảng Các thuộc tính trích chọn 47 Bảng Kết huấn luyện mơ hình mạng nơ ron 52 TR Ư Ờ N G Đ ẠI H Ọ C KI N H TẾ H U Ế Bảng Kết huấn luyện mơ hình định 54 vi Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang PHẦN I ĐẶT VẤN ĐỀ Lí chọn đề tài Xã hội ngày phát triển, nhu cầu học tập tăng lên, kéo theo số lượng sinh viên tăng theo, tạo nên khối lượng liệu lớn cần phải xử lý Bên cạnh hầu hết trường đại học, cao đẳng chuyển sang đào tạo theo chế tín chỉ, tạo điều kiện cho sinh viên tự đưa kế hoạch học tập phù hợp cho thân để đạt kết cao nhất, phù hợp với xu phát triển Tuy nhiên, chế đào tạo tín chỉ mang lại hiệu cao sinh viên lựa chọn cho Ế phương pháp, hế hoạch học tập phù hợp với lực thân, ngược lại làm H U cho sinh viên có kết học tập khơng đạt mong đợi Đây khó khăn cho sinh TẾ viên nhà trường N H Trên giới, có nhiều trường đại học áp dụng khai phá liệu vào lĩnh vực giáo dục phủ nhận lợi ích mà mang lại Nhưng Việt KI Nam khai phá liệu khái niệm chưa thực áp dụng Ọ C nhiều, lĩnh vực giáo dục Thiết nghĩ, công cụ có tính thực H tiễn khoa học cao cần áp dụng vào lĩnh vực giáo dục để bước cải thiện Đ ẠI chất lượng giáo dục đào tạo nước nhà Trường Đại học Kinh tế, Đại học Huế G khơng nằm ngồi xu Với bề dày 45 năm xây dựng phát triển, trường Ờ N Đại học Kinh tế, Đại học Huế đào tạo nguồn lực lao động chất lượng cao dồi Ư dào, phục vụ xây dựng phát triển nước nhà TR Trước thực tế đó, tơi đề xuất đề tài nghiên cứu cho khóa luận tốt nghiệp: “Ứng dụng khai phá liệu để dự báo điểm chuyên ngành sinh viên chuyên ngành Tin học Kinh tế, Trường Đại học Kinh tế Huế” Mục tiêu nghiên cứu Tìm hiểu kỹ thuật khai phá liệu, áp dụng kỹ thuật khai phá liệu phân tích số liệu, xây dựng mơ hình dự đốn đưa dự báo kết học tập học phần chuyên ngành cho sinh viên chuyên ngành Tin học Kinh tế Đối tượng nghiên cứu Các phương pháp khai phá liệu SVTH: Trương Văn Quốc Anh Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Đối tượng điều tra điểm sinh viên chuyên ngành Tin học Kinh tế thuộc khoa Hệ thống Thông tin Kinh tế Trường Đại học Kinh tế Huế, từ khóa K43 đến K47 Cơ sở liệu điểm thu thập từ sở liệu quản lý Phòng Đào tạo trường Đại học Kinh tế Huế với số mẫu ban đầu 253 ghi Đề tài sử dụng liệu điểm học phần đại cương bao gồm Toán cao cấp 1, Toán cao cấp 2, Những nguyên lý chủ nghĩa Mác-Lenin 1, Những nguyên lý chủ nghĩa Mác-Lenin 2, Lý thuyết xác xuất thống kê tốn, Kinh tế vi mơ, Pháp luật đại cương, Tin học đại cương để dự báo cho 11 học phần chuyên ngành Tin học Kinh tế bao gồm Cơ sở liệu, Cơ sở lập trình, Cấu trúc liệu giải thuật, U Ế Hoạch định nguồn lực doanh nghiệp ERP, Hệ thống thông tin quản lý, Kiến trúc máy TẾ H tính hệ điều hành, Lập trình hướng đối tượng, Lập trình ứng dụng quản lý, Mạng truyền thông, Phát triển hệ thống thơng tin kinh tế Tốn rời rạc N H Phạm vi nghiên cứu KI Thời gian: đề tài thực khoảng thời gian 1/2018 đến 4/2018 Ọ C Không gian: trường Đại học Kinh tế Huế H Công cụ thực hiện: phần mềm khai phá liệu Weka Đ ẠI Phương pháp nghiên cứu G Đề tài sử dụng sở liệu điểm sinh viên, tiến hành trình tiền xử lý, Ờ N chuẩn hóa liệu Tìm hiểu cơng cụ trích chọn thuộc tính Weka áp dụng Ư vào liệu điểm chuẩn hóa Từ nghiên cứu áp dụng kỹ thuật phân lớp TR mạng nơ ron định để xây dựng mơ hình dự báo kết học tập sinh viên dựa sở liệu điểm chuẩn hóa Tiến hành so sánh kết đưa kết luận Cấu trúc khóa luận Khóa luận bao gồm phần sau: Phần I Đặt vấn đề Phần II Nội dung kết nghiên cứu Chương 1: Cơ sở lý luận Trình bày kiến thức tổng quan khai phá liệu, định nghĩa, trình khai phá liệu, khái quát kĩ thuật áp dụng để khai phá liệu, phương pháp SVTH: Trương Văn Quốc Anh Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang • Pháp luật đại cương • Tin học đại cương • Tốn cao cấp • Tốn cao cấp Kiến trúc máy tính • Kinh tế vi mơ hệ điều hành • Lý thuyết xác xuất thống kê • Lý thuyết xác xuất thống kê tốn • Pháp luật đại cương tốn • Những ngun lý • Tốn cao cấp Ế chủ nghĩa Mác-Lenin H U • Pháp luật đại cương TẾ • Tin học đại cương N H • Tốn cao cấp KI • Tốn cao cấp • Những ngun lý • Kinh tế vi mơ Ọ C Tốn rời rạc H chủ nghĩa Mác-Lenin • Lý thuyết xác xuất thống kê tốn • Tin học đại cương • Những ngun lý • Tốn cao cấp chủ nghĩa Mác-Lenin N G Đ ẠI • Pháp luật đại cương • Pháp luật đại cương • Tốn cao cấp Cấu trúc liệu • Kinh tế vi mơ • Kinh tế vi mơ TR Ư Ờ • Tốn cao cấp giải thuật • Lý thuyết xác xuất thống kê • Những nguyên lý tốn chủ nghĩa Mác-Lenin • Những ngun lý • Tin học đại cương chủ nghĩa Mác-Lenin • Những nguyên lý chủ nghĩa Mác-Lenin • Pháp luật đại cương SVTH: Trương Văn Quốc Anh 49 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang • Tin học đại cương Cơ sở liệu • Lý thuyết xác xuất thống kê • Kinh tế vi mô • Những nguyên lý tốn • Những ngun lý chủ nghĩa Mác-Lenin chủ nghĩa Mác-Lenin • Tin học đại cương • Những nguyên lý • Toán cao cấp chủ nghĩa Mác-Lenin • Tốn cao cấp • Pháp luật đại cương Ế • Tin học đại cương H U • Toán cao cấp Cơ sở lập trình TẾ • Lý thuyết xác xuất thống kê • Kinh tế vi mơ • Tốn cao cấp N H tốn • Những ngun lý Ọ C KI chủ nghĩa Mác-Lenin • Pháp luật đại cương ẠI H • Tốn cao cấp Đ • Tốn cao cấp Ờ • Những nguyên lý • Lý thuyết xác xuất thống kê TR Ư quản lý • Kinh tế vi mơ N G Hệ thống thơng tin • Kinh tế vi mơ chủ nghĩa Mác-Lenin tốn • Những nguyên lý • Những nguyên lý chủ nghĩa Mác-Lenin chủ nghĩa Mác-Lenin • Pháp luật đại cương • Những nguyên lý • Tin học đại cương chủ nghĩa Mác-Lenin • Tốn cao cấp • Pháp luật đại cương • Tốn cao cấp • Tin học đại cương • Tốn cao cấp • Tốn cao cấp SVTH: Trương Văn Quốc Anh 50 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Lập trình hướng • Những nguyên lý • Lý thuyết xác xuất thống kê đối tượng chủ nghĩa Mác-Lenin tốn • Những ngun lý • Những nguyên lý chủ nghĩa Mác-Lenin chủ nghĩa Mác-Lenin • Tin học đại cương • Tin học đại cương Lập trình ứng dụng • Kinh tế vi mơ • Kinh tế vi mơ • Lý thuyết xác xuất thống kê • Những nguyên lý quản lý chủ nghĩa Mác-Lenin toán Ế • Những nguyên lý • Toán cao cấp TẾ • Những nguyên lý Ọ C KI • Tin học đại cương N H chủ nghĩa Mác-Lenin • Pháp luật đại cương H U chủ nghĩa Mác-Lenin H • Tốn cao cấp ẠI Quan sát bảng sau tiến hành trích chọn thuộc tính, thấy G Đ mơ hình khác số lượng thuộc tính gây nhiễu hay giảm độ xác cho N trình huấn luyện khác Ư Ờ Sự khác biệt số lượng thuộc tính sau trích chọn thể rõ môn Hoạch định TR nguồn lực doanh nghiệp ERP mơ hình mạng nơ-ron giữ lại thuộc tính để dự báo học phần Tin học đại cương, nhiên mơ hình định lại giữ lại tồn thuộc tính để dự báo, nói tỉ lệ dự báo xác hai mơ hình sau tiến hành trích chọn thuộc tính có khác biệt định Ngược lại học phần Kiến trúc máy tính hệ điều hành mơ hình định lại loại thuộc tính giữ lại thuộc tính để dự báo, nhiên mơ hình mạng nơ ron lại loại thuộc tính giữ lại thuộc tính để tiến hành dự báo Trường hợp có khác biệt lớn số lượng thuộc tính dùng để dự báo xảy với số học phần khác bao gồm: Phát triển hệ thống thông tin kinh tế, Cấu trúc liệu giải thuật, Cơ SVTH: Trương Văn Quốc Anh 51 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang sở lập trình, Lập trình ứng dụng quản lý Các học phần có độ xác khác biệt tương đối sau áp dụng trích chọn thuộc tính Với học phần cịn lại có khác biệt thuộc tính mơ hình, nói độ xác có thay đổi, nhiên phần trăm thay đổi mức thấp chí khơng thay đổi khơng có thay đổi lớn học phần có khác biệt lớn số lượng thuộc tính Huấn luyện mơ hình mạng nơ ron Bảng Kết huấn luyện mơ hình mạng nơ ron Trước trích chọn U thuộc tính Mạng truyền thơng nghiệp ERP Kiến trúc máy tính hệ điều TẾ N H KI 73.81% 81.97% 31.89% 39.86% Đ ẠI hành 67.38% Ọ C Hoạch định nguồn lực doanh 62.66% 60.08% H kinh tế thuộc tính H 62.19% Phát triển hệ thống thơng tin Sau trích chọn Ế Tên học phần 30.60% 30.17% 28.44% 28.49% 25.86% 22.41% 24.13% 30.17% Hệ thống thông tin quản lý 54.46% 54.74% Lập trình hướng đối tượng 21.12% 30.60% 25% 28.87% G Toán rời rạc TR Cơ sở lập trình Ư Cơ sở liệu Ờ N Cấu trúc liệu giải thuật Lập trình ứng dụng quản lý Quan sát bảng kết huấn luyện mơ hình mạng nơ ron, chia thành hai nhóm kết quả, nhóm cho độ xác 50% bao gồm học phần Mạng truyền thông, Phát triển hệ thống thông tin kinh tế, Hoạch định nguồn lực doanh nghiêp ERP Hệ thống thơng tin quản lý với tỉ lệ xác ban đầu chưa qua q trình trích chọn thuộc tính 62.19%, 60.08%, 73.81%, 54.46%, SVTH: Trương Văn Quốc Anh 52 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang trội là tỉ lệ dự báo xác học phần Hoạch định nguồn lực doanh nghiệp ERP với 73,81% tỉ lệ xác tương đối nói nguồn liệu đầu vào gồm học phần đại cương dự báo tương đối xác cho học phần này, học phần lại tỉ lệ xác chưa thực cao nguồn thông tin dùng để dự báo bao gồm học phần đại cương chưa đủ để dự báo cho học phần Đối với nhóm có tỉ lệ dự báo 50% bao gồm học phần Kiến trúc máy tính hệ điều hành, Toán rời rạc, Cấu trúc liệu giải thuật, Cơ sở liệu, Cơ sở lập trình, Lập trình hướng đối tượng, Lập trình ứng dụng quản lý Có thể thấy nhóm học phần có tỉ lệ dự báo xác thấp với độ xác cao U Ế 31.89% thấp 21.12%, tỉ lệ dự báo xác cho thấy H muốn dự báo cho học phần chuyên ngành mà dựa vào liệu điểm TẾ học phần đại cương khơng đủ, mà dựa nhiều yếu tố khác N H Sau trích chọn thuộc tính thấy kết huấn luyện mơ hình KI mạng nơ ron có cải thiện Đối với nhóm có tỉ lệ xác 50% trội Ọ C môn Hoạch định nguồn lực doanh nghiệp ERP sau tiến hành loại bỏ H thuộc tính gây nhiễu giữ lại học phần Tin học đại cương độ xác ẠI tăng lên đến 81.97%, tỉ lệ xác cao áp dụng học phần G Đ đại cương để dự báo cho học phần Đối với học phần cịn lại có học phần N Phát triển hệ thống thông tin kinh tế sau trích chọn thuộc tính giữ lại Ư Ờ học phần Lý thuyết xác xuất thống kê toán, Những nguyên lý chủ nghĩa TR Mác-Lenin 1, Những nguyên lý chủ nghĩa Mác-Lenin 2, Pháp luật đại cương, Toán cao cấp độ xác cải thiện từ 60.08% lên 67.38%, học phần lại độ xác có cải thiện khơng cao Có thể thấy việc trích chọn thuộc tính đóng vai trị quan trọng, độ xác chưa cao với học phần trích chọn dự báo cho học phần với độ xác tương đối Với nhóm học phần 50%, học phần dự báo với độ xác thấp, chí độ xác học phần Toán rời rạc Cơ sở liệu cịn bị giảm sau trích chọn thuộc tính, nên khơng nên sử dụng mơ hình mà thu thập thêm liệu cần thiết để cải thiện độ xác cho chúng SVTH: Trương Văn Quốc Anh 53 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Huấn luyện mơ hình định Bảng Kết huấn luyện mô hình định Mạng truyền thơng Phát triển hệ thống thông tin kinh tế Hoạch định nguồn lực Sau trích chọn chọn thuộc tính thuộc tính 74.67% 74.67% 66.95% 66.95% 81.11% 81.11% 30.17% Ế doanh nghiệp ERP Trước trích U Tên học phần 31.03% 33.62% N H Toán rời rạc 32.32% H điều hành TẾ Kiến trúc máy tính hệ 29.74% Cơ sở lập trình 22.41% H Hệ thống thông tin quản Ọ C Cơ sở liệu KI Cấu trúc liệu giải thuật 30.17% ẠI 56.89% hướng 29.74% 57.32% 23.27% 32.32% 28.01% 30.60% Ờ N tượng đối G trình Lập 35.34% Đ lý 38.36% quản lý TR Ư Lập trình ứng dụng Đối với mơ hình phân lớp định, quan sát bảng kết thấy mơ hình dự báo học phần có độ xác 50% tương tự mạng nơ ron Mạng truyền thông, Phát triển hệ thống thông tin kinh tế, Hoạch định nguồn lực doanh nghiêp ERP Hệ thống thơng tin quản lý với tỉ lệ xác 74.67%, 66.95%, 81.11%, 56.89% Độ xác không trội nhiên cho độ xác cao so với mơ hình mạng nơ ron, đặc biệt học phần Hoạch định nguồn lực doanh nghiêp ERP với độ xác 81.11% Đối với học phần Mạng truyền thông, Phát triển hệ thống thông tin kinh tế, Hoạch định nguồn lực SVTH: Trương Văn Quốc Anh 54 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang doanh nghiêp ERP tất học phần đại cương có ảnh hưởng định với chúng, nhiên để tăng độ xác cần phải thu thập, cố thêm nguồn liệu Với nhóm học phần có độ xác 50% bao gồm Kiến trúc máy tính hệ điều hành, Toán rời rạc, Cấu trúc liệu giải thuật, Cơ sở liệu, Cơ sở lập trình, Lập trình hướng đối tượng, Lập trình ứng dụng quản lý, tương tự mơ hình mạng nơ ron nhóm học phần có độ xác thấp, với độ xác cao trước trích chọn thuộc tính 30.17% thấp 22.41%, sau áp dụng trích chọn thuộc tính độ xác cải thiện nằm ngưỡng 50%, với độ xác khơng thể sử dụng để dự báo cho học phần U Ế được, địi hỏi phải có đầu tư khai thác thêm nhiều thông tin khác sinh viên TR Ư Ờ N G Đ ẠI H Ọ C KI N H TẾ H để dự báo xác kết học tập cho học phần SVTH: Trương Văn Quốc Anh 55 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang 3.2 Lưu sử dụng mơ hình dự báo Lưu mơ hình Sau tiến hành huấn luyện quan sát kết quả, ta tiến hành chọn mơ hình Ọ C KI N H TẾ H U Ế có độ xác cao lưu lại để sử dụng cách kích chuột phải lên tên mơ hình có độ H Hình 11 Lưu mơ hình vào tập tin G Sử dụng mơ hình Đ ẠI xác cao đó, chọn Save Model Tiến hành đặt tên nhấn Save để lưu mơ hình TR Ư Ờ N B1: tab Classify, kích chuột phải vùng Result list chọn Load model Hình 12 Tải mơ hình vào nhớ SVTH: Trương Văn Quốc Anh 56 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang sau tiến hành chọn mơ hình lưu muốn dùng để dự báo B2: chuẩn hóa liệu cần sử dụng mơ hình để dự báo đưa liệu vào weka cách chọn Supplied test set mục Test options Nhấn chọn nút Set U Ế Open file để chọn đến tập liệu cần dùng để dự báo, nhấn Close để kết thúc H Hình 13 Chọn tập liệu cần dự báo TẾ B3: thiết lập thông số cửa sổ Classifier evaluation options Thiết lập giá trị cho TR Ư Ờ N G Đ ẠI H Ọ C KI N H Output predictions PlainText, sau nhấn OK để kết thúc SVTH: Trương Văn Quốc Anh 57 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Hình 14 Thiết lập thơng số B4: kích chuột phải lên tên mơ hình chọn Re-evaluate model on current test N H TẾ H U Ế set để tiến hành dự báo liệu TR Ư Ờ N G Đ ẠI H Ọ C KI Hình 15 Sử dụng mơ hình để dự báo cho liệu Hình 16 Kết dự báo điểm học phần với mơ hình định Hình 16 thể kết dự báo điểm học phần mơ hình định, đó: - Cột Actual thể cho nhãn lớp cần dự báo - Cột predicted nhãn lớp dự báo SVTH: Trương Văn Quốc Anh 58 Khóa luận tốt nghiệp Cột prediction tỉ lệ dự báo xác, gần tỉ lệ dự báo xác cao TR Ư Ờ N G Đ ẠI H Ọ C KI N H TẾ H U Ế - GVHD: Th.S Mai Thu Giang SVTH: Trương Văn Quốc Anh 59 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang PHẦN III KẾT LUẬN VÀ ĐỀ XUẤT Kết luận Đề tài sâu tìm hiểu kỹ thuật khai phá liệu từ kỹ thuật phân lớp đến tiến hành trích chọn thuộc tính quan trọng để cải thiện tỉ lệ dự báo xác Sử dụng sở liệu điểm để tiến hành xử lý khai phá tìm tri thức cần thiết Với kết thu được, nhìn chung với nhóm học phần có độ xác 50% mơ hình định có độ xác cao lên tới 81.11% so với mạng Ế nơ ron với độ xác cao 73.81% trước tiến hành trích chọn thuộc tính H U Sau trích chọn thuộc tính độ xác cao mơ hình mạng nơ ron TẾ cải thiện với 81.97%, nhiên nhỉnh lượng không đáng kể so với mô N H hình định Vì đề tài đến kết luận nên áp dụng mơ hình định để dự báo kết cho học phần có độ xác 50% KI Đề tài vào ứng dụng thực tiễn, đưa cách xử lý áp dụng tri thức Ọ C khai phá vào thực tế H Về mặt lý thuyết, khóa luận trình bày rõ cách thức ứng dụng khai phá liệu Đ ẠI vào thực tế, từ thu thập liệu thô ban đầu đến xử lý chuẩn hóa liệu cuối N Ờ tế thu thập G áp dụng kĩ thuật phân lớp để huấn luyện mơ hình dự báo dựa sở liệu thực Ư Về mặt thực tiễn, khóa luận đáp ứng mục tiêu đặt ban đầu, áp dụng kĩ TR thuật khai phá liệu cụ thể mơ hình mạng nơ ron định để đưa dự báo kết học tập cho sinh viên chuyên ngành Tin học Kinh tế, hỗ trợ cố vấn học tập đưa tư vấn kịp thời cho sinh viên, từ sinh viên có hình thức thay đổi phương pháp học tập để đạt kết cao, hỗ trợ cho giảng viên môn nắm sinh viên có khả có kết học tập khơng cao để có phương pháp dạy học đặc biệt sinh viên Tuy nhiên, khóa luận tập trung nghiên cứu chuyên ngành Tin học Kinh tế Khoa Hệ thống Thông tin Kinh tế Bên cạnh đó, sở liệu thu thập cịn hạn chế, chưa bao quát hết dẫn đến tình trạng kết dự báo chưa cao Đặc biệt, SVTH: Trương Văn Quốc Anh 60 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang sở liệu tập trung vào thuộc tính điểm sinh viên Chưa thu thập liệu có ảnh hưởng trực tiếp gián tiếp đến kết học tập sinh viên giới tính, thái độ học tập, truyền thống gia đình, nghề nghiệp đam mê,… Đề xuất phát triển Khóa luận sử dụng hai mơ hình phân lớp mạng nơ ron định để khai phá liệu điểm Vì để bao quát khóa luận đề xuất sử dụng nhiều mơ hình phân lớp khác để tiện so sánh kết đưa chọn mơ hình phân lớp có tỉ lệ dự báo xác cao Để đạt kết phân lớp cao hơn, cần có thời gian để sâu khai thác thêm U Ế thuộc tính sinh viên như: thành phần gia đình, điểm thi mơn đại học, H vùng miền sinh sống, sinh viên nguyện vọng hay nguyện vọng 2, giới tính, định TẾ hướng nghề nghiệp, đoàn viên hay đảng viên chưa, … N H Hướng nghiên cứu tiếp theo: mở rộng nghiên cứu tất ngành đào KI tạo trường Đại học Kinh tế Huế, sử dụng thêm nhiều mô hình phân lớp khác Ọ C để so sánh đối chiếu kết Xây dựng phần mềm tư vấn học tập, đóng vai trị H cố vấn học tập đưa tư vấn kịp thời đến sinh viên ẠI Thu thập lượng mẫu lớn để cải thiện tỉ lệ dự báo xác cho mơ hình G Đ Phân tích, xếp hạng trường thuộc tính sở liệu thu thập được, từ N chọn trường thuộc tính đóng vai trị quan trọng tỉ lệ dự báo xác Ư Ờ mơ hình, đồng thời loại bỏ trường thuộc tính gây nhiễu hay làm giảm tỉ TR lệ dự báo xác mơ hình Qua năm lượng liệu thu tăng theo, thiết nghĩ cần xây dựng kho liệu điểm có quy tắc trật tự định, cho việc quản lý liệu điểm trở nên dễ dàng Trong trường hợp cố vấn học tập muốn dự báo cho trường hợp cụ thể dễ dàng trích xuất liệu cần thiết không cần phải trải qua trình tiền xử lý trước tiến hành dự báo Khóa luận nghiên cứu vấn đề dự báo điểm mơn chun ngành, có điều kiện tiếp tục phát triển dự báo thêm môn tự chọn hay dựa điểm môn đại cương để nhằm mục tiêu dự báo hay hỗ trợ việc sinh viên thực chọn ngành học SVTH: Trương Văn Quốc Anh 61 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang DANH MỤC TÀI LIỆU THAM KHẢO (2018) Khai phá liệu Wikipedia tiếng Việt Van Bien (2013) Quy trình Khai phá liệu (Process of Data mining) (2016) Giới thiệu tổng quan Mạng Nơron nhân tạo (Artificial Neural Network- ANN) Nguyễn Văn Chức (2011) Tổng quan Mạng Neuron (Neural Network) BIS (2017) Cây định Wikipedia tiếng Việt, Ế TIẾP CẬN KÝ HIỆU: GIẢI THUẬT QUY NẠP CÂY QUYẾT ĐỊNH ID3 - TẾ Ông Xuân Hồng (2015) CayQuyetDinh_C45 H U VOER N H Ông Xuân Hồng (2015) Scikit-learn: K-nearest neighbors Vu Tiep (2017) Support Vector Machine KI 10 Ông Xuân Hồng (2015) Scikit-learn: Naive Bayes Classifier Ọ C 11 Nguyễn Ngọc Diệp (2013) Các phương pháp đánh giá độ xác (trung H bình) mơ hình phân lớp Đ ẠI 12 Nguyễn Văn Chức (2011) Vấn đề trích chọn thuộc tính Khai phá G liệu - BIS Ờ N 13 Ông Xuân Hồng (2015) Đánh giá mơ hình (Model evaluation) Ư 14 Nguyễn Quang Nhật (2012) Gioi_thieu_WEKA TR 15 Phạm Thị Như Trang (2013) "Khai phá liệu điểm để dự đoán kết học tập Sinh viên trường Cao đẳng Sư phạm Hà Nội" 16 Nguyễn Đăng Nhượng (2012) "Khai phá liệu kết học tập học sinh trƣờng Cao đẳng nghề Văn Lang Hà Nội" 17 Phạm Cẩm Vân (2012) "Ứng dụng khai phá liệu để tư vấn học tập trường cao đẳng kinh tế- Kỹ thuật Quảng Nam" 18 Phan Văn Dương (2012) "Luận văn Khai phá liệu ứng dụng tư vấn tuyển sinh trường cao đẳng nghề Trung Bộ" 19 Nguyễn Đặng Thế Vinh (2014) " Ứng dụng khai phá liệu chọn ngành nghề cho học sinh THPT" SVTH: Trương Văn Quốc Anh 62 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang 20 Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung (2014) "PHÁT HIỆN MÔN HỌC QUAN TRỌNG ẢNH HƯỞNG ĐẾN KẾT QUẢ HỌC TẬP SINH VIÊN NGÀNH CÔNG NGHỆ THÔNG TIN" 21 Phạm Duy An (2012) "Phương pháp khai phá liệu định" 22 Nguyễn Thị Thanh Thủy (2012) "ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG CƠNG CỤ DỰ ĐỐN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN" 23 Nguyễn Thái Nghe (2016) "Ứng dụng kỹ thuật khai phá liệu hỗ trợ sinh viên lập kế hoạch học tập" 24 Getaneh Berie Tarekegn, Dr.Vuda Sreenivasarao (2016) "Application of U Ế Data Mining Techniques to Predict Students Placement in to Departments" TẾ H 25 Sumitha R Vinothkumar E.S (2016) "Prediction of Students Outcome Using Data Mining Techniques" N H 26 Yehuala M.A (2015) "Application Of Data Mining Techniques For Student KI Success And Failure Prediction (The Case Of Debre_Markos University)" Ọ C 27 Cheewaprakobkit P (2013) "Study of Factors Analysis Affecting Academic H Achievement of Undergraduate Students in International Program" Đ ẠI 28 Ying Zhang, Samia Oussena (2010) "USE DATA MINING TO IMPROVE G STUDENT RETENTION IN HIGHER EDUCATION - A Case Study" Ờ N 29 Kumar V Sharma D.V (2012) "Student’s Examination Result Mining: Ư A Predictive Approach" TR 30 Abu A (2016) "Educational Data Mining & Students’ Performance Prediction" SVTH: Trương Văn Quốc Anh 63 ...ĐẠI HỌC HUẾ ĐẠI HỌC KINH TẾ HUẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ N H TẾ H U Ế - - Ọ C KI KHÓA LUẬN TỐT NGHIỆP H Ứng dụng khai phá liệu để dự báo điểm chuyên ngành Đ ẠI sinh viên chuyên. .. ngành Tin học Kinh tế Cụ thể đề tài sử dụng sở liệu điểm môn đại cương sinh viên Khoa Hệ thống Thơng tin Kinh tế từ khóa K43 đến K47 chuyên ngành Tin học Kinh tế để dự báo điểm mơn chun ngành. .. nguồn sở liệu điểm sinh viên thuộc tất khoa Trường G Đ Đại học Kinh tế Huế Tiến hành trích rút liệu điểm sinh viên chuyên ngành Tin Ờ N học Kinh tế thuộc khoa Hệ thống Thơng tin Kinh tế từ khóa

Ngày đăng: 10/07/2018, 23:49

Từ khóa liên quan

Mục lục

  • PHẦN I. ĐẶT VẤN ĐỀ

    • 1. Lí do chọn đề tài

    • 1.

    • 2. Mục tiêu nghiên cứu

    • 3. Đối tượng nghiên cứu

    • 4. Phạm vi nghiên cứu

    • 1.

    • 1.

    • 1.

    • 1.

    • 5. Phương pháp nghiên cứu

    • 6. Cấu trúc khóa luận

    • PHẦN II. NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU

    • CHƯƠNG 1 CƠ SỞ LÝ LUẬN

      • 1.1 Tổng quan về khai phá dữ liệu

        • 1.1.1 Khái niệm

        • 1.1.2 Quá trình khai phá dữ liệu

        • 1.2 Khai phá dữ liệu giáo dục

        • 1.3 Các kỹ thuật phân lớp trong khai phá dữ liệu

          • 1.3.1 Mạng nơ ron (neural)

          • 1.3.2 Cây quyết định (J48)

          • 1.3.3 K - lân cận

          • 1.3.4 Support Vector Machine

          • 1.3.5 Naïve Bayes

Tài liệu cùng người dùng

Tài liệu liên quan