Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trên bộ dữ liệu sinh viên đại học phục vụ công tác cố vấn học tập

72 164 0
Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trên bộ dữ liệu sinh viên đại học phục vụ công tác cố vấn học tập

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  ĐINH CHUNG DŨNG NGHIÊN CỨU VÀ ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRÊN BỘ DỮ LIỆU SINH VIÊN ĐẠI HỌCPHỤC VỤ CÔNG TÁC CỐ VẤN HỌC TẬP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ĐINH CHUNG DŨNG NGHIÊN CỨU VÀ ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRÊN BỘDỮ LIỆU SINH VIÊN ĐẠI HỌCPHỤC VỤ CƠNG TÁC CỐ VẤN HỌC TẬP Ngành : Cơng nghệ thông tin Chuyên ngành : Truyền liệu mạng máy tính Mã số : Chuyên ngành đào tạo thí điểm LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HƢỚNG DẪN KHOA HỌC: TS.NGUYỄN TRUNG TUẤN HÀ NỘI, 2017 LỜI CẢM ƠN Tác giả luận văn xin chân thành cảm ơn đến người hướng dẫn khoa học TS Nguyễn Trung Tuấn, Viện Công nghệ Thông tin Kinh tế, Trường Đại học Kinh tế Quốc dân Thầy dành nhiều thời gian tâm huyết để hướng dẫn giúp đỡ tác giả hoàn thành luận văn Tác giả xin cảm ơn Thầy, Cô Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi, giúp đỡ có đóng góp quý báu thời gian nghiên cứu hoàn thành luận văn tác giả Xin chân thành cảm ơn gia đình, bạn bè đồng nghiệp giúp đỡ, động viên tác giả suốt thời gian nghiên cứu luận văn Hà Nội, Ngày……tháng… năm 2017 Đinh Chung Dũng Lời cam đoan Tơi xin cam đoan cơng trìnhnghiên cứu hướng dẫn khoa học TS Nguyễn Trung Tuấn Các số liệu kết nghiên cứu, công bố luận văn trung thực chưa cơng bố cơng trình khác Hà Nội, Ngày……tháng… năm 2017 Đinh Chung Dũng MỤC LỤC MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chương 1.2 Tổng quan phát tri thức khai phá liệu 1.3 Quá trình phát tri thức khai phá liệu 10 1.4 Các phương pháp khai phá liệu 12 1.5 Các vấn đề cần nghiên cứu phát tri thức khai phá liệu 14 1.6 Các lĩnh vực ứng dụng phát tri thức khai phá liệu 17 1.7 Kỹ thuật khai phá luật kết hợp 18 1.7.1 Lý thuyết luật kết hợp 18 1.7.2 Định nghĩa luật kết hợp 19 1.7.3 Một số hướng tiếp cận khai phá luật kết hợp 21 1.8 Cây định 23 1.8.1 Sơ lược định 23 1.8.2 Định nghĩa định 24 1.8.3 Xây dựng định 24 1.8.4 Một số thuật toán xây dựng định 24 1.8.5 Ưu điểm định 30 1.9 Tổng kết chương 31 CHƢƠNG 32 BÀI TOÁN CỐ VẤN HỌC TẬP VÀ ĐẶC TRƢNG BỘ DỮ LIỆU SINH VIÊN ĐẠI HỌC TẠI TRƢỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN 32 2.1 Giới thiệu chương 32 2.2 Những vấn đề cố vấn học tập theo hình thức đào tạo tín trường Đại học Kinh tế Quốc dân 32 2.2.1 Tổ chức hệ thống cố vấn học tập 32 2.2.2 Chức cố vấn học tập 33 2.2.3 Nhiệm vụ cố vấn học tập 33 2.2.3.1 Nhiệm vụ chung CVHT chuyên trách kiêm nhiệm 33 2.2.3.2 Nhiệm vụ cụ thể 34 2.3 Bài toán cố vấn học tập trường Đại học kinh tế quốc dân 36 2.3.1 Vấn đề thực tế xung quanh toán 36 2.3.2 Phát biểu toán 37 2.3.3Mục tiêu ý nghĩa toán 37 2.3.4Quy trình giải tốn 38 2.4 Đặc trưng liệu sinh viên trường Đại học kinh tế quốc dân 39 2.4.1 Hệ thống quản lý đào tạo, quản lý sinh viên 39 2.4.2Mô tả phần sở liệu quản lý sinh viên dựa thông tin thu thập 41 2.5 Tổng kết chương 42 CHƢƠNG 43 ỨNG DỤNG THỬ NGHIỆM GIẢI BÀI TOÁN CỐ VẤN HỌC TẬP TẠI TRƢỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN 43 3.1 Giới thiệu chương 43 3.2 Giới thiệu số công cụ khai phá liệu phát tri thức 43 3.2.1 Weka 43 3.2.2 Ngôn ngữ R 44 3.2.3 SQL Datamining 45 3.2.3.1 Giới thiệu 45 3.2.3.2 Thuật tốn kết hợp cơng cụ (Assocication Algorithm) 46 3.2.3.3 Thuật tốn phân loại cơng cụ (Classification Algorithm) 47 3.3 Quy trình thực khai phá liệu sinh viên phát tri thức với toán cố vấn học tập Trường Đại học Kinh tế Quốc dân 48 3.4 Khai phá liệu luật kết hợp giải toán 49 3.4.1Từ liệu thô thu thập 49 3.4.2Tiến hành biến đổi liệu theo toán 50 3.4.3Thực thử nghiệm công cụ BIDS 50 3.5 Khai phá liệu định giải toán 56 3.5.1 Từ liệu thô thu thập 56 3.5.2Tiến hành biến đổi liệu theo toán 57 3.5.3Thực thử nghiệm công cụ BIDS 59 3.6 Một số đề xuất, kiến nghị 61 3.7 Tổng kết chương 61 KẾT LUẬN 62 DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt BI Kinh doanh thơng minh/trí Business Intelligence tuệ doanh nghiệp BIDS Business Intelligence Bộ công cụ phân tích Development Studio liệu MicroSoft SQL Server DA/PA Data/Pattern analysis Phân tích liệu/mẫu DBMS Database Management System Hệ quản trị sở liệu KDD Knowledge Discovery and Data Phát tri thức Khai Mining phá liệu KE Knowledge Extraction Trích chọn tri thức ML Machine Learning Học máy SQL Structured Query Language Ngôn ngữ truy vấn cấu trúc DANH MỤC CÁC HÌNH Hình 1.1 Mối quan hệ KDD với lĩnh vực khác [4] Hình 1.2 Mối quan hệ KDD kinh doanh thông minh [4] Hình 1.3 Qui trình bước khai phá liệu 11 Hình 1.4 Phân lớp dựa theo mức chi tiêu thu nhập hộ gia đình 13 Hình 2.1 Quy trình giải toán 39 Hình 2.2 Hệ thống quản lý đào tạo 40 Hình 2.3 Cơ sở liệu quản lý sinh viên 41 Hình 3.1 Dữ liệu thu thập 49 Hình 3.2 Dữ liệu cho khai phá luật kết hợp 50 Hình 3.3 L1.1: minsupport=0.4 minprobability = 0.4 51 Hình 3.4 L1.2: minsupport=0.4 minprobability = 0.9 52 Hình 3.5 L2.1: minsupp= 0.03, minprobability= 0.54 53 Hình 3.6 L2.2: minsupp= 0.03, minprobability= 0.9 53 Hình 3.7 L3.1: minsupport=0.01, minprobability= 0.4 54 Hình 3.8 L3.2: minsupport=0.01, minprobability= 0.7 55 Hình 3.9 L3.3: thể tập mục phổ biến (Itemsets) 56 Hình 3.10 Bảng điểm chuyên ngành theo kỳ sau biến đổi 57 Hình 3.11 Bảng điểm tổng kết kỳ, tất chun ngành (ví dụkỳ 5) 58 Hình 3.12 Bảng liệu đưa vào khai phá 59 Hình 3.13 Cây định phân lớp kỳ 59 Hình 3.14 Cây định phân lớp kỳ 60 Hình 3.15 Cây định phân lớp kỳ 60 MỞ ĐẦU Lý lựa chọn đề tài Khai phá liệu phát tri thức lĩnh vực nhà khoa học quan tâm nghiên cứu nhiều năm gần Ứng dụng khai phá liệu thực nhiều lĩnh vực khác giáo dục, y tế, tài chính, ngân hàng, kinh doanh…Đặc biệt, thời gian gần đây, khai phá liệu phát tri thức lĩnh vực giáo dục quan tâm nghiên cứu.Đối với bậc giáo dục Đại học nay, sinh viên học tập trường Đại học theo hình thức đào tạo tín Đối với hình thức đào tạo yêu cầu sinh viên phải có chủ động cao, có nhiều lựa chọn mềm dẻo mơn học chuyên ngành đào tạo Sinh viên phải tự phân bổ mơn học cho kỳ cho đủ số tín theo quy chế đào tạo, sinh viên học nhanh để trường sớm hạnvới số điểm cao Trên thực tế có nhiều trường hợp thời gian học hết em chưa hồn thành đủ tín chỉ, cịn nợ mơn chun ngành Các sinh viên chưa quen gặp nhiều khó khăn định hướng học tập,làm ảnh hưởng đến trình học tập ảnh hưởng đến kết đào tạo nhà trường Chính cơng tác cố vấn học tập cho sinh viên đặt cơng việc quan trọng hình thức đào tạo theo tín Đây tốn đặt cho lĩnh vực khai phá liệu có số liệu lớn sinh viên trình học tập sinh viên nhà trường nhằm trợ giúp cho cố vấn học tập đạt hiệu cao Hiện công tác Trường Đại học Kinh tế quốc dân, trước thực trạng tồn nơi làm việc với lĩnh vực theo học, đồng ý TS Nguyễn Trung Tuấn chọn đề tài luận văn: “Nghiên cứu áp dụng kỹ thuật khai phá liệu liệu sinh viên đại học phục vụ cơng tác cố vấn học tập”, luận văn góp phần vào việc giải vấn đềhết sức cấp bách cần thiết thực tế Mục tiêu nghiên cứu luận văn Mục tiêu nghiên cứu củaluận văn để hiểu kỹ thuật khai phá liệu phát tri thứccơ bản, tập trung chủ yếu vào hai kỹ thuật kỹ thuật khai phá luật kết hợp định.Đây kỹ thuật có nhiều nhà khoa học nghiên cứu có nhiều đóng góp vào thực tiễn Hiểu quy chế, quy định, thông tư hướng dẫn triển khai thực đào tạo đại học quy theo hệ thống tín chỉ, văn liên quan đến quy định cố vấn học tập, chương trình đào tạochính quy theo học chế tín thuộc chuyên ngành Trường 51 -Hiệu chỉnh model - Khai phá liệu từ Model View kết Kết khai phá liệu giải toán sử dụng kỹ thuật khai phá luật kết hợp lần sau: Lần 1: Với tất liệu đăng ký mơn học phần (cả tự chọn bắt buộc)của khóa học với tất chuyên ngành đưa view vào hệ quản trị sở liệu SQL -Thực khai phá, chọn thuộc tính đầu vào (input) thuộc tính dự đốn (predict) thuộc tính tên môn học phần hai bảng lồng (DanhSachSV chọn case, SV_DangKy_MonHoc chọn nested) - Tiến hành chạy với minsupport=0.4 minprobability = 0.4, thu kết gồm 1284 luật kết hợp với tất môn học 45 chuyên ngành năm học Hình 3.3L1.1: minsupport=0.4 minprobability = 0.4 - Sau điều chỉnh tăng minprobability = 0.9, minsupport=0.4 thu 421 luật 52 Hình 3.4 L1.2: minsupport=0.4 minprobability = 0.9 Nhận xét: Công cụ cho luật mong muốn, luật khơng có thơng tin chun ngành (vì liệu gồm tất môn tất chuyên ngành), nên muốn tư vấn cho chuyên ngành lại phải tìm xem mơn thuộc chun ngành việc tư vấn cho chuyên nghành khó khăn Có nhiều luật luật lại kết hợp học phần tự chọn học phần bắt buột nên lần chạy không khả thi, tiến hành thử nghiệm lần Lần 2:Vẫn liệu lần có thay đổi sau: - Loại bỏ học phần bắt buộc khỏi liệu (còn lại học phần tự chọn) - Đưa thêm mã chuyên ngành vào sau mơn học phần tự chọn (ví dụ; xã hộ học(KDQT), quản lý công nghệ(QTDN) ) Kết quả: Chạy với minsupp= 0.03, minprobability= 0.54, thu 663 luật 53 Hình 3.5 L2.1: minsupp= 0.03, minprobability= 0.54 - Sau thay đổi: minsupp= 0.03, minprobability= 0.9, thu 413 luật Hình 3.6 L2.2: minsupp= 0.03, minprobability= 0.9 54 Nhận xét:Tất luật thu lần chạy mong muốn, tăng minprobability= 0.9, thu 413 luậtcho nhiều chuyên ngành với xác suất cao , không đủ cho tất chuyên ngành, muốn tư vấn theo chun ngành phải dùng cơng cụ lọc (Filter Rule) theo mã chun ngành, khơng có ý nghĩa với tốn, Lần chạy khơng khả thi, tiến hành thử nghiệm lần Lần 3: Vẫn liệu loại bỏ học phần bắt buộc lần chạy thứ hai có vài thay đổi sau: - Dữ liệu lúc tách chuyên ngành view thể sinh viên, mơn học chun ngành q trình đăng ký học phần tự chọn Tiến hành chạy thử với chuyên ngành Quản trị kinh doanh tổng hợp - Kết quả: chạy với minsupport=0.01, minprobability= 0.4, thu 31 Hình 3.7 L3.1: minsupport=0.01, minprobability= 0.4 - Sau tăngminprobability= 0.7, giữ nguyên minsupport=0.01, thu luật với xác suất xảy 100% 55 Hình 3.8 L3.2: minsupport=0.01, minprobability= 0.7 Nhận xét: Dễ dành nhận thấy kết luật thu lần phù hợp với ý nghĩa toán phát biểu nhất, có giá trị để tư vấn cho sinh viên đăng ký học phần tự chọn chuyên ngành quản trị kinh doanh tổng hợp Có ý nghĩa phù hợp với yêu cầu toán 1, làm sở thông tin cho cố vấn học tập tư vấn đăng ký mơn học cho sinh viên Ví dụ Luật :An sinh xã hội, Quản trị kinh doanh công nghiệpQuản trị kinh doanh văn phòng (xảy với xác suất 100%) - Phát biểu luật tư vấn:Sinh viên đăng ký môn An sinh xã hội tổ hợp kiến thức lựa chọn ngành,và đăng ký môn Quản trị kinh doanh công nghiệptrong tổ hợp kiến thức lựa chọn ngành, thường đăng ký mơn Quản trị kinh doanh văn phịng tổ hợp kiến thức lựa chọn ngành với xác suất 100% - Do với lần thử nghiệm chạy với liệu lần thử nghiệm thứ riêng cho chuyên ngành ngành khác Luận văn chọn ngành, chuyên ngành có số lượng sinh viên lớn để chạy thử nghiệm, kết thu hữu ích cho cán cố vấn tư vấn đăng ký môn học cho sinh viên Phần kết cho chuyên ngành khác phát biểu luật tư vấn trình bày phần phụ lục 56 Ngoài Trong Tab Itemsets: Itemsets tập mục phổ biến, cho biết thông tin quan trọng luật kết hợp Support (độ hỗ trợ luật kết hợp), Size (Số items Itemsets) - Thể Tab Itemsets: tập mục phổ biến có Support 114 gồm mơn học (items) Kỹ quản trị, Giao tiếp kinh doanh thuyết trình, Xã hội học, có ý nghĩa tất lượt đăng ký môn học xuất 114(nhiều tập items)lần sinh viên đăng ký học phần tự chọn với hay nói cách khác tập môn học phần tự chọn hay sinh viên đăng ký Hình 3.9 L3.3: thể tập mục phổ biến (Itemsets) Kết luận thực hiện: Thử nghiệm tiến hành nhiều lần với nhiều chuyên ngành khác kết thu có ý nghĩa với toán giúp cán cố vấn học tập có thêm sở tư vấn lựa chọn môn học cho sinh viên, tập luật kết hợp giúp sinh viên nên đăng ký môn môn kia, tập mơn phổ biến mơn học hay đăng ký 3.5 Khai phá liệu định giải toán 3.5.1 Từ liệu thô thu thập đƣợc Dựa vào yêu cầu toán để phân loại dự báo sinh viên có trường hạn hay khơng dựa vào quy chế đào tạo số lượng tín chỉ, xếp loại học lực kỳ, mơ hình định xây dựng để giải toán sử dụng thông tin 57 đầu vào liên quan đến thuộc tính số tín chỉ, xếp loại học lực từ điểm trung bình chung cuối kỳ Hình 3.10 Bảng điểm chuyên ngành theo kỳ sau biến đổi 3.5.2 Tiến hành biến đổi liệu theo toán Dữ liệu biến đổi sang dạng bảng điểm lớp chuyên ngành theo kỳ (các môn học quay lên cột (ký hiệu số), sinh viên với điểm ghi), mục đích để có điểm học phần học kỳ đó, từ tính cột thơng tin tín học lực cho kỳ, thông tin ảnh hưởng đến khả trường sinh viên -Từ bảng điểm cho lớp chuyên ngành theo kỳ hình trên, tiến hành loại bỏ thuộc tính mơn học phần, giữ lại thuộc tính cuối là; Tín tích lũy kỳ đó, tín tích lũy từ kỳ đầu kỳ đó, điểm chung bình chung kỳ đó, điểm chung bình chung tích lũy từ kỳ đầu đến kỳ đó, bảng liệu sau: -Làm tương tự với kỳ lại với chuyên ngành khác, cuối gộp tất chuyên ngành theo kỳ, liệu tổng kết tương ứng với kỳ thu sau: 58 Hình 3.11 Bảng điểm tổng kết kỳ, tất chuyên ngành (ví dụ kỳ 5) - Theo toán phân lớp dự đoán sinh viên có trường hạn hay khơng, thực tế năm thứ trở sinh viên thường hay làm thêm có nhiều nguyên nhân dẫn đến lười học Cán cố vấn thường xuyên phải theo dõi kỳ cuối Do mơ hình khai phá đề xuất cho kỳ cuối kỳ 5, kỳ 6, kỳ xây dựng dựa định Dự báo kịp thời vào kỳ cuối có ý nghĩa với tốn phát biểu - Bảng điểm kỳ 5, 6, (dạng số) sau thu biết đổi dạng rời rạc (các giá trị rời rạc), thuộc tính đầu vào (input) thay giá trị rời rạc sau: + TCKy5, TCKy6, TCKy7 mà lớn 15 tín giá trị “đủ”, nhỏ 15 tín giá trị “khơng đủ” + TCTichLuyK5 mà lớn 75 tín nhận giá trị “đủ”, nhỏ 75 tín nhận giá trị “khơng đủ” + TCTichLuyK6 mà lớn 90 tín nhận giá trị “đủ”, nhỏ 90 tín nhận giá trị “không đủ” + TCTichLuyK7 mà lớn 105 tín nhận giá trị “đủ”, nhỏ 112 tín “khơng đủ” + HlucKy5,6,7 HLucDenKy5,6,7: nằm khoảng sau: 3.6< xuất sắc< | 3.2< Giỏi< 3.6 | 2.5< Khá< 3,5 | < tb

Ngày đăng: 07/03/2018, 09:33

Tài liệu cùng người dùng

Tài liệu liên quan