Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà Nội

23 7 0
  • Loading ...
1/23 trang

Thông tin tài liệu

Ngày đăng: 02/12/2016, 04:14

Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà Nội HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - HOÀNG THU THỦY ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO HÀ NỘI CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI - 2016 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS TRẦN ĐÌNH QUẾ Phản biện 1: ……………………………………………… Phản biện 2: ……………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm … Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông MỞ ĐẦU Tính cấp thiết đề tài Giáo dục đào tạo giữ vai trò quan trọng phát triển quốc gia, dân tộc Một vấn đề mà sinh viên phải đối mặt ngồi ghế nhà trường có định đắn liên quan tới trình học tập thân để đạt thành tích học tập tốt Vì vậy, việc tư vấn học tập để chọn chương trình học phù hợp nhằm đạt kết cao quan tâm đặc biệt Khai phá liệu ứng dụng thành công giáo dục, giúp sinh viên đưa lựa chọn tốt cho trình học tập thân Trường Đại học Sư phạm Thể dục Thể thao Hà Nội, nơi đào tạo đội ngũ giáo viên giáo dục thể chất tương lai cho đất nước cố gắng để hoàn thành tốt công việc Để giúp em sinh viên quy đưa định lựa chọn đắn theo học chuyên sâu phù hợp với lực, mong muốn thân trình học tập trường, tác giả lựa chọn đề tài luận văn “Ứng dụng khai phá liệu để tư vấn học tập trường Đại học Sư phạm Thể dục Thể thao Hà Nội” Tổng quan vấn đề nghiên cứu Trong thập kỷ gần phát triển nhanh chóng mạng Internet công nghệ đa phương tiện áp dụng nhiều giáo dục Lợi ích EDM ngày tăng nên nhà nghiên cứu EDM thành lập tạp chí khoa học vào năm 2009, “Tạp chí khai thác liệu giáo dục”, để chia sẻ phổ biến kết nghiên cứu Khai phá liệu giáo dục đề cập đến kỹ thuật, công cụ, nghiên cứu thiết kế để tự động trích xuất thông tin có ích từ kho liệu lớn tạo người học, liên quan đến người học hoạt động môi trường giáo dục Các kỹ thuật khai phá liệu xem xét sử dụng xây dựng hệ thống tư vấn môn học cho sinh viên, giúp sinh viên theo học trường đào tạo theo tín định hướng lựa chọn môn học hay chuyên ngành Hay xây dựng mô hình khai phá liệu dựa vào thông tin tuyển sinh đầu vào kết thu thập sinh viên, nhằm dự đoán kết học tập, từ giúp sinh viên chọn lựa lộ trình học đạt kết tối ưu phù hợp với điều kiện lực Luận văn tác giả tập trung vào nghiên cứu số kỹ thuật phân cụm liệu, từ chọn kỹ thuật phù hợp để xây dựng hệ thống tư vấn học tập giúp sinh viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội đánh giá kỹ lực thân trước đăng ký theo học chuyên sâu phù hợp với thân Mục đích nghiên cứu - Nghiên cứu, tìm hiểu vấn đề khai phá liệu, số kỹ thuật phân cụm liệu để đưa tổng hợp giúp cho nghiên cứu sau - Ứng dụng để xây dựng hệ thống tư vấn học tập giúp sinh viên quy lựa chọn theo học chuyên sâu phù hợp với thân, dựa vào kết học tập sinh viên liệu thu thập từ giảng viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: - Một số kỹ thuật phân cụm liệu - Dữ liệu đào tạo chuyên ngành giáo dục thể chất Phạm vi nghiên cứu: - Giới hạn số kỹ thuật phân cụm liệu - Dữ liệu thu thập trường Đại học Sư phạm TDTT Hà Nội Cấu trúc luận văn: Ngoài phần mở đầu kết luận, luận văn cấu trúc thành chương sau: Chương 1: Tổng quan khám phá tri thức khai phá liệu Trình bày tổng quan khám phá tri thức, khai phá liệu số ứng dụng khai phá liệu giáo dục Chương 2: Một số kỹ thuật phân cụm liệu Chương trình bày khái quát số kỹ thuật phân cụm liệu Phân tích, đánh giá kỹ thuật để định lựa chọn thuật toán phù hợp cho việc xây dựng hệ thống tư vấn mà luận văn đưa Chương 3: Tư vấn học tập cho sinh viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội dựa khai phá liệu Giới thiệu toán thực tế chương trình đào tạo cho sinh viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội Khó khăn cho sinh viên định lựa chọn cho chuyên sâu phù hợp trường Dựa khai phá liệu thuật toán lựa chọn để xây dựng hệ thống tư vấn học tập cho sinh viên, giúp sinh viên đưa định đắn để kết học tập đạt tối ưu 3 CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung khám phá tri thức khai phá liệu 1.1.1 Khái niệm khám phá tri thức khai phá liệu Khám phá tri thức (KPTT) trình tìm tri thức, mẫu tiềm ẩn, trước chưa biết thông tin hữu ích đáng tin cậy Khai phá liệu (KPDL) giai đoạn quan trọng trình khám phá tri thức Về chất giai đoạn tìm thông tin KPDL định nghĩa trình trích lọc thông tin có giá trị ẩn lượng lớn liệu lưu trữ CSDL kho liệu Có thể nói hai thuật ngữ khám phá tri thức khai phá liệu tương đương khía cạnh tổng quan, xét góc độ chi tiết khai phá liệu giai đoạn có vai trò quan trọng khám phá tri thức 1.1.2 Các hướng tiếp cận khai phá liệu Khai phá liệu chia nhỏ thành số hướng sau: - Mô tả khái niệm (Concept description) - Luật kết hợp (Association rules) - Phân lớp dự đoán (Classification and prediction) - Phân cụm (Clustering) - Khai phá chuỗi (Sequential/Temporal patterns) 1.1.3 Những vấn đề khó khăn khai phá liệu - Các sở liệu lớn, tập liệu cần xử lý có kích thước lớn - Mức độ nhiễu cao liệu bị thiếu - Số chiều lớn - Thay đổi liệu tri thức làm cho mẫu phát không phù hợp - Quan hệ trường phức tạp 1.2 Quá trình khám phá tri thức khai phá liệu 1.2.1 Quá trình khám phá tri thức Quá trình khám phá tri thức chuỗi lặp gồm bước sau: Data Cleaning (Làm liệu) Data Intergation (Tích hợp liệu) Data Selection (Lựa chọn liệu) Data Transformation (Biến đổi liệu) Data Mining (Khai phá liệu) Pattern Evaluation (Đánh giá mẫu) Knowledge Presentation (Biểu diễn tri thức) 1.2.2 Quá trình khai phá liệu Quá trình khai phá liệu bao gồm: Xác định nhiệm vụ: Xác định xác vấn đề cần giải Xác định liệu liên quan: Dùng để xây dựng giải pháp Thu thập tiền xử lý liệu: Thu thập liệu liên quan tiền xử lý cho thuật toán KPDL hiểu Thuật toán KPDL: Lựa chọn thuật toán KPDL thực việc KPDL để tìm mẫu có ý nghĩa 1.2.3 Các phương pháp khai phá liệu 1.3 Ứng dụng khai phá liệu giáo dục 1.3.1 Khai phá liệu giáo dục Khai phá liệu giáo dục (EDM) mô tả lĩnh vực nghiên cứu liên quan đến việc áp dụng khai thác liệu, máy học thống kê thông tin tạo từ thiết lập giáo dục (ví dụ, trường đại học hệ thống thông minh) Khai phá liệu giáo dục đề cập đến kỹ thuật, công cụ, nghiên cứu thiết kế để tự động trích xuất thông tin có ích từ kho liệu lớn tạo người học, liên quan đến người học hoạt động môi trường giáo dục Ứng dụng khai phá liệu giáo dục cung cấp thông tin hữu ích để thiết kế môi trường học tập, cho phép học sinh, sinh viên, giáo viên, nhà quản lý hoạch định sách giáo dục đưa định phù hợp 1.3.2 Mục tiêu khai phá liệu giáo dục Baker Yacef xác định bốn mục tiêu sau EDM: Dự đoán hành vi học tập tương lai sinh viên Khám phá cải thiện mô hình miền: thông qua phương pháp khác ứng dụng EDM, phát cải tiến mô hình 5 Nghiên cứu ảnh hưởng hỗ trợ giáo dục thực thông qua hệ thống học tập Thúc đẩy hiểu biết khoa học việc học tập cách xây dựng kết hợp mô hình sinh viên, lĩnh vực nghiên cứu EDM công nghệ phần mềm sử dụng 1.3.3 Các giai đoạn khai phá liệu giáo dục 1.3.4 Một số lĩnh vực ứng dụng EDM Một số lĩnh vực ứng dụng EDM là: - Phân tích trực quan liệu - Cung cấp thông tin phản hồi để hỗ trợ giáo viên - Dự đoán kết học tập - Kiến nghị cho sinh viên - Phát hành vi sinh viên không mong muốn - Xây dựng chương trình học - Kế hoạch lập kế hoạch 1.4 Kết luận chương Nội dung chương tìm hiểu trình phát tri thức vấn đề khai phá liệu Phát tri thức trình rút tri thức từ liệu mà khai phá liệu giai đoạn chủ yếu Khai phá liệu nhiệm vụ khám phá mẫu có ích từ số lượng lớn liệu, liệu lưu trữ CSDL, kho liệu kho lưu trữ thông tin khác Chương tóm tắt số phương pháp phổ biến dùng để khai phá liệu phân tích việc khai phá liệu, ứng dụng khai phá liệu giáo dục 6 CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 2.1 Một số kỹ thuật phân cụm 2.1.1 Phương pháp phân hoạch (Partitioning Methods) 2.1.1.1 Thuật toán k-means Mục đích thuật toán sinh k cụm liệu {C1, C2,…, Ck} từ tập liệu ban đầu gồm n đối tượng không gian d chiều Xi= (xi1, xi2, …, xid) ( = 1, n), cho hàm tiêu chuẩn =∑ ∑ ∈ ( − ) đạt giá trị cực tiểu Trong mi trọng tâm cụm Ci D khoảng cách hai đối tượng Thuật toán k-means gồm bước sau Input: Số cụm k, sở liệu gồm n đối tượng Output: Các cụm Ci (i=1,…, k) cho hàm tiêu chuẩn E đạt giá trị tối thiểu Bước 1: Khởi tạo k điểm trọng tâm cụm cách chọn k đối tượng tùy ý Bước 2: Lặp bước - Với đối tượng (1 ≤ ≤ ), tính khoảng cách từ tới trọng tâm mj với j=1,…,k Sau tìm trọng tâm gần đối tượng - Với j=1,…,k, cập nhật trọng tâm cụm mj cách xác định trung bình cộng vector đối tượng liệu Bước 3: Thuật toán dừng giá trị E không thay đổi 2.1.1.2 Thuật toán PAM (Partitioning Around Medoids) Thuật toán PAM thuật toán mở rộng thuật toán k-means, có khả xử lý hiệu liệu nhiễu phần tử ngoại lai PAM sử dụng đối tượng medoid (lấy đối tượng đại diện cụm gọi medoid, điểm đại diện định vị trung tâm cụm) để biểu diễn cho cụm liệu Để xác định medoid, PAM bắt đầu cách lựa chọn k đối tượng medoid Sau bước thực hiện, PAM cố gắng hoán chuyển đối tượng medoid Om đối tượng Op medoid, miễn hoán chuyển nhằm cải thiện chất lượng phân cụm, trình kết thúc chất lượng phân cụm không thay đổi Chất lượng phân cụm đánh giá thông qua hàm tiêu chuẩn, chất lượng phân cụm tốt hàm tiêu chuẩn đạt giá trị tối thiểu 7 2.1.2 Phương pháp phân cấp (Hierarchical Methods) 2.1.2.1 Thuật toán BIRCH Input: CSDL gồm n đối tượng, ngưỡng T Output: k cụm liệu Bước 1: Duyệt tất đối tượng CSDL xây dựng CF khởi tạo Mỗi đối tượng chèn vào nút gần tạo thành cụm Nếu đường kính cụm lớn T nút tách Khi đối tượng thích hợp chèn vào nút lá, tất nút trỏ tới gốc cập nhật với thông tin cần thiết Bước 2: Nếu CF thời đủ nhớ tiến hành xây dựng CF nhỏ cách điều khiển tham số T (vì tăng T làm hòa nhập số cụm thành cụm, điều làm cho CF nhỏ hơn) Bước không cần yêu cầu bắt đầu đọc liệu lại từ đầu đảm bảo hiệu chỉnh liệu nhỏ Bước 3: Thực phân cụm: nút CF lưu giữ đại lượng thống kê cụm Trong bước này, BIRCH sử dụng đại lượng thống kê để áp dụng số kỹ thuật phân cụm ví dụ k-means tạo khởi tạo cho phân cụm Bước 4: Phân phối lại đối tượng liệu cách dùng đối tượng trọng tâm cho cụm khám phá từ bước Đây bước tùy chọn để duyệt lại tập liệu gán nhãn lại cho đối tượng liệu tới trọng tâm gần Bước nhằm để gán nhãn cho liệu khởi tạo loại bỏ đối tượng ngoại lai Khi hòa nhập hai cụm ta có: CF=CF1+CF2=(n1+n2, LS1+LS2, SS1+SS2) Khoảng cách cụm đo khoảng cách Euclidean, Manhatta,… 2.1.2.2 Thuật toán CURE Thuật toán CURE sử dụng chiến lược Bottom – Up kỹ thuật phân cụm phân cấp CURE sử dụng nhiều đối tượng để diễn tả cho cụm liệu Bước 1: Chọn mẫu ngẫu nhiên từ tập liệu ban đầu Bước 2: Phân hoạch mẫu thành nhiều nhóm liệu có kích thước nhau, ý tưởng phân hoạch mẫu thành p nhóm liệu nhau, kích thước phân hoạch ′⁄ (với ′ kích thước mẫu) Bước 3: Phân cụm điểm nhóm: ta thực phân cụm liệu cho nhóm nhóm phân thành ′⁄ ( ) cụm (với q>1) Bước 4: Loại bỏ phần tử ngoại lai: trước hết, cụm hình thành số cụm giảm xuống phần so với số cụm ban đầu Sau đó, trường hợp phần tử ngoại lai lấy mẫu với trình pha khởi tạo mẫu liệu, thuật toán tự động loại bỏ nhóm nhỏ Bước 5: Phân cụm cụm không gian: đối tượng đại diện cho cụm di chuyển hướng trung tâm cụm, nghĩa chúng thay đối tượng gần trung tâm Bước 6: Đánh dấu liệu với nhãn tương ứng 2.1.3 Phương pháp dựa mật độ (Density-Based Methods) 2.1.3.1 Thuật toán DBSCAN Ý tưởng để phát cụm thuật toán DBSCAN bên cụm tồn mật độ cao bên cụm Hơn nữa, mật độ vùng nhiễu thấp mật độ bên cụm Trong cụm phải xác định bán kính vùng lân cận (Eps) số lượng điểm tối thiểu vùng lân cận điểm cụm (MinPts) Bước 1: Chọn đối tượng p tùy ý Bước 2: Lấy tất đối tượng mật độ - đến từ p với Eps MinPts Bước 3: Nếu p điểm nhân tạo cụm theo Eps MinPts Bước 4: Nếu p điểm biên, điểm mật độ - đến mật độ từ p DBSCAN thăm điểm tập liệu Bước 5: Quá trình tiếp tục tất đối tượng xử lý 2.1.3.2 Thuật toán OPTICS (Ordering Points To Indentify the Clustering Structure) Thuật toán OPTICS Ankerst, Breunig Kriegel Sander đề xuất năm 1999, thuật toán mở rộng cho thuật toán DBSCAN, cách giảm bớt tham số đầu vào Thuật toán thực tính toán xếp đối tượng theo thứ tự tăng dần nhằm tự động phân cụm phân tích cụm tương tác đưa phân cụm tập liệu rõ ràng Cấu trúc liệu diến tả theo thứ tự dựa mật độ chứa thông tin tương đương với phân cụm dựa mật độ với dãy tham số đầu vào OPTICS xem xét bán kính tối thiểu nhằm xác định láng giềng phù hợp với thuật toán 2.1.3.3 Thuật toán DENCLUDE (DENsity – Base CLUstEring) Thuật toán DENCLUDE xây dựng ý tưởng sau: - Ảnh hưởng đối tượng tới láng giềng xác định hàm ảnh hưởng 9 - Mật độ toàn cục không gian liệu mô hình phân tích tổng tất hàm ảnh hưởng đối tượng - Các cụm xác định đối tượng mật độ cao mật độ cao điểm cực đại hàm mật độ toàn cục Định nghĩa hàm ảnh hưởng: Cho x, y hai đối tượng không gian d, chiều ký hiệu Fd, hàm ảnh hưởng y lên x xác định: dạng hàm ảnh hưởng : ( )= : → , định nghĩa ( , ) Hàm ảnh hưởng hàm tùy chọn, miễn xác định khoảng cách d(x,y) đối tượng, ví dụ khoảng cách Euclide Ví dụ hàm ảnh hưởng sau: ( , )= Hàm ảnh hưởng sóng ngang: ( , )> ( , )≤ ngưỡng ( , )= Hàm ảnh hưởng Gaussian: Hàm mật độ đối tượng ∈ hưởng tác động lên x Giả sử ta có tập liệu Hàm mật độ x xác định: ( , ) tính bẳng tổng tất hàm ảnh ={ , ( )=∑ ,…, } ( ) Hàm mật độ dựa hàm ảnh hưởng Gauss xác định sau: , ( )= 2.1.4 Phương pháp dựa lưới (Grid-Based Methods) Thuật toán STING Thuật toán STING đề xuất năm 1997 Wang, Yang Muntz, vùng không gian liệu phân rã thành hữu hạn ô chữ nhật nhiều mức khác Các ô hình thành cấu trúc phân cấp sau: ô mức cao phân hoạch thành ô mức thấp cấu trúc phân cấp Giá trị tham số thống kê cho đối tượng liệu tính toán lưu trữ thông qua tham số thống kê ô mức thấp (điều giống với CF) Các tham số gồm có: tham số đếm (count), tham số tối đa (max), Các đối tượng liệu chèn vào lưới tham số thống kê tính thông qua đối tượng liệu STING có khả mở rộng cao, sử dụng phương pháp đa phân giải nên phụ thuộc chặt chẽ vào trọng tâm mức thấp 10 2.2 Tổng hợp thuật toán Từ thuật toán tìm hiểu trên, ta có bảng tổng hợp đặc tính thuật toán sau: Bảng 2.1: Đặc tính thuật toán k-means Thông số đầu vào Số lượng cụm PAM Số lượng cụm Thuật toán BIRCH CURE DBSCAN DENCLUE OPTICS STING Phương pháp phân hoạch Cấu trúc Tối ưu cụm Cụm riêng biệt Hình cầu Cụm riêng biệt, Hình cầu liệu nhỏ Phương pháp phân cấp Xử lý nhiễu Không Không Yếu tố nhánh, ngưỡng đường Bộ liệu lớn Hình cầu Có kính Số lượng cụm, Cụm hình dạng Hình dạng số lượng cụm bất kỳ, liệu Có đại diện tương đối lớn Phương pháp dựa mật độ Bán kính cụm, số lượng Cụm hình dạng Hình dạng tối thiểu bất kỳ, liệu Có điểm lớn cụm Bán kính cụm, số lượng Cụm hình dạng Hình dạng Có tối thiểu bất kỳ đối tượng Bán kính cụm (min, Cụm hình dạng Hình dạng max), số lượng Có bất kỳ tối thiểu đối tượng Phương pháp dựa lưới Số lượng ô Hình dạng mức thấp nhất, Dữ liệu không dọc Có số lượng đối gian lớn biên ngang tượng ô n: số lượng đối tượng, k: số lượng cụm, I: số lần lặp Độ phức tạp O(Ikn) O(Ik(n-k)2) O(n) O(n2logn) O(nlogn) O(nlogn) O(nlogn) O(n) 2.3 Kết luận chương Nội dung chương đề cập đến số kỹ thuật phân cụm liệu: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa mật độ, phương pháp dựa lưới số thuật toán tiêu biểu phương pháp Đánh giá thuật toán để từ đưa định lựa chọn thuật toán phù hợp cho toán mà luận văn đưa 11 CHƯƠNG 3: TƯ VẤN HỌC TẬP CHO SINH VIÊN TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO HÀ NỘI DỰA TRÊN KHAI PHÁ DỮ LIỆU 3.1 Giới thiệu toán Trường Đại học Sư phạm Thể dục Thể thao Hà Nội nơi đào tạo đội ngũ giáo viên giáo dục thể chất tương lai cho đất nước Sinh viên trường sau hoàn thành năm sở phải đứng trước việc lựa chọn theo học chuyên sâu nhà trường Một số yếu tố ảnh hưởng tới việc lựa chọn là: - Thứ nhất, sở thích sinh viên Sinh viên đăng ký vào chuyên sâu mà thích - Yếu tố vào lực học tập sinh viên Năng lực học tập phần lớn phản ánh qua thành tích điểm số Với mong muốn giúp sinh viên đưa định đắn việc lựa chọn theo học chuyên sâu phù hợp với lực mà sở thích thân, tác giả có ý tưởng xây dựng hệ thống tư vấn học tập cho sinh viên trường Đại học Sư phạm TDTT Hà Nội Đặc điểm tuyển chọn sinh viên chuyên sâu: Tuyển chọn sinh viên chuyên sâu Bộ môn chuyên sâu tổ chức lãnh đạo Ban Giám hiệu Phòng Đào tạo Phòng ban chức nhà trường Các môn đồng thời tổ chức thi tuyển chọn đầu vào chuyên sâu cho sinh viên trước kỳ học thứ bắt đầu Sinh viên đăng ký theo thứ tự chuyên sâu 1, chuyên sâu 2, chuyên sâu Chuyên sâu nguyện vọng ưu tiên hàng đầu, chuyên sâu Số lượng sinh viên trúng tuyển xét điểm từ tên cao xuống hết tiêu tuyển chọn phải đạt tiêu chuẩn chuyên sâu Sinh viên bị loại từ bước đầu không đáp ứng tiêu chí chiều cao, cân nặng đăng ký vào Bộ môn chuyên sâu (Ví dụ tiêu chí tuyển chọn chuyên sâu Bóng rổ, xem phụ lục) Hiện nay, trường bao gồm môn lý thuyết môn thực hành (với 13 chuyên sâu) Sinh viên với việc học môn học kiến thức sở, xã hội, phần lớn thời gian dành cho việc học tập rèn luyện chuyên sâu thể dục thể thao 12 Tác giả lựa chọn chuyên sâu trường: CS Thể dục, CS Điền kinh, CS Bơi lội CS Bóng rổ để xây dựng hệ thống tư vấn học tập cho sinh viên số lượng sinh viên CS Thể dục CS Điền kinh chiếm lượng lớn tổng số SV toàn trường CS Bơi lội CS Bóng rổ ngày quan tâm nhu cầu xã hội 3.2 Lựa chọn thuật toán Từ tìm hiểu đánh giá số thuật toán phân cụm liệu chương 2, tác giả định lựa chọn thuật toán k–means để áp dụng vào toán mà luận văn đưa Vì tác giả sử dụng liệu toán liệu số liệu điểm số sinh viên (giá trị trải từ - 10 phần tử nhiễu) đáp ứng tốt yêu cầu thuật toán k–means 3.3 Xây dựng hệ thống tư vấn học tập 3.3.1 Mục đích hệ thống - Hệ thống cho phép sinh viên xem danh sách sinh viên thành tích sinh viên đăng ký thi tuyển vào chuyên sâu - Phân cụm điểm sinh viên đăng ký chuyên sâu để từ sinh viên xác định xem thành tích thân nằm khoảng điểm so sánh với tiêu chuyên sâu đưa ra, từ có thái độ học tập, rèn luyện đắn - Đưa thành tích sinh viên, xếp hạng sinh viên chuyên sâu mà thân đăng ký, từ đưa đánh giá sinh viên có khả đỗ vào chuyên sâu mà đăng ký hay không hay phải cố gắng 3.3.2 Yêu cầu hệ thống + Dữ liệu tổ chức hệ quản trị sở liệu Microsoft SQL Server 2008 + Công cụ lập trình sử dụng Microsoft Visual Studio 2008 3.3.3 Phân tích xây dựng hệ thống 3.3.3.1 Cơ sở liệu Dữ liệu thu thập từ phòng Đào tạo gồm đơn đăng ký tuyển chọn CS sinh viên thuộc hệ đại học quy trường Đại học Sư phạm TDTT Hà Nội với thông tin nội dung thi tuyển cách đánh giá môn chuyên sâu (Xem phụ lục) Cơ sở liệu xây dựng tác giả thu thập trích lọc thông tin có ích, gồm bảng sau: - DanhSachSV (MaSV, TenSV, Gioitinh) lưu trữ Mã sinh viên, Tên sinh viên giới tính sinh viên đăng ký vào chuyên sâu 13 - CSTheDuc (NV, TTCoTay, TTCoBung, TTChongDay, TTBatBuc) lưu trữ nguyện vọng thành tích môn: co tay xà đơn, ke bụng thang gióng, chống đẩy, bật bục phút sinh viên đăng ký chuyên sâu Thể dục - CSDienKinh (NV, TTBatXa, TTChayXPC, TTChayCuLyTB, TTDayTa) lưu trữ nguyện vọng thành tích môn: bật xa, chạy 100m xuất phát cao, chạy cự ly trung bình, đẩy tạ sinh viên đăng ký chuyên sâu Điền kinh - CSBoiLoi (NV, TTChongDay, TTBatXa, TTGapCui, TTLatVai) lưu trữ nguyện vọng thành tích môn: chống đẩy, bật xà, gập cúi, lật vai sinh viên đăng ký chuyên sâu Bơi lội - CSBongRo (NV, ChieuCao, CanNang, TTBatCao, TTChayConThoi, TTPhoiHop) lưu trữ nguyện vọng, chiều cao, cân nặng thành tích môn: bật cao với, chạy thoi 5x28m, khả phối hợp vận động sinh viên đăng ký chuyên sâu Bóng rổ Hình 3.1: Các bảng CSDL Ví dụ bảng CSDL sinh viên đăng ký chuyên sâu Thể dục bao gồm: Mã SV, nguyện vọng SV đăng ký (ở CS Thể dục nguyện vọng 1), thành tích môn thi mà SV đăng ký 14 Hình 3.3: Bảng CSDL sinh viên đăng ký chuyên sâu Thể dục 3.3.3.2 Các chức hệ thống - Giao diện hệ thống: Giao diện hệ thống gồm phần: phần bên trái bao gồm danh sách SV đăng ký vào CS thông tin SV Thông tin gồm có: Mã SV, Tên SV, Giới tính, nguyện vọng, thành tích nội dung thi số điểm tương ứng , tổng điểm SV đạt Phần bên phải thống kê, hiển thị thông số cụm: tâm cụm, số SV cụm, điểm cao thấp cụm (sử dụng thuật toán k–means để phân cụm điểm SV); thông tin sinh viên: tên SV, điểm môn, tổng điểm thứ tự SV tổng số SV đăng ký chuyên sâu; cuối đánh giá: Sinh viên có khả đỗ vào chuyên sâu mà đăng ký hay không hay cần phải cố gắng (Hình 3.4) Hình 3.4: Giao diện hệ thống 15 - Truy xuất thông tin sinh viên đăng ký chuyên sâu: kích chọn tên chuyên sâu cần truy xuất thông tin Ví dụ, muốn xem toàn thông tin sinh viên chuyên sâu Điền kinh, ta chọn chuyên sâu Điền kinh mục Chuyên sâu Màn hình hiển thị toàn danh sách sinh viên đăng ký CS Điền kinh (Hình 3.5) Hình 3.5: Thông tin sinh viên đăng ký chuyên sâu Điền kinh - Truy xuất thông tin sinh viên: + Bước 1: chọn chuyên sâu, + Bước 2: nhập Mã SV, Tên SV Màn hình bên trái hiển thị thông tin sinh viên cần tìm kiếm, phần bên phải thống kê bao gồm: thông số cụm, tên sinh viên, điểm thi môn, tổng điểm, thứ tự sinh viên chuyên sâu đăng ký đánh giá sinh viên có khả đỗ vào chuyên sâu đăng ký hay không Ta có hình truy xuất thông tin SV (Hình 3.6) 16 Hình 3.6: Thông tin sinh viên - Phân cụm liệu: thực phân cụm điểm sinh viên cách áp dụng thuật toán k-means Input: Điểm số sinh viên chuyên sâu, số cụm mặc định k=5 (tương ứng với mức đánh giá sinh viên: không đạt, trung bình, trung bình -khá, khá, giỏi) Output: Các cụm với thông tin tâm cụm, số phần tử cụm, điểm số cao thấp cụm Thực phân cụm k-means: PhanCum(float[] _data, int _socum) - Đầu vào: _data: điểm sinh viên môn _socum: số lượng cụm - Đầu ra: mảng phần tử thứ i lưu giá trị cụm mà phần tử thuộc Ví dụ: điểm sinh viên thứ nằm cụm phanbocum[2]=2 Các bước thuật toán: Bước 1: Khởi tạo tâm cụm với hàm KhoiTaoTamCum(_data, _socum); - Đầu vào: _data: điểm sinh viên môn _socum: số lượng cụm - Đầu ra: Một mảng lưu tâm cụm khởi tạo ban đầu Ví dụ cụm thứ i phần tử thứ j ta có _tamcum[i]=j Thực cách chọn ngẫu nhiên phân tử cụm cho phần tử không trùng làm tâm cụm public float[] KhoiTaoTamCum(float[] _data, int _socum) 17 { Random rd = new Random(); float[] _tamcum = new float[_socum]; _tamcum[0] = _data[rd.Next(0, _data.Length - 1)]; for (int i = 1; i < _socum; i++) { bool dung = true; while (dung) { _tamcum[i] = _data[rd.Next(0, _data.Length - 1)]; int k = 0; for (int j = 0; j < i; j++) { if (_tamcum[i] == _tamcum[j]) k++; } if (k == 0) dung = false; } } return _tamcum; } Bước 2: Phân bố phần tử vào cụm với hàm PhanBoCum(float[][] _khoangcach) - Đầu vào: _khoangcach: mảng hai chiều lưu khoảng cách từ phần tử thứ i tới cụm thứ j (có nghĩa tính khoảng cách từ phần tử tới tất cụm) - Đầu ra: mảng thể phân bố phần tử cụm Ví dụ phần tử thứ i nằm cụm j ta có _phanbocum[i]=j Thực cách: tính khoảng cách phần tử tới tâm cụm hàm TinhKhoangCach(float[] _data, float[] _tamcum) Thực so sánh khoảng cách tới tâm phần tử Sau đưa phần tử vào cụm mà có khoảng cách nhỏ public int[] PhanBoCum(float[][] _khoangcach) { int[] _phanbocum = new int[_khoangcach.Length]; for (int i = 0; i < _phanbocum.Length; i++) { _phanbocum[i] = XacDinhCum(_khoangcach[i]); } return _phanbocum; } public int XacDinhCum(float[] _khoangcachcumi) { 18 float = Math.Abs(_khoangcachcumi[0]); int cum = 0; for (int i = 1; i < _khoangcachcumi.Length; i++) { if (Math.Abs(_khoangcachcumi[i]) < min) { = _khoangcachcumi[i]; cum = i; } } return cum; } Xác định lại tâm cụm hàm XacDinhLaiTamCum(float[] _data, int[] _phanbocum, float[] _tamcum) - Đầu vào: _data điểm sinh viên môn _phanbocum: phân bố cụm _tamcum: tâm cụm - Đầu ra: tâm cụm Thực cách: tính tâm cụm cách tính trung bình giá trị phần tử cụm public float[] XacDinhLaiTamCum(float[] _data, int[] _phanbocum, float[] _tamcum) { for (int i = 0; i < _tamcum.Length; i++) _tamcum[i] = 0; int[] _sophantucum = new int[_tamcum.Length]; for (int i = 0; i < _tamcum.Length; i++) _sophantucum[i] = 0; for (int i = 0; i < _data.Length; i++) { for (int j = 0; j < _tamcum.Length; j++) { if (_phanbocum[i] == j) { _tamcum[j] += _data[i]; _sophantucum[j]++; } } } for (int i = 0; i < _tamcum.Length; i++) _tamcum[i] = _tamcum[i] / _sophantucum[i]; return _tamcum; } Phân bố lại cụm với hàm PhanBoCum(float[][] _khoangcach)như 19 Bước 3: Kiểm tra điều kiện dừng với hàm KiemTraDieuKienDung(int[] _phanbocumcu, int[] _phanbocummoi) Thực hiện: kiểm tra xem có thay đổi cụm hay không Bằng cách kiểm tra xem sau thực bước phân bố cụm có thay đổi hay không? public bool KiemTraDieuKienDung(int[] _phanbocumcu, int[] _phanbocummoi) { int dem = 0; for (int i = 0; i < _phanbocumcu.Length; i++) { if (_phanbocumcu[i] != _phanbocummoi[i]) dem++; } if (dem == 0) return false; else return true; } Kết sau thực phân cụm điểm SV cách sử dụng thuật toán k– means (Hình 3.8) Hình 3.8: Phân cụm điểm sinh viên - Tư vấn cho SV thông qua điểm môn, tổng điểm thứ hạng sinh viên tổng số sinh viên đăng ký chuyên sâu, đánh giá SV có khả đỗ vào chuyên sâu đăng ký hay không Sinh viên có khả đỗ vào chuyên sâu đăng ký điểm môn điểm trung bình môn đạt điểm trở lên (7 điểm) Hình 3.9: Kết điểm môn thi đánh giá cho sinh viên 20 3.4 Kết luận chương Nội dung chương giới thiệu toán thực tế việc đào tạo đặc điểm tuyển chọn sinh viên chuyên sâu trường Đại học Sư phạm TDTT Hà Nội Dựa khai phá liệu ứng dụng thuật toán k-means tác giả xây dựng hệ thống tư vấn học tập giúp sinh viên định hướng đánh giá lực thân, từ có kế hoạch học tập rèn luyện đắn để đạt kết học tập tối ưu 21 KẾT LUẬN Kết đạt Luận văn “Ứng dụng khai phá liệu để tư vấn học tập trường Đại học Sư phạm Thể dục Thể thao Hà Nội” trình bày số vấn đề sau: Tổng quan khám phá tri thức ứng dụng khai phá liệu lưu trữ hệ thống thông tin Khai phá liệu ứng dụng nhiều lĩnh vực khác sống, đặc biệt ứng dụng khai phá liệu giáo dục Một số kỹ thuật phân cụm liệu: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa mật độ, phương pháp dựa lưới Các thuật toán điển hình phương pháp đánh giá thuật toán để lựa chọn thuật toán k–means áp dụng toán mà luận văn đưa Dựa khai phá liệu, tác giả xây dựng hệ thống tư vấn học tập cho SV trường Đại học Sư phạm TDTT Hà Nội Áp dụng thuật toán k–means để phân cụm điểm sinh viên đăng ký chuyên sâu, giúp sinh viên xác định thành tích thân Từ có kế hoạch học tập rèn luyện đắn để đạt kết học tập tốt Hướng phát triển - Để trình tư vấn học tập có hiệu quả, cần xây dựng hệ thống hoàn chỉnh hỗ trợ trình đào tạo (hỗ trợ thêm chức năng: dự báo kết học tập sinh viên, ) - Xem xét nghiên cứu thêm số ứng dụng khác khai phá liệu vào toán thực tế giáo dục [...]... học tập tối ưu 21 KẾT LUẬN Kết quả đạt được Luận văn Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục Thể thao Hà Nội đã trình bày được một số vấn đề sau: Tổng quan về khám phá tri thức và ứng dụng khai phá các dữ liệu được lưu trữ trong các hệ thống thông tin Khai phá dữ liệu được ứng dụng nhiều trong các lĩnh vực khác nhau của cuộc sống, đặc biệt là ứng dụng khai phá. .. cụm dữ liệu: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa trên mật độ, phương pháp dựa trên lưới và một số thuật toán tiêu biểu của từng phương pháp Đánh giá từng thuật toán để từ đó có thể đưa ra quyết định lựa chọn thuật toán phù hợp cho bài toán mà luận văn đưa ra 11 CHƯƠNG 3: TƯ VẤN HỌC TẬP CHO SINH VIÊN TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO HÀ NỘI DỰA TRÊN KHAI PHÁ DỮ LIỆU... chương Nội dung chương đã giới thiệu bài toán thực tế về việc đào tạo và đặc điểm tuyển chọn sinh viên chuyên sâu của trường Đại học Sư phạm TDTT Hà Nội Dựa trên khai phá dữ liệu và ứng dụng thuật toán k-means tác giả đã xây dựng được hệ thống tư vấn học tập giúp các sinh viên có thể định hướng và đánh giá được năng lực của bản thân, từ đó có kế hoạch học tập và rèn luyện đúng đắn để đạt được kết quả học. .. PHẠM THỂ DỤC THỂ THAO HÀ NỘI DỰA TRÊN KHAI PHÁ DỮ LIỆU 3.1 Giới thiệu bài toán Trường Đại học Sư phạm Thể dục Thể thao Hà Nội là nơi đào tạo ra đội ngũ giáo viên giáo dục thể chất tư ng lai cho đất nước Sinh viên trong trường sau khi hoàn thành năm đầu tiên cơ sở phải ứng trước việc lựa chọn theo học một chuyên sâu tại nhà trường Một số yếu tố ảnh hưởng tới việc lựa chọn này là: - Thứ nhất, là sở thích... phá dữ liệu trong giáo dục Một số kỹ thuật phân cụm dữ liệu: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa trên mật độ, phương pháp dựa trên lưới Các thuật toán điển hình trong từng phương pháp và đánh giá các thuật toán để lựa chọn được thuật toán k–means áp dụng trong bài toán mà luận văn đưa ra Dựa trên khai phá dữ liệu, tác giả đã xây dựng được hệ thống tư vấn học tập cho SV trường. .. giả đã xây dựng được hệ thống tư vấn học tập cho SV trường Đại học Sư phạm TDTT Hà Nội Áp dụng thuật toán k–means để phân cụm điểm của sinh viên đăng ký chuyên sâu, giúp sinh viên có thể xác định thành tích của bản thân Từ đó có kế hoạch học tập và rèn luyện đúng đắn để đạt được kết quả học tập tốt nhất Hướng phát triển - Để quá trình tư vấn học tập có hiệu quả, cần xây dựng một hệ thống hoàn chỉnh hỗ... cầu hệ thống + Dữ liệu được tổ chức trên hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2008 + Công cụ lập trình sử dụng Microsoft Visual Studio 2008 3.3.3 Phân tích xây dựng hệ thống 3.3.3.1 Cơ sở dữ liệu Dữ liệu được thu thập được từ phòng Đào tạo gồm các đơn đăng ký tuyển chọn CS của sinh viên thuộc hệ đại học chính quy tại trường Đại học Sư phạm TDTT Hà Nội cùng với thông tin về các nội dung thi... vào chính năng lực học tập của sinh viên Năng lực học tập phần lớn được phản ánh qua thành tích và điểm số Với mong muốn giúp các sinh viên có thể đưa ra một quyết định đúng đắn trong việc lựa chọn theo học một chuyên sâu phù hợp với năng lực mà vẫn đúng sở thích của bản thân, tác giả đã có ý tư ng xây dựng một hệ thống tư vấn học tập cho sinh viên trường Đại học Sư phạm TDTT Hà Nội Đặc điểm tuyển... giá một số thuật toán phân cụm dữ liệu trong chương 2, tác giả đã quyết định lựa chọn thuật toán k–means để áp dụng vào bài toán mà luận văn đưa ra Vì tác giả sử dụng dữ liệu bài toán là các dữ liệu số và các dữ liệu điểm số của sinh viên (giá trị chỉ trải từ 0 - 10 và không có phần tử nhiễu) đáp ứng tốt yêu cầu của thuật toán k–means 3.3 Xây dựng hệ thống tư vấn học tập 3.3.1 Mục đích của hệ thống... hội, thì phần lớn thời gian dành cho việc học tập và rèn luyện chuyên sâu thể dục thể thao 12 Tác giả lựa chọn 4 chuyên sâu của trường: CS Thể dục, CS Điền kinh, CS Bơi lội và CS Bóng rổ để xây dựng hệ thống tư vấn học tập cho sinh viên vì số lượng sinh viên của CS Thể dục và CS Điền kinh chiếm lượng lớn trong tổng số SV toàn trường CS Bơi lội và CS Bóng rổ đang ngày càng được quan tâm hơn do nhu cầu
- Xem thêm -

Xem thêm: Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà Nội, Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà Nội, Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà Nội

Gợi ý tài liệu liên quan cho bạn

Nạp tiền Tải lên
Đăng ký
Đăng nhập