Ứng dụng Random Forest để tư vấn chọn lộ trình học trong học chế tín ch

26 90 0
  • Loading ...
Loading...
1/26 trang

Thông tin tài liệu

Ngày đăng: 22/04/2017, 18:02

Header Page of 145 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN HOÀNG BÌNH ỨNG DỤNG RANDOM FOREST ĐỂ TƯ VẤN CHỌN LỘ TRÌNH HỌC TRONG HỌC CHẾ TÍN CHỈ Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2015 Footer Page of 145 Header Page of 145 Chương trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH Phản biện 1: TS Phạm Minh Tuấn Phản biện 2: GS TS Nguyễn Thanh Thủy Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ Kỹ thuật chuyên ngành Khoa học máy tính họp Đại học Đà Nẵng vào ngày 18 tháng7 năm 2015 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 145 Header Page of 145 MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, công nghệ thông tin phát triển mạnh mẽ việc ứng dụng cộng nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội làm lượng liệu thu thập lưu trữ hệ thống thông tin tăng lên cách nhanh chóng dẫn tới bùng nổ thông tin Lượng liệu tài nguyên vô giá biết cách phát khai thác thông tin hữu ích có Các phương pháp khai thác liệu truyền thống ngày không đáp ứng cầu thục tế Với lý đó, để đáp ứng nhu cầu xử lý, phân tích, sử dụng thông tin hiệu hơn, làm phát triển kỹ thuật với kỹ thuật cho phép ta khai thác tri thức hữu dụng từ CSDL lớn gọi kỹ thuật khai phá liệu Các kỹ thuật khai phá liệu đời cho phép ta khai thác tri thức hữu dụng việc trích xuất thông tin có mối quan hệ mối tương quan định từ kho liệu lớn (cực lớn) mà bình thường nhận diện từ giải toán tìm kiếm, dự báo xu thế, hành vi tương lai, nhiều tính thông minh khác Các kỹ thuật khai phá liệu ứng dụng nhiều lĩnh vực như: kinh tế, tài chính, y tế, giáo dục Trong việc ứng dụng khai phá liệu vào nhiều lĩnh vực khác đời sống, khai phá liệu lĩnh vực giáo dục dần có quan tâm mức Giáo dục đào tạo có nhiệm vụ định hướng hoạch định sách tương lai cách đắn kịp thời Để đối tượng giáo dục Footer Page of 145 Header Page of 145 hệ trẻ, lực lượng kế thừa việc xây dựng, bảo vệ phát triển đất nước có môi trường tốt phát huy khả Ngày nay, trường đại học cao đẳng đa số chuyển sang đào tạo theo học chế tín Việc tư vấn học tập, liên quan đến lựa chọn lộ trình học học chế tín phù hợp nhầm đạt kết học tập cao cho sinh viên quan tâm Trước thực tế đồng ý TS Nguyễn Trần Quốc Vinh, chọn đề tài “Ứng dụng Random Forest để tư vấn chọn lộ trình học học chế tín chỉ” Mục tiêu nhiệm vụ - Nghiên cứu khai phá liệu, phân lớp liệu Random Forest - Ứng dụng để khai phá liệu sinh viên, qua tư vấn chọn lộ trình học học chế tín phù hợp cho sinh viên để đạt kết tốt Đối tượng phạm vi nghiên cứu a Đối tượng nghiên cứu - Các kỹ thuật khai phá liệu; - Tổng quan phân lớp liệu; - Random Forest; b Phạm vi nghiên cứu - Triển khai kỹ thuật khai phá liệu sử dụng phân lớp liệu dựa định Random Forest - Dữ liệu trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam gồm: kết học tập thông tin nhân 2000 sinh viên với cách ngành học sau: Kế toán, Quản trị, Quản lý đất đai, Nuôi trồng thủy sản, Lâm nghiệp Footer Page of 145 Header Page of 145 Phương pháp nghiên cứu a Nghiên cứu lý thuyết - Tổng hợp nghiên cứu tài liệu liên quan lý thuyết khai phá liệu, phân lớp liệu, định Random Forest - Phân tích thiết kế mô hình phân lớp với Random Forest b Nghiên cứu thực nghiệm - Sử dụng mô hình Random Forest CSDL lý lịch, lộ trình học chế tín chỉ, kết học tập sinh viên trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam để tạo mô hình phân lớp để dự đoán kết học tập - Ứng dụng để tư vấn chọn lộ trình học cho sinh viên Ý nghĩa khoa học thực tiễn đề tài a Về mặt khoa học - Nghiên cứu Khai phá liệu: lý thuyết tổng quan, ý nghĩa, ứng dụng - Nghiên cứu phân lớp khai phá liệu - Nghiên cứu Random Forest việc dự đoán phân loại thông tin b Về mặt thực tiễn Ứng dụng việc dự khai phá liệu học tập để tư vấn chọn lộ trình học học chế tín giúp sinh viên đạt kết tốt kỳ học Bố cục luận văn Nội dụng luận văn chia thành chương: Chương 1: Nghiên cứu tổng quan, chương giới thiệu tổng quan khai phá liệu, kỹ thuật khai phá liệu, mô hình tổng quan khai phá liệu Giới thiệu phân lớp liệu định phân lớp liệu, thuật toán xây dựng định Footer Page of 145 Header Page of 145 Chương 2: Nghiên cứu random forest ứng dụng để xây dựng mô hình cho toán, chương nghiên cứu tổng quan random forest, thuật toán mô hình phân lớp với random forest Ứng dụng để xây dựng mô hình phân lớp với liệu sinh viên trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam nhằm dự đoán kết học tập cho sinh viên Chương 3: Đánh giá kết mô hình random forest ứng dụng để tư vấn lộ trình học cho sinh viên, chương trình bày kết phân lớp liệu random forest so sánh với số phương pháp cũ sử dụng nhiều Ứng dụng mô hình phân lớp để tư vấn lộ trình học học chế tín cho sinh viên CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lược khai phá liệu Có thể có định nghĩa khai phá liệu sau: Khai phá liệu trình phát mô hình, tổng kết khác giá trị lấy từ tập liệu cho trước [9] Hay, định nghĩa sau: Khai phá liệu dùng để mô tả trình phát tri thức CSDL, trình khảo sát phân tích khối lượng lớn liệu lưu trữ sở liệu, kho liệu…để tìm mối quan hệ, mối liên kết liệu mà bình thường khó nhận diện được, từ trích xuất thông tin lạ, có ích, có giá trị tìm ẩn bên 1.1.2 Mô hình khai phá liệu 1.1.3 Các chức khai phá liêu Footer Page of 145 Header Page of 145 1.1.4 Ứng dụng khai phá liệu 1.1.5 Các bước xây dựng hệ thống khai phá liệu a Mô hình luồng liệu b Các bước hệ thống khai phá liệu 1.1.6 Kiến trúc điển hình hệ thống phai liệu Kiến trúc hệ thống khai phá liệu điển hình thường gồm thành phần sau: Hình 1.3 Kiến trúc điển hình hệ thống khai phá liệu 1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 1.2.1 Phân lớp liệu Ngày phân lớp liệu (classification) hướng nghiên cứu khai phá liệu Thực tế đặt nhu cầu từ sỡ liệu với nhiều thông tin ẩn người trích rút định nghiệp vụ thông minh Footer Page of 145 Header Page of 145 1.2.2 Quá trình phân lớp liệu Quá trình phân lớp gồm bước: Bước thứ (learning): trình học nhầm xây dựng mô hình mô tả tập lớp liệu hay khái niệm định trước Bước thứ hai (classification): bước dùng mô hình xây dựng bước thứ để phân lớp liệu 1.2.3 Một số kỹ thuật phân lớp liệu Có thể liệt kê kỹ thuật phân lớp sử dụng năm qua: - Phân lớp định (Decision tree classification) - Bộ phân lớp Bayesian (Bayesian classifier) - Mô hình phân lớp K-hàng xóm gần (K-nearest neighbor classifier) - Mạng nơron - Phân tích thống kê - Các thuật toán di truyền - Phương pháp tập thô (Rough set Approach) 1.2.4 Các vấn đề liên quan đến phân lớp liệu a Chuẩn bị liệu cho viêc phân lớp b So sánh mô hình phân lớp c Phương pháp đánh giá độ xác mô hình phân lớp 1.3 CÂY QUYẾT ĐỊNH TRONG PHÂN LỚP DỮ LIỆU 1.3.1 Giới thiệu Cây định biểu đồ phát triển có cấu trúc dạng cây, mô tả sau: Footer Page of 145 Header Page of 145 Hình 1.12 Ví dụ định Trong định: - Gốc: nút - Nút trong: biểu diễn kiểm tra thuộc tính đơn (hình chữ nhật) - Nhánh: biểu diễn kết kiểm tra nút (mũi tên) - Nút lá: biểu diễn lớp hay phân phối lớp (hình tròn) Để phân lớp mẫu liệu chưa biết, giá trị thuộc tính mẫu đưa vào kiểm tra định Mỗi mẫu tương ứng có đường từ gốc đến biểu diễn dự đoán giá trị phân lớp mẫu 1.3.2 Đánh giá định lĩnh vực khai phá liệu Cây định có ưu điểm sau: - Câu định dễ hiểu - Dễ dàng tính toán phân lớp - Khả xử lý với thuộc tính liên tục thuộc tính rời rạc Footer Page of 145 Header Page 10 of 145 - Thể rõ ràng thuộc tính tốt 1.3.3 Xây dựng định a Quá trình xây dựng định Gồm giai đoạn: - Giai đoạn thứ phát triển định - Giai đoạn thứ hai cắt, tỉa bớt cành nhánh định b Thuật toán xây dựng định Tư tưởng chung Các thuật toán phân lớp C4.5 (Quinlan, 1993), CDP (Agrawal tác giả khác, 1993), SLIQ (Mehta tác giả khác, 1996) SPRINT (Shafer tác giả khác, 1996) sử dụng phương pháp Hunt làm tư tưởng chủ đạo Phương pháp Hunt đồng nghĩ vào năm cuối thập kỷ 50 đầu thập kỷ 60 [9] 1.3.4 Xây dụng định thuật toán C4.5 a Thuật toán C4.5 C4.5 kế thừa của thuật toán học máy định dựa tảng kết nghiên cứu HUNT cộng ông (Hunt 1962) Phiên đời ID3 (Quinlan, 1979) Năm 1993, J Ross Quilan kế thừa kết phát triển thành C4.5 Tư tưởng phát triển định C4.5 phương pháp HUNT Chiến lược phát triển theo độ sâu (depth-first strategy) áp dụng cho C4.5 Thuật toán xét tất phép thử để phân chia tập liệu cho chọn phép thử có giá trị Gain Ratio tốt Gain Ratio đại lượng để đánh giá độ hiệu thuộc tính dùng để thực phép tách thuộc toán để phát triển Footer Page 10 of 145 Header Page 12 of 145 10 Mã giả thuật toán C4.5 [9]: Hình 1.13 Mã giải thuật toán C4.5 b C4.5 dùng Gain Ratio làm độ đo lựa chọn thuộc tính “tốt nhất” c Chuyển đổi từ định sang luật d C4.5 thuật toán hiệu cho liệu vừa nhỏ CHƯƠNG NGHIÊN CỨU RANDOM FOREST VÀ ỨNG DỤNG ĐỂ XÂY DỰNG MÔ HÌNH CHO BÀI TOÁN 2.1 RANDOM FOERST 2.1.1 Cơ sở định nghĩa Random Forest phương pháp học quần thể để phân loại, hồi quy nhiệm vụ khác, hoạt động cách xây dựng vô số định thời gian đào tạo đầu tập hợp mô hình phân lớp hồi quy riêng biệt Nó Footer Page 12 of 145 Header Page 13 of 145 11 nhóm phân loại hồi quy không cắt tỉa làm từ lựa chọn ngẫu nhiên mẫu liệu huấn luyện Tính ngẫu nhiên chọn trình cảm ứng Dự đoán thực cách kết hợp dự đoán quần thể (đa số phiếu để phân loại trung bình cho hồi quy) 2.1.2 Tóm tắt giải thuật - Đầu vào tập liệu đào tạo - Đầu mô hình Random Forest, Random Forest tập hợp nhiều định Ntree Với Cây Ntree xây dựng sử dụng thuật toán sau [15]: + Với N số lượng trường hợp liệu đào tạo, M số lượng biến việc phân loại + Lấy m số biến đầu vào sử dụng để xác định việc phân chia Nút cây, m < M + Chọn tập huấn luyện cho cách chọn n ngẫu nhiên với thay từ tất trường hợp đào tạo có sẵn N Sử dụng phần lại để ước lượng lỗi cây, cách dự đoán lớp chúng + Với nút cây, chọn ngẫu nhiên m sở phân chia nút (độc lập với nút) Tính chia tốt dựa biến m tập huấn luyện n + Mỗi trồng hoàn toàn không tỉa ( sử dụng vệ xây dựng phân loại bình thường) Đối với dự doán đưa vào Nó gán nhãn mẫu đạo tạo nút cuối để kết thúc Thủ tục lập lại qua tất Ntree, đa số phiếu bình chọn với phân lớp hay Footer Page 13 of 145 Header Page 14 of 145 12 trung bình với hồi quy Ntree dự đoán mô hình 2.1.3 Đặc điểm Random Forest Random forest có đặc điểm sau [16]: - Nó đạt xác cao thuật toán hành - Nó chạy hiệu sở liệu lớn - Nó xử lý hàng ngàn biến đầu vào mà không cần xóa biến - Nó cung cấp ước tính biến quan trọng việc phân loại - Nó tạo ước lượng không chênh lệnh lỗi nội lỗi tổng quan trình phát triển rừng - Nó có phương pháp hiệu để ước lượng liệu bị trì độ xác tỷ lệ lớn liệu bị 2.1.4 Mô hình phân lớp với Random Forest Hình 2.1 Mô hình phân lớp với Random Forest Footer Page 14 of 145 Header Page 15 of 145 13 2.1.5 Tạo n tập huấn luyện cách sử dụng bootstrap Bootstrap ? Là phương pháp tiếng thống kê giới thiệu Bradley Efron vào năm 1979 Phương pháp chủ yếu dùng để ước lượng lỗi chuẩn (standard errors), độ lệch (bias) tính toán khoảng tin cậy (confidence interval) cho tham số Phương pháp thực sau: từ quần thể ban đầu lấy mẫu L = (x1, x2, xn) gồm n thành phần, tính toán tham số mong muốn Trong bước lặp lại b lần việc tạo mẫu Lb gồm n phần từ từ L cách lấy lại mẫu với thay thành phần mẫu ban đầu sau tính toán tham số mong muốn 2.1.6 Xây dựng ngẫu nhiên 2.1.7 Một số so sánh phương pháp phân lớp cách sử dụng định thuật toán C4.5 Random Forest 2.2 XÂY DỰNG MÔ HÌNH PHÂN LỚP BẰNG RANDOM FOREST ĐÊ GIẢI QUYẾT BÀI TOÁN 2.2.1 Yêu cầu toán - Cho kho liệu lưu giữ thông tin lý lịch kết học tập gần 2000 sinh viên tốt nghiệp trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam Sử dụng random forest với liệu để tạo mô hình phân lớp cho việc dự đoán kết học tập cuối khóa sinh viên Ứng dụng kết dự đoán để tư vấn lộ trình học cho sinh viên vào trường 2.2.2 Xữ lý liệu Dữ liệu thu thập bao gồm: Footer Page 15 of 145 Header Page 16 of 145 14 - Thông tin cá nhân tuyển sinh gần 2000 sinh viên thu thập tổ chức thành bảng thương ứng với gần 1957 ghi - Thông tin 12 ngành học 330 môn học tất ngành - Gần 6000 ghi chứa kết học tập môn học gần 2000 sinh viên - Hơn 8000 ghi chứa kết học tập kỳ số sinh viên - Gần 2000 ghi kết toàn khóa số sinh viên Từ liệu ta xác định lộ trình học liệu cho việc khai phá v Xác định lộ trình học Lộ trình học liệt kê tất môn học theo thứ tự từ đầu đến cuối sinh viên cần học để kết thúc khóa học Được xây dựng sau: - Từ danh sách môn học, học kỳ điểm môn học ta thực liệt kê tất môn học theo thứ tự từ đầu đên cuối tất sinh viên - Qua đó, liệt kê danh sách tất lộ trình học cho ngành (tất sinh có lộ trình học giống gộp lại thành MALOTRINH theo ngành học đó) ð Xây dựng bảng gồm 68 MALOTRINH cho tất 12 ngành học Bảng 2.3 sau: Footer Page 16 of 145 15 Header Page 17 of 145 Bảng 2.3 Liệt kê danh sách tất lộ trình ngành MANGANH LoTrinh MALOTRINH DIEN An toàn điện(1);Anh văn I(1);Cơ sở kỹ thuật điện I(1);Chính trị 1(1);… HCVT Anh văn I(1);Chính trị 1(1);Giáo dục thể chất(1);Luật hành chính(1);… HCVT Anh văn I(1);Chính trị 1(1);HP & luật TC cỏc CQNN(1);Luật hành chính(1);… … … … v Xây dựng liệu khai phá Xây dựng bảng liệu từ thông tin đầu vào sinh viên (phái, dân tộc, khối thi, điểm thi đầu vào…), lộ trình học kết học sinh viên Ta Bảng 2.4 với thuộc tính sau: Bảng 2.4 Bảng liệu để khai phá MASV PHAI CĐ 01KT 0002 CĐ 01KT 0003 CĐ 01KT 0004 CĐ 01KT 0005 … KHOI DAN MA KHU DIEM MA MALO KET THI TOC HUYEN VUC THI NGANH TRINH QUA A Kinh 2NT 9,5 KT 48 K D1 Kinh 2NT 10 KT 48 K D1 Kinh 17 2NT 10,5 KT 48 K D1 Kinh 2NT 10 KT 48 K … … … … … … … … … Footer Page 17 of 145 16 Header Page 18 of 145 2.2.3 Xây dựng mô hình phân lớp với Random Forest Sử dụng giải thuật mục 2.1.2 với: - Đầu vào: liệu sinh viên trường Cao Đẳng Kinh tế - Kỹ thuật Quảng Nam - Đầu ra: tập hợp định để dự doán liệu 2.2.4 Mô hình tổng quát Hình 2.11 Mô hình tổng quát Random Forest để phân lớp cho toán 2.2.5 Ước tính độ xác mô hình Ước tính độ xác mô hình cách sử dụng k-fold cross validation với k=10 Tập liệu ban đầu chia ngẫu nhiên thành 10 tập (fold) có kích thước xấp xỉ S1, S2, …, S10 Quá trình học kiểm tra thực 10 lần Tại lần lặp thứ i, Si tập liệu kiểm tra, tập lại hợp thành tập liệu đào tạo gọi Ri Footer Page 18 of 145 Header Page 19 of 145 17 Với fold i (lần chạy i), ta thực hiên bước sau (với i=1 10): - Xây dựng mô hình random forest với liệu đào tạo Ri, bước xây dựng mô hình phần 2.2.3 liệu đào vào liệu đạo tào Ri - Với liệu kiểm tra Si ta lấy lớp cần phân lớp (ở lớp KETQUA) - Sử dung mô hình xây dựng để dự doán liệu kiểm tra n sau lấy lớp KETQUA (dự đoán với liệu mới) - So sánh kết dự đoán với lớp KETQUA liệu kiểm tra n lấy - Độ xác fold i số dự đoán xác với lần i chia cho tổng số mẫu liệu Si ð Độ xác mô hình trung bình độ xác 10 fold Hoặc: ð Độ xác mô hình tổng số dự đoán xác 10 fold chia cho tổng số mẫu liệu ban đầu Footer Page 19 of 145 Header Page 20 of 145 18 CHƯƠNG ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH RANDOM FOREST VÀ ỨNG DỤNG ĐỂ TƯ VẤN LỘ TRÌNH HỌC CHO SINH VIÊN 3.1 KẾT QUẢ CHẠY MÔ HÌNH PHÂN LỚP VÀ ĐÁNH GIÁ ĐỘ CHÍNH XÁC 3.1.1 Mô hình Random Forest a Kết mô hình Random Forest Hình 3.1 Mô hình Random Forest (1) Với kết mô hình tập hợp 25 ngẫu nhiên với thuộc tính chọn xem xét chia Mỗi biểu diễn Cách biểu diễn giúp ta biểu diễn có kích thước lớn để dễ cho việc sử dụng Footer Page 20 of 145 Header Page 21 of 145 19 Ví dụ: với phần Hình 3.1 ta vẽ thành sau Hình 3.2 Ví dụ định b Đánh giá độ xác mô hình Đánh giá độ xác mô hình cách sử dụng k-fold cross validation với k=10 Kết với lần chạy (fold) là: - Fold 1: Đúng 170/196 => 86,7347% (Out of bag error: 0.1493) Hình 3.3 Độ xác mô hình random forest- fold Footer Page 21 of 145 20 Header Page 22 of 145 Tương tự với lần chạy lại: - Fold 2: Đúng 171/196 => 87,2449% (Out of bag error: 0.1516) - Fold 3: Đúng 172/196 => 87,7551% (Out of bag error: 0.1545) - Fold 4: Đúng 175/196 => 89,2857% (Out of bag error: 0.1454) - Fold 5: Đúng 170/196 => 86,7347% (Out of bag error: 0.1459) - Fold 6: Đúng 160/196 => 81,6327% (Out of bag error: 0.1397) - Fold 7: Đúng 172/196 => 87,7551% (Out of bag error: 0.1442) - Fold 8: Đúng 162/196 => 83,0769% (Out of bag error: 0.1436) - Fold 9: Đúng 171/196 => 87,6923% (Out of bag error: 0.1566) - Fold10: Đúng 166/196 => 85,1282% (Out of bag error: 0.1493) ð Kết độ xác : Đúng 1689/1957 => 86,3040% Hình 3.4 Kết Độ xác mô hình Random Forest 3.1.2 Mô hình định thuật toán C4.5 a Kết mô hình định thuật toán C4.5 b Đánh giá độ xác mô hình 3.2 SO SÁNH KẾT QUẢ VỚI MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP KHÁC Các phương pháp BayesNet, NaivaBayes, BFTree, SimpleCart đây, xây dựng đánh giá độ xác công cụ weka với sở liệu 1957 sinh viên (Bảng 2.5) sử dụng phương pháp 10-fold cross validation Footer Page 22 of 145 21 Header Page 23 of 145 Bảng 3.1 Bảng So sánh độ xác số phương pháp phân lớp Độ xác Độ sai lệch C4.5 84,5682% 15,4318% Random Forest 86,3056% 13,6944% BayesNet 78,743% 21,257% NaiveBayes 76,8012% 23,1988% BFTree 85,1303% 14,8697% SimpleCart 84,3127% 15,6873% ð Kết cho thấy Random Forest cho độ xác tốt so với mô hình phân lớp thường dùng 3.3 ỨNG DỤNG TƯ VẤN CHỌN LỘ TRÌNH CHO SINH VIÊN Cách tư vấn: với thông tin đầu vào sinh viên => chọn tất lộ trìnhcó khả => dự đoán xếp loại với tất lộ trình => chọn dự đoán xếp loại tốt => tư vấn lộ trình có dự đoán tốt 3.4 DEMO CHƯƠNG TRÌNH v Giao diện Footer Page 23 of 145 Header Page 24 of 145 22 Hình 3.10 Giao diện chương trình demo Có chức mô hình tư vấn: - Mô hình: cho xem mô hình phân lớp đươc tạo định, random forest đánh giá độ xác mô hình - Tư vấn: tư vấn chọn lộ trình học để sinh viên có kết học tập tốt theo mô hình random forest với giá trị numTree= 25, numFeatrues= 5, maxdepth= v Giao diện mô hình phân lớp Hình 3.13 Giao diện mô hình phân lớp(3)- Random Forest Gồm lựa chọn với mô hình phân lớp là: Decision tree (C4.5) (cây định tạo với thuật toán C4.5) Random Forest Footer Page 24 of 145 Header Page 25 of 145 23 v Giao diên tư vấn chọn lộ trình học cho sinh viên Hình 3.15 Giao diện ứng dụng tư vấn (2) - Với phần thông tin: ta điền thông tin sinh viên cần tư vấn - Với phần kết quả: + Khung bên trái: cho kết tư vấn lộ trình học cho sinh viên + Khung bên phải: cho ta thấy tất môn học cho lộ trình Footer Page 25 of 145 Header Page 26 of 145 24 KẾT LUẬN Về lý thuyết, luận văn trình bày sở lý thuyết liên quan đến khai phá liệu, phân lớp liệu, thuật toán định Random Forest Nghiên cứu quy trình triển khai ứng dụng khai phá liệu, ứng dụng Random Forest để tạo mô hình phân lớp, bước quan trọng quy trình khai phá liệu Đối với toán tư vấn chọn lộ trình học học chế tín chỉ, luận văn xây dựng mô hình phân lớp dự Random Forest, đá giá độ xác mô hình so sánh với số mô hình phân lớp thường sử dụng phân lớp phương pháp định, phương pháp Bayes…và kết cho thấy Random Forest cho kết tốt Bên cạnh đó, luận văn xây dựng chương trình demo hiển thị mô hình Random Forest, ứng dụng tư vấn chọn lộ trình học cho sinh viên Với khả ứng dụng kết này, giúp sinh viên lựa chọn cho lộ trình học phù hợp với điều kiện lực thân để đạt kết tốt học tập Nhìn chung luận văn hoàn thành mục tiêu đề Để đưa mô hình dự đoán vào ứng dụng tư vấn cách hiệu cần tiếp tục thu thập dư liệu sinh viên nhiều hơn, phong phú Có thể nhận thấy việc ứng dụng Random Forest để tư vấn chọn lộ trình học học chế tín hướng tiếp cận đắn có tính thực tiễn cao, mang lại hiệu cao so với phương pháp thường sử dụng (được nên Bảng 3.1) Footer Page 26 of 145 ... lớp liệu, định Random Forest - Phân t ch thiết kế mô hình phân lớp với Random Forest b Nghiên cứu thực nghiệm - Sử dụng mô hình Random Forest CSDL lý l ch, lộ trình học ch tín ch , kết học tập... Nguyễn Trần Quốc Vinh, ch n đề tài “Ứng dụng Random Forest để tư vấn ch n lộ trình học học ch tín ch ” Mục tiêu nhiệm vụ - Nghiên cứu khai phá liệu, phân lớp liệu Random Forest - Ứng dụng để khai... Header Page of 145 Ch ơng 2: Nghiên cứu random forest ứng dụng để xây dựng mô hình cho toán, ch ơng nghiên cứu tổng quan random forest, thuật toán mô hình phân lớp với random forest Ứng dụng để
- Xem thêm -

Xem thêm: Ứng dụng Random Forest để tư vấn chọn lộ trình học trong học chế tín ch, Ứng dụng Random Forest để tư vấn chọn lộ trình học trong học chế tín ch, Ứng dụng Random Forest để tư vấn chọn lộ trình học trong học chế tín ch

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay
Nạp tiền Tải lên
Đăng ký
Đăng nhập