ỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT

78 384 0
ỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 137 BỘ GIÁO DỤC VÀO ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG NGUYỄN ĐẶNG THẾ VINH ỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH - 2014 Footer Page of 137 Header Page of 137 BỘ GIÁO DỤC VÀO ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG NGUYỄN ĐẶNG THẾ VINH ỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH - NĂM 2014 Footer Page of 137 Header Page of 137 CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN Luận văn tựa đề: “Ứng dụng khai phá liệu chọn ngành nghề cho học sinh THPT” công trình “Nguyễn Đặng Thế Vinh” thực nộp nhằm thỏa phần yêu cầu tốt nghiệp thạc sĩ chuyên ngành Khoa Học Máy Tính Chủ tịch Hội đồng Giảng viên hướng dẫn ………………………… ………………………… TS Bùi Văn Minh TS Võ Đình Bảy (Trưởng ngành Khoa học máy tính, (Giám đốc Trung tâm Tin học, Trường ĐH Quốc tế Hồng Bàng) Trường ĐH Tôn Đức Thắng) Ngày… tháng … năm 2014 Ngày… tháng … năm 2014 Ngày bảo vệ luận văn, Tp.HCM, Ngày 11 tháng năm 2014 Viện Đào Tạo Sau Đại Học Trường Đại học Quốc tế Hồng Bàng …………………… Footer Page of 137 i Header Page of 137 LÝ LỊCH CÁ NHÂN - Họ tên: Nguyễn Đặng Thế Vinh - Ngày sinh: 15/10/1982 - Nơi sinh: Ninh Thuận - Tốt nghiệp THPT trường Nguyễn Du, năm 2000 - Quá trình công tác: Thời gian Nơi công tác Chức vụ 2003-2004 Công ty CP máy tính Scitec P.Trưởng phòng kỹ thuật 2005-2009 Trường Cao đẳng GTVT Quản lý giáo vụ giảng dạy trung tâm FCM 2010-2012 2012-nay Trường Cao đẳng Viễn Trưởng Phòng Đào tạo, Phó Giám đốc Đông Trung tâm Tin học Trường Cao đẳng Viễn Phó Giám đốc Trung tâm Tin học, Đông giảng viên khoa CNTT - Địa liên lạc: 58 Tổ 8, Ấp Liên ấp 1-2-3, Vĩnh Lộc A, Bình Chánh, TP.HCM - Điện thoại: 098.901.2.901 - Email: nguyendangthevinh@gmail.com Footer Page of 137 ii Header Page of 137 LỜI CAM ĐOAN Tôi cam đoan luận văn này: “Ứng dụng khai phá liệu chọn ngành nghề cho học sinh THPT” nghiên cứu Ngoại trừ tài liệu tham khảo trích dẫn luận văn này, cam đoan toàn phần hay phần nhỏ luận văn chưa công bố hay sử dụng để nhận cấp nơi khác Không có sản phẩm/ nghiên cứu người khác sử dụng luận văn mà không trích dẫn theo quy định TP.HCM, ngày 10 tháng 04 năm 2014 Tác giả luận văn (Chữ ký) Nguyễn Đặng Thế Vinh Footer Page of 137 Header Page of 137 iii LỜI CẢM ƠN Lời đầu xin chân thành cảm ơn TS Võ Đình Bảy tận tình hướng dẫn, bảo suốt thời gian thực luận văn Tôi xin bày tỏ lòng biết ơn đến thầy cô Viện Đào tạo Sau Đại học trường Đại học Quốc tế Hồng Bàng cung cấp kiến thức quý báu cho suốt trình học tập nghiên cứu trường Tôi xin gởi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập làm luận văn Do thời gian kiến thức có hạn nên luận văn không tránh khỏi thiếu sót định Tôi mong nhận góp ý quý báu thầy cô Footer Page of 137 Header Page of 137 iv TÓM TẮT Phân lớp liệu hướng nghiên cứu KPDL Công nghệ có nhiều ứng dụng lĩnh vực thương mại, ngân hàng, y tế, giáo dục, … Trong mô hình phân lớp đề xuất, định coi công cụ mạnh, phổ biến đặc biệt thích hợp với ứng dụng KPDL Qua tìm hiểu chức KPDL, luận văn tập trung vào nghiên cứu kỹ thuật phân lớp định Hiểu thuật toán hiệu gần đây, từ nắm điểm cần quan tâm giải kỹ thuật khai phá tri thức CSDL khảo sát lựa chọn ngành học Trong số thuật toán thường dùng cho toán phân lớp, thuật toán C4.5 có độ xác cao, chạy nhanh dễ hiểu người dùng, tập liệu có nhiều thuộc tính định thu khó hiểu; thuật toán Naïve Bayes thiếu xác thuộc tính phụ thuộc lẫn khó hiểu Khi áp dụng kết hợp biện pháp tiền xử lý lấy mẫu dư lớp thiểu số lấy mẫu thiếu lớp đa số, kết phân lớp tốt hơn, việc tiền xử lý đòi hỏi phải có kiến thức sâu, không phù hợp với người dùng không chuyên; thuật toán Neural Network có độ xác cao mô hình khó hiểu người dùng thời gian chạy thường lớn Luận văn sử dụng thuật toán ID3, cho mô hình phân lớp tập luật dạng đơn giản dễ hiểu, có độ xác cao thời gian chạy chấp nhận Thuật toán xây dựng website, thuận tiện cho người sử dụng nơi đâu có kết nối internet Footer Page of 137 v Header Page of 137 ABSTRACT Classification is one of the main research directions of data mining This technology has many applications in the fields of commerce, banking, health, education, etc In the classification model has been proposed, decision trees are considered powerful tool, common and suitable particularly for data mining applications By studying the basic functions of data mining, thesis focused on the research techniques by decision tree classifier Understand the recent efficient algorithms, which understand the main points of interest in each technique solving exploration database knowledge on the education Among the mostly used algorithms for the classification task, C4.5 can provide decision trees which be easy to interpret, yet their interpretability may diminish the more they become complex; Naïve Bayes networks are both inaccuracy for interdependence attributes and difficult to understand When we combine oversampling the rare classes and undersampling the majority ones, classification performance will be better, but this preprocessing technique requires thorough knowledge, not suitable to non-professional users; Neural Networks have high classification accuracy but cannot produce easy to understand classification models for users and its running time is usually long This thesis using ID3 algorithm whose resulting classification models are set of classification rules in the form of trees which are very simple and easy to understand, with pretty high accuracy and acceptable run time The algorithm is built on the web, convenient for user in anywhere with an internet connection Footer Page of 137 Header Page of 137 vi MỤC LỤC LỜI CAM ĐOAN ii LỜI CẢM ƠN iii TÓM TẮT iv ABSTRACT v MỤC LỤC vi DANH MỤC HÌNH VẼ ix DANH MỤC BẢNG x DANH MỤC TỪ VIẾT TẮT xi CHƯƠNG 1: TỔNG QUAN .1 1.1 Lý chọn luận văn 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng phạm vi nghiên cứu 1.3.1 Đối tượng nghiên cứu 1.3.2 Phạm vi nghiên cứu .2 1.4 Nhiệm vụ nghiên cứu 1.5 Phương pháp nghiên cứu .3 1.6 Ý nghĩa luận văn .3 1.6.1 Ý nghĩa khoa học 1.6.2 Ý nghĩa thực tiễn 1.7 Cấu trúc luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai phá liệu 2.1.1 Khai phá liệu gì? .5 2.1.2 Quá trình KPDL Footer Page of 137 Header Page 10 of 137 vii 2.2 Phân lớp KPDL 2.2.1 Phân lớp liệu 2.2.2 Phân lớp liệu định 2.2.3 Phân lớp liệu giải thuật học ILA 10 2.2.4 Phân lớp liệu mạng Naïve Bayes .11 2.2.5 Phân lớp liệu Neural Network .12 2.3 KPDL sử dụng luật kết hợp 13 2.4 Kỹ thuật KPDL sử dụng định .15 2.4.1 Giới thiệu kỹ thuật KPDL sử dụng định 15 2.4.2 Các vấn đề KPDL sử dụng định 15 2.4.3 Xây dựng định 19 2.4.4 Thuật toán sử dụng xây dựng định 20 2.4.5 Cắt tỉa định 26 2.4.6 Đánh giá độ xác mô hình phân lớp 28 2.4.7 Các công trình nghiên cứu trước liên quan đến luận văn 29 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG 30 3.1 Giới thiệu toán 30 3.2 Mô hình cấu trúc hệ thống 30 3.2.1 Mô tả đầu vào/ đầu 30 3.2.2 Phương pháp xây dựng hệ thống 31 3.3 Phân tích thiết kế hệ thống 31 3.3.1 Thiết kế CSDL .31 3.3.2 Xử lý huấn luyện liệu 40 3.3.3 Xây dựng thiết kế giao diện chương trình 41 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .50 4.1 Dữ liệu thực nghiệm .50 Footer Page 10 of 137 50 Header Page 64 of 137 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Dữ liệu thực nghiệm - CSDL thực nghiệm khảo sát 11 ngành học: Quản trị kinh doanh, Ngôn ngữ Anh, Sư phạm Toán học, Giáo dục tiểu học, Công nghệ kỹ thuật công trình xây dựng, Quản lý công nghiệp, Việt Nam học, Công nghệ thông tin, Kế toán, Tài Ngân hàng, Khoa học thư viện - Số liệu thu giai đoạn khảo sát thông tin sinh viên trường Đại học Cao đẳng khu vực phía nam: Trường ĐH Quốc tế Hồng Bàng, Trường ĐH Bách Khoa - ĐHQG Tp.HCM, Trường ĐH Khoa học Tự nhiên - ĐHQG Tp.HCM, Trường ĐH Mở Tp.HCM, Trường ĐH Sài Gòn, Trường ĐH Sư Phạm Tp.HCM, Trường CĐ Viễn Đông, Trường CĐ GTVT 3, Trường CĐ Kinh tế Kỹ thuật Sài Gòn Nội dung STT Số lượng Số phiếu khảo sát ban đầu 4000 Số phiếu thu 2397 Số phiếu sau tiền xử lý (Dữ liệu đạt yêu cầu) 1536 Bảng 4.1: Số liệu thực khảo sát sinh viên - Số liệu chi tiết ngành khảo sát (sau tiền xử lý liệu) STT Mã ngành Tên ngành Số lượng Tỷ lệ 5151340101 Quản trị kinh doanh 308 20% 5252220201 Ngôn ngữ Anh (Tiếng Anh) 294 19% 5252140209 Sư phạm Toán học 171 11% 5252140202 Giáo dục Tiểu học 131 9% 5151510102 Công nghệ kỹ thuật công trình xây dựng 119 8% 5252510601 Quản lý công nghiệp 115 7% 5151220113 Việt Nam học 104 7% 5252480201 Công nghệ thông tin 86 6% Footer Page 64 of 137 51 Header Page 65 of 137 5151340301 Kế toán 82 5% 10 5252340201 Tài – Ngân hàng 66 4% 11 5252320202 Khoa học thư viện 60 4% Tổng 1536 100% Bảng 4.2: Số liệu chi tiết ngành 4.2 Môi trường thực nghiệm Chương trình cài đặt thực nghiệm máy tính cá nhân có cấu sau: Intel ® Dual-Core ™ T4300 @ CPU 2.10 Ghz (2 CPU); nhớ RAM Ghz; hệ điều hành Windows Ultimate 32 - bit (6.1, build 7601) Service Pack 1; ngôn ngữ lập trình Microsoft Visual C#.Net 2010; Microsoft SQL Server 2008 R2 4.3 Đánh giá độ xác định - Để đánh giá độ xác, luận văn sử dụng phương pháp 10-fold cross validation (k = 10) Toàn liệu chia ngẫu nhiên thành 10 nhóm kích thước Bộ phân loại huấn luyện chín nhóm sau kiểm tra nhóm lại Lặp lại 10 lần với 10 nhóm dùng để kiểm tra, sau lấy trung bình cộng kết Hình 4.1: Bảng phân chia liệu test 10-fold cross – validation Footer Page 65 of 137 52 Header Page 66 of 137 - Kết đánh giá theo phương pháp 10-fold cross - validation Training Test Set Set 1382 Fold True False Null Accuracy 154 141 11 92% 1382 154 137 16 89% 1382 154 130 24 84% 1382 154 143 11 93% 1382 154 132 19 86% 1382 154 136 17 88% 1383 153 125 25 82% 1383 153 133 19 87% 1383 153 145 95% 10 1383 153 131 20 86% Average 88% Bảng 4.3: Kết đánh giá 10-fold cross - validation 4.4 Phân tích, so sánh kết nhận xét - Qua tìm hiểu, tác giả nhận thấy có số trang web sử dụng câu hỏi trắc nghiệm lý thuyết John Holland Nhưng có trang web Đại học Quốc gia Tp.HCM cung cấp công cụ trắc nghiệm hướng nghiệp miễn phí địa (http://aad.vnuhcm.edu.vn/huongnghiep/) phần mềm tìm kiếm ngành học trường dựa vào lý thuyết John Holland, hoàn chỉnh đầy đủ Cho nên tác giả dùng để nhận xét so sánh với luận văn Footer Page 66 of 137 53 Header Page 67 of 137 Hình 4.2: Chương trình mô chọn ngành, trường ĐHQG Tp.HCM - Nhận xét kết trả ngành học chương trình sau Nhóm sở Nhóm sở Số lượng kết thích thích ngành học trả R I 107 R A 11 R S 10 R E I A I S 43 I E 18 I C A S 20 10 A E 11 A C STT Footer Page 67 of 137 54 Header Page 68 of 137 12 S E 13 13 S C 14 E C 11 Bảng 4.4: Kết chọn ngành, trường ĐHQG Tp.HCM - Kết trả chương trình tư vấn lựa chọn ngành học Hình 4.3: Kết tư vấn chọn ngành luận văn - Thời gian cho kết tư vấn chọn ngành STT Tốc độ đường truyền Internet Thời gian thực 54Mbps 46.5 giây 7.2Mbps (3G) 47.3 giây Bảng 4.5: Thời gian thực tư vấn chọn ngành - So sánh với kết luận văn PM_ĐHQG_KQ Kết STT Tên ngành Nhóm sở thích Số lượng luận văn (ngành học) (ngành) Quản trị kinh doanh I-E 18 Ngôn ngữ Anh (Tiếng Anh) A-S 20 Sư phạm Toán học S-C, I-C Giáo dục Tiểu học A-S 20 Công nghệ kỹ thuật công trình xây dựng R-I 107 Quản lý công nghiệp R-E Việt Nam học I-S 43 Công nghệ thông tin R-I 107 Footer Page 68 of 137 55 Header Page 69 of 137 Kế toán E-C 11 10 Tài – Ngân hàng E-C 11 11 Khoa học thư viện A-C Bảng 4.6: Bảng so sánh kết + Chương trình ĐHQG Tp.HCM sử dụng câu hỏi trắc nghiệm thói quen, dự định công việc tương lai, tính cách có mức để đánh giá cho điểm Sau có kết điểm, sử dụng cách đánh giá John Holland [9] [17] dựa vào nhóm sở thích R, I, A, S, E, C chọn nhóm có điểm cao cho kết ngành thuộc nhóm sở thích Từ kết trả ngành học bảng 4.4 nhận thấy kết chương trình ĐHQG Tp.HCM cho thấy hạn chế sau: ▪ Kết trả nhiều ngành, khó việc lựa chọn số nhiều ngành ▪ Không có kiểm tra tính logic lựa chọn chương trình Nghĩa là, người sử dụng chọn chức đăng ký, có khai báo chọn nhóm sở thích phù hợp (có nhóm sở thích) (ví dụ bước chọn nhóm I R), sau thực khảo sát số điểm cao rơi vào hai nhóm A, S Như ngành học tư vấn cho người dùng thuộc nhóm A, S nhóm I, R đăng ký ban đầu ▪ Chương trình rời rạc, chưa liên kết bước với nhau, nghĩa từ lúc chọn câu trắc nghiệm, tính điểm lúc cho kết ngành học, hai bước người dùng phải tự lựa chọn thực riêng biệt Nếu chương trình liên kết bước với nhau, thuận tiện + Chương trình luận văn sử dụng công cụ trắc nghiệm định hướng nghề nghiệp John Holland, với mức để đánh giá cho điểm, tạo xác nhận định Luận văn sử dụng câu hỏi để tạo bảng khảo sát sinh viên theo học trường ĐH-CĐ, khảo sát 11 ngành học đề cập mục 4.1 Sử dụng kỹ thuật KPDL tạo tập luật từ liệu thu thập Sau dùng tập luật tư vấn chọn ngành học cho liệu Footer Page 69 of 137 56 Header Page 70 of 137 Ngoài ra, luận văn có triển khai thêm tính tương tự chương trình ĐHQG Tp.HCM có cải tiến thêm cách liên kết bước với nhau, có kiểm tra tính logic chương trình Dựa vào kết so sánh bảng 4.5, kết luận văn có số ưu điểm sau: ▪ Kết trả ngành học ▪ Luận văn liên kết bước với nhau, nghĩa sau chọn câu trả lời trắc nghiệm chương trình cho kết ngành học, bước người dùng tự lựa chọn thực riêng Thuận tiện cho người dùng chương trình ▪ Có kiểm tra tính logic lựa chọn chương trình Nghĩa là, lựa chọn nhóm sở thích lúc đăng ký khác với nhóm sở thích thực khảo sát có thông báo nhắc người sử dụng xem xét lại lựa chọn mình, người dùng đồng ý với kết chọn tiếp tục chọn lại thực lại việc khảo sát Như việc lựa chọn xác khách quan ▪ Việc sử dụng kết khảo sát sinh viên theo học ngành học lựa chọn để từ áp dụng thuật toán KPDL chọn ngành học cho liệu mới, tạo nên xác cho tư vấn ngành học Footer Page 70 of 137 57 Header Page 71 of 137 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết đạt từ nghiên cứu - Luận văn đưa giải pháp từ việc phân loại liệu phiếu khảo sát thông tin lựa chọn ngành học, đến việc tiến hành khai thác xử lý chúng để đưa tri thức cần thiết Các tri thức tối ưu hóa đem vào sử dụng cách hiệu việc tư vấn chọn ngành học cho liệu - Giao diện website dễ sử dụng, dễ tiếp cận cho đối tượng quan tâm nơi đâu có kết nối Internet - Luận văn sâu vào tính ứng dụng thực tiễn, đưa cách thức xử lý thi hành tri thức chiết xuất cách hiệu - Về mặt lý thuyết, nêu giải pháp ứng dụng kỹ thuật phân lớp liệu vào toán tư vấn chọn ngành học cho học sinh THPT - Về mặt thực tiễn, luận văn đáp ứng mục tiêu ban đầu đặt ra, hệ thống khai phá thông tin lựa chọn ngành học sinh viên, nhằm hỗ trợ em học sinh lựa chọn cho ngành học phù hợp Công việc tư vấn hỗ trợ thông tin tuyển sinh chọn ngành học Nếu trước công việc vất vả ngày nay, với hỗ trợ công nghệ mới, việc đơn giản cho đội ngũ làm công tác tư vấn chọn ngành học Thuật toán ID3 hỗ trợ việc lựa chọn kết tối ưu, phù hợp tập hợp liệu khổng lồ Từ đó, liệu trả tận dụng tối đa công việc, nhà tư vấn việc dùng kết để thực công việc mình: tư vấn cho học sinh ngành học phù hợp với khả thân 5.2 Đóng góp luận văn Ứng dụng hỗ trợ học sinh trường THPT địa bàn tỉnh Ninh Thuận việc xác định lựa chọn ngành học 5.3 Hạn chế - Luận văn tập trung nghiên cứu 11 ngành học - Dữ liệu thu thập chưa bao quát hết tất ngành học, chưa có phương pháp tối ưu hóa liệu thực liệu lớn Footer Page 71 of 137 Header Page 72 of 137 58 5.4 Hướng phát triển luận văn - Thuật toán phân lớp mà luận văn sử dụng sinh mô hình phân lớp dễ hiểu, độ xác phân lớp chưa cao Có thể kết hợp thêm nhiều phương khác để thực nhằm đạt độ xác cao - Các hướng nghiên cứu tiếp theo: Xây dựng ứng dụng thành hệ thống chuyên gia chuyên nghiệp đóng vai trò chuyên gia tư vấn ngành học cho tất học sinh nước - Xây dựng hệ thống tư vấn cho tất ngành học có - Sử dụng thuật toán thống kê xác suất cho tập liệu kết tư vấn, tập liệu huấn luyện, tập liệu lựa chọn nhóm ngành học ban đầu (lúc đăng ký) - Tiến hành lấy mẫu lớn cho ngành học khác để đưa tập luật tổng quát - Lấy thêm mẫu liệu từ đối tượng tốt nghiệp ĐH, CĐ (loại khá, giỏi) ngành học để xây dựng tập luật tốt - Phân tích thêm liệu loại bỏ khỏi liệu phân lớp để đưa phân lớp phù hợp Ứng dụng phương pháp cắt tỉa vào liệu để giảm thời gian chạy, tối ưu tập luật - Ngoài kết trả ngành học, hiển thị thêm kết ngành học (để làm việc này, tiến hành gắn trọng số cho tập luật) em lựa chọn thêm - Hiện nay, liệu lưu trữ ngày tăng, để ứng dụng KPDL vào toán cần tiếp tục nghiên cứu phương pháp xử lý cho toán với liệu lớn, nghiên cứu thêm số ứng dụng khác KPDL - Luận văn nghiên cứu thiên tính ứng dụng CSDL tư vấn chọn ngành học, có điều kiện tiếp tục phát triển CSDL khác nhằm mục tiêu tìm quy luật ứng dụng cho tri thức trích xuất Footer Page 72 of 137 59 Header Page 73 of 137 KẾ HOẠCH NGHIÊN CỨU Nội dung TT Giai đoạn Nghiên cứu sở lý thuyết viết báo cáo sơ lược Thời gian 01/10/201331/10/2013 Giai đoạn Thu thập số liệu (phiếu khảo sát sinh viên (trực tiếp, 01/11/2013paper, website)), phân tích nghiên cứu tài liệu, ứng 28/02/2014 dụng tham khảo ý kiến chuyên gia liên quan đến công tác hướng nghiệp cho học sinh để có kinh nghiệm từ thực tiễn Thực nhiều biện pháp khác để tiền xử lý liệu để tiện cho việc phân lớp Nghiên cứu toán phân lớp, khai thác luật phân lớp dựa vào luật kết hợp Xây dựng cài đặt ứng dụng Ứng dụng vào liệu thu thập Chuẩn bị liệu tiến hành thực nghiệm, từ rút quy luật dự đoán ngành nghề phù hợp cho em lựa chọn định So sánh kết đạt với số công trình liên quan để đánh giá hiệu thực tiễn thuật toán, từ rút vấn đề cần cải thiện Giai đoạn Kiểm tra hoàn chỉnh báo cáo theo yêu cầu đề 01/03/201430/03/2014 Footer Page 73 of 137 60 Header Page 74 of 137 TÀI LIỆU THAM KHẢO [1] Lynda Jean Allen, The Appropriateness of Holland’s interest code typology for South African field guides, Faculty of Health Sciences at the Nelson Mandela Metropolitan University, 2005 [2] B.K Baradwaj, S Pal Mining Educational Data to Analyze Students’ Performance International Journal of Advanced Computer-Science and Applications 2(6), 2011 [3] Bramer, M., Principles of Data Mining Spring-Verlag London limited, 2007 [4] Ho Tu Bao, Chapter 3: Data mining with Decision Tree – http://www.netnam.vn/unescocourse/knowlegde/knowlegd.htm [5] Margaret H Dunham, Yongqiao Xiao, Le Gruenwald, Zahid Hossain, A Survey of Association Rules, International Journel of Computer TheoryAnd Engineering, vol.4, No.2 , 2003 [6] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth From Data Mining to Knowledge Discovery in Databases AAAI Press 1996 [7] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, 3rd Edition Morgan Kaufmann Publishers, 2011 [8] C Heiner, N Heffernan, T Barnes Educational Data Mining In Supplementary Proceedings of the 13th International Conference of Artificial Intelligence in Education (AIED), 2007 [9] Holland’s Theory and Career Choice is from the career key website: www.careerkey.org/english, 2002 [10] John L Holland, Making Vocational Choices: A Theory of Carrers, Englewood Cliffs, New Jersey: Prentice-Hall, 1973 [11] Mehmed Kantardzic, Data Mining: Concepts, Models, Methods, and Algorithms, 2nd Edition, John Wiley & Sons, 2011 [12] Ron Kohavi, J Ross Quinlan Decision Tree Discovery, 1999 Footer Page 74 of 137 Header Page 75 of 137 61 [13] Loan T T Nguyen, Bay Vo, Tzung-Pei Hong, Hoang Chi Thanh CAR-Miner: An efficient algorithm for mining class-association rules Expert Systems with Applications, 40(6), pp 2305-2311, 2013 [14] Loan T T Nguyen, Bay Vo, Tzung-Pei Hong, Hoang Chi Thanh: Classification based on association rules: A lattice-based approach Expert Syst Appl 39(13): 11357-11366, 2012 [15] K Liu, Y Xing A Lightweight Solution to the Educational Data Mining Challenge In KDD Cup 2010 Workshop, July 25, 2010 [16] B Liu, W Hsu, Y Ma Integrating classification and association rule mining The 4th International Conference on Knowledge Discovery and Data Mining, New York, USA, pp 80-86, 1998 [17] MU Career Center’s Guide to Holland Code: Part of the Career and Major Exploration Guide Series, University of Missouri – MU Career Center, 2010 [18] Tom M Mitchell, Machine Learning, McGraw - Hill Science, 1997 [19] J R Quinlan C4.5: Program for Machine Learning Morgan Kaufmann Publishers, San Mateo, CA, 1993 [20] Payam Refaeilzadeh, Lei Tang, Huan Liu Encyclopedia of Database Systems pp 532-538 Arizona State University Springer US, 2009 [21] Carl Edward Rasmussen, Christopher K.I Williams Gausian Processes for Machine Learning MIT Press, pp 130-147 2006 [22] Slide Learning from Data: Decision trees, Amos Storkey, School of Informatics university of Edinburgh, Semester 1, 2004 [23] Raghu Ramakrishnan, Johannes Gehrke Database Management Systems, 3rd Edition McGraw-Hill, 2003 [24] Anurag Srivastava, Eui- Hong Han, Vipin Kumar, Vieet Singh Parallel Formulations of Decision-Tree Classification Algorithm Kluwer Academic Publisher, 1999 Footer Page 75 of 137 Header Page 76 of 137 62 [25] John Shafer, Rakesh Agrawal, Manish Mehta SPRINT- A Scalable Paralllel Classifier for Data mining In Predeeings of the 22nd International Conference on Very Large Database, India, 1996 [26] M.R Tolun, H Sever, M Uludag, S.M Abu-Soud ILA-2: An inductive learning algorithm for knowledge discovery Cybernetics and Systems, 30(7), pp 609 – 628, 1999 [27] Mehmet R Tolun, Saleh M Abu-Soud, An Inductive Learning Algorithm for Production Rule Discovery, IEEE Press, 1999 [28] M.R Tolun, S.M Abu-Soud ILA: An inductive learning algorithm for production rule discovery Expert Systems with Applications, 14(3), pp 361– 370, 1998 [29] Thomas, Data Mining: Definittions and decision tree examples, State University of New York [30] Witten, I.H and E Frank, Data Mining: Practical Machine Learning Tools and Techniques 3rd Edition Morgan Kaufmann Publishers, 2011 [31] Mohammed J Zaki, Ching-Tien Ho, Rekesh Agrawal Parallel Classification for Data Mining on Shared-Memory Multiprocessors IVM Almaden Research Center, San Jose, CA 95120, 1998 Footer Page 76 of 137 Header Page 77 of 137 63 PHỤ LỤC A Bộ công cụ trắc nghiệm định hướng nghề nghiệp John Holland - John Lewis Holland (21.10.1919 – 27.11.2008) giáo sư xã hội học danh dự Trường Đại học Johns Hopkins nhà tâm lý học Mỹ Ông biết đến tác giả học thuyết lựa chọn nghề nghiệp hay gọi Mã Holland (Holland Codes) thường viết tắt RIASEC [1], [10] - Trên sở lý thuyết này, John Holland xây dựng câu hỏi dành cho người muốn tự tìm hiểu Qua nhiều năm phát triển, trắc nghiệm giúp cho người ta tự phát kiểu người trội tiềm ẩn người để tự định hướng lựa chọn nghề - Lý thuyết dựa luận điểm, luận điểm đầu là: Hầu xếp vào kiểu người, kiểu người Realistic (người thực tế, viết tắt R), Investigative (người thích nghiên cứu – I), Artistic (người có tính nghệ sĩ – A), Social (người có tính xã hội – S), Enterprising (người dám nghĩ dám làm – E) Conventional (người công chức – C); có môi trường hoạt động ứng với kiểu người kể Lý thuyết sau lấy chữ ghép lại thành tên RIASEC [9], [17] - Học thuyết Holland lập luận rằng: “Thiên hướng nghề nghiệp biểu cá tính người” phân loại thành nhóm diễn tả hai phương diện: tính cách người môi truờng làm việc Phân loại ông dùng để giải thích cấu trúc số nghiên cứu định hướng nghề khác dựa thang đo mà ông phát triển - Thuyết Holland không giả định người có loại tính cách giới Thay vào đó, ông người mô tả việc dung hòa loại tính cách theo thứ tự giảm dần Trên sở Bộ quy tắc Holland diễn tả 720 mô hình tính cách khác người Học thuyết áp dụng việc phân loại nghề, thường có quy tắc chi phối sử dụng để định hướng nghề Footer Page 77 of 137 64 Header Page 78 of 137 B Thông tin ngành học, trường đào tạo, bậc học, khối thi, điểm chuẩn - Căn Thông tư 14/2010/TT-BGDĐT, ngày 27 tháng 04 năm 2010 Bộ trưởng Bộ Giáo dục Đào tạo việc ban hành Danh mục giáo dục, đào tạo cấp IV trình độ cao đẳng, đại học - Những điều cần biết tuyển sinh đại học, cao đẳng năm 2013 Nhà xuất Giáo dục Việt Nam - Trang web trường đại học, cao đẳng phía nam - Cẩm nang hướng nghiệp tuyển sinh Đại học Cao đẳng năm 2013 Nhà xuất Đại học Quốc gia Tp.HCM Giảng viên hướng dẫn Học viên thực Giám đốc Trung tâm Tin học TS Võ Đình Bảy Trường Đại học Tôn Đức Thắng Footer Page 78 of 137 Nguyễn Đặng Thế Vinh ... nghề cho học sinh THPT điều cần thiết Trước thực tế đó, chọn luận văn Ứng dụng khai phá liệu chọn ngành nghề cho học sinh THPT Luận văn thực việc KPDL từ việc khảo sát chọn ngành học sinh viên... TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG NGUYỄN ĐẶNG THẾ VINH ỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH... này: Ứng dụng khai phá liệu chọn ngành nghề cho học sinh THPT nghiên cứu Ngoại trừ tài liệu tham khảo trích dẫn luận văn này, cam đoan toàn phần hay phần nhỏ luận văn chưa công bố hay sử dụng

Ngày đăng: 27/06/2017, 14:41

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan