ứng dụng khai phá dữ liệu chọn ngành nghề cho học sinh thpt

78 595 0
ứng dụng khai phá dữ liệu chọn ngành nghề cho học sinh thpt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

B ăGIÁOăD CăVÀOă ÀOăT O TR NGă IăH CăQU CăT ăH NGăBÀNG NGUY Nă NGăTH ăVINH NGăD NGăKHAIăPHỄăD ăLI U CH NăNGÀNHăNGH ăCHOăH CăSINHăTHPT LU NăV NăTH CăS ăKHOAăH CăMỄYăTệNH TP.ăH ăCHệăMINHă- 2014 B ăGIÁOăD CăVÀOă ÀOăT O TR NGă IăH CăQU CăT ăH NGăBÀNG NGUY Nă NGăTH ăVINH NGăD NGăKHAI PHÁ D ăLI U CH NăNGÀNHăNGH CHOăH CăSINHăTHPT CHUYểNăNGÀNH:ăKHOAăH CăMÁYăTệNH MẩăS :ă60.48.01 LU NăV NăTH CăS KHOAăH CăMỄYăTệNH NG IăH NGăD NăKHOAăH C TS.ăVÕă ÌNHăB Y TP.ăH ăCHệăMINHă- N M 2014 CHU NăYăC AăH Iă NGăB OăV ăLU NăV N Lu năv năt aăđ : ắ ngăd ngăkhaiăpháăd ăli uăch năngƠnhăngh ăchoăh căsinhă THPT” công trình đ căắNguy nă ngăTh ăVinh” th căhi năvƠăn pănh măth a m tăph năyêuăc uăt tănghi păth căs ăchuyên ngƠnhăKhoaăH căMáyăTính Ch ăt chăH iăđ ng Gi ngăviênăh ngăd n ………………………… ………………………… TS.ăBùiăV năMinh TS.ăVõă ìnhăB y (Tr ng ngƠnhăKhoaăh cămáyătính, Tr ngă HăQu căt ăH ngăBƠng) (Giámăđ căTrungătơmăTinăh c, Tr Ngày… tháng … n m 2014 ngă HăTônă căTh ng) Ngày… tháng … n m 2014 Ngày b o v lu n v n, Tp.HCM, Ngày 11 tháng n m 2014 Vi nă ƠoăT oăSauă Tr ngă iăH c iăh căQu căt ăH ngăBƠng …………………… i LụăL CHăCÁăNHỂN - H tên: Nguy nă ng Th Vinh - Ngày sinh: 15/10/1982 - N iăsinh:ăNinhăThu n - T t nghi p THPT t i tr ng Nguy năDu,ăn mă2000 - Quá trình công tác: Th iăgian N iăcôngătác 2003-2004 Công ty CP máy tính Scitec 2005-2009 Tr ngăCaoăđ ngăGTVTă3 Ch căv P.Tr ngăphòngăk ăthu t Qu nălýăgiáoăv ăvƠăgi ngăd yăt iătrungă tâm FCM 2010-2012 Tr ngăCaoăđ ngăVi nă ông 2012-nay Tr ngăCaoăđ ngăVi nă ông Tr ngăPhòngă Ơoăt o,ăPhóăGiámăđ că TrungătơmăTinăh c PhóăGiámăđ căTrungătơmăTinăh c,ă gi ngăviênăkhoaăCNTT - a ch liên l c: 58 T 8, p Liên p 1-2-3,ăV nhăL c A, Bình Chánh, TP.HCM - i n tho i: 098.901.2.901 - Email: nguyendangthevinh@gmail.com ii L IăCAMă OAN Tôiăcamăđoanăr ngălu năv nănƠy:ăắ ngăd ngăkhaiăpháăd ăli uăch năngƠnhăngh ă choăh căsinhăTHPT”ălƠăbƠiănghiênăc uăc aăchínhătôi Ngo iătr ănh ngătƠiăli uăthamăkh oăđ cătríchăd nătrongălu năv nă nƠy,ătôiăcam đoanăr ngătoƠnăph năhayănh ngăph nănh ăc aălu năv nănƠyăch aăt ngăđ hayăđ căcôngăb ă căs ăd ngăđ ănh năb ngăc pă ănh ngăn iăkhác Khôngăcóăs năph m/ănghiênăc uănƠoăc aăng nƠyămƠăkhôngăđ iăkhácăđ cătríchăd nătheoăđúngăquyăđ nh TP.HCM, ngày 10 tháng 04 n mă2014 Tácăgi ălu năv năă (Ch ăký) Nguy nă ngăTh ăVinh căs ăd ngătrongălu năv nă iii L IăC Mă N L iăđ uătôiăxinăchơnăthƠnhăc mă năTS.ăVõă ìnhăB yăđưăt nătìnhăh ngăd n,ăch ă b oătôiătrongăsu tăth iăgianăth căhi nălu năv n TôiăxinăbƠyăt ălòngăbi tă năđ năcácăth yăcôătrongăVi n tr ngă Ơoăt oăSauă iăh că iăh c Qu căt ăH ngăBƠngăđưăcungăc pănh ngăki năth căquýăbáuăchoătôiă trongăsu tăquáătrìnhăh căt păvƠănghiênăc uăt iătr ng Tôiăc ngăxinăg iăl iăc mă năđ năgiaăđình,ăb năbèăvƠănh ngăng iăthơnăluônăquană tơmăvƠăgiúpăđ ătôiătrongăsu tăth iăgianăh căt păvƠălƠmălu năv n.ăă Doăth iăgianăvƠăki năth căcóăh nănênălu năv năch căkhôngătránhăkh iănh ngă thi uăsótănh tăđ nh.ăTôiăr tămongănh năđ căs ăgópăýăquýăbáuăc aăth yăcô.ăăă iv TÓM T T Phơnăl păd ăli uălƠăm tătrongănh ngăh ngh ănƠyăcóănhi uă ngăd ngătrongăl nhăv căth Trongăcácămôăhìnhăphơnăl păđưăđ ngănghiênăc uăchínhăc aăKPDL Công ngăm i,ăngơnăhƠng,ăyăt ,ăgiáoăd c, … căđ ăxu t,ăcơyăquy tăđ nhăđ căcoiălƠăm tă côngăc ăm nh,ăph ăbi năvƠăđ căbi tăthíchăh păv iăcácă ngăd ngăKPDL Quaătìmăhi uănh ngăch ngăc aăKPDL,ălu năv năt pătrungăvƠoănghiênăc uă cácăk ăthu tăphơnăl păb ngăcơyăquy tăđ nh.ăHi uăđ đơy,ăt ăđóăn măđ căcácăthu tătoánăhi uăqu ăg nă cănh ngăđi măchínhăc năquanătơmăgi iăquy tătrongăm iăk ăthu tă khaiăpháătriăth cătrênăCSDLăkh oăsátăl aăch năngƠnhăh c Trongăs ăcácăthu tătoán th ngădùngăchoăbƠiătoánăphơnăl p,ăthu tătoánăC4.5ăcóă đ ăchínhăxácăkháăcao,ăch yănhanhăvƠăd ăhi uăđ iăv iăng li uă cóă nhi uă thu că tínhă thìăcơyă quy tă đ nhă thuă đ iădùng,ănh ngăn uăt păd ă căc ngă s ă khóă hi u;ă thu tă toánă NaïveăBayesăthi uăchínhăxácăđ iăv iăcácăthu cătínhăph ăthu căl nănhauăvƠăkhóăhi u.ă Khiăápăd ng k tăh păcácăbi năphápăti năx ălý l yăm uăd đ iăv iăl păthi uăs ăvƠ l yă m uăthi u đ iăv iăl păđaăs ,ăk tăqu ăphơnăl păs ăt tăh n,ănh ngăvi căti năx ălýănƠyă đòiăh iăph iăcóăki năth căsơu,ăkhôngăphùăh păv iăng iădùngăkhôngăchuyên;ăthu tă toán Neural Network cóăđ ăchínhăxácăcaoă nh ngă môăhìnhăkhóăhi uăđ iăv iăng dùngăvƠăth iăgianăch yăth iă ngăl n Lu năv năs ăd ngăthu tătoán ID3,ăchoăraămôăhìnhăphơnăl pălƠăm tăt pălu tăd iă d ngăcơyăr tăđ năgi năvƠăd ăhi u,ăcóăđ ăchínhăxácăkháăcaoăvƠăth iăgianăch yăch pă nh n đ c.ăThu tătoán đ căxơyăd ngătrênăn năwebsite,ăthu năti năchoăng ăb tăc ăn iăđơuăcóăk tăn iăinternet iăs ăd ngă v ABSTRACT Classification is one of the main research directions of data mining This technology has many applications in the fields of commerce, banking, health, education, etc In the classification model has been proposed, decision trees are considered powerful tool, common and suitable particularly for data mining applications By studying the basic functions of data mining, thesis focused on the research techniques by decision tree classifier Understand the recent efficient algorithms, which understand the main points of interest in each technique solving exploration database knowledge on the education Among the mostly used algorithms for the classification task, C4.5 can provide decision trees which be easy to interpret, yet their interpretability may diminish the more they become complex; Naïve Bayes networks are both inaccuracy for interdependence attributes and difficult to understand When we combine oversampling the rare classes and undersampling the majority ones, classification performance will be better, but this preprocessing technique requires thorough knowledge, not suitable to non-professional users; Neural Networks have high classification accuracy but cannot produce easy to understand classification models for users and its running time is usually long This thesis using ID3 algorithm whose resulting classification models are set of classification rules in the form of trees which are very simple and easy to understand, with pretty high accuracy and acceptable run time The algorithm is built on the web, convenient for user in anywhere with an internet connection vi M CăL C L IăCAMă OAN ii L IăC Mă N iii TịMăT T iv ABSTRACT v M CăL C vi DANHăM CăHỊNHăV ix DANHăM CăB NG x DANHăM CăT ăVI T T T xi CH NGă1:ăT NGăQUAN .1 1.1 Lýădoăch nălu năv n 1.2 M cătiêuănghiênăc u iăt 1.3 1.3.1 1.3.2 ngăvƠăph măviănghiênăc u iăt ngănghiênăc u Ph măviănghiênăc u .2 1.4 Nhi măv ănghiênăc u 1.5 Ph ngăphápănghiênăc u .3 1.6 ụăngh aăc aălu năv n .3 1.6.1 ụăngh aăkhoaăh c 1.6.2 ụăngh aăth căti n 1.7 C uătrúcălu năv n CH NGă2:ăC ăS ăLụăTHUY T 2.1 T ngăquanăv ăkhaiăpháăd ăli u 2.1.1 Khaiăpháăd ăli uălƠăgì? .5 2.1.2 Quá trình KPDL vii 2.2 Phơnăl pătrongăKPDL 2.2.1 Phơnăl păd ăli u 2.2.2 Phơnăl păd ăli uăb ngăcơyăquy tăđ nh 2.2.3 Phơnăl păd ăli uăb ngăgi iăthu tăh căILA 10 2.2.4 Phơnăl păd ăli uăb ngăm ngăNaïveăBayes .11 2.2.5 Phơnăl păd ăli uăb ngăNeuralăNetwork .12 2.3 KPDLăs ăd ngălu tăk tăh p 13 2.4 K ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh .15 2.4.1 Gi iăthi uăk ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh 15 2.4.2 Cácăv năđ ătrongăKPDLăs ăd ngăcơyăquy tăđ nh 15 2.4.3 Xơyăd ngăcơyăquy tăđ nh 19 2.4.4 Thu tătoánăs ăd ngăxơyăd ngăcơyăquy tăđ nh 20 2.4.5 C tăt aăcơyăquy tăđ nh 26 2.4.6 ánhăgiáăđ ăchínhăxácăc aămôăhìnhăphơnăl p 28 2.4.7 Cácăcôngătrìnhănghiênăc uătr căđơyăliênăquanăđ nălu năv n 29 CH NGă3:ăXỂYăD NGă NGăD NG 30 3.1 Gi iăthi uăbƠiătoán 30 3.2 Môăhìnhăc uătrúcăh ăth ng 30 3.2.1.ăMôăt ăđ uăvƠo/ăđ uăra 30 3.2.2.ăPh 3.3 ngăphápăxơyăd ngăh ăth ng 31 PhơnătíchăvƠăthi tăk ăh ăth ng 31 3.3.1 Thi tăk ăCSDL .31 3.3.2 X ălýăvƠăhu năluy năd ăli u 40 3.3.3 Xơyăd ngăvƠăthi tăk ăgiaoădi năc aăch ngătrình 41 CH NGă4:ăTH CăNGHI MăVÀă ÁNHăGIÁ .50 4.1 D ăli uăth cănghi m .50 50 CH NGă4:ăTH CăNGHI MăVÀă ỄNHăGIỄ 4.1 D ăli uăth cănghi m - CSDL th c nghi m đ c kh o sát 11 ngành h c: Qu n tr kinh doanh, Ngôn ng Anh,ăS ăph m Toán h c, Giáo d c ti u h c, Công ngh k thu t công trình xây d ng, Qu n lý công nghi p, Vi t Nam h c, Công ngh thông tin, K toán, Tài Ngân hàng, Khoa h căth ăvi n - S li uăthuăđ cătrongăgiaiăđo n kh o sát thông tin sinh viên cácătr vƠăCaoăđ ng khu v c phía nam:ăTr ngă ngă HăQu c t H ngăBƠng,ăTr Bách Khoa - HQGă Tp.HCM, Tr Tp.HCM, Tr ngă HăM Tp.HCM,ăTr Tp.HCM,ăTr ngăC ăVi nă ông,ăTr ngă Hă Khoaă h c T nhiên - ih c ngă Hă HQGă ngă HăSƠiăGòn,ăTr ngă HăS ăPh m ngăC ăGTVTă3,ăTr ngăC ăKinhăt - K thu t Sài Gòn N iădung STT S ăl ng S ăphi uăkh oăsát banăđ u 4000 S ăphi uăthuăđ 2397 S ăphi uăsauăkhiăti năx ălýă(D ăli uăđ tăyêuăc u) c 1536 B ng 4.1: S li u th c hi n kh o sát sinh viên - S li u chi ti t t ng ngành kh o sát (sauăkhiăđưăti n x lý d li u) STT Mã ngành Tên ngành S ăl ng T ăl 5151340101 Qu nătr ăkinhădoanh 308 20% 5252220201 Ngônăng ăAnhă(Ti ngăAnh) 294 19% 5252140209 S ăph măToánăh c 171 11% 5252140202 Giáoăd căTi uăh c 131 9% 5151510102 Côngăngh ăk ăthu tăcôngătrìnhăxơyăd ng 119 8% 5252510601 Qu nălýăcôngănghi p 115 7% 5151220113 Vi tăNamăh c 104 7% 5252480201 Côngăngh ăthôngătin 86 6% 51 5151340301 K ătoán 82 5% 10 5252340201 Tài ậ Ngân hàng 66 4% 11 5252320202 Khoaăh căth ăvi n 60 4% T ng 1536 100% B ng 4.2: S li u chi ti t t ng ngành 4.2 Môiătr Ch ng th cănghi m ngătrìnhăđ căcƠiăđ tăvƠăth cănghi mătrênămáyătínhăcáănhơnăcóăc uăhìnhă nh ăsau:ăIntelă®ăDual-Coreă™ăT4300 @ CPU 2.10 Ghz (2 CPU);ăb ănh ăRAMă2ă Ghz;ăh ăđi uăhƠnhă Windowsă7ăUltimateă32ă - bit (6.1, build 7601) Service Pack 1; ngônăng ăl pătrìnhăMicrosoft Visual C#.Net 2010; Microsoft SQL Server 2008 R2 4.3 ánhăgiáăđ ăchínhăxácăc aăcơyăquy tăđ nh đánhă giáă đ xác, lu nă v n s d ng ph - validation (k = 10) Toàn b d li uăđ th că nh ă nhau.ă B phân lo iă đ ngă phápă 10-fold cross - c chia ng u nhiên thành 10 nhóm kích c hu n luy nă trênă chínă nhómă sauă đóă đ c ki m tra m t nhóm l i L p l i 10 l n v iă10ănhómădùngăđ ki m tra, sauăđóăl y trung bình c ng k t qu Hình 4.1: B ng phân chia d li u test 10-fold cross – validation 52 - K t qu đánhăgiáătheoăph ngăphápă10-fold cross - validation Training Test Set Set 1382 Fold True False Null Accuracy 154 141 11 92% 1382 154 137 16 89% 1382 154 130 24 84% 1382 154 143 11 93% 1382 154 132 19 86% 1382 154 136 17 88% 1383 153 125 25 82% 1383 153 133 19 87% 1383 153 145 95% 10 1383 153 131 20 86% Average 88% B ng 4.3: K t qu đánh giá 10-fold cross - validation 4.4 Phân tích, soăsánhăk tăqu ăvà nh năxét - Qua s tìm hi u, tác gi nh n th y hi n c ngăcóăm t s trang web s d ng b câu h i tr c nghi m lý thuy t c aăJohnăHolland.ăNh ngăch có trang web c a i h c Qu c gia Tp.HCM cung c p b công c tr c nghi mă h ng nghi p mi n phí t iăđ a ch (http://aad.vnuhcm.edu.vn/huongnghiep/) m t ph n m m tìm ki m ngành h căvƠătr ng d a vào lý thuy t c a John Holland, hoàn ch nhăvƠăđ yăđ Cho nên tác gi dùngănóăđ nh n xét so sánh v i lu năv n c a 53 Hình 4.2: Ch ng trình mô ph ng ch n ngành, tr - Nh n xét k t qu tr v ngành h c c a ch STT Nhómăs ă Nhómăs ă ng c a HQG Tp.HCM ngătrìnhătrênănh ăsau S ăl ngăk tăqu ă ngƠnhăh căđ thích thích R I 107 R A 11 R S 10 R E I A I S 43 I E 18 I C A S 20 10 A E 11 A C cătr ăv 54 12 S E 13 13 S C 14 E C 11 B ng 4.4: K t qu ch n ngành, tr - K t qu tr v trongăch ng c a HQG Tp.HCM ngătrìnhăt ăv n l a ch n ngành h c Hình 4.3: K t qu t v n ch n ngành c a lu n v n - Th i gian cho k t qu t ăv n ch n ngành STT T căđ ăđ ngătruy năInternet Th iăgianăth căhi n 54Mbps 46.5 giây 7.2Mbps (3G) 47.3 giây B ng 4.5: Th i gian th c hi n t v n ch n ngành - So sánh v i k t qu c a lu năv n PM_ HQG_KQ STT Tên ngành Nhómăs ă thích S ă l ngă K tăqu ăc aă lu năv n (ngành h c) (ngành) Qu nătr ăkinhădoanh I-E 18 Ngônăng ăAnhă(Ti ngăAnh) A-S 20 S ăph măToánăh c S-C, I-C Giáoăd căTi uăh c A-S 20 Côngăngh ăk ăthu tăcôngătrìnhăxơyăd ng R-I 107 Qu nălýăcôngănghi p R-E Vi tăNamăh c I-S 43 Côngăngh ăthôngătin R-I 107 55 K ătoán E-C 11 10 Tài ậ Ngân hàng E-C 11 11 Khoaăh căth ăvi n A-C B ng 4.6: B ng so sánh k t qu + Ch ngătrìnhăc aă HQGăTp.HCMăs ăd ngăb ăcơuăh iătr cănghi măv ăthóiă quen, d ăđ nhăcôngăvi căt ngălai, tính cách cóă3ăm căđ ăđánhăgiáăchoă m.ăSauăkhiăcóăk tăqu ăđi m,ăs ăd ng cáchăđánhăgiáăc aăJohn Holland [9] [17]ăd aăvƠoă6ănhómăs ăthíchăR, I, A, S, E, C ch năraă2ănhómănƠoăcóăđi mă caoănh tăvƠăchoăraăk tăqu ăcácăngƠnhăthu că2ănhómăs ăthíchăđó.ăT ăk tăqu ă tr ă v ă ngƠnhă h că trongă b ngă 4.4ă nh nă th yă r ngă k tă qu ă ch ngă trìnhă c aă HQGăTp.HCMăcho th yănh ngăh năch ănh ăsau:ă K tăqu ătr ăv ăr tănhi uăngƠnh,ăr tăkhóătrongăvi căl aăch nă1 trongăs ăr tă nhi uăngƠnhăđó Khôngăcóăki mătraătínhălogicăc aăs ăl aăch nătrongăch lƠ,ăđ uătiênăng ngătrình.ăNgh aă iăs ăd ngăch năch ngăđ ngăký,ătrongăđóăcóăkhaiăbáoă ch nă1ăho că2ănhómăs ăthíchăphùăh pă(cóă6ănhómăs ăthích)ă(víăd ă ăb că nƠyăch nănhómăIăvƠăR),ăsauăđóăth căhi năkh oăsátăthìăs ăđi măcaoănh tăr iă vƠoăhaiănhómăA,ăS.ăNh ăv yăcácăngƠnhăh căđ căt ăv năchoăng iădùngă s ăthu cănhómăA,ăSăch ăkhôngăph iănhómăI,ăRănh ăđ ngăkýăbanăđ u.ăă Ch ngătrìnhăcònăr iăr c,ăch aăliênăk tăcácăb căv iănhau,ăngh aălƠăt ălúcă ch năcácăcơuătr cănghi m,ătínhăđi măvƠălúcăchoăraăk tăqu ăcác ngƠnhăh c,ă c ăhaiăb ch + Ch cănƠyăng iădùngăph iăt ăl aăch năvƠăth căhi năriêngăbi t.ăN uă ngătrìnhăliênăk tăcácăb căv iănhau,ăs ăthu năti năh n ngătrìnhăc aălu năv n s ăd ngăb ăcôngăc ătr cănghi măđ nhăh ngăngh ă nghi păc aăJohnăHolland, v i m căđ ăđánhăgiáăchoăđi m,ăt oăs ăchínhăxácă h nătrongăm iănh năđ nh Lu năv năs ăd ngăb ăcơuăh iănƠyăđ ăt oăb ngăkh oă sátăsinhăviênăđangătheoăh căcácătr ngă H-C ,ăkh oăsátătrênă11ăngƠnhăh că nh ăđưăđ ăc pă ăm că4.1.ăS ăd ngăk ăthu tăKPDL t oăraăcácăt pălu tăt ăd ă li uăthuăth păđ că ătrên.ăSauăđóădùngăcácăt pălu tănƠyăt ăv năch năngƠnhă h căchoăcácăd ăli uăm i 56 NgoƠiăra,ălu năv năc ngăcóătri năkhaiăthêmătínhăn ngăt ngăt ch ngătrìnhă c aă HQGăTp.HCMănh ngăcóăc iăti năthêmăb ngăcáchăliênăk tăcácăb nhau,ăcóăki mătraătínhălogicăc aăch căv iă ngătrình D aăvƠoăk tăqu ăsoăsánhătrong b ngă4.5, k tăqu ălu năv n cóăm tăs ă uăđi măsau: K tăqu ătr ăv ăch ăm t ngành h c Lu năv n đưăliênăk tăcácăb l iătr cănghi m ch ng căv iănhau,ăngh aălƠăsau ch năcácăcơuătr ă ngătrìnhăs ăchoăraăk tăqu ăngƠnhăh c,ăcác b cănƠyă iădùngăkhông ph iăt ăl aăch năvƠăth căhi năriêngăn a Thu năti năh n choăng iădùngăch ngătrình Cóăki mătraătínhălogicăc aăs ăl aăch nătrongăch ngătrình.ăNgh aălƠ,ăn uă l aăch nănhómăs ăthíchătrongălúcăđ ngăkýăkhácăv iănhómăs ăthíchăkhiăth că hi năkh oăsátăthìăcóăthôngăbáoănh căng c aămình,ăn uăng iăs ăd ngăxemăxétăl iăs ăl aăch nă iădùngăđ ngăýăv iăk tăqu ăm iăthìăch năti păt căcònă n uăch năl iăthìăth căhi năl iăvi căkh oăsát.ăNh ăv yăvi căl aăch năs ăchínhă xácăvƠăkháchăquanăh n Vi căs ăd ngăk tăqu ăkh oăsátăcácăsinhăviênăđangătheoăh căcácăngƠnhăh că doămìnhăl aăch năđ ăt ăđóăápăd ngăthu tătoánăKPDL ch năngƠnhăh căchoă cácăd ăli uăm i,ăt oănênăs ăchínhăxácăh năchoăt ăv năngƠnhăh căm i.ă 57 CH 5.1 K tăqu ăđ tăđ NGă5:ăK TăLU N VÀăH NGăPHỄTăTRI N căt ănghiênăc uă - Lu năv năđưăđ aăraăm t gi i pháp t vi c phân lo i d li u phi u kh o sát thông tin l a ch n ngành h c,ăđ n vi c ti n hành khai thác x lýăchúngăđ đ aăraăcácătriăth c c n thi t Các tri th cănƠyăđ c t iă uăhóaăvƠăđemăvƠoăs d ng m t cách hi u qu vi căt ăv n ch n ngành h c cho d li u m i - Giao di n website d s d ng, d ti p c n cho m iăđ iăt ng quan tâm b t k n iăđơuăcóăk t n i Internet - Lu năv năđưăđiăsơuăvƠoătínhă ng d ng th c ti n,ăđ aăraăcáchăth c x lý thi hành tri th căđ c chi t xu t m t cách hi u qu - V m t lý thuy t,ănêuăđ c gi i pháp ng d ng k thu t phân l p d li u vào bƠiătoánăt ăv n ch n ngành h c cho h c sinh THPT - V m t th c ti n, lu năv n đưăđápă ngăđ đưăkhaiăpháăđ c m cătiêuăbanăđ uăđ t ra, h th ng c thông tin l a ch n ngành h c c a sinh viên, nh m h tr em h c sinh m i l a ch n cho m t ngành h c phù h p Công vi căt ă v n h tr thông tin n sinh nh t ch n ngành h c N uătr căđơyăđóălƠă công vi c h t s c v t v ngày nay, v i s h tr c a công ngh m i,ăđóălƠă m t vi c r tăđ năgi năchoăđ iăng ălƠmăcôngătácăt ăv n ch n ngành h c Thu t toán ID3 h tr vi c l a ch n nh ng k t qu t iă u,ăphùăh p nh t m t t p h p d li u kh ng l T đó,ănh ng d li u tr v s đ c t n d ng t iăđaă công vi c, nh ngănhƠăt ăv n ch vi c dùng k t qu đóăđ th c hi n công vi c ti p theo c aămình:ăt ăv n cho h c sinh v nh ng ngành h c phù h p v i kh n ngăc a b n thân 5.2 óngăgópălu năv n ng d ng h tr h căsinhăcácătr ngăTHPTătrênăđ a bàn t nh Ninh Thu n vi căxácăđ nh l a ch n ngành h c 5.3 H năch - Lu năv năch m i t p trung nghiên c u 11 ngành h c - D li u thu th păch aăbaoăquát h t t t c ngành h c,ăch aăcóăph t iă uăhóaăd li u th c hi n d li u l n ngăphápă 58 5.4 H ngăphátătri nălu năv n - Thu t toán phân l p mà lu năv n s d ng sinh nh ng mô hình phân l p d hi u,ănh ngăđ xác phân l p v năch aăcao.ăCóăth k t h p thêm nhi u ph ngăkhácăđ th c hi n nh măđ tăđ chínhăxácăcaoăh n - Cácăh ng nghiên c u ti p theo: Xây d ng ng d ng thành m t h th ng chuyên gia chuyên nghi păđóngăvaiătròănh ălƠăm t chuyênăgiaăt ăv n ngành h c cho t t c h c sinh c n c - Xây d ng h th ngăt ăv n cho t t c ngành h c hi n có - S d ng thu t toán th ng kê xác su t cho t p d li u k t qu t ăv n, t p d li u hu n luy n, t p d li u l a ch n nhóm ngành h căbanăđ uă(lúcăđ ngă ký) - Ti n hành l y m u l n cho ngành h căkhácăđ đ aăraăt p lu t t ngăquátăh n - L y thêm m u d li u t nh ngăđ iăt ngăđưăt t nghi pă H,ăC ă(lo i khá, gi i) c a m t ngành h căđ xây d ng t p lu t t tăh n - Phân tích thêm d li uăđưălo i b kh i d li u phân l păđ có th đ aăraă phân l p phù h păh n.ă ng d ngăcácăph ngăphápăc t t a vào d li uăđ gi m th i gian ch y, t iă uăt p lu t - Ngoài k t qu tr v ngành h c, s hi n th thêm k t qu ho c ngành h c n aă(đ lƠmăđ c vi c này, s ti n hành g n tr ng s cho t p lu t)ăđ cho em l a ch n thêm - Hi n nay, d li uăđ căl uătr ngày m tăt ng,ăđ toán c n ti p t c nghiên c uăcácăph l n, nghiên c u thêm m t s ng d ng KPDL vào ngăphápăx lý cho toán v i d li u ng d ng khác c a KPDL - Lu năv nănghiênăc u thiên v tính ng d ngătrongăCSDLăt ăv n ch n ngành h c, n uăcóăđi u ki n s ti p t c phát tri n CSDL khác nh m m c tiêu tìm m t quy lu t ng d ng cho tri th căđưăđ c trích xu t 59 K ăHO CHăNGHIÊNăC U N iădung TT Giaiăđo nă1 Nghiên c uăc ăs ălýăthuy tăvƠăvi tăbáoăcáoăs ăl Th iăgian c 01/10/201331/10/2013 Giaiăđo nă2 Thuă th pă s ă li uă (phi uă kh oă sátă sinhă viênă (tr că ti p,ă 01/11/2013paper,ăwebsite)),ăphơnătíchănghiênăc uăcácătƠiăli u,ă ngă 28/02/2014 d ngăvƠăthamăkh oăýăki năc aăcácăchuyênăgiaăliênăquană đ năcôngătácăh ngănghi păchoăh căsinhăđ ăcóăđ căcácă kinhănghi măt ăth căti n Th căhi nănhi uăbi năphápăkhácănhauăđ ăti năx ălýăd ă li uăđ ăti năchoăvi căphơnăl p Nghiênăc uăbƠiătoánăphơnăl p,ăkhaiăthácălu tăphơnăl pă d aăvƠoălu tăk tăh p Xơyăd ngăvƠăcƠiăđ tă ngăd ng.ă ngăd ngăvƠoăd ăli uăthuă th păđ c Chu năb ăd ăli uăvƠăti năhƠnhăth cănghi m,ă t ă đóă rútă raă nh ngă quyă lu tă vƠă nh ngă d ă đoánă v ă cácă ngƠnhăngh ăphùăh păchoăcácăemăl aăch năvƠăquy tăđ nh Soăsánhăk tăqu ăđ tăđ căv iăm tăs ăcôngătrìnhăliênăquană đ ăđánhăgiáăhi uăqu ăth căti năc aăthu tătoán,ăt ăđóărútă raănh ngăv năđ ăc năc iăthi n Giaiăđo nă3 Ki mătraăvƠăhoƠnăch nhăbáoăcáoătheoăcácăyêuăc uăđ ăra 01/03/201430/03/2014 60 TÀIăLI UăTHAMăKH O [1] Lynda Jean Allen, The Appropriateness of Holland’s interest code typology for South African field guides, Faculty of Health Sciences at the Nelson Mandela Metropolitan University, 2005 [2] B.K Baradwaj, S Pal Mining Educational Data to Analyze Students’ Performance International Journal of Advanced Computer-Science and Applications 2(6), 2011 [3] Bramer, M., Principles of Data Mining Spring-Verlag London limited, 2007 [4] Ho Tu Bao, Chapter 3: Data mining with Decision Tree ậ http://www.netnam.vn/unescocourse/knowlegde/knowlegd.htm [5] Margaret H Dunham, Yongqiao Xiao, Le Gruenwald, Zahid Hossain, A Survey of Association Rules, International Journel of Computer TheoryAnd Engineering, vol.4, No.2 , 2003 [6] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth From Data Mining to Knowledge Discovery in Databases AAAI Press 1996 [7] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, 3rd Edition Morgan Kaufmann Publishers, 2011 [8] C Heiner, N Heffernan, T Barnes Educational Data Mining In Supplementary Proceedings of the 13th International Conference of Artificial Intelligence in Education (AIED), 2007 [9] Holland’s Theory and Career Choice is from the career key website: www.careerkey.org/english, 2002 [10] John L Holland, Making Vocational Choices: A Theory of Carrers, Englewood Cliffs, New Jersey: Prentice-Hall, 1973 [11] Mehmed Kantardzic, Data Mining: Concepts, Models, Methods, and Algorithms, 2nd Edition, John Wiley & Sons, 2011 [12] Ron Kohavi, J Ross Quinlan Decision Tree Discovery, 1999 61 [13] Loan T T Nguyen, Bay Vo, Tzung-Pei Hong, Hoang Chi Thanh CAR-Miner: An efficient algorithm for mining class-association rules Expert Systems with Applications, 40(6), pp 2305-2311, 2013 [14] Loan T T Nguyen, Bay Vo, Tzung-Pei Hong, Hoang Chi Thanh: Classification based on association rules: A lattice-based approach Expert Syst Appl 39(13): 11357-11366, 2012 [15] K Liu, Y Xing A Lightweight Solution to the Educational Data Mining Challenge In KDD Cup 2010 Workshop, July 25, 2010 [16] B Liu, W Hsu, Y Ma Integrating classification and association rule mining The 4th International Conference on Knowledge Discovery and Data Mining, New York, USA, pp 80-86, 1998 [17] MU Career Center’s Guide to Holland Code: Part of the Career and Major Exploration Guide Series, University of Missouri ậ MU Career Center, 2010 [18] Tom M Mitchell, Machine Learning, McGraw - Hill Science, 1997 [19] J R Quinlan C4.5: Program for Machine Learning Morgan Kaufmann Publishers, San Mateo, CA, 1993 [20] Payam Refaeilzadeh, Lei Tang, Huan Liu Encyclopedia of Database Systems pp 532-538 Arizona State University Springer US, 2009 [21] Carl Edward Rasmussen, Christopher K.I Williams Gausian Processes for Machine Learning MIT Press, pp 130-147 2006 [22] Slide Learning from Data: Decision trees, Amos Storkey, School of Informatics university of Edinburgh, Semester 1, 2004 [23] Raghu Ramakrishnan, Johannes Gehrke Database Management Systems, 3rd Edition McGraw-Hill, 2003 [24] Anurag Srivastava, Eui- Hong Han, Vipin Kumar, Vieet Singh Parallel Formulations of Decision-Tree Classification Algorithm Kluwer Academic Publisher, 1999 62 [25] John Shafer, Rakesh Agrawal, Manish Mehta SPRINT- A Scalable Paralllel Classifier for Data mining In Predeeings of the 22nd International Conference on Very Large Database, India, 1996 [26] M.R Tolun, H Sever, M Uludag, S.M Abu-Soud ILA-2: An inductive learning algorithm for knowledge discovery Cybernetics and Systems, 30(7), pp 609 ậ 628, 1999 [27] Mehmet R Tolun, Saleh M Abu-Soud, An Inductive Learning Algorithm for Production Rule Discovery, IEEE Press, 1999 [28] M.R Tolun, S.M Abu-Soud ILA: An inductive learning algorithm for production rule discovery Expert Systems with Applications, 14(3), pp 361ậ 370, 1998 [29] Thomas, Data Mining: Definittions and decision tree examples, State University of New York [30] Witten, I.H and E Frank, Data Mining: Practical Machine Learning Tools and Techniques 3rd Edition Morgan Kaufmann Publishers, 2011 [31] Mohammed J Zaki, Ching-Tien Ho, Rekesh Agrawal Parallel Classification for Data Mining on Shared-Memory Multiprocessors IVM Almaden Research Center, San Jose, CA 95120, 1998 63 PH ăL C A B ăcôngăc ătr cănghi măđ nhăh ngăngh ănghi păc aăJohnăHolland - John Lewis Holland (21.10.1919 ậ 27.11.2008)ălƠăgiáoăs ăxưăh iăh cădanhăd ă t iăTr ngă iăh căJohnsăHopkinsăvƠălƠăm tănhƠătơmălýăh căM ăỌngăđ căbi tă đ nănh ălƠătácăgi ăh căthuy tăl aăch năngh ănghi păhayăcònăg iălà Mã Holland (HollandăCodes)ăvƠăth ngăđ căvi tăt tălƠăRIASEC [1], [10] - Trênăc ăs ălýăthuy tănƠy,ăJohnăHollandăđưăxơyăd ngăm tăb ăcơuăh iădƠnhăchoă ng iămu năt ătìmăhi uămình.ăQuaănhi uăn măphátătri n,ăb ătr cănghi mănƠyă giúpăchoăng conăng iătaăt ăphátăhi năđ iămìnhăđ ăt ăđ nhăh căcácăki uăng iătr iănh tăđangăti mă nătrongă ngăkhiăl aăch năngh - Lýăthuy tănƠyăd aătrênă8ălu năđi m,ătrongăđóă2ălu năđi măđ uălƠ:ăH uănh ăaiă c ngă cóă th ă đ Realistic (ng ậ I), Artistic (ng că x pă vƠoă 1ă trongă 6ă ki uă ng i,ă 6ă ki uă ng i th căt ,ăvi tăt tălƠăR), Investigative (ng iă cóă tínhă ngh ă s ă ậ A), Social (ng S), Enterprising (ng iăthíchănghiênăc uă iă cóă tínhă xưă h iă ậ iădámăngh ădámălƠmăậ E) Conventional (ng ch căậ C);ăcóă6ămôiătr iă đóă ngăho tăđ ngă ngăđúngăv iă6ăki uăng iăcôngă iăk ătrên.ăLýă thuy tănƠyăv ăsauăl yă6ăch ăcáiăghépăl iăthƠnhătênăRIASEC [9], [17] - H căthuy tăc aăHollandăđưăl pălu năr ng:ăắThiênăh s ăbi uăhi năcáătínhăc aăm iăconăng đ cădi năt ă ăhaiăph Phơnălo iăc aăôngăđưăđ v ăđ nhăh i”ăvƠănóăđ ngădi n:ătínhăcáchăconăng ngăngh ănghi păchínhălƠă căphơnălo iăthƠnhă6ănhómăvƠă iăvƠămôiătru ngălƠmăvi c.ă cădùngăđ ăgi iăthíchăc uătrúcăc aăcu căs ănghiênăc uă ngăngh ăkhácănhauăd aătrênă2ăthangăđoămƠăôngăđưăphátătri n - Thuy tăHollandăkhôngăgi ăđ nhăr ngăm tăng iăch ăcóăm tătrongă6ălo iătínhăcáchă trênăth ăgi i.ăThayăvƠoăđó,ăôngăch ăraăr ngăb tăk ăng iănƠoăc ngăcóăth ăđ că môăt ăb ngăvi cădungăhòaăm tătrongă6ălo iătínhăcáchătheoăth ăt ăgi măd n.ăTrênă c ăs ănƠyăB ăquyăt căHollandăđưădi năt ă720ămôăhìnhătính cách khác nhauăc aă conă ng th i.ă H că thuy t nƠyă c ngă ápă d ngă trongă vi că phơnă lo iă ngh ,ă nh ngă ngăthìăch ăcóă2ăho că3ăquyăt căchiăph iăđ căs ăd ngăđ ăđ nhăh ngăngh 64 B Thôngătinăv ăngƠnhăh c,ătr ngăđƠoăt o,ăb căh c,ăkh iăthi,ăđi măchu n - C nă c Thôngă t ă 14/2010/TT-BGD T,ă ngƠyă 27 tháng 04 n mă 2010 c a B tr ng B Giáo d căvƠă Ơoăt o v vi c ban hành Danh m c giáo d c,ăđƠoăt o c păIVătrìnhăđ caoăđ ng,ăđ i h c - Nh ngăđi u c n bi t v năsinhăđ i h c,ăcaoăđ ngăn mă2013 Nhà xu t b n Giáo d c Vi t Nam - Trang web c aăcácătr - C mănangăh b nă ngăđ i h c,ăcaoăđ ng phía nam ng nghi p năsinhă i h căvƠăCaoăđ ngăn mă2013.ăNhƠăxu t i h c Qu c gia Tp.HCM Gi ngăviênăh ng d n H c viên th c hi n Giámăđ căTrungătơmăTinăh c TS.ăVõă ìnhăB y Tr ngă i h căTônă c Th ng Nguy nă ng Th Vinh [...]... y,ăcôngătácăh ngănghi păch năngƠnhăngh cho h c sinh THPT lƠăđi uăh tă s căc năthi t Tr cănh ngăth căt ăđó,ătôiăch nălu năv năắ ng d ng khai phá d li u ch n ngành ngh cho h c sinh THPT .ăLu năv năth căhi năvi căKPDLăt ăvi căkh oăsátă ch năngƠnhăh căc a sinh viênăcácătr ngă H,ăC ăđ ăd ăđoánăngƠnhăh c cho h c sinh THPT. ăD aăvƠoăk tăqu ăd ăđoánăđóăs ăgiúpăh c sinh l aăch n cho mìnhăm tăngƠnhă h căphùăh păv... năvƠăh ngăphátătri n ng, nh m tránh vi c lãng phí 5 CH NGă2:ăC ăS ăLụăTHUY T 2.1 T ngăquanăv khai phá d ăli u 2.1.1 Khai phá d ăli u là gì? Khai phá d ăli uălƠăm tăkháiăni măraăđ iăvƠoăcu iănh ngăn mă1980.ăNóălƠăquáă trìnhăkhám phá thôngătină năđ b cătìmăth yătrongăcácăCSDL vƠăcóăth ăxemănh ălƠăm tă cătrongăquáătrìnhăkhám phá triăth c.ăKPDL lƠăgiaiăđo năquanătr ngănh tătrongăti nă trình khai phá triăth... cho h că sinh đ ă cóă đ că cácă kinhă nghi măt ăth căti n.ă - Ph ngăphápănghiênăc uăth cănghi m:ăPhơnătíchăthi tăk ăh ăth ng,ătri n khai xơyăd ngă ngăd ng 1.6 ụăngh aăc aălu năv n 1.6.1 ụăngh aăkhoaăh c Áp d ng các thu t toán KPDL trên d li u kh o sát l a ch n ngành h c (D li uăđ c thu th p t cácătr ngă H,ăC ăt i TP.HCM) 1.6.2 ụăngh aăth căti n Lu năv n ng d ng KPDL ch n ngành ngh cho h c sinh THPT đóngăgópănh... aăvƠoăk tăqu ăkh oăsátăth că t sinh viên - Xơyăd ngă ngăd ngăh ătr ăh c sinh cácătr ng THPT trênăđ aăbƠnăt nhăNinhă Thu năcóănh ngăl aăch năv ăngƠnhăh căphùăh păv iăb năthơnăvƠăh ătr ăcácă cánăb ăchuyênătráchătuy n sinh c aăcácătr ng THPT trênăđ aăbƠnăt nhăNinhă Thu nănh năđ nhăvƠăđ ăraănh ngăbi năphápăphùăh pănh măt ăv năthêm cho cácăemătrongăvi căxácăđ nhăngh ănghi p cho b năthơn 1.3 1.3.1 iăt iăt... năđ ăd ăđoánăngƠnhă h căc aăh c sinh d aăvƠoăcácăthôngătinăđ uăvƠo,ăt ăđóăth căhi năt ăv năch nă ngƠnhăh c cho h c sinh nh măđ tăđ 1.5 Ph căk tăqu ăt tănh t.ăăă ngăphápănghiênăc u - Ph ngăphápănghiênăc uălý thuy t:ăTìmăhi uăvƠăl aăch năph ngăphápăKPDLă thíchăh p - Ph ngăphápănghiênăc uăthuăth păthôngătin,ăphơnătíchăs ăli u:ăThuăth păth ngă kêăs ăli u t ăphi uăkh oăsát sinh viênă(tr căti p,ăpaper,ăwebsite),... nălu t: ăb căthamăchi uăt iă c sinh raăt ăCSDL ch aătácănhơnăyêuăc uăs ăd ng cănƠyăchúngătaăti năhƠnhăl căcácălu tăh uăíchănh tăph că v cho ph măviăs ăd ng - ngăd ng: đơyălƠăk tăqu ămongăđ iănh tăt ăkhiăb tăđ u khai thác cho đ năkhiă thiăhƠnhălu t Môăhìnhă ngăd ngălu tăđưălƠmăsáng t ătínhă ngăd ngăc aăvi c khai thácălu tăk tă h pătrongăCSDL 15 Th căt ,ă ngăd ngăc a khai thácălu tăk tăh pătrongăCSDL... nhăvƠă nh ngăph ngăphápăh căkhác.ă căbi tăkhiăs ăl ngăm u trongăt păd ăli uăhu năluy n quá ít, hay có nhi u trongăd ăli u.ă ngăphápătránhăắquáăkh p”ăd ăli uătrongăcơyăquy tăđ nh:ă Cóăhaiăph - D ng phát tri n cây s măh năbìnhăth ng,ătr hoàn h o t p d li u hu n luy n V iăph ra là ph iă căl căkhiăđ t t iăđi m phân l p ngăphápănƠy,ăm t thách th căđ t ng chính xác th iăđi m d ng phát tri n cây - Cho phép cây... cho th yăm tăcơyăquy tăđ nhătiêuăbi u.ăCácănútătrong đ di năb ngăcácăhìnhăch ănh t,ăcònăcácănútăláăđ căbi uă căbi u di năb ngăcácăhìnhăb uăd c.ă M tăs ăthu tătoán cơyăquy tăđ nhăch sinh raăcác cây nh phân (trongăđóăm iănútătrong r ănhánhăđ năhaiănútăkhác),ătrongăkhiănh ngăthu tătoán cơyăquy tăđ nhăkhácăcóăth ă sinh raănh ngăcơyăkhôngănh ăphơn Cácăcơyăquy tăđ nhăđ cădùng cho phơnăl pănh ăth ănƠo? Cho m... ăs ăd ăli u Hă iăh c C Caoăđ ng TCCN Trungăc păchuyênănghi p TB i mătrungăbình HSSV H c sinh sinh viên SV Sinh viên Q ă Quy tăđ nh 1 CH NGă1:ăT NGăQUAN 1.1 Lýădoăch nălu năv n M cădùăch aăcóăs ăli uăth ngăkêăc ăth ,ănh ngăcóăth ăth yăr ngăh uăh tăh c sinh sauăkhiăhoƠnăt tăch ngătrìnhăl pă12ăđ uăti păt căl aăch n cho mìnhănh ngătr H,ăC ,ăTCCN.ăThôngăquaăvi căch nătr đ ngă ng,ăch năngƠnhăngh ăs ăgiúpăcácăemăcóă... ngăthôngătinătr ng THPT 39 B ngă4.1:ăS ăli uăth căhi năkh oăsát sinh viên 50 B ngă4.2:ăS ăli uăchiăti tăt ngăngƠnh 51 B ngă4.3:ăK tăqu ăđánhăgiáă10-fold cross - validation 52 B ngă4.4:ăK tăqu ăch năngƠnh,ătr ngăc aă HQGăTp.HCM 54 B ngă4.5:ăTh iăgianăth căhi năt ăv năch năngƠnh 54 B ngă4.6:ăB ngăsoăsánhăk tăqu 55 xi DANHăM CăT ăVI TăT T KPDL Khai phá d ăli u THPT Trungăh

Ngày đăng: 31/10/2016, 22:29

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan