Khai phá dữ liệu từ các mạng xã hội để khảo sát ý kiến đánh giá các địa điểm du lịch tại Đà Nẵn

26 372 0
Khai phá dữ liệu từ các mạng xã hội để khảo sát ý kiến đánh giá các địa điểm du lịch tại Đà Nẵn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 B GIO DC V O TO I HC NNG PHNG HU ON KHAI PH D LIU T CC MNG X HI KHO ST í KIN NH GI CC A IM DU LCH TI NNG Chuyờn ngnh: KHOA HC MY TNH Mó s: 60.48.01 TểM TT LUN VN THC S K THUT Nng Nm 2013 Footer Page of 126 Header Page of 126 Cụng trỡnh c hon thnh ti I HC NNG Ngi hng dn khoa hc: TS.Hunh Cụng Phỏp Phn bin 1: TS Nguyn Thanh Bỡnh Phn bin 2: PGS TS Trng Cụng Tun Lun ó c bo v trc Hi ng chm Lun tt nghip thc s k thut hp ti i hc Nng vo ngy 16 thỏng 11 nm 2013 Cú th tỡm hiu lun ti: - Trung tõm Thụng tin-Hc liu, i hc Nng - Trung tõm Hc liu, i hc Nng Footer Page of 126 Header Page of 126 M U Tớnh cp thit ca ti a im du lch l mt ni chn c th cú th l di tớch lch s hoc cnh p ni ting m nhiu ngi mun n chiờm ngng Ti thnh ph Nng cú rt nhiu a im du lch nh l: nỳi B N, sui M, lng ỏ m ngh Non Nc, Ng Hnh Sn, bói bin Phm Vn ng Vi li th v tim nng sn cú, Nng ang cú nhng c hi ln phỏt trin nhanh, mnh v bn vng "ngnh cụng nghip khụng khúi" Hin nay, Nng khụng ngng u t v phỏt trin tim nng du lch ti thc hin kho sỏt ý kin ỏnh giỏ cỏc a im du lch ti Nng m c th l nỳi B N cú th phn no a ỏnh giỏ khỏch quan v dch v du lch ti nỳi B N Qua ú thu thp c cỏc ý kin ỏnh giỏ, tỡm hiu c nhng gỡ tt v cha tt cụng tỏc phỏt trin dch v du lch, gúp phn ci thin cht lng dch v a du lch Nng ngy cng phỏt trin mnh m Nh chỳng ta ó bit, hu ht cỏc thụng tin c trao i hin nm di dng ti liu bn Cỏc thụng tin ú cú th l cỏc bi bỏo, cỏc ti liu kinh doanh, cỏc thụng tin kinh t, cỏc bi nghiờn cu khoa hc Dự ỏp dng C s d liu vo hot ng ca t chc l rt ph bin v em li nhiu li ớch lu tr v x lý, nhng ta khụng th quờn c rng cú rt nhiu dng thụng tin khỏc c lu tr di dng bn Thm c cỏc thụng tin c lu cỏc c s d liu, phn ln s chỳng cng c t chc di dng bn Hin nay, cỏc t chc ó ỏp dng cụng ngh thụng tin vo qun lý h thng cụng giy t, vớ d cỏc h thng s dng Lotus Node Tuy nhiờn ú ch thc s l cỏch qun Footer Page of 126 Header Page of 126 lý lung d liu bn, cung cp cỏc cụng c kho cha, cũn d liu thc s nm di dng bn Chỳng ta cha cú cỏc gii thut phõn loi, tỡm kim ti liu, cỏc cụng c trớch lc thụng tin nhm mc ớch thng kờ, phỏt hin tri thc, quyt nh trc tip trờn cỏc ngun d liu kiu ny Vi thc t ú, t l lm th no chỳng ta cú th khai thỏc c nhng thụng tin hu ớch t cỏc ngun ti liu bn núi chung Cỏc ngun d liu ny phi c x lý nh th no ngi dựng cú th cú nhng cụng c t ng hoỏ tr giỳp vic phỏt hin tri thc v khai thỏc thụng tin Rừ rng, chỳng ta phi hiu rừ bn cht ca d liu bn, hiu rừ cỏc c trng ca cỏc d liu loi ny cú th cú c nhng phng phỏp lun cn thit Vic khai thỏc thụng tin t cỏc ngun d liu bn cỏc t chc Vit Nam chc chn phi da vo nhng kt qu nghiờn cu v bn núi chung, v d liu bn v cỏc k thut x lý ó c phỏt trin trờn th gii Tuy nhiờn, nhng bn ting Vit li cú nhng c trng riờng ca nú Ta cú th nhn thy c s khỏc bit v mt kớ phỏp, cỳ phỏp v ng phỏp ting Vit cỏc bn so vi cỏc ngụn ng ph bin trờn th gii nh ting Anh, ting Phỏp Vy thỡ nhng c trng ny nh hng th no n cỏc k thut khai phỏ d liu bn, ta cn phi cú nhng k thut mi no cú th tn dng c nhng u th ca ting Vit cng nh gii quyt c nhng phc ting Vit tr li c nhng cõu hi ny, ỏn s i t nhng bc nghiờn cu v Khai phỏ d liu bn, tỡm hiu nhng c trng ca ting Vit, t ú phng hng giỳp gii quyt bi toỏn phõn loi bn ting Vit phc cỏc nghiờn cu cao hn Footer Page of 126 Header Page of 126 Mng xó hi nhng nm gn õy ang phỏt trin cc k mnh m Theo mt s liu thng kờ cha chớnh thc, tớnh ti thỏng 1-2012 Vit Nam ang cú gn 3,8 triu ti khon Facebook, ng th 40 trờn th gii Mng xó hi giỳp ngi dựng cú th d dng núi chuyn, cp nht, chia s, trao i thụng tin, hỡnh nh mt cỏch nhanh chúng, tr thnh mt phn khụng th thay th cuc sng thng nht ca hng trm triu ngi dõn trờn ton th gii Vỡ th tụi quyt nh s dng mng xó hi thc hin khai thỏc d liu Chỳng tụi nhúm hng dn ca TS Hunh Cụng Phỏp ó cựng thc hin nghiờn cu v ti khai phỏ d liu mng xó hi, v s dng d liu ú phõn loi ý kin ỏnh giỏ Trong ú, bn Trn Th i Qunh ó thc hin vic khai phỏ thu thp d liu t cỏc mng xó hi, anh Nguyn Hi Minh thc hin phõn tớch ý kin khỏch hng v sn phm in t, cũn tụi s thc hin phõn tớch ý kin ỏnh giỏ v a danh du lch ti thnh ph Nng Vỡ vy, tụi xõy dng ti Khai phỏ d liu t cỏc mng xó hi kho sỏt ý kin ỏnh giỏ cỏc a im du lch ti Nng Mc tiờu nghiờn cu Trờn c s lý thuyt v x lý ngụn ng t nhiờn, phõn tớch t vng on bn ting Vit, bc u xõy dng ng dng demo cú th phõn tớch ý kin ỏnh giỏ t mt on bn D liu u vo ca chng trỡnh c khai thỏc t cỏc trang mng xó hi nh Facebook, Twitter i tng v phm vi nghiờn cu Lun thc hin da trờn d liu khai thỏc t mng xó hi Facebook, Twitter V s dng d liu ú phõn tớch Do thi gian cú hn nờn lun ch nghiờn cu v phng phỏp phõn loi Footer Page of 126 Header Page of 126 bn SVM u nhc im ca phng phỏp SVM v s dng thut toỏn SVM xõy dng mt ng dng demo Phng phỏp nghiờn cu Phng phỏp ti liu: Tỡm hiu phng phỏp khai thỏc d liu t mng xó hi Tỡm hiu cỏc phng phỏp nhn dng v phõn loi bn, ch yu l phng phỏp Mỏy hc vộc t h tr (SVM) Tỡm hiu cỏc phng phỏp so sỏnh bn tng ng Phng phỏp thc nghim: Tin hnh phõn tớch v xõy dng ng dng mụ phng cho lý thuyt nghiờn cu Phõn tớch bn ó khai thỏc c t mng xó hi xem bn ú l mang ý ngha tớch cc hay tiờu cc í ngha khoa hc v thc tin ca ti Khai thỏc c nhng thụng tin hu ớch t cỏc ngun ti liu bn núi chung Xõy dng cụng c cú th t ng hoỏ tr giỳp vic phỏt hin tri thc v khai thỏc thụng tin Nghiờn cu xõy dng h thng cú th ỏnh giỏ c cỏc mu bn t cỏc trang mng xó hi T ú cú th thc hin cỏc cuc kho sỏt v cỏc a im du lch v ỏnh giỏ c khỏch quan hn Footer Page of 126 Header Page of 126 CHNG I TNG QUAN V CC PHNG PHP KHAI PH D LIU 1.1 KHAI PH D LIU V QU TRèNH KHAI PH D LIU 1.1.1 Khai phỏ d liu l gỡ? V c bn, khai phỏ d liu l x lý d liu v nhn bit cỏc mu v cỏc xu hng thụng tin ú bn cú th quyt nh hoc ỏnh giỏ Cỏc nguyờn tc khai phỏ d liu ó c dựng nhiu nm, nhng vi s i ca big data (d liu ln), nú li cng ph bin hn Big data gõy mt s bựng n v s dng nhiu k thut khai phỏ d liu hn, mt phn vỡ kớch thc thụng tin ln hn rt nhiu v vỡ thụng tin cú xu hng a dng v m rng hn v chớnh bn cht v ni dung ca nú Khai phỏ d liu l mt lnh vc khoa hc mi xut hin, nhm t ng húa khai thỏc nhng thụng tin, tri thc hu ớch, tim n cỏc CSDL cho cỏc t chc, doanh nghip, t ú thỳc y kh nng sn xut, kinh doanh, cnh tranh ca t chc, doanh nghip ny Cỏc kt qu nghiờn cu cựng vi nhng ng dng thnh cụng khai phỏ d liu, khỏm phỏ tri thc cho thy khai phỏ d liu l mt lnh vc khoa hc tim nng, mang li nhiu li ớch, ng thi cú u th hn hn so vi cỏc cụng c phõn tớch d liu truyn thng Hin nay, khai phỏ d liu c ng dng rng rói cỏc lnh vc nh: Phõn tớch d liu h tr quyt nh, iu tr y hc, tin-sinh hc, thng mi, ti chớnh, bo him, text mining, web mining Footer Page of 126 Header Page of 126 Hỡnh thnh v nh ngha bi toỏn Thu thp v tin x lý d liu Khai phỏ d liu, rỳt cỏc tri thc Phõn tớch v kim tra kt qu Phõn tớch v kim tra kt qu Hỡnh 1.1 Quy trỡnh phỏt hin tri thc 1.1.2 Quỏ trỡnh khai phỏ d liu Quỏ trỡnh khỏm phỏ tri thc cú th phõn thnh cỏc cụng on sau: Trớch lc d liu: L bc tuyn chn nhng d liu cn c khai phỏ t cỏc d liu ln (databases, data warehouses, data repositories) ban u theo mt s tiờu nht nh Tin x lý d liu: L bc lm sch d liu (x lý d liu khụng y , d liu nhiu, d liu khụng nht quỏn), tng hp d liu (nộn, nhúm d liu, tớnh tng, xõydng cỏc histograms, ly mu,), ri rc húa d liu (ri rc húa da vo histograms, Footer Page of 126 Header Page of 126 entropy, phõn khong, ) Sau bc tin s lý ny, d liu s nht quỏn, y , c rỳt gn v ri rc húa Bin i d liu: L bc chun húa v lm mn d liu a d liu v dng thun li nht nhm phc v vic ỏp dng cỏc k thut khai phỏ bc sau Khai phỏ d liu: L bc ỏp dng nhng k thut phõn tớch (phn nhiu l cỏc k thut hc mỏy) nhm khai thỏc d liu, trớch lc nhng mu tin (information patterns), nhng mi quan h c bit d liu õy c xem l bc quan trng v tiờu tn thi gian nht ca ton b quỏ trỡnh KDD ỏnh giỏ v biu din tri thc: Nhng mu thụng tin v mi quan h d liu ó c phỏt hin bc khai phỏ d liu c chuyn sang v biu din dng gn gi vi ngi s dng nh th, cõy, bng biu, lut, ng thi bc ny cng ỏnh giỏ nhng tri thc khai phỏ c theo nhng tiờu nht nh 1.2 CC PHNG PHP V K THUT KHAI PH, X Lí D LIU 1.2.1 Cỏc k thut khai phỏ d liu ng trờn quan im ca hc mỏy, thỡ cỏc k thut KPDL, bao gm: Hc cú giỏm sỏt Hc khụng cú giỏm sỏt Hc na giỏm sỏt Nu cn c vo lp cỏc bi toỏn cn gii quyt, thỡ KPDL bao gm cỏc k thut ỏp dng sau: Phõn lp v d oỏn (classification and prediction) Phõn cm (clustering/segmentation) Footer Page of 126 Header Page 10 of 126 Lut kt hp (association rules) Phõn tớch hi quy (regression analysis) Phõn tớch cỏc mu theo thi gian (sequential/temporal patterns) Mụ t khỏi nim (concept description and summarization) 1.2.2 Cỏc phng phỏp chớnh khai phỏ d liu - Phõn lp v d oỏn: Xp mt i tng vo mt nhng lp ó bit Vớ d: phõn lp vựng a lý theo d liu thi tit i vi hng tip cn ny thng ỏp dng mt s k thut nh hc mỏy (Machine learning), cõy quyt nh (Decision tree), mng nron nhõn to (Neural network) Vi hng ny, ngi ta cũn gi l hc cú giỏm sỏt (Supervised learning) - Phõn cm v phõn on: Sp xp cỏc i tng theo tng cm Cỏc i tng c gom cm cho mc tng t gia cỏc i tng cựng mt cm l ln nht v mc tng t gia cỏc i tng nm cỏc cm khỏc l nh nht Lp bi toỏn phõn cm cũn c gi l hc khụng giỏm sỏt - Lut kt hp: Lut kt hp l dng lut biu din tri thc dng khỏ n gin Mc tiờu ca phng phỏp ny l phỏt hin v a cỏc mi liờn h gia cỏc giỏ tr d liu CSDL Mu u ca gii thut KPDL l lut kt hp tỡm c - Khai phỏ chui theo thi gian: Cng tng t nh KPDL bng lut kt hp nhng cú thờm tớnh th t v tớnh thi gian Hng tip cn ny c ng dng nhiu Footer Page 10 of 126 Header Page 12 of 126 10 d Neural Network (NNet) e Linear Least Square Fit (LLSF) f Centroid- based vector 1.2.5 Cỏc phng phỏp tỏch t ting Vit a Phng phỏp Maximum Matching: forward/backward Phng phỏp khp ti a (Maximum Matching) cũn gi l Left Right Maximum Matching (LRMM) Theo phng phỏp ny, ta s duyt mt ng hoc cõu t trỏi sang phi v chn t cú nhiu õm tit nht cú mt t in, ri c th tip tc cho t k tip cho n ht cõu Thut toỏn c trỡnh by [14] b Phng phỏp gii thut hc ci bin (Transformationbased Learning, TBL) õy l cỏch tip cn da trờn ng liu ó ỏnh du Theo cỏch tip cn ny, hun luyn cho mỏy tớnh bit cỏch nhn din ranh gii t ting Vit, ta cú th cho mỏy hc trờn ng liu hng cõu ting Vit ó c ỏnh du ranh gii t ỳng c Mụ hỡnh tỏch t bng WFST v mng Neural Mụ hỡnh mng chuyn dch trng thỏi hu hn cú trng s WFST (Weighted finitstate Transducer) ó c [15] ỏp dng tỏch t ting Trung Quc í tng c bn l ỏp dng WFST kt hp vi trng s l xỏc sut xut hin ca mi t ng liu Dựng WFST duyt qua cõu cn xột Cỏch duyt cú trng s ln nht s l cỏch tỏch t c chn d Phng phỏp quy hoch ng Phng phỏp quy hoch ng [20] ch s dng ng liu thụ ly thụng tin v tn s thng kờ ca t, lm tng tin cy cho vic tớnh toỏn Footer Page 12 of 126 Header Page 13 of 126 11 e Phng phỏp tỏch t ting Vit da trờn thng kờ t Internet v thut toỏn di truyn Phng phỏp IGATEC H.Nguyn et al (2005) [17] gii thiu vic tỏch t vi mc ớch phõn loi bn m khụng cn dựng n mt t in hay hun luyn no Trong hng tip cn ny, tỏc gi kt hp gia thut toỏn di truyn (Genetics Algorithm - GA) vi d liu thng kờ c trớch xut t Internet tin hoỏ mt qun th gm cỏc cỏ th l cỏc kh nng tỏch t cõu 1.3 CC CễNG TRèNH KHAI PH V X Lí D LIU C PHT TRIN Khai phỏ d liu website bng k thut phõn cm La chn thuc tớnh khai phỏ d liu Nghiờn cu ng dng ph bin v lut kt hp vo bi toỏn phõn loi bn Ting Vit cú xem xột ng ngha Phõn loi bn Ting Vit vi b vector h tr SVM Phng phỏp lut kt hp v ng dng ng dng khai phỏ d liu t hc Nghiờn cu ng dng phõn lp d liu qun lý khỏch hng trờn mng D bỏo bựng n s kin mng xó hi 1.4 KT LUN Footer Page 13 of 126 Header Page 14 of 126 12 CHNG PHNG PHP KHO ST LY í KIN V PHN LOI 2.1 CC PHNG PHP KHO ST LY í KIN 2.1.1 Phng phỏp kho sỏt th cụng iu tra kho sỏt cú th chia thnh hai loi ln: Bng hi v Phng Bng hi thng l danh sỏch cỏc cõu hi trờn giy, ngi tham gia iu tra s in Phng c in bi ngi phng da trờn thụng tin cung cp t ngi tham gia phng a Bng hi Kho sỏt qua Email, Mng xó hi Mt dng bng hi l phiu kho sỏt c gi qua email, hoc ng cõu hi kho sỏt trờn mng xó hi Phng phỏp ny cú rt nhiu im mnh: Chi phớ thp, ngi tham gia nhiu, khụng ph thuc thi gian Tuy nhiờn, phng phỏp ny cng cú mt s im yu: T l phn hi thng thp, khụng th a nhiu thụng tin chi tit di dng vit Phiu thm dũ cú giỏm sỏt Mt nhúm nhng ngi tham gia c trung li v c yờu cu tr li mt b cõu hi Thụng thng, thun tin, vic thc hin bng hi c thc hin theo tng nhúm b Phng Phng l mt hỡnh thc nghiờn cu cú tớnh cht cỏ nhõn hn nhiu so vi bng hi Trong phng cỏ nhõn, ngi phng lm vic trc tip vi ngi c phng Khụng ging nh Footer Page 14 of 126 Header Page 15 of 126 13 phiu iu tra gi qua email, ngi phng s cú c hi c t nhng cõu hi tip theo 2.1.2 Phng phỏp kho sỏt t ng H thng S4-TS01 2.1.3 Mt s cỏc ti kho sỏt ý kin ỏnh giỏ a ti Kho sỏt th vin trng THCS Trn Cao Võn [18] b ti Kho sỏt ý kin khỏch hng v cht lng dch v th quc t ca ngõn hng Si Gũn Thng Tớn [9] c Kho sỏt cht lng dch v khỏch hng ti Cụng Ty TNHH Co.opMart Cng Qunh Qun 1, TP.H Chớ Minh [8] d Mt s cỏc d ỏn thc hin ly ý kin ngi dựng khỏc: Phỏt hin cng ng s dng thut toỏn CONGA v khai phỏ quan im cng ng [7]: Cụng trỡnh ó trỡnh by cỏch phỏt hin cng ng da trờn thut toỏn CONGA Steve Grogery xut nm 2007 v s dng k thut hc mỏy xỏc sut Naùve Bayes phõn lp quan im cng ng Khai phỏ quan im trờn d liu TwiTter [6]: õy l cụng trỡnh khai phỏ d liu t trang mng xó hi ni ting Twister ly v tt c cỏc tweets th hin quan im ca ngi s dng v mt s vt, hin tng, hay s kin no ú T ú dựng k thut phõn lp theo tip cn hc mỏy phõn lp quan im ca ngi dựng theo theo b phõn lp tweet ú l negative-positive v negative-neutralpositive Nghiờn cu ca J.Bollen v D bỏo th trng chng khoỏn da trờn Twitter [15]: Cụng trỡnh ny ó nờu v gii quyt bi toỏn d bỏo th trng chng khoỏn da trờn cỏc thụng tin m ngi dựng li trờn Tweeter, dựng k thut khai phỏ d liu ly tt c cỏc Footer Page 15 of 126 Header Page 16 of 126 14 thụng tin ny sau ú dựng phng phỏp phõn loi võn bn SVM kt hp vi kNN phõn tớch cm xỳc ca ngi dựng t ú a nhng d oỏn v giỏ chng khoỏn trờn th trng 2.2 SO SNH CC PHNG PHP IU TRA 2.3 LA CHN PHNG PHP IU TRA Da vo mng xó hi doanh nghip cú th truy cp, qun lý v tn dng nhiu cụng c nh din n tho lun, chat ni b v cỏc cụng c khỏc to lp ni dung tin cy, hiu c th hiu, quan im, xu hng ca khỏch du lch, ng thi qun lý hỡnh nh thng hiu hiu qu trờn mụi trng trc tuyn, ỏnh giỏ hiu qu ca cỏc hot ng tip th theo thi gian thc, la chn c nhng phng phỏp tip cn th trng hiu qu nht v mt chi phớ Nh vy, phng phỏp chỳng ta s dng l da vo mng xó hi thc hin kho sỏt ly ý kin 2.4 SO SNH CC PHNG PHP PHN LOI VN BN 2.4.1 Phng phỏp phõn loi bn s dng thut toỏn SVM a Thut toỏn SVM Thut toỏn mỏy vector h tr (Support Vector Machines - SVM) c Corters v Vapnik gii thiu vo nm 1995 [35] SVM rt hiu qu gii quyt cỏc bi toỏn vi d liu cú s chiu ln nh cỏc vector biu din bn Thut toỏn SVM ban u ch c thit k gii quyt bi toỏn phõn lp nh phõn tc l s lp hn ch l hai lp Hin nay, SVM c ỏnh giỏ l b phõn lp chớnh xỏc nht cho bi toỏn phõn lp bn, bi vỡ ú l b phõn lp tc rt nhanh v hiu qu i vi bi toỏn phõn lp bn Footer Page 16 of 126 Header Page 17 of 126 15 Cho d liu hc D = {(xi,yi),i=1,,n} vi xi Rm v yi {1,1} l mt s nguyờn xỏc nh xi l d liu dng hay õm Mt ti liu xi c gi l d liu dng nu nú thuc lp ci; xi c gi l d liu õm nu nú khụng thuc lp ci B phõn lp tuyn tớnh c xỏc nh bng siờu phng: {x: f(x)=wT + w0 = 0} (2.1) m Trong ú w R v w0 R úng vai trũ l tham s ca mụ hỡnh Hm phõn lp nh phõn h : Rm {0,1} cú th thu c bng cỏch xỏc nh du ca f(x): h x if f ( x) 0 else (2.2) b Hun luyn SVM Hun luyn SVM l vic gii bi toỏn quy hoch ton phng SVM Cỏc phng phỏp s gii bi toỏn quy hoch ny yờu cu phi lu tr mt ma trn cú kớch thc bng bỡnh phng ca s lng mu hun luyn Trong nhng bi toỏn thc t, iu ny l khụng kh thi vỡ thụng thng kớch thc ca d liu hun luyn thng rt ln (cú th lờn ti hng chc nghỡn mu) Nhng thut toỏn ny da trờn vic phõn ró d liu hun luyn thnh nhng nhúm d liu iu ú cú ngha l bi toỏn quy hoch ton phng vi kớch thc nh hn Sau ú, nhng thut toỏn ny kim tra cỏc iu kin KKT (Karush-Kuhn- Tucker) xỏc nh phng ỏn ti u Mt s thut toỏn hun luyn da vo tớnh cht: Nu d liu hun luyn ca bi toỏn quy hoch ton phng cn gii mi bc cú ớt nht mt mu vi phm cỏc iu kin KKT, thỡ sau Footer Page 17 of 126 Header Page 18 of 126 16 gii bi toỏn nỏy, hm mc tiờu s tng Nh vy, mt chui cỏc bi toỏn quy hoch ton phng vi ớt nht mt mu vi phm cỏc iu kin KKT c m bo hi t n mt phng ỏn ti u Do ú, ta cú th trỡ mt d liu lm vic ln cú kớch thc c nh v ti mi bc hun luyn, ta loi b v thờm vo cựng mt s lng mu 2.4.2 So sỏnh cỏc phng phỏp phõn loi bn Cỏc thut toỏn phõn loi trờn t thut toỏn phõn loi lp (SVM) n cỏc thut toỏn phõn loi a lp (kNN) u cú im chung l yờu cu bn phi c biu din di dng vector c trng Ngoi cỏc thut toỏn nh kNN, NB, LLSF u phi s dng cỏc c lng tham s v ngng ti u ú thut toỏn SVM cú th t tỡm cỏc tham s ti u ny Trong cỏc phng phỏp SVM l phng phỏp s dng khụng gian vector c trng ln nht (hn 10000 chiu) ú ch l 2000 i vi NB, 2415 cho kNN v LLSF, 1000 cho Nnet [40] Thi gian hun luyn cng khỏc i vi tng phng phỏp, Nnet (s dng mi mng tng ng mt ch ) v SVM l hai phng phỏp cú thi gian hun luyn lõu nht ú kNN, NB, LLSF v Centroid l cỏc phng phỏp cú tc (thi gian hun luyn, phõn loi) nhanh v ci t d dng 2.5 LA CHN PHNG PHP PHN LOI Cú nhiu phng phỏp phõn loi cỏc ý kin ca khỏch hng vo tng nhúm tiờu c th, tụi quyt nh chn phng phỏp phõn loi s dng mỏy hc vector h tr SVM nghiờn cu v xõy dng ng dng mụ t cho lý thuyt nghiờn cu i vi ting Vit vic ng dng cỏc phng phỏp ny phõn loi gp khỏ nhiu khú khn cu trỳc t ting Vit cú c im Footer Page 18 of 126 Header Page 19 of 126 17 riờng Nu nh ting Anh mi t u cú ngha thỡ ting Vit bờn cnh t n cũn cú t phc t ghộp nhiu t n ghộp li m to nờn ngha Hin phng phỏp MMSEG v cỏc ci tin ca nú ang c ng dng rng rói tỏch t ting Vit, õy l cỏch tỏch t n gin nhanh s dng thut toỏn khp ti a (Maximum Watching), chớnh xỏc ca phng phỏp ny ph thut vo t in Trong ti tụi chn phng phỏp MMSEG tỏch t ting vit ú cú s dng t in Ting Vit Lý chn phng phỏp phõn loi s dng mỏy hc vector h tr SVM phõn loi ý kiờn khỏch hng: SVM l phng phỏp tip cn phõn loi rt hiu qu, SVM cho hiu sut cao nht so vi cỏc phng phỏp khỏc nh kNN, LLSF, Nnet Khụng gian vector c trng nh hng rt ln n hiu sut ca phng phỏp SVM Nhng ti ca chỳng ta vi tiờu gm tiờu l positive, negative v neutral ta nhn thy t vng rỳt t d liu hun luyn l hu hn, cú kớch thc nh vỡ cỏc t khúa th hin quan im cm xỳc l hu hn Do ú khụng gian vector c trng s khụng ln v thi gian hun luyn s khụng nhiu, iu ny khin cho hiu sut ca phng phỏp SVM l tt hn 2.6 KT LUN Footer Page 19 of 126 Header Page 20 of 126 18 CHNG XY DNG BI TON PHN LP NH GI V A DANH DU LCH B N - NNG 3.1 BI TON PHN LOI í KIN KHCH HNG I VI MT A DANH DU LCH TI NNG 3.1.1 Mụ t bi toỏn Thiờn nhiờn u ói cho Nng nm gia vựng k cn ba di sn hoỏ th gii: C ụ Hu, ph c Hi An v thỏnh a M Sn, chớnh v trớ ny ó lm ni rừ vai trũ ca thnh ph nng khu vc, ú l ni ún tip, phc v, trung chuyn khỏch Khụng ch vy, Nng cũn cú nhiu danh thng tuyt p ti thc hin kho sỏt ý kin ỏnh giỏ cỏc a im du lch ti Nng m c th l nỳi B N cú th phn no a ỏnh giỏ khỏch quan v dch v du lch ti nỳi B N Qua ú gúp phn a du lch Nng ngy cng phỏt trin mnh m Bi toỏn c xõy dng nh sau: - Input: mt bn (text) d liu thụng tin v ý kin ỏnh giỏ a danh B N - Output: Phõn loi tng bn vo cỏc lp tng ng 3.1.2 xut gii phỏp a Gii phỏp cho bi toỏn Thc hin khai phỏ d liu, thu thp ý kin khỏch du lch thụng qua mng xó hi Facebook, Twittterv a danh nỳi B N Xõy dng t hun luyn tớch cc, tiờu cc Xõy dng t in ting Vit bao gm cỏc t thụng dng, v cỏc cm t c bit nhm nhn dng bn ỏnh giỏ v a danh du lch B N Da vo t in ny thỡ chng trỡnh mi cú th tỏch c t v cm t cú ý ngha bn Footer Page 20 of 126 Header Page 21 of 126 19 Xõy dng t dng nhm loi b cỏc t khụng mang ý ngha phõn loi bn, nh: ỏi ch, bi th, bng dng, vy l T mó ngun m ca thut toỏn SVM xõy dng chng trỡnh demo phõn lp bn b Mụ hỡnh gii phỏp Mng xó hi Khai phỏ d liu Tp d liu ỏnh giỏ a danh du lch B N Tin x lý d liu Tỏch t v loi b t dng Biu din di dng vect c trng B phõn lp SVM Tp phõn lp tớch cc Tp phõn lp tiờu cc Tp phõn lp khụng xỏc nh Tng hp kt qu Hỡnh 3.1 Mụ hỡnh gii phỏp cho bi toỏn phõn lp bn Footer Page 21 of 126 Header Page 22 of 126 20 3.1.3 Khai phỏ v thu thp d liu D liu u vo ca chng trỡnh c ly t cỏc mng xó hi Cụng vic khai phỏ v thu thp d liu bn Trn Th i Qunh ó thc hin mt lun khỏc Tụi s s dng d liu ú tin hnh x lý phõn lp ý kin 3.1.4 Tin x lý d liu Module tin x lý tỏch bn thnh cỏc t n (khụng tỏch cỏc cm t) Sau tỏch t v loi b cỏc t dng v mt s kớ t c bit delim (delim = _@${}()-[]:;,.=?*&^%#!|+~/\'\), chng trỡnh tớnh trng s t khoỏ TF.IDF v chng trỡnh a mi ti liu v dng vector cỏc t mc Mi bn c biu din trờn mt dũng v di dng vector: : :: Trong ú: : biu din ch ca bn : l s nguyờn dng, tham chiu n thuc tớnh c la chn quỏ trỡnh tin x lý d liu Vn bn c sp xp theo th t tng dn ca : biu din quan trng ca thuc tớnh d liu hc Mi giỏ tr thuc tớnh l mt s thc, nh dng gm 16 ch s sau du phy v c tớnh theo cụng thc TFIDF: (3.18) 3.1.5 Trớch xut c trng v biu din TFxIDF Trng s t l tớch ca tn sut t TF v tn sut ti liu nghch o ca t ú v c xỏc nh bng cụng thc Footer Page 22 of 126 Header Page 23 of 126 21 IDF = log(N / DF) + (3.19) Trong ú: N l kớch thc ca ti liu hun luyn; DF l tn sut ti liu: l s ti liu m mt t xut hin ú Trng s TFIDF kt hp thờm giỏ tr tn sut ti liu DF vo trng s TF Khi mt t xut hin cng ớt ti liu (tng ng vi giỏ tr DF nh) thỡ kh nng phõn bit cỏc ti liu da trờn t ú cng cao 3.1.6 Hun luyn b phõn lp SVM chng trỡnh cú th phõn lp c d liu, ta cn phi hun luyn nú cú th xỏc nh c ý kin no l positive, ý kin no l negative i vi tng lp ý kin ta truyn vo cỏc t, cm t c trng cho lp ú Chng trỡnh cng hc c lng t ln thỡ kh nng phõn lp c d liu cng cao 3.1.7 Phõn lp d liu u vo Khi tin hnh phõn lp on bn ta phi tin hnh tỏch t, lc tỏch cỏc t dng, cỏc t vụ ngha, cỏc ký t c bit Sau ú chng trỡnh s so sỏnh ni dung cũn li ca bn vi d liu ó c hc trờn kt lun bn thuc phõn lp no 3.1.8 Ci t th nghim a Cụng c Mụi trng thc nghim: h iu hnh Windows 7, vi x lý 2.53GHz, RAM 2.0GB Chng trỡnh c vit bng ngụn ng C#, trờn mụi trng Visual Studio Express 2010 S dng h qun tr CSDL SQL Server 2008 b Chc nng h thng Chng trỡnh cú cỏc chc nng chớnh: Footer Page 23 of 126 Header Page 24 of 126 22 Hun luyn b phõn lp SVM Tỏch t, loi b cỏc t dng v cỏc ký t c bit Phõn loi bn 3.2 KT QU THC NGHIM Trong thc nghim, cú 1342 bn ó c hp dựng xõy dng mỏy hc v kim chng hiu qu Cỏc bn c thu thp t cỏc trang mng xó hi nh Facebook, Twitter Sau tỏch t v loi b stopword, s t cũn li l 4275 t Sau mụ hỡnh húa, mi bn l mt vector trng s cỏc t, ú cỏc trng s l ch s TF*IDF nh ó trỡnh by Nh vy ng liu c mụ hỡnh húa nh l mt ma trn cha TF*IDF ca cỏc t v cú kớch thc 4275*1342 phn t Kt qu bc u, chng trỡnh ó phõn lp ý kin ỏnh giỏ ca bn u vo khỏ chớnh xỏc da trờn nhng d liu ó hc c Kt qu sau tin hnh phõn lp cho kt qu: 594 ý kin tớch cc, 668 ý kin tiờu cc v 80 ý kin khụng xỏc nh V sau kim tra vi d liu ó c gỏn nhón bng tay thỡ thu c chớnh xỏc nh sau: Loi bn chớnh xỏc (%) Positive 76,38 Negative 67,47 Neutral 80,52 Tt c 74.79 Hỡnh 3.10 chớnh xỏc phõn loi trờn mi lp v trờn ton b ti liu kim th 3.3 XUT CI TIN BI TON Vn cũn rt nhiu cn gii quyt chng trỡnh hon Footer Page 24 of 126 Header Page 25 of 126 23 thin hn, phi xõy dng t c trng y , hun luyn cho mỏy thờm nhiu tỡnh phc thỡ mi ci thin c kh nng phõn lp ca chng trỡnh Ngoi cũn phi to cỏc lut ca cõu nh trng hp cõu cha cỏc t: nhng, nhiờn, m vn, ngc li, vy m nhng cõu nh vy rừ rng s cú th cú v mang ý ngha trỏi ngc Ngoi cỏc trng hp cõu mang ngha ph nh vớ d nh khụng p, thỡ da theo t in chng trỡnh s tỏch t thnh [khụng][p] Vỡ vy, s nhp nhng bn nh hng rt ln n kt qu bi toỏn ú l nhng iu m tụi mong mun cú th ci tin cho chng trỡnh sau ny 3.4 KT LUN Footer Page 25 of 126 Header Page 26 of 126 24 KT LUN Kt qu t c: Kt qu lý thuyt: Tỡm hiu v trỡnh by lý thuyt v Khai phỏ d liu Tỡm hiu v trỡnh by lý thuyt v thut toỏn SVM Tỡm hiu cỏc phng phỏp tỏch t ting Vit Kt qu thc nghim: Xõy dng ng dng demo phõn lp bn da trờn thut toỏn SVM Hn ch v hng phỏt trin: Hn ch: Mc dự ó cú nhiu c gng v n lc nghiờn cu thi gian lm va qua nhng lun vn cũn nhng thiu sút Cha hiu sõu v phng phỏp phõn lp SVM l phng phỏp c s dng lun vn, phc ca phng phỏp v ớt cú ti liu ting Vit v phng phỏp ny Chng trỡnh phõn lp cú hiu qu phõn loi cũn ph thuc vo s phc ca ng ngha, nu ý kin cú ng ngha phc thỡ ỏp dng bi toỏn phõn loi bn vo phõn loi ý kin thỡ hiu qu s khụng cao Chng trỡnh ch mi phõn lp c theo ch Tớch cc v Tiờu cc mt cỏch chung chung, cha cú cỏc mc c th Hng phỏt trin: Trong lun ny, tụi ch mi chn thc nghim phõn loi ỏnh giỏ vi thut toỏn SVM m cha chn cỏc phng phỏp khỏc iu ny phn nhiu bi tớnh ch quan v mt s hn ch v s nghiờn cu Do ú vic m rng thc nghim phõn loi bn ting Vit trờn cỏc hng tip cn khỏc nh Naùve Bayes, kNN s cú th em li nhiu kt qu cao hn lnh vc ny Footer Page 26 of 126 ... tích ý kiến đánh giá địa danh du lịch thành phố Đà Nẵng Vì vậy, xây dựng đề tài Khai phá liệu từ mạng xã hội để khảo sát ý kiến đánh giá địa điểm du lịch Đà Nẵng” Mục tiêu nghiên cứu Trên sở lý... VỀ CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.1 KHAI PHÁ DỮ LIỆU VÀ QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 1.1.1 Khai phá liệu gì? Về bản, khai phá liệu xử lý liệu nhận biết mẫu xu hướng thông tin để bạn định đánh. .. tài khai phá liệu mạng xã hội, sử dụng liệu để phân loại ý kiến đánh giá Trong đó, bạn Trần Thị Ái Quỳnh thực việc khai phá thu thập liệu từ mạng xã hội, anh Nguyễn Hải Minh thực phân tích ý kiến

Ngày đăng: 02/05/2017, 19:26

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan