Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)

66 289 1
Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)Xác định ý định người dùng trên mạng xã hội Twitter (LV thạc sĩ)

HC VIN CễNG NGH BU CHNH VIN THễNG - NGễ BO TUN XC NH í NH NGI DNG TRấN MNG X HI TWITTER LUN VN THC S K THUT (Theo nh hng ng dng) H NI - 2017 HC VIN CễNG NGH BU CHNH VIN THễNG - NGễ BO TUN XC NH í NH NGI DNG TRấN MNG X HI TWITTER Chuyờn ngnh: H thng thụng tin Mó s: 60.48.01.04 LUN VN THC S K THUT (Theo nh hng ng dng) NGI HNG DN KHOA HC: TS NGễ XUN BCH H NI 2017 i LI CAM OAN Tụi cam oan õy l cụng trỡnh nghiờn cu ca riờng tụi Cỏc s liu, kt qu nờu lun l trung thc v cha tng c cụng b bt k cụng trỡnh no khỏc Tỏc gi lun ký v ghi rừ h tờn Ngụ Bo Tun ii LI CM N Trc tiờn, tụi xin by t li cm n sõu sc n cỏc thy cụ giỏo khoa sau i Hc núi riờng v cỏc thy cụ giỏo ca trng Hc Vin Cụng Ngh Bu Chớnh Vin Thụng núi chung li cm n chõn thnh nht c bit, tụi xin gi li cm n sõu sc ti TS Ngụ Xuõn Bỏch ngi ó tn tỡnh ch bo, hng dn tụi sut quỏ trỡnh tỡm hiu, nghiờn cu hon thnh lun tt nghip ca mỡnh Nu khụng cú nhng h tr v kin thc chuyờn mụn ca thy thỡ chc chn tụi khụng th hon thnh ỳng thi hn ng thi, tụi xin cm n ti gia ỡnh, nhng ngi thõn yờu luụn bờn cnh, ng viờn, giỳp tụi sut quỏ trỡnh hc Bờn cnh ú tụi cng xin gi li cm n n cỏc anh ch v cỏc bn lp B12CQIS02 ó chia s nhng kinh nghim, kin thc quý bỏu cho tụi quỏ trỡnh nghiờn cu thc hin lun Thi gian thc hin lun cũn khỏ ngn, kinh nghim v lnh vc x lý ngụn ng t nhiờn ca bn thõn cũn hn ch, lun cng cũn nhiu thiu sút rt mong nhn c nhng ý kin úng gúp ca quý Thy Cụ v cỏc bn tụi cú th hon thin lun mt cỏch tt nht H Ni, ngy 27, thỏng , nm 2017 iii MC LC LI CAM OAN i LI CM N ii MC LC iii BNG DANH MC THUT NG TING ANH v DANH MC BNG BIU vi DANH MC HèNH vii DANH MC S viii LI NểI U CHNG GII THIU BI TON PHN LOI í NH NGI DNG 1.1 Bi toỏn phõn loi ý nh ngi dựng trờn mng xó hi Twitter 1.2 Cỏc nghiờn cu cho bi toỏn phõn loi ý nh ngi dựng hin 1.2.1 Cỏc k thut liờn quan n bi toỏn phõn loi ý nh ngi dựng 1.2.2 Cỏc nghiờn cu liờn quan n bi toỏn phõn loi ý nh ngi dựng 1.3 Kt qu t c 1.4 Tng kt chng CHNG PHNG PHP HC MY CHO BI TON PHN LOI í NH NGI DNG TRấN MNG X HI TWITTER 2.1 Gii phỏp phõn loi ý nh ngi dựng trờn mng xó hi Twitter 2.2 Tin x lý d liu 12 2.2.1 Khỏi nim 12 2.2.2 Lc nhiu (loi b t khụng mang ngha) 12 2.2.3 Loi b cỏc t ph bin (stop word) 12 2.3 Trớch chn c trng 14 2.3.1 c trng N-Grams 14 2.3.2 c trng Word vector (Glove vector) 18 2.3.3 TF-IDF (term frequency inverse document frequency)[13][14] 22 2.4 Cỏc thut toỏn hc mỏy 23 2.4.1 Mỏy vộc t h tr SVM (Support Vector Machine) 23 iv 2.4.2 Thut toỏn Naùve Bayes 27 2.4.3 Mụ hỡnh Maximum Entropy Model cc i (MEM) 30 CHNG THC NGHIM V NH GI 34 3.1 D liu thc nghim 34 3.2 Thit lp thc nghim 35 3.2.1 Yờu cu cho thc nghim 35 3.2.2 Cỏch thc thc nghim 35 3.2.3 Cỏch thc ỏnh giỏ 36 3.3 Cụng c v cỏch thc thc nghim 39 3.3.1 Cụng c Weka [19][20] 39 3.3.2 Gii thiu chun d liu u vo cho thc nghim (ARFF) 41 3.4 Tin hnh thc nghim v ỏnh giỏ kt qu thc nghim vi hai nhón ý nh 43 3.4.1 Kt qu thc nghim vi cỏc thut toỏn ỏp dng cho hai nhón ý nh 43 3.4.2 Kt qu thc nghim thut toỏn SVM vi cỏc c trng khỏc cho bi toỏn phõn hai nhón ý nh 45 3.5 Tin hnh thc nghim v ỏnh giỏ kt qu thc nghim vi by nhón ý nh 46 3.6 Phng phỏp kt hp nõng cao chớnh xỏc cho bi toỏn phõn loi ý nh 49 KT LUN 52 DANH MC TI LIU THAM KHO 54 DANH MC WEBSITE THAM KHO 55 PH LC 56 v BNG DANH MC THUT NG TING ANH T VIT TT í NGHA Atrribute Regation File Format ARFF nh dng tin thuc tớnh liờn quan Accuracy ACC Mc d oỏn (phõn lp) chớnh xỏc ca h thng Maximum Entropy Model MEM Thut toỏn Entropy cc i T TING ANH Naùve Bayes NB Thut toỏn Naive Bayes Natural Language Processing NLP X lý ngụn ng t nhiờn L tn sut xut hin ca n kớ t ( hoc t ) liờn tip cú d liu N-grams Support Vector Machine SVM Mỏy vector h tr Precision chớnh xỏc d liu tỡm c thỡ bao nhiờu cỏi (phõn loi) ỳng Recall hi tng s cỏc tn ti, tỡm c bao nhiờu cỏi (phõn loi) Term frequency inverse document frequency Trng s ca mt t bn thu c qua thng kờ th hin mc quan trng ca t TF-IDF Tweets Trng thỏi ngi dựng trờn mng xó hi Twitter Twitter Mng xó hi twitter Weka B phn mm hc mỏy Word vector (Glove vector) ch l mt vector trng s vi DANH MC BNG BIU Biu 1.1 : S lng ngi s dng mt s mng xó hi ln [11] Bng 3.1: S lng tweet ca mi nhón 34 Bng 3.2.: Cu trỳc file d liu dataset.txt 35 Bng 3.3 : Ma trn nhm ln (Confusion Matrix ) 37 Bng 3.4: Kt qu thc nghim gia cỏc thut toỏn vi c trng N-gram .44 Biu 3.1 : So kt qu thc nghim gia cỏc thut toỏn vi c trng N-gram (2 nhón) 44 Bng 3.5 : Kt qu thc nghim gia thut toỏn SVM v cỏc c trng khỏc 45 Biu 3.2 : So kt qu thc nghim gia cỏc c trng bng thut toỏn SVM (hai nhón) 46 Bng 3.6 : Kt qu thc nghim vi cỏc phng phỏp hc mỏy vi c trng Ngram (by nhón ý nh) .47 Biu 3.3.: o F1 tng nhón ý nh vi c trng Unigram (thut toỏn SVM) 47 Bng 3.7: Kt qu thc nghim SVM vi cỏc phng phỏp hc mỏy (by nhón ý nh) 48 Biu 3.4.: o F1 tng nhón ý nh vi c trng Glove vector(thut toỏn SVM) 49 Bng 3.8: Kt qu thc nghim kt hp Glove Vector v N-gram (2 nhón)(SVM) 50 Bng 3.9 So sỏnh phng phỏp kt hp Glove Vector c trng N-gram (SVM)(2 nhón) 50 Bng 3.10 Vi phng phỏp kt hp Glove Vector v BiGram ( c trng N-gram) 51 vii DANH MC HèNH Hỡnh 2.1 : Cỏc t file stop_words.txt 13 Hỡnh 2.2 File dataset2_stop.txt .13 Hỡnh 2.3: File t in tudien.txt 17 Hỡnh 2.4: Mt phn tin nh dng d liu cho Weka 18 Hỡnh 2.5: Biu din t in vi t King, Queen, Man, Woman, v Child [10] 19 Hỡnh 2.6: Xỏc sut ng xy vi cỏc t ice v steam vi nhng t c chn [10] 19 Hỡnh 2.7: Mt phn tin Glove6B_300d.txt 21 Hỡnh 2.8: Mt phn file Glove_vector300D2.txt 21 Hỡnh 2.9 Biu din TF - IDF 22 Hỡnh 2.10: nh x d liu t khụng gian gc sang khụng gian c trng cho phộp phõn chia d liu bi siờu phng [11][12] 24 Hỡnh 2.11: Siờu phng vi l cc i cho phộp phõn chia cỏc hỡnh vuụng cỏc hỡnh trũn khụng gian c trng [11][16] 25 Hỡnh 2.12: Minh bi toỏn phõn lp bng phng phỏp SVM [12] 26 Hỡnh 3.1 Giao din weka ver 3.6.10 [20] 39 Hỡnh 3.2: Giao din chn mt tin thc nghim [11][20] 40 Hỡnh 3.3: Giao din weka tin hnh thc nghim [20] .40 Hỡnh 3.4: Khuõn dng ca d liu dng chun Arff [21] 41 Hỡnh 3.5: Vớ d minh mt phn biu din ARFF linh hot [21] 43 viii DANH MC S S 2.1: Mụ hỡnh giai on hun luyn [9] 10 S 2.2 : Mụ hỡnh giai on phõn lp [9] .11 42 Date: d liu kiu ngy Vớ d: @ATTRIBUTE discovered date Vớ d nh sau: @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} õy: +) Tờn quan h l: iris +) Thuc tớnh class bao gm loi: Iris-setosa,Iris-versicolor, Irisvirginica Cỏc d liu ca tin ARFF cú cu trỳc ging nh sau: @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa Nhng thc t, cỏc thuc tớnh cú th xut hin rt nhiu giỏ tr Th nờn, nhng giỏ tr bng thỡ chỳng tụi lc bt i v s khụng th hin file mụ hỡnh ARFF [21] Thay vo ú, nhng giỏ tr cũn li s c biu din kốm theo th t thuc tớnh ca chỳng Vớ d: Vi mụ hỡnh ARFF ban u, gi s nh ang s dng thuc tớnh mụ t ging nh vớ d nh ngha trờn, chỳng tụi cú biu din sau: 5.1,0.0,1.4,0.2,Iris-setosa 43 Ta thy cú mt giỏ tr bng 0, cú th lc bt giỏ tr ú cỏch biu din thnh nh sau: {0 5.1, 1.4, 0.2, Iris-setosa} Cú ngha l tt c cỏc thuc tớnh cũn li s c biu din kốm thuc tớnh ca nú Ngi ta gi ú l mụ hỡnh ARFF linh hot, chc chn, nh dng l arff giỳp cho vic gim c ỏng k dung lng lu v thi gian thc nghim Arff linh hot c biu din tng t di hỡnh 3.5 Hỡnh 3.5: Vớ d minh mt phn biu din ARFF linh hot [21] 3.4 Tin hnh thc nghim v ỏnh giỏ kt qu thc nghim vi hai nhón ý nh 3.4.1 Kt qu thc nghim vi cỏc thut toỏn ỏp dng cho hai nhón ý nh Trong lun ny, chỳng tụi tin hnh tỡm hiu thut toỏn: Mỏy vộc t h tr (Support Vector Machine), Naive Bayes, Maximum Entropy Model (MEM) kim tra xem thut toỏn no s cho kt qu d oỏn tt nht, chỳng tụi s s dng cỏc t in ó c xõy dng phn trờn õy, chỳng tụi xin chn t in ca phng phỏp ly c trng N-grams, sau ú tin hnh thc nghim v lp biu ỏnh giỏ kt qu phõn loi vi nhón (non-intent & intent) cú cỏi nhỡn tng th v mi phng phỏp C th kt qu nh sau: 44 Bng 3.4: Kt qu thc nghim gia cỏc thut toỏn vi c trng N-gram Thut toỏn S gram Acc(%) UniGram 82.71 82.36 82.71 82.1 BiGram 84.16 84.42 84.16 83.6 TriGram 83.62 83.64 83.62 83.1 UniGram 80.83 80.63 80.83 80.9 BiGram 81.02 80.16 81.02 81.2 TriGram 81.03 81.6 81.03 81.2 Maximum UniGram 75.01 77.79 75.01 74.3 Entropy Model BiGram 78.22 76.81 78.22 78.1 TriGram 75.55 77.48 75.55 75.4 SVM Naive Bayes Precision(%) Recall(%) F(%) Chỳng tụi ó tin hnh thc nghim trờn c thut toỏn mỏy h tr vector SVM, Naùve Bayes, Maximum Entropy Model, mc chớnh xỏc ca tng thc túan chỳng tụi ó hp biu di õy, c th : Biu 3.1 : So kt qu thc nghim gia cỏc thut toỏn vi c trng N-gram (2 nhón) So kt qu thc nghim gia cỏc thut toỏn (hai nhón) 90 85 80 82.71 84.16 83.62 81.02 80.83 81.03 78.22 75.55 75.01 75 70 65 60 55 50 UniGram BiGram SVM Maximum Entropy TriGram Naive Bayes 45 Sau tin hnh thc nghim cỏc thut toỏn SVM, Naùve Bayes, Maximum Entropy Model vi c trng N-grams ỏp dng cho bi toỏn phõn hai nhón, chỳng tụi c kt qu, c th : Thut toỏn SVM: Cho kt qu tt nht vi giỏ tr BiGram vi chớnh xỏc 84.16% Thut toỏn Naùve Bayes : Tr v kt qu khỏ tt vi giỏ tr cao nht l Trigram vi chớnh xỏc 81.03% Thut toỏn Maximum Entropy Model : Kt qu tt nht vi giỏ tr Bigram, vi chớnh xỏc l 78.22% Da vo kt qu thc nghim trờn, cú th d dng nhn thy, thut toỏn Mỏy vộc t h tr (Support Vector Machine - SVM) cho kt qu vi chớnh xỏc cao nht vi bi toỏn phõn hai nhón ý nh, õy cng l thut toỏn thng c dựng ph bin hin cho cỏc bi toỏn phõn nhón d liu Chỳng tụi s chn thut toỏn SVM tin hnh phõn tớch cng nh thc nghim ỏnh giỏ cỏc phng phỏp trớch c trng : N-grams, Glove vector, TF-IDF 3.4.2 Kt qu thc nghim thut toỏn SVM vi cỏc c trng khỏc cho bi toỏn phõn hai nhón ý nh Bng 3.5 : Kt qu thc nghim gia thut toỏn SVM v cỏc c trng khỏc c trng S gram Acc(%) Precision(%) Recall(%) F(%) UniGram 82.71 82.36 82.71 82.1 BiGram 84.16 84.42 84.16 83.6 TriGram 83.62 83.64 83.62 83.1 Glove vector 83.04 82.40 83.04 82.6 TF IDF 80.58 80.12 80.58 80.1 N-grams Sau tin hnh thc nghim, gia thut toỏn SVM v c trng N-grams, Glove vector v TF IDF vi bi toỏn phõn nhón ý nh chỳng tụi so sỏnh kt qu ca tng phng phỏp ly c trng di biu sau: 46 Biu 3.2 : So kt qu thc nghim gia cỏc c trng bng thut toỏn SVM (hai nhón) So kt qu thc nghim gia cỏc phng phỏp ly c trng (hai nhón) 90 85 84.16 83.04 80.58 80 75 70 65 60 N-grams Glove vector TF-IDF Da vo kt qu thc nghim vi cỏc phng phỏp ly c trng khỏc bng thut toỏn SVM cho cỏc kt qu d oỏn khỏc nhau, c th: Vic d oỏn chớnh xỏc nhón ý nh (cú ý nh v khụng cú ý nh) cho kt qu d oỏn khỏ cao i vi c trng N-grams : kh nng d oỏn cao nht vi giỏ tr Bigram v chớnh xỏc Acc = 84.16% i vi c trng Glove vector : chớnh xỏc t Acc = 83.04 % i vi c trng TD- IDF: chớnh xỏc t Acc = 80.58% 3.5 Tin hnh thc nghim v ỏnh giỏ kt qu thc nghim vi by nhón ý nh Chỳng tụi s dng phng phỏp ly c trng N-grams, vỡ kt qu vi c trng ny l rt tt, chỳng tụi tip tc tin hnh thc nghim tip vi cỏc phng phỏp hc mỏy phn trc ỏnh giỏ kt qu phõn loi vi by nhón ý nh (du lch, n & thc ung, ngh nghip & giỏo dc, hng húa & dch v, s kin & hot ng, khụng cú ý nh c th) 3.5.1 Kt qu thc nghim cỏc phng phỏp hc mỏy cho bi toỏn by nhón ý nh 47 Bng 3.6 : Kt qu thc nghim vi cỏc phng phỏp hc mỏy vi c trng N-gram (by nhón ý nh) Thut toỏn S gram Acc(%) UniGram 63.78 BiGram 62.05 TriGram 61.36 UniGram 57.72 BiGram 57.15 TriGram 57.13 Maximum UniGram 35.67 Entropy Model BiGram 35.32 TriGram 24.88 SVM Naive Bayes Da vo bng kt qu thc nghim chỳng ta thy thut toỏn SVM cho kt qu tt nht vi giỏ tr Unigram (63.78 %), chỳng tụi s kim tra o F1 ca tng nhón ý nh s bờn di, c th : Biu 3.3: o F1 tng nhón ý nh vi c trng Unigram (thut toỏn SVM) Biu so sỏnh o chớnh xỏc cho tng nhón (by nhón) 90 80 70 79.9 67.3 62 61.8 67.2 69.3 60 52.3 50 40 30 20 10 Non-intent Food Event Goods Unigram Career Travel Trifle 48 Nhỡn vo biu ta cú th thy, phng phỏp ly c trng theo N-grams vi bi toỏn phõn loi nhón ý nh thỡ giỏ tr Unigram cho kt qu d oỏn ỳng tt nht nhón l Food vi o F1 = 79.9 %, v nhón Travel cú o F1 = 69.3% Cỏc nhón cũn li cú chớnh xỏc mc trờn trung bỡnh 3.5.2 Kt qu thc nghim cỏc cỏc c trng cho bi toỏn by nhón ý nh Da vo nhng kt qu thc nghim phn trờn thut toỏn SVM ang cho kt qu tt nht, chỳng tụi chn thut toỏn SVM tin hnh thc nghim ỏnh giỏ cỏc phng phỏp trớch c trng : N-grams, Glove vector, TF-IDF Bng 3.7: Kt qu thc nghim SVM vi cỏc phng phỏp hc mỏy (by nhón ý nh) c trng S gram Acc(%) UniGram 63.78 BiGram 62.05 TriGram 61.36 N-grams Glove vector 63.55 TF IDF 52.43 Phng phỏp hc mỏy SVM kt hp vi c trng N-grams ang cho kt qu tt nht vi chớnh xỏc Acc = 63.78 % (ó lm thc nghim phn trờn), chỳng tụi tin hnh kim tra thờm mt c trng na l Glove vector xem o F1 chớnh xỏc cao nht l nhón ý nh no 49 Biu 3.4.: o F1 tng nhón ý nh vi c trng Glove vector(thut toỏn SVM) Biu so sỏnh chớnh xỏc cho tng nhón 80 72.1 74.3 70 60 57.6 59.2 Event Goods 62.8 64.7 Career Travel 60.5 50 40 30 20 10 Non-intent Food Trifle Glove vector Nhỡn vo biu , s dng phng phỏp ly c trng theo Glove vector vi bi toỏn phõn loi nhón ý nh thỡ: nhón d oỏn ỳng nhiu nht l Food vi o chớnh xỏc F1 = 74.3 %, v nhón Non-intent cú o F1 = 72.1% Cỏc nhón cũn li cú chớnh xỏc mc chp nhn c 3.6 Phng phỏp kt hp nõng cao chớnh xỏc cho bi toỏn phõn loi ý nh u tiờn chỳng tụi tin hnh kt hp phng phỏp hin ang t chớnh xỏc cao nht l N-grams v Glove Vector Phng phỏp TF-IDF chỳng tụi s khụng tin hnh kt hp vỡ iu: - Th nht: quỏ nhiu thuc tớnh d tha, tng ng vi di t in nờn kt hp vo s mt thi gian x lý v tớnh toỏn Th hai: chớnh xỏc khỏ thp, khụng ỏp ng c yờu cu bi toỏn Tip theo ta tin hnh kt hp N-grams vi Glove vector to phng phỏp mi Phng phỏp kt hp N-gram v Glove Vector (thut toỏn SVM) vi nhón 50 Ta s tin hnh vi Unigram v Bigram ca c trng N-gram (vỡ giỏ tr ny cho kt qu tt nht) kt hp vi c trng Glove vector sau ú s dng thut toỏn SVM thc nghim, kt qu c th nh sau a) Kt qu thc nghim Bng 3.8: Kt qu thc nghim kt hp Glove Vector v N-gram (2 nhón)(SVM) S nhón nhón S gram Acc(%) Precision(%) Recall(%) F(%) UniGram 83.99 83.3 83.99 83.1 BiGram 85.52 86.86 87.52 86.5 b) So sỏnh kt qu Bng 3.9 So sỏnh phng phỏp kt hp Glove Vector c trng N-gram (SVM)(2 nhón) S nhón nhón S gram Acc(%) Precision(%) Recall(%) F(%) UniGram 82.71 82.36 82.71 82.1 Glove Vector + UniGram 83.99 83.3 83.99 83.1 BiGram 84.16 84.42 84.16 83.6 Glove Vector + BiGram 85.52 86.86 87.52 86.5 Kt qu tin hnh th nghim kt hp Glove Vector + UniGram v Glove Vector + BiGram (2 nhón) s dng thut toỏn SVM, chỳng tụi thu c kt qu nh sau: - Vi Unigram: Giỏ tr tt nht ca Unigram ó tng lờn t 82.71 % lờn thnh 83.99 % tng 1.28 % i vi Bigram : Giỏ tr tt nht ca thut toỏn SVM ó tng lờn t 84.16 % lờn thnh 85.52 % tng 1.36 % Phng phỏp kt hp N-gram v Glove Vector (thut toỏn SVM) vi nhón Tip theo chỳng tụi s tin hnh thc nghim vi nhón, s dng kt hp phng phỏp ly c trng N-gram v Glove Vector (s dng thut toỏn SVM) 51 Bng 3.10 Vi phng phỏp kt hp Glove Vector v BiGram ( c trng N-gram) S nhón nhón S gram Acc(%) Unigram 63.78 Glove Vector + UniGram 64.29 Bigram 62.05 Glove Vector + BiGram 63.26 Tin hnh th nghim , chỳng tụi thu c kt qu nh sau: - i vi giỏ tr Unigram: chớnh xỏc tng lờn t 63.78 % lờn thnh 64.29 % tng 0.51 % i vi giỏ tr Bigram: chớnh xỏc tng lờn t 62.05 % lờn thnh 63.26 % tng 1.21 % Da vo kt qu trờn, ta cú th thy chớnh xỏc dự tng thờm khụng nhiu nhng phng phỏp cng ó giỳp ci thin chớnh xỏc ca vic phõn loi 52 KT LUN Khai phỏ d liu núi chung v c bit l xỏc nh v phõn loi ý nh ngi dựng núi riờng ngy cng úng vai trũ quan trng cỏc hot ng thng mi, mua bỏn hin Bi toỏn xỏc nh v phõn loi ý nh ngi dựng cng cú ý ngha hn nú giỳp cỏc nh kinh doanh, thng mi tip cn ti khỏch hng gn hn, tỡm hiu mong mun ca khỏch hng d dng hn giỳp cho h to nhng chin lc marketing hiu qu, mang li li nhun ln Trong lun ny, chỳng tụi tin hnh nghiờn cu phng phỏp nhm ci thin chớnh xỏc cho bi toỏn phõn loi bn, c th l ci thin chớnh xỏc cho bi toỏn phõn loi ý nh ngi dựng trờn mng xó hi Twitter qua cỏc dũng tweets ca h Bi toỏn ny c xỏc nh l mt bi toỏn cú phc cao v cú nhiu ng dng thc t Phng phỏp gii quyt ca lun trung vo vic nõng cao chớnh xỏc vic phõn loi c c cỏc ý nh ca ngi dựng thụng qua cỏc dũng tweets Bng vic s dng mụ hỡnh phõn lp quen thuc Support Vector Machine, Naùve Bayes v Maximum Entropy Model Model (MEM) cựng vi d liu thu c t Twitter, lun ó a s phng phỏp gii quyt cho bi toỏn Quỏ trỡnh thc nghim t c kt qu kh quan, cho thy tớnh ỳng n ca vic la chn cng nh kt hp cỏc phng phỏp, ng thi hn nhiu tim nng phỏt trin hon thin Nhỡn chung, lun ó t c mt s kt qu nh: - Trỡnh by mt cỏch khỏi quỏt, tng quan nht, ý ngha, vai trũ quan trng ca bi toỏn xỏc nh v phõn loi ý nh ngi dựng trờn mng xó hi Nghiờn cu loi c trng khỏc cho bi toỏn phõn loi ý nh Nghiờn cu v lm thc nghim vi thut toỏn hc mỏy khỏc So sỏnh v phõn tớch cỏc kt qu thc nghim, a kt qu tt nht Lun vn cũn mt s hn ch nh: - Nghiờn cu da trờn s lng d liu cũn ớt v cha y Kt qu thc nghim t c cha thc s cao Ch th nghim i vi d liu bng ting anh V hng phỏt trin tng lai, chỳng tụi s tin hnh thu thp v phỏt trin trờn mt d liu ln hn, vi nhiu dũng tweets trng thỏi hn Ngoi cng s thc nghim vi nhiu c trng hn gúp phn ci thin kh nng phõn loi Bờn cnh ú chỳng tụi cng s nghiờn cu v th nghim vi mt s thut toỏn khỏc 53 tỡm thut toỏn phự hp nht vi bi toỏn phõn loi ý nh ngi dựng mng xó hi bng ting Vit Khc phc li quỏ trỡnh x lý nõng cao kt qu thc nghim 54 DANH MC TI LIU THAM KHO [1] Mining User Intents in Twitter: A Semi-SupervisedApproach to Inferring Intent Categories for Tweets Jinpeng Wang, Gao Cong, Wayne Xin Zhao, Xiaoming Li Department of Computer Science and Technology, Peking University, China [2] Doón Th Huyn Trang : Trớch xut ý nh ngi dựng mua hng trờn mng xó hi s dng phng phỏp suy lun cỏc mụ hỡnh, lun thc s trng i Hc Cụng ngh, i hc Quc gia H Ni [3] Trn Th Oanh (2008), Mụ hỡnh tỏch t, gỏn nhón t loi, lun cao hc, trng i hc Cụng Ngh, i hc Quc gia H Ni [4] Krửll, M., & Strohmaier, M (2009, September) Analyzing human intentions in natural language text In Proceedings of the fifth international conference on Knowledge capture (pp 197-198) ACM [5] R A S C Jayasanka, M D T Madhushani, E R Marcus, I A A U.Aberathne, Sentiment Analysis for Social Media, 2014 [6] Lờ Anh Trung, Xõy dng b phõn lp cỏc bn s dng thut toỏn Maximum Entroy, lun thc s, trng i hc Cụng Ngh, i hc Quc gia H Ni [7] P Hiroshi Shimodaira, Text Classification using Naive Bayes, 2015 [8] Steve R Gunn, Support Vector Machines for Classification and Regression, 1998 [9] Nguyn Th Phng Thỳy, Phõn loi bn v ng dng vo phõn loi tin tc in t, lun thc s k thut, Hc vin Cụng Ngh Bu Chớnh Vin Thụng, 02-2014 55 DANH MC WEBSITE THAM KHO [10] Glove : Global Vectors for Word Representation: http://nlp.stanford.edu/projects/glove/ [11] Google : https://www.google.com [12] Wikipedia: http://www.wikipedia.org [13] TF-IDF : Term frequency inverse document frequency https://guendouz.wordpress.com/2015/02/17/implementation-of-tf-idf-in-java/ [14] Chia s kin kin thc v TF-IDF (Term frequency inverse document frequency) https://viblo.asia/p/tf-idf-term-frequency-inverse-document-frequencyJQVkVZgKkyd [15] Danh sỏch stop word tiờu chun http://www.ranks.nl/stopwords [16] Chia s kin thc v thụng tin v Machine learning : https://ongxuanhong.wordpress.com/about/ [17] Mụ hỡnh ngụn ng n-gram v ng dng https://www.slideshare.net/kimdinhsonict/ngram-29611724 [18] Phõn loi ni dung ti liu web https://lib.lhu.edu.vn/ViewFile/10757 [19] Cụng c weka : http://www.cs.waikato.ac.nz/ml/weka/ [20] Tỡm hiu weka phn mm khai phỏ d liu http://gizteam.com/tim-hieu-ve-weka-mot-phan-mem-tuyet-voi-danh-cho-khai-phadu-lieu/ [21] Tỡm hiu v Arff linh hot sparse ARFF file http://geekswithblogs.net/razan/archive/2011/11/08/creating-a-simple-sparse-arff-file.aspx 56 PH LC Cỏc cụng c s dng Cụng c Trang ch Java SE JDK 7u21 http://www.java.sun.com Netbean 8.0.1 https://netbeans.org/ Eclipse 3.6.2 https://www.eclipse.org Notepad++ http://notepad-plus-plus.org/ Inteliji 2016 https://www.jetbrains.com/idea/ Weka http://www.cs.waikato.ac.nz/ml/weka/ Global Vectors https://nlp.stanford.edu/projects/glove/ TF-IDF https://viblo.asia/duongpham910/posts/JQVkVZgKkyd ... Phõn loi c ý nh cú cỏc dũng tweets ó thu thp c 5 Phõn loi ý nh hay bn cht l phõn loi bn cú th thc hin cp cõu cng nh cp on bn, mi cõu s c xỏc nh l cú ý nh hay khụng cú ý nh, nu cú ý nh s c chia... cha ý nh gỡ hay khụng? Nu dũng trng thỏi cú ý nh ca ngi dựng thỡ nhu cu, mong mun, ý nh ca ngi dựng ú l gỡ: du lch, n & thc ung, ngh nghip & giỏo dc, hng húa & dch v, s kin & hot ng, khụng cú ý. .. u th hin ý nh rừ rng v l ngun d liu, ti nguyờn cú ớch Vỡ vy, lun s trung ch yu vo xỏc nh v phõn loi cỏc dũng tweets cú cha ý nh ngi dựng trờn mng xó hi Twitter Vic xỏc nh, phõn loi ý nh ca ngi

Ngày đăng: 30/10/2017, 15:08

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan