Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)

26 327 0
Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)Xác định bài viết chứa ý định người dùng trên diễn đàn (tt)

HC VIN CễNG NGH BU CHNH VIN THễNG - TH THU H XC NH BI VIT CHA í NH NGI DNG TRấN DIN N Chuyờn ngnh: Khoa hc mỏy tớnh Mó s: 60.48.01.01 TểM TT LUN VN THC S H NI - 2016 Lun c hon thnh ti: HC VIN CễNG NGH BU CHNH VIN THễNG Ngi hng dn khoa hc: Tin s Ngụ Xuõn Bỏch Phn bin 1: Phn bin 2: Lun s c bo v trc Hi ng chm lun thc s ti Hc vin Cụng ngh Bu chớnh Vin thụng Vo lỳc: gi ngy thỏng nm Cú th tỡm hiu lun ti: - Th vin ca Hc vin Cụng ngh Bu chớnh Vin thụng M U Trong thi gian gõn õy, mng internet ngy cng phỏt trin mnh m v rng rói, ti din n mua bỏn hay tho lun, ta bt gp nhng bi vit nhu Tụi ang tỡm mua mt TV plasma 40 inch hay Cú bit chụ bỏn quyn sỏch ny khụng? Nhu vy trung hp ú, ta thy rng ngui dựng hin ang cú ý inh muụn mua mt chic TV hay mt quyn sỏch T ý inh ny, cú th d dng ua qung cỏo da trờn ý inh ca ngui dựng vờ sn phõm m h ang quan tõm ó cú mt sụ ti trc õy nghiờn cu vờ ch phõn tớch ý inh ngi dựng nh Online commercial intention identification vic xỏc inh ý inh ngi dựng c da trờn lich s ngi dựng tỡm kim trờn mng xó hi hay nhng website tỡm kim Hoc ti phõn tớch quan im ngi dựng Natural Language Processing da trờn ý inh ngi dựng mong muụn, nhn xột vờ sn phõm Nh vy nhng ti trc, vic phõn tớch quan im hay ý inh ngi dựng ch yu da vo hnh vi ca ngi dựng Trong lun s trỡnh by mt hng xỏc inh khỏc ca bi toỏn l vic phỏt hin phõn tớch ý inh ca ngi dựng cõn c da vo chớnh nhng ni dung, d liu m ngi dựng a Vớ d nh tỡnh huụng ngi dựng nhp Tụi thy iPhone nờn cú mn hỡnh ln hn s cú ý ngha khỏc so vi cõu Tụi muụn mua mt chic iPhone 5S Lun s lm rừ cỏch gii quyt cỏc di õy: - Xỏc inh bi vit cú cha ý inh gia nhiờu bi vit khụng cú ý inh - Trong mt bn cha rt nhiờu d liu khụng liờn quan ti ch ờ, nhiờn vic x lý d liu cõn tỡm c õu l d liu nhiu khụng liờn quan ti ý inh ngi dựng trớch xut c kt qu phõn lp chớnh xỏc nht - Khi thc hin xỏc inh ý inh ngi dựng trờn ch mi m cha cú d liu thc lm d liu hc mỏy Vic ỏp dng bi toỏn xỏc inh ý inh ngi dựng chộo miờn l rt quan trng Nh vy lun s lm rừ c phng phỏp xỏc inh ý inh ngi dựng trng hp: d liu cựng miờn v d liu chộo miờn xõy dng chng trỡnh xỏc inh ý inh ngi dựng, lun a cỏc phng phỏp xỏc inh ý inh ngi dựng ó cú trc õy nh thut toỏn EM, thut toỏn FS-EM v xut thut toỏn Co-Class ỏp dng trng hp xỏc inh ý inh vi d liu trỏi miờn giỳp ci thin c kt qu thu c Lun c chia lm phõn: Chng 1: Lun gii thiu chung vờ lnh vc x lý ngụn ng t nhiờn, cỏc bi toỏn ng dng ca lnh vc x lý ngụn ng t nhiờn nh phõn loi bn, phõn loi quan im v.v Gii thiu vờ bi toỏn phỏt hin ý inh ngi dựng trờn din n Chng 2: Lun trỡnh by vờ cỏc phng phỏp phỏt hin ý inh s dng phng phỏp hc mỏy: phng phỏp phõn lp d liu, phng phỏp biu din c trng cho bn, thut toỏn hc mỏy s dng ti Phỏt biu bi toỏn m rng ca ti l ỏp dng cho trng hp d liu cựng miờn v chộo miờn, a gii phỏp v so sỏnh vờ phc gia cỏc thut toỏn Chng 3: Lun trỡnh by vờ kt qu thc nghim thut toỏn cuụi cựng a kt qu so sỏnh quỏ trỡnh ci t thc t, phõn tớch, ỏnh giỏ kt qu thu c v a kt lun CHNG 1: TNG QUAN BI TON PHT HIN í NH NGI DNG Trong chng ny, lun trỡnh by chung vờ lnh vc x lý ngụn ng t nhiờn, cỏc bi toỏn ng dng ca lnh vc x lý ngụn ng t nhiờn nh phõn loi bn, phõn loi quan im v.v Hng tip cn, lý chn ti v gii thiu bi toỏn phỏt hin ý inh ngi dựng trờn din n 1.1 X lý ngụn ng t nhiờn X lý ngụn ng t nhiờn (natural language processing NLP) l mt nhỏnh ca trớ tu nhõn to, trung vo cỏc ng dng x lý trờn ngụn ng ca ngi Trong trớ tu nhõn to thỡ x lý ngụn ng t nhiờn l mt nhng phõn khú nht vỡ x lý ngụn ng t nhiờn liờn quan n vic xõy dng cỏc h thụng mỏy tớnh hiu c t v ý ngha ca ngụn ng ngi, t ú cú th tin hnh x lý chỳng X lý ngụn ng t nhiờn l lnh vc ó c nghiờn cu t nhiờu nm v t c nhiờu bc tin quan trng nhng nm gõn õy, c bit vic xõy dng cỏc ng dng nh dich mỏy, tỡm kim thụng tin, trớch chn thụng tin, túm tt bn, tr li t ng v khai phỏ quan im [1] [2] v.v 1.2 Khỏi nim phõn loi bn Phõn loi bn l x lý nhúm cỏc ti liu thnh cỏc lp khỏc Vic phõn lp ti liu liờn quan n x lý quyt inh Vi mụi x lý phõn loi, õu vo l mt bn, cõn phi cú mt quyt inh a xem bn ú cú thuc lp no hay khụng Nu ti liu thuc mt lp no ú thỡ sau ú cõn ch lp m ti liu ú thuc vo Vớ d a mt bn bt k nh Apple va cho mt sn phõm Iphone 7, nh vy cõn ch c bn trờn thuc lp cụng ngh di ng, ch khụng phi thuc lp th thao, gii trớ, xó hi Hỡnh 1.1: Bi toỏn phõn lp bn 1.2.1 Bi toỏn phõn loi bn Phõn loi bn cú nhiờu bi toỏn bin th nh: - Phõn cm bn: a cỏc bn cú ni dung giụng vo cỏc nhúm [8] - Túm tt bn: Túm tt ni dung ca mt bn cho trc - Xỏc inh quan im bn Tuy nhiờn, ni dung lun s trung vo dng bin th ca bi toỏn phõn loi bn l: - Bi toỏn phõn lp d liu - Bi toỏn quyt inh, xỏc inh quan im ca bn 1.3 Bi toỏn phỏt hin ý nh ngi dựng trờn din n í tng ca lun l s i sõu vo gii quyt bi toỏn xỏc inh ý inh ngi dựng, gi s tỡnh huụng ta thu thp mt cỏc bn trờn din n vờ mt ch bt k, da vo ni dung ca bn ú, ta cõn xỏc inh v a kt lun rng ngi dựng cú thc s quan tõm, hay cú nhu cõu muụn mua sn phõm ú hay khụng Tuy nhiờn, khụng phi tt c cỏc bi vit ca ngi dựng ờu th hin ý inh rừ rng l cõn mua, bỏn sn phõm no ú nh ó cú c quyn sỏch ny cha, bi vit ch muụn hi vờ ni dung ca quyn sỏch m khụng cú nhu cõu mua Hay cỏc bi vit cha mt lng d liu ln, nhng ch cú mt phõn nh ú th hin ý inh ca ngi dựng, cũn phõn cũn li ch l d liu nhiu gõy khú khn quỏ trỡnh phỏt hin ý inh ca ngi dựng nh Nm tụi mua chic mỏy tớnh bn ny vi giỏ 10 triu ng, mỏy s dng nm mi v chy tụt Tụi ang muụn nhng li mỏy tớnh i mỏy tớnh xỏch tay Nhõn tin, tụi muụn mua mỏy tớnh xỏch tay vi giỏ 15 triu tr xuụng Cú bỏn khụng? Nh vy vic xỏc inh ý inh bn ca ngi dựng khụng ch dng li vic phõn bit bi vit cú th hin rừ rng ý inh ca ngi dựng hay khụng, m ta cũn cõn phi xỏc inh c ý inh ca ngi dựng trờn mt d liu nhiu khụng liờn quan, trớch xut c kt qu chớnh xỏc Trờn thc t, ta khụng th thu thp c d liu õy cho tt c cỏc miờn, nh vy vic ỏp dng d liu ca miờn ny xỏc inh ý inh cho d liu ca miờn d liu khỏc m t c kt qu chớnh xỏc cao l rt quan trng [3] Lun gp mt sụ khú khn xõy dng phng phỏp gii quyt bi toỏn xỏc inh ý inh ngi dựng nh sau: - Xỏc inh nhng bi vit cú cha ý inh rừ rng - Gia nhng thụng tin gõy nhiu, xỏc inh chớnh xỏc ý inh ca bi vit th hin - Nghiờn cu ỏp dng bi toỏn xỏc inh ý inh ngi dựng trng hp: d liu cựng miờn v d liu chộo miờn 1.4 Cỏc nghiờn cu liờn quan Trong ti Online commercial intention (OCI) identification [4] vic xỏc inh ý inh ngi dựng c da trờn lich s ngi dựng tỡm kim trờn mng xó hi hay nhng website tỡm kim Hoc ti Natural Language Processing [7] vic x lý ngụn ng t nhiờn c da trờn quan im ngi dựng cõn hoc muụn Nh vy im khỏc bit ca lun õy l vic phỏt hin phõn tớch ý inh ca ngi dựng c da vo chớnh nhng ni dung, d liu m ngi dựng a Nh chng ó trỡnh by, phõn ny ti trỡnh by rừ hn vờ phng phỏp xỏc inh ý inh ca ngi dựng trờn din n Phng phỏp ỏp dng xỏc inh ý inh ca ngi dựng s lm rừ c nhng sau: - Xỏc inh nhng bi vit cú cha ý inh v bi vit khụng cú ý inh - Vic x lý d liu trớch xut c õu l d liu nhiu khụng liờn quan ti ý inh ngi dựng trớch xut c kt qu chớnh xỏc - Nghiờn cu ỏp dng bi toỏn xỏc inh ý inh ngi dựng trng hp: d liu cựng miờn v d liu chộo miờn 1.5 Kt chng Chng ó trỡnh by khỏi quỏt vờ lnh vc x lý ngụn ng t nhiờn, gii thiu vờ bi toỏn phõn loi bn Sau ú xut bi toỏn xỏc inh ý inh ngi dựng v cỏc nghiờn cu liờn quan ti ti xỏc inh ý inh ngi dựng, t ú a nhng cõn lm rừ v gii quyt lun Trong Chng 2, lun s trỡnh by vờ hng gii quyt cho bi toỏn xỏc inh ý inh ngi dựng, v i sõu hn trỡnh by vờ cỏc phng phỏp s ỏp dng gii quyt bi toỏn CHNG 2: CC PHNG PHP PHT HIN í NH NGI DNG DA TRấN HC MY Trong chng ny, lun trỡnh by chi tit vờ cỏc phng phỏp c ỏp dng bi toỏn phỏt hin ý inh ngi dựng Chng gm phõn: - Trỡnh by vờ phng phỏp gii quyt bi toỏn phỏt hin ý inh ngi dựng ó cú, a hng phỏt trin thut toỏn ci thin kt qu x lý trng hp d liu cựng miờn v chộo miờn - Trỡnh by vờ cỏc phng phỏp biu diu c trng cho bn c ỏp dng bi toỏn phỏt hin ý inh ngi dựng: N-Gram, TF-IDF - Trỡnh by vờ cỏc phng phỏp hc mỏy, xõy dng mụ hỡnh phõn lp d liu cho bi toỏn phỏt hin ý inh ngi dựng: Naùve Bayes, Support Vector Machine (SVM) 2.1 Phng phỏp gii quyt bi toỏn Cỏc bc thc hin xõy dng phng phỏp gii quyt cho bi toỏn xỏc inh ý inh ngi dựng c mụ t nh hỡnh v di õy: Hỡnh 2.1: Phng phỏp xõy dng chng trỡnh cho bi toỏn gii quyt bi toỏn xỏc inh ý inh ca ngi dựng trờn din n, ta s thc hin xỏc inh qua giai on chớnh nh sau: Giai on Hun luyn: s thu thp d liu mu, thc hin tiờn x lý (loi b cỏc ký t c bit, ký t tha, cỏc t stopwords khụng nh hng ti ý ngha ca bn) Xõy dng b d liu hc ó gỏn nhón v b d liu thc nghim cha gỏn nhón Trong ti giai on hun luyn s s dng thut toỏn l TF-IDF, v N-Gram vi n=1,2,3 Giai on Phõn loi: s dng kt qu giai on Tiờn x lý lm d liu õu vo cho cỏc thut toỏn trớch chn c trng v phõn lp, t ú a kt lun vờ nhón ca b d liu cha gỏn nhón Giai on phõn loi ti s s dng thut toỏn l SVM v thut toỏn Naùve Bayes tin hnh phõn lp cho d liu Cỏc phõn tip theo ca chng s trỡnh by chi tit hn vờ cỏc thut toỏn c la chn v ỏp dng vo vic xỏc inh ý inh ca bn 2.2 Cỏc phng phỏp biu din c trng ca bn 2.2.1 Phng phỏp TF-IDF a Gii thiu phng phỏp Trong phng phỏp tip cn truyờn thụng cng l mt nhng phng phỏp c s dng nhiờu nht ú l phng phỏp tõn sut thut ng term frequency (TF) hay tõn sut thut ng - nghich o tõn sut bn term frequency-inverse document frequency (vit tt l TF-IDF) c s dng vic phõn loi bn Phng phỏp ny ch tõm quan trng ca mt t vi bn hng lot cỏc bn nh th no Trong TF-IDF, tõm quan trng ca mt t vi bn ln hn nú c s dng mt bn, v nú s thp hn mt t xut hin nhiờu nhiờu b bn 2.2.2 Phng phỏp N-Gram a Gii thiu phng phỏp Mụ hỡnh ngụn ng thụng kờ cho phộp gỏn (c lng) xỏc sut cho mt chuụi m phõn t (thng l t) P(w1w2wm) tc l cho phộp d oỏn kh nng mt chuụi t xut hin ngụn ng ú Theo cụng thc Bayes: P(AB) = P(B|A) * P(A) (2.1) Thỡ ta d dng suy c: P(w1w2wm) = P(w1) * P(w2|w1) * P(w3|w1w2) ** P(wm|w1w2wm-1) (2.2) Theo cụng thc ny thỡ bi toỏn tớnh xỏc sut ca mụi chuụi t quy vờ bi toỏn tớnh xỏc sut ca mt t vi iờu kin bit cỏc t trc nú (cú th hiu P(w1)=P(w1|start) l xỏc sut w1 ng õu chuụi hay núi cỏch khỏc ngi ta cú th a thờm ký hiu õu dũng start vo mụi chuụi) Theo cụng thc Bayes, mụ hỡnh ngụn ng cõn phi cú mt lng b nh vụ cựng ln cú th lu ht xỏc sut ca tt c cỏc chuụi di nh hn m Rừ rng, iờu ny l khụng th m l di ca cỏc bn ngụn ng t nhiờn (m cú th tin ti vụ cựng) cú th tớnh c xỏc sut ca bn vi lng b nh chp nhn c, ta s dng xp x Markov bc n: P (wm|w1, w2,, wm-1) = P(wm|wm-n,wn-m+1, ,wm-1) (2.3) 2.3 Cỏc phng phỏp hc mỏy xõy dng mụ hỡnh phõn lp d liu 2.3.1 Phng phỏp Naùve Bayes a inh lý Bayes inh lý Bayes cho phộp tớnh xỏc sut xy ca mt s kin ngu nhiờn A bit s kin liờn quan B Xỏc sut ny c kớ hiu l P(A|B), v c l xỏc sut ca A nu cú B Theo inh lý Bayes, xỏc sut xy A bit B s ph thuc vo yu tụ: - Xỏc sut xy A ca riờng nú, khụng quan tõm n B Kớ hiu P(A) - Xỏc sut xy B ca riờng nú, khụng quan tõm n A Kớ hiu P(B) - Xỏc sut xy B bit A xy Kớ hiu P(B|A) Cụng thc Naùve Bayes c tớnh nh sau ( |) = ( | )( ) =1 (| )(( ) (2.4) b Mng Bayes (Bayesian Network) Mng Bayes l mt thi biu din phõn phụi xỏc sut trờn mt bin Nú thng dựng mó húa cỏc tri thc ca chuyờn gia v ý nim ca h vờ mt lnh vc no ú Do ú mng Bayes cũn c gi l mng ý nim (Belief Network) hoc mng nhõn qu (Causal Network) c Phõn lp Naive Bayes Naive Bayes Classifier (NBC) [9] l mt thut ng x lý sụ liu thụng kờ Bayes vi mt phõn lp xỏc sut da trờn cỏc ng dng inh lý Bayes vi gi inh c lp bờn vng Mt thut ng mụ t chi tit cho nhng mụ hỡnh xỏc sut s l mụ hỡnh c trng khụng ph thuc 10 gii quyt ca thut toỏn EM quỏ trỡnh x lý l cõn tỡm cỏch trớch chn c trng ca d liu cha c gỏn nhón Lun xut phng phỏp thay th phng phỏp EM: FS-EM (Feature Selection EM) v Co-Class (Co-classifiation) 2.4.2 Thut toỏn FS-EM thut toỏn EM, vic trớch chn c trng trớch t d liu c gỏn nhón v khụng thay i Tuy nhiờn, nhng c trng ny ch phự hp vi d liu ó gỏn nhón nhng khụng hn phự hp vi d liu cha c gỏn nhón Vỡ vy, ta xut thờm mt bc chn c trng quỏ trỡnh lp ỏnh giỏ nhón cõn gỏn, vớ d nh sau mụi vũng lp, ta chn li c trng cho d liu Nh vy, sau mụi vũng lp ta s cú mt c trng mi ng vi d liu cha c gỏn nhón Thut toỏn FS-EM c trỡnh by chi tit nh sau: Input: Tp d liu c gỏn nhón DL v cha gỏn nhón DU Chn c trng ca d liu c gỏn nhón DL Dng b phõn lp h t DL da trờn c trng Lp: for: Vi mụi bn d d liu DU c = h(di) // gỏn nhón cho d s dng b phõn lp h end t DP l d liu ó c gỏn nhón ca DU Chn c trng mi da trờn DP Dng b phõn lp h t DP v da trờn c trng mi 10 Dng vũng lp nhón d liu DP khụng thay i 11 Tr vờ b phõn lp h ca lõn lp cuụi cựng im yu ca thut toỏn FS-EM l vic xõy dng b phõn lp d liu h vũng lp ch s dng da trờn b d liu cha c gỏn nhón, m khụng s dng n d liu ó gỏn nhón ban õu Trong ú d liu ó c gỏn nhón li cha cỏc hụng tin cú ớch v chớnh xỏc hn cho vic phõn lp Vỡ vy, ta xut thờm thut toỏn tip theo l Co-Class gii quyt c ny 11 2.4.3 Thut toỏn Co-Class Thut toỏn Co-Class l thut toỏn kt hp gia c d liu ó c gỏn nhón v d liu cha c gỏn nhón chy qua b phõn lp h (DP) Co-Class giỳp gii quyt c im yu ca thut toỏn FS-EM l tn dng c b phõn lp c xõy dng t d liu ó c gỏn nhón v im mnh ca Co-Training l s dng mt lỳc b phõn lp t vi b d liu khỏc Nhng thay vỡ vic xõy dng b phõn lp da trờn c trng ca thut toỏn CoTraining c thc hin trờn d liu khỏc nhau, to b phõn lp khỏc Thỡ Co-Class s ch s dng mt b c trng nht xõy dng b phõn lp Chi tit ca thut toỏn Co-Class c trỡnh by nh sau: Input: Tp d liu c gỏn nhón DL v cha gỏn nhón DU Chn c trng ca d liu c gỏn nhón DL Dng b phõn lp h t DL da trờn c trng for: Vi mụi bn d d liu DU c = h(di) // gỏn nhón cho d s dng b phõn lp h end t DP l d liu ó c gỏn nhón ca DU Lp: Chn b c trng mi t d liu DP Dng b phõn lp hL s dng c trng v d liu DL 10 Dng b phõn lp hP s dng c trng v d liu DP 11 for: Vi mụi bn d d liu DU 12 c = (hL(di), hP(di)); // kt hp b phõn lp hL, hP 13 end 14 t DP l d liu ó c gỏn nhón ca DU 15 Dng vũng lp nhón d liu DP khụng thay i 16 Tr vờ b phõn lp h ca lõn lp cuụi cựng bc 11-13, kt qu phõn lp b d liu cha gỏn nhón c thay th bng kt qu kt hp gia b phõn lp Vic kt hp s theo quy tc nh sau: (hL (di), hP (di)) = { + ( ) = ( ) = + ũ 12 2.5 Kt chng Chng ó trỡnh by vờ quỏ trỡnh tỡm hiu v ỏp dng thut toỏn TF-IDF, N-Grams trớch xut c trng v thut toỏn Naùve Bayes, SVM phõn lp d liu phõn tớch quan im ngi dựng, lun ó xut v ỏp dng thut toỏn FSEM, v Co-Class ci thin kt qu xõy dng thc nghim Chng s tin hnh th nghim ng dng ó xõy dng trờn cỏc kich bn khỏc nhau, sau ú s ỏnh giỏ chớnh xỏc ca ng dng da trờn cỏc kt qu thu c 13 CHNG 3: THC NGHIM V NH GI Sau trỡnh by chi tit cỏc thut toỏn c ỏp dng cho bi toỏn xỏc inh ý inh chng 2, chng ny lun s xõy dng thc nghim ng vi cỏc kich bn thc nghim khỏc nhau, sau ú tin hnh ỏnh giỏ chớnh xỏc da trờn kt qu thu c v a kt lun 3.1 D liu thc nghim D liu thc nghim c thu thp t forums khỏc tng ng vi miờn d liu khỏc nhau: Bng 3.1: Danh sỏch trang web thu thp d liu Forums Ch http://www.howardforums.com/ in thoi http://www.avsforum.com/avs-vb in t http://forum.digitalcamerareview.com/ Camera http://www.avforum.com/forums/tvs TV Vi mụi forums ta s thu thp v gỏn nhón bng tay gõn 1000 bi vit vi di mụi bi vit gii hn khụng nh hn 50 t Ta quy inh bi vit cú chiờu hng cú hng thỳ muụn mua sn phõm l bi vit cú cha ý inh s c gỏn nhón l 1, v cũn li s c gỏn nhón D liu sau thu thp c thụng kờ li nh bng di õy: Bng 3.2: Danh sỏch d liu thu c v nhón d liu Tp d liu Khụng cú ý nh Cú ý nh Tng s bi ng in thoi 811 184 995 in t 711 278 989 TV 717 280 997 Camera 811 184 995 14 3.2 Thit lp thc nghim mc ny, lun s trỡnh by kich bn thc nghim cho cỏc trng hp xỏc inh ý inh ngi dựng Mụi kich bn s bao gm d liu õu vo l d liu ó c gỏn nhón v d liu cõn phõn lp l d liu cha c gỏn nhón Ta cõn thc nghim cỏc thut toỏn EM, FS-EM v so sỏnh vi kt qu ca thut toỏn Co-Class so sỏnh c hiu qu ca tng thut toỏn ỏp dng xỏc inh ý inh ngi dựng Quỏ trỡnh thc nghim thut toỏn gm phõn chớnh: - Trớch chn c trng: S dng thut toỏn TF-IDF, N-Grams vi n lõn lt chn cỏc giỏ tri 1,2,3 - Xõy dng b phõn lp d liu: S dng thut toỏn Naùve Bayes v SVM (trong ú thut toỏn SVM s dng hm Kernel tuyn tớnh (Joachims, 1998; Yang and Liu, 1999)) 3.3 Cụng c thc nghim Mụi trng thc nghim: - Phõn cng (Thit bi thc nghim): Macbook Air 2013, CPU Intel Core i5 1.3Ghz, 4GB RAM - Phõn mờm: Weka 3.8 Cụng c tớch hp hụ tr cỏc thut toỏn hc mỏy Khi xõy dng thc nghim, ta s dng kt hp thut toỏn trớch chn c trng TFIDF, N-Grams (n=1,2,3) vi thut toỏn phõn lp d liu Naùve Bayes, SVM v ly tham sụ Precision, Recall v F-Measure T kt qu thu c sau thc nghim, ta s kt lun c mụ hỡnh gỏn nhón cho d liu no l phự hp cho ti xỏc inh ý inh ca bn 3.3.1 Thc nghim trờn d liu Ta s a kich bn thc nghim trờn miờn d liu, d liu gỏn nhón v d liu cha gỏn nhón c ly trờn forum v tho lun vờ cựng ch Vi lõn lt tng ch ờ, trờn gõn 1000 mu d liu, ta chia d liu thnh 10 phõn ngu nhiờn, vi t l nhón v l tng ng nhau, ta ly ngu nhiờn phõn d liu lm d liu cha gỏn nhón kim tra, v phõn cũn li lm d liu hc 15 Nh vy ta cõn thc hin thc nghim 10 lõn vi tng ch v trờn ch ta s cú 40 bn d liu cõn thc nghim Vic thc nghim c thc hin lõn lt vi cỏc thut toỏn trớch chn c trng v phõn lp ó nờu trc ú, sau chy thc nghim xong s tớnh giỏ tri trung bỡnh ca cỏc tham sụ Precission, Recall, Fscore a nhn xột thut toỏn no phự hp nht vi bi toỏn xỏc inh ý inh ngi dựng cho d liu cựng miờn 3.3.2 Thc nghim trờn d liu Ta s a kich bn thc nghim trờn miờn d liu, d liu gỏn nhón v d liu cha gỏn nhón c ly trờn forum khỏc v tho lun vờ ch khỏc a Kich bn p dng theo phng phỏp 3TR-1TE: s dng d liu ly trờn forum ó c gỏn nhón tng ng vi miờn d liu lm d liu hc v d liu trờn miờn cũn li lm d liu kim tra Vic thc nghim c thc hin lõn lt vi cỏc thut toỏn trớch chn c trng v phõn lp ó nờu phõn trờn, sau chy thc nghim xong s tớnh giỏ tri trung bỡnh ca cỏc tham sụ Precission, Recall, Fscore v a ỏnh giỏ kt qu thc nghim b Kich bn S dng d liu ó gỏn nhón ca miờn d liu c ly trờn forum v tho lun vờ ch lm d liu hc v d liu trờn forum khỏc v tho lun vờ ch khỏc lm d liu kim tra Vic thc nghim c thc hin lõn lt vi cỏc thut toỏn trớch chn c trng v phõn lp ó nờu phõn trờn, sau chy thc nghim xong s tớnh giỏ tri trung bỡnh ca cỏc tham sụ Precission, Recall, Fscore v a ỏnh giỏ kt qu thc nghim 3.4 Kt qu thc nghim 3.4.1 Thc nghim trờn d liu Sau thc hin thc nghim trờn miờn d liu ta thu c kt qu gỏn nhón khỏ chớnh xỏc v c thụng kờ li bng di õy: 16 Bng 3.3: chớnh xỏc trung bỡnh thc nghim d liu cựng NAẽVE BAYES SVM Ch in thoi in t TV Camera TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram 67.8 68.7 72.1 69.9 70.1 63.7 65.5 66.4 64.3 66.5 68.1 68.5 68.8 66.5 63.5 66.6 69.1 66.7 68.3 66.4 67.3 67.8 65.6 69.6 67.8 68.5 70.3 70.2 69.6 65.9 69.9 65.4 Khi thc nghim vi miờn d liu, vi kt qu thu c bng, ta nhn thy: - chớnh xỏc ỏp dng cỏc thut toỏn gỏn nhón d liu ri vo khong 6372%, mc tng ụi chớnh xỏc ụi vi c miờn d liu - Trong ú vi ch in t thut toỏn cú chớnh xỏc trung bỡnh l thp nht, v ch TV cú chớnh xỏc l cao nht - Da vo bng d liu thu c, ta nhn thy s dng thut toỏn SVM phõn lp d liu s a kt qu kộm chớnh xỏc hn so vi thut toỏn phõn lp v ú, thut toỏn trớch chn c trng N2-Gram kt hp vi thut toỏn Naùve Bayes l a li kt qu chớnh xỏc cao nht 3.4.2 Thc nghim trờn d liu a Kich bn Sau thc hin thc nghim trờn miờn d liu vi kich bn 1, ly d liu ca miờn lm d liu hc v d liu ca miờn cũn li lm d liu cha gỏn nhón ta thu c kt qu c thụng kờ li bng di õy: Bng 3.4: chớnh xỏc thc nghim d liu khỏc kch bn NAẽVE BAYES Ch SVM TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram in thoi 64.32 69.95 71.94 68.33 65.36 72.24 71.51 72.54 in t 64.23 65.24 64.68 65.82 67.17 66.32 66.52 69.02 TV 66.04 68.83 70.75 70.75 65.98 67.74 65.23 74.73 Camera 68.66 69.48 67.52 67.74 70.49 70.59 68.90 75.73 17 Khi thc nghim vi miờn d liu vi kich bn ó nờu phõn trc, vi kt qu thu c bng, ta nhn thy: - chớnh xỏc ỏp dng cỏc thut toỏn gỏn nhón d liu ri vo khong 6176%, mc tng ụi chớnh xỏc - Trong ú, thc nghim d liu hc t cỏc ch in thoi, TV, Camera ỏp dng cho d liu kim tra l ch in t l em li kt qu chớnh xỏc thp nht Kt qu thc nghim vi thut toỏn phõn lp SVM a chớnh xỏc trung - bỡnh cao hn so vi thut toỏn Naùve Bayes, v ỏp dng thut toỏn trớch chn c trng N3-Gram kt hp vi thut toỏn phõn lp SVM cú kt qu chớnh xỏc l cao nht b Kich bn Sau thc hin thc nghim trờn miờn d liu vi kich bn 2, ly d liu ca miờn lm d liu hc v d liu ca miờn cũn li lm d liu cha gỏn nhón ta thu c kt qu c thụng kờ li bng di õy: Bng 3.5: chớnh xỏc thc nghim ch in thoi, in t D liu kim th D liu hc NAẽVE BAYES SVM IN THOI IN T in t Camera TV in thoi Camera TV TFIDF 67.36 71.63 70.06 63.84 64.36 61.65 N1Gram 65.27 70.54 65.86 62.64 64.07 62.67 N2Gram 70.43 69.14 67.59 63.86 62.98 64.38 N3Gram 66.94 69.22 68.83 62.57 63.70 64.19 TFIDF 71.41 71.26 66.15 62.48 63.76 61.72 N1Gram 70.73 66.18 69.48 64.74 62.43 64.99 N2Gram 69.68 66.99 65.69 64.52 64.95 62.40 N3Gram 72.39 73.02 68.30 64.19 64.27 65.20 18 Bng 3.6: chớnh xỏc thc nghim ch Camera, TV D liu kim th CAMERA TV D liu hc in t in thoi TV in thoi Camera in t TFIDF 71.65 69.34 67.02 69.54 68.03 70.35 N1Gram 71.95 66.96 70.15 70.05 70.24 66.28 N2Gram 71.58 71.74 65.87 71.96 70.45 69.32 N3Gram 70.61 67.03 71.88 65.47 68.16 66.03 TFIDF 68.83 69.18 71.99 65.31 68.97 67.27 N1Gram 66.19 68.21 69.02 65.66 70.28 65.44 N2Gram 66.82 71.98 66.04 69.08 66.42 68.86 N3Gram 70.14 67.24 71.35 70.99 69.83 72.43 NAẽVE BAYES SVM Khi thc nghim vi miờn d liu vi kich bn ó nờu phõn trc, vi kt qu thu c bng, ta nhn thy: - chớnh xỏc ỏp dng cỏc thut toỏn gỏn nhón d liu ri vo khong 5971%, mc khỏ chớnh xỏc - Trong ú ỏp dng lõn lt tng ch ch in thoi, TV, Camera lm d liu hc, v s dng d liu ch in t lm d liu kim th, thỡ chớnh xỏc ỏp dng vi ch in t l em li kt qu chớnh xỏc thp nht - Thut toỏn phõn lp d liu SVM em li chớnh xỏc gỏn nhón cao hn so vi thut toỏn Naùve Bayes ỏp dng vi kich bn d liu chộo miờn - Khi ỏp dng thc nghim trờn miờn d liu khỏc nhau, vi cỏc thut toỏn trớch chn c trng thỡ thut toỏn N3-Gram kt hp vi thut toỏn phõn lp bn SVM a li kt qu gỏn nhón cao nht 3.4.3 So sỏnh kt qu thc nghim Co-Class vi cỏc thut toỏn khỏc Thc nghim d liu cựng Khi thc nghim so sỏnh kich bn phõn loi trờn vi lõn lt cỏc thut toỏn EM, FS-EM v Co-Class ta thu c thi phõn loi di õy: 19 So sỏnh thut toỏn trng hp d liu cựng 71.0 70.0 69.7 69.0 68.9 68.0 67.8 67.0 67.3 66.5 66.0 67.6 66.9 68.7 68.9 66.4 67.4 66.6 67.9 65.0 64.0 64.2 64.3 69.3 67.1 67.0 66.0 65.5 66.1 65.8 64.5 64.8 63.0 EM FS-EM Co-Class 62.0 61.0 Hỡnh 3.1: So sỏnh chớnh xỏc thc nghim cựng thut toỏn Ta nhn thy, thc nghim trờn cựng miờn d liu, kt qu xỏc inh ý inh ca bn khụng chờnh lch nhiờu ỏp dng thut toỏn EM, FS-EM, Co-Class, thut toỏn Co-Class cha hn vt tri hn vờ chớnh xỏc so vi thut toỏn trc ú Ngay mt sụ trng hp thc nghim ỏp dng thỡ thut toỏn FS-EM a kt qu chớnh xỏc hn so vi Co-Class Thc nghim d liu chộo Tip theo, ta thc nghim vi d liu trỏi miờn, lõn lt vi kich bn, ta thu c kt qu nh d thi di õy 20 So sỏnh thut toỏn trng hp d liu chộo kch bn 80.0 70.0 66.1 60.0 62.8 50.0 46.5 40.0 30.0 20.0 10.0 0.0 66.1 64.9 48.2 70.7 62.2 66.4 65.2 67.4 64.8 66.8 65.1 68.5 63.6 72.6 66.0 42.4 44.4 42.5 44.4 44.6 44.0 EM FS-EM Co-Class Hỡnh 3.2: So sỏnh chớnh xỏc thc nghim chộo thut toỏn So sỏnh thut toỏn trng hp d liu chộo kch bn 80.0 70.0 67.9 59.4 60.0 50.0 41.6 67.2 68.2 56.3 49.2 57.1 45.1 67.0 63.0 67.3 64.1 48.2 48.2 66.9 65.4 66.9 69.6 67.7 55.6 45.7 45.7 44.9 40.0 30.0 EM 20.0 FS-EM 10.0 0.0 Co-Class Hỡnh 3.3: So sỏnh chớnh xỏc thc nghim chộo thut toỏn Nhn thy, thc nghim trờn miờn d liu khỏc nhau, kt qu xỏc inh ý inh ca bn ó cho thy s chờnh lch rừ rng hn ỏp dng thut toỏn EM, FS-EM, Co-Class Thut toỏn Co-Class ó th hin c im mnh ỏp dng trng hp d liu chộo miờn Trong ú - Thut toỏn EM th hin c kh nng phõn loi yu nht thut toỏn chớnh xỏc ca thut toỏn thp, khong 39-54% 21 - Thut toỏn FS-EM cú chớnh xỏc mc tng ụi chớnh xỏc 53-66% - V Thut toỏn Co-Class a li kt qu gỏn nhón hiu qu nht thc nghim xỏc inh ý inh bn, trng hp ỏp dng kt hp thut toỏn trớch chn c trng N3-Gram v thut toỏn phõn lp SVM, thut toỏn CoClass a c kt qu phõn loi chớnh xỏc n 71% 3.5 Nhn xột thc nghim v kt lun Khi ỏp dng thut toỏn Co-Class vo bi toỏn xỏc inh ý inh ngi dựng, ta nhn thy: - Khi ỏp dng gỏn nhón trờn ch nht inh, thỡ thut toỏn phõn lp Naùve Bayes em li kt qu cao hn so vi thut toỏn SVM Cú th núi, thut toỏn Naùve Bayes phự hp vi bi toỏn phõn loi d liu trờn cựng miờn hn so vi thut toỏn SVM V ngc li, thut toỏn SVM em li kt qu cao hn ỏp dng th nghim vi trng hp d liu chộo miờn - Thut toỏn SVM a kt qu chớnh xỏc vi cỏc bn ngn 50-70 t, xỏc inh vi bn di ln hn 150 t v bi nh hng bi d liu nhiu dn n thut toỏn SVM xỏc inh thiu chớnh xỏc - Khi thc nghim xỏc inh trờn d liu, vi thut toỏn EM, cho kt qu xỏc inh ý inh kộm chớnh xỏc hn so vi thut toỏn cũn li l thut toỏn FS-EM v thut toỏn Co-Class - Khi thc nghim trờn miờn d liu khỏc nhau, thut toỏn EM a kt qu chớnh xỏc thp, v thut toỏn FS-EM a kt qu kộm chớnh xỏc hn so vi Co-Class Vic xỏc inh c ý inh ca ngi dựng ta cha th thu thp c d liu hc ca riờng ch ú l rt hay xy ra, v thut toỏn Co-Class ó th hin c u im tỡnh huụng d liu hc mỏy khụng thuc mt ch nht inh hay ỏp dng d liu hc mỏy l ca mt ch khỏc, khụng liờn quan vi ch kim tra - Kt qu thc nghim ca Co-Class vi d liu trỏi miờn em li kt qu cao v xp x bng vi kt qu xỏc inh ý inh bn trờn d liu cựng miờn Nh vy, t kt qu thc nghim thu c cho thy Co-Class giỳp cho vic xỏc inh ý inh bn t chớnh xỏc khỏ cao v s khụng gp khú khn ln ỏp dng trờn bt k ch no v vic cha cú d liu hc mỏy ca chớnh ch ú cng s khụng cũn l tr ngi ln xỏc inh ý inh ngi dựng 22 KT LUN V KIN NGH Lun trung nghiờn cu phỏt hin chớnh xỏc ý inh ca ngi vit trờn din n tho lun Trong lun ó trung nghiờn cu sõu cỏc phng phỏp biu din c trng ca bn (N-grams, TF-IDF), cỏc phng phỏp hc mỏy xõy dng mụ hỡnh phõn lp d liu (Naùve Bayes, SVM) v a bi toỏn phỏt hin ý inh ngi dựng ỏp dng trờn miờn d liu cựng miờn v chộo miờn C th, lun ó t c mt sụ kt qu sau: - Nghiờn cu cỏc mụ hỡnh biu din c trng ca bn, mụ hỡnh phõn lp d liu ỏp dng bi toỏn xỏc inh ý inh ca ngi vit - xut mt sụ ci tin nhm nõng cao chớnh xỏc ca vic phỏt hin ý inh ngi dựng thụng qua bi vit - p dng thut toỏn nõng cao chớnh xỏc, thc nghim v ỏnh giỏ kt qu Trong tng lai, Lun cú th c phỏt trin theo cỏc hng: - Nghiờn cu cỏc phng phỏp nõng cao chớnh xỏc v ci thin tục x lý ụi vi vic phỏt hin bn cha ý inh ngi dựng - Nghiờn cu cỏc phng phỏp thu thp d liu t ng, t ú kt hp vi cỏc h thụng t vn, qung cỏo a qung cỏo phự hp, vi lng ngi quan tõm cao 23 PH LC Xõy dng ng dng ng dng hụ tr ngi dựng s c xõy dng bng ngụn ng Java s dng trờn mụi trng mỏy tớnh, yờu cõu cu hỡnh mỏy tớnh ci t mụi trng: Java JDK Chc nng ca ng dng bao gm: - Da vo bn ngi dựng a ra, ng dng x lý v a ý inh ca bn l cú muụn mua sn phõm hay khụng - ng dng x lý d liu v a ch v sn phõm m ngi dựng muụn mua hoc muụn tỡm hiu thờm T ú tớch hp vi cỏc h thụng qung cỏo a qung cỏo phự hp vi bn Giao din ng dng nh sau: Hỡnh 2: Mụ t ng dng 24 TI LIU THAM KHO [1] Ngo Xuan Bach, Tu Minh Phuong, Leveraging User Ratings for Resource-Poor Sentiment Classification, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp 322331, 2015 [2] Nguyen Thi Duyen, Ngo Xuan Bach, Tu Minh Phuong, An Empirical Study on Sentiment Analysis for Vietnamese In Proceedings of the International Conference on Advanced Technologies for Communications (ATC), Special session on Computational Science and Computational Intelligence (CSCI), pp 309-314, 2014 [3] Zhiyuan Chen, Bing Liu, Meichun Hsu, Malu Castellanos, and Riddhiman Ghosh, Identifying Intention Posts in Discussion Forums, 2013 [4] Honghua (Kathy) Dai, Lingzhi Zhao, Zaiqing Nie, Ji-Rong Wen, Lee Wang, Ying Li, Detecting online commercial intention (OCI), 2006 [5] Steve R Gunn, Support Vector Machines for Classification and Regression, 1998 [6] R A S C Jayasanka, M D T Madhushani, E R Marcus, I A A U Aberathne, S C Premaratne Sentiment Analysis for Social Media, 2014 [7] Hiroshi Kanayama, Tetsuya Nasukawa , Textual demand analysis: detection of users' wants and needs from opinions, 2008 [8] Fariba Sadri, Weikun Wang, Afroditi Xafi, Intention Recognition with Clustering, 2012 [9] P Hiroshi Shimodaira, Text Classification using Naive Bayes, 2015 ... lý ngụn ng t nhiờn, cỏc bi toỏn ng dng ca lnh vc x lý ngụn ng t nhiờn nh phõn loi bn, phõn loi quan im v.v Hng tip cn, lý chn ti v gii thiu bi toỏn phỏt hin ý inh ngi dựng trờn din n 1.1 X lý... vit cú cha ý inh v bi vit khụng cú ý inh - Vic x lý d liu trớch xut c õu l d liu nhiu khụng liờn quan ti ý inh ngi dựng trớch xut c kt qu chớnh xỏc - Nghiờn cu ỏp dng bi toỏn xỏc inh ý inh ngi... nhiờn l mt nhng phõn khú nht vỡ x lý ngụn ng t nhiờn liờn quan n vic xõy dng cỏc h thụng mỏy tớnh hiu c t v ý ngha ca ngụn ng ngi, t ú cú th tin hnh x lý chỳng X lý ngụn ng t nhiờn l lnh vc ó c nghiờn

Ngày đăng: 27/04/2017, 14:09

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan