Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động (TT)

31 631 0
Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động (TT)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i LI CM N Trc tiờn, tụi xin c gi li cm n v lũng bit n sõu sc nht ti Thy giỏo, PGS TS Nguyn Trớ Thnh ó tn tỡnh ch bo, hng dn, ng viờn v giỳp tụi sut quỏ trỡnh thc hin lun tt nghip Tụi xin gi li cm n ti cỏc thy cụ trng i Hc Cụng Ngh - i Hc Quc Gia H Ni nhng ngi ó tn tỡnh giỳp , c v, v gúp ý cho tụi sut thi gian tụi hc v nghiờn cu ti trng Tụi xin gi li cm n ti cỏc anh ch, cỏc bn hc viờn cựng hc nghiờn cu ti Trng i hc Cụng ngh ó h tr tụi rt nhiu quỏ trỡnh hc cng nh thc hin lun Cui cựng, tụi mun gi li cm n ti gia ỡnh v bn bố, nhng ngi thõn yờu luụn bờn cnh, quan tõm, ng viờn tụi sut quỏ trỡnh hc v thc hin lun tt nghip ny Tụi xin chõn thnh cm n! H Ni, thỏng 05 nm 2016 Hc viờn Cn Mnh Cng ii LI CAM OAN Tụi xin cam oan gii phỏp X lý trựng lp, phõn loi, xỏc nh t khúa quan trng v sinh túm tt cho bn mt h thng thu thp tin tc t ng c trỡnh by lun ny tụi thc hin di s hng dn ca PGS TS Nguyn Trớ Thnh Tụi ó trớch dn y cỏc ti liu tham kho, cụng trỡnh nghiờn cu liờn quan nc v quc t Tt c nhng tham kho t cỏc nghiờn cu liờn quan u c nờu ngun gc mt cỏch rừ rng t danh mc ti liu tham kho lun H Ni, thỏng nm 2016 Tỏc gi lun Cn Mnh Cng MC LC LI CM N i LI CAM OAN ii MC LC .1 M U Chng GII THIU TI 1.1 Tng quan v h thng thu thp tin tc t ng 1.1.1 Tng quan v Crawler 1.1.2 H thng thu thp tin tc t ng 1.2 Cỏc bi toỏn khuụn kh ti .4 1.2.1 Bi toỏn x lý trựng lp tin tc 1.2.2 Bi toỏn phõn loi tin tc .4 1.2.3 Bi toỏn xỏc nh t khúa quan trng v chn túm tt 1.3 í ngha ca cỏc bi toỏn c gii quyt ti 1.3.1 í ngha khoa hc 1.3.2 í ngha thc tin 1.4 Kt lun Chng MT S PHNG PHP TIP CN BI TON 2.1 Cỏc phng phỏp tip cn bi toỏn trựng lp tin tc 2.1.1 Bag of Words 2.1.2 Shingling 2.1.3 Hashing 2.1.4 MinHash 2.1.5 SimHash 2.2 Cỏc phng phỏp tip cn bi toỏn phõn loi tin tc 2.2.1 Tip cn da trờn phng phỏp cõy quyt nh 10 2.2.2 Phõn loi d liu Naùve Bayes 10 2.2.3 Tip cn theo phng phỏp SVM 11 2.3 Tip cn bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt 12 2.3.1 Phng phỏp TF-IDF 12 2.3.2 Phng phỏp Edmundson 12 2.4 Tng kt 12 Chng XUT GII PHP V CI TIN P DNG GII QUYT CC BI TON TRONG THC T 13 3.1 H thu thp tin tc t ng m rng 13 3.2 Gii quyt bi toỏn trựng lp tin tc 14 3.2.1 Yờu cu thc t bi toỏn x lý trựng lp tin tc 14 3.2.2 Mụ hỡnh gii phỏp thc t 14 3.3 Gii quyt bi toỏn phõn loi tin tc 15 3.3.1 Yờu cu bi toỏn thc t 15 3.3.2 Mụ hỡnh gii phỏp thc t 15 3.4 Gii quyt bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt .15 3.4.1 Yờu cu bi toỏn thc t 15 3.4.2 Mụ hỡnh gii phỏp thc t 16 3.5 Tng kt 17 Chng THC NGHIM V NH GI KT QU 18 4.1 Mụi trng thc nghim v cỏc cụng c s dng thc nghim 18 4.2 Quỏ trỡnh thu thp d liu tin tc v tin x lý 18 4.2.1 Thu thp d liu tin tc .18 4.2.2 Tin x lý d liu 18 4.3 ỏnh giỏ phỏt hin trựng lp tin tc 19 4.3.1 Phng phỏp ỏnh giỏ 19 4.3.2 Kt qu ỏnh giỏ .19 4.4 ỏnh giỏ b phõn loi tin tc .19 4.4.1 Phng phỏp ỏnh giỏ 19 4.4.2 Kt qu ỏnh giỏ .20 4.5 ỏnh giỏ kt qu xỏc nh t khúa quan trng v chn cõu túm tt 21 4.5.1 Phng phỏp ỏnh giỏ 21 4.5.2 Kt qu ỏnh giỏ .21 4.6 Tng kt 21 TNG KT 23 Kt qu t c 23 Hn ch .23 Hng phỏt trin 24 TI LIU THAM KHO .25 PH LC 26 M U Tớnh n ngy 25/12/2014, c nc cú 838 c quan bỏo in vi 1.111 n phm bỏo chớ, 90 bỏo v in t, 215 trang tin in t tng hp ca cỏc c quan bỏo S bỏo v in t ó tng gp gn 1.5 ln so vi s 62 bỏo in t vo nm 2012 [1] Vi lng thụng tin khng l t hn 300 trang bỏo v tin in t nh hin thỡ vic tng hp chn lc mt cỏch th cụng mang li ngun thụng tin hu ớch l mt iu khụng th xõy dng c mt h t ng thng nh vy ta cú nhiu bc cn phi s dng cỏc gii thut x lý bn c nghiờn cu nhiu khai phỏ d liu bn, d liu web nh: Thu thp ni dung tin tc, x lý trựng lp tin tc, phõn loi bn tin theo danh mc, xỏc nh t khúa quan trng ca ni dung tin tc v sinh túm tt cho bn tin, kim li chớnh t tin tc, phỏt hin ch núng, ch nhy cm, xu hng c tin thi gian gn, ú cng chớnh l lý m tỏc gi chn v nghiờn cu ti Lun c chia thnh phn nh sau: Chng Gii thiu ti Chng ny trỡnh tng quan v h thng thu thp tin tc t ng ng thi gii thiu mt s bi toỏn khai phỏ d liu h thu thp tin tc t ng, v gii thiu c bn v cỏc bi toỏn khuụn kh ti Chng Mt s phng phỏp tip cn Chng ny trung trỡnh by cỏc phng phỏp tip cn cho cỏc bi toỏn x lý trựng lp, bi toỏn phõn loi tin tc, bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt cho tin tc, mi phng phỏp u cú nhn xột hu ớch Chng xut mụ hỡnh gii quyt T nhng kt qu nghiờn cu t chng 2, chng ny ca lun s ch phng phỏp phự hp cho bi toỏn thc t c chn la a vo thc nghim Tip n trỡnh by, mụ t mụ hỡnh chi tit v cỏch gii quyt cho tng bi toỏn Chng Thc nghim v ỏnh giỏ Chng cui ca lun s da trờn nhng ci tin ó trỡnh by chng 3, tin hnh cỏc bc thc nghim vi ba bi toỏn: Phỏt hin tin tc trựng lp, phõn loi tin tc, xỏc nh t khúa quan trng v chn cõu túm tt cho bn tin Vi mi bi toỏn, lun a nhng phng phỏp ỏnh giỏ, nhng phộp so sỏnh phự hp v trỡnh by kt qu t c tng ng Phn tng kt: Phn tng kt s nờu lờn nhng kt qu t c, nhng khú khn hn ch gp phi quỏ trỡnh gii quyt cỏc bi toỏn v cui cựng l nh hng phỏt trin tng lai Chng GII THIU TI Trong chng ny, lun trung gii quyt cỏc sau: gii thiu tng quan v h thng thu thp tin tc t ng, cỏc bi toỏn khuụn kh ti, ý ngha khoa hc v ý ngha thc tin ca bi toỏn ú 1.1 Tng quan v h thng thu thp tin tc t ng 1.1.1 Tng quan v Crawler H thu thp tin tc t ng cú thnh phn ct lừi l trỡnh thu thp ni dung trang tin tc t Internet (gi l NewsCrawler), mụ hỡnh kin trỳc cỏc thnh phn ca News Crawler ging vi cỏc trỡnh thu thp ni dung Web (Web Crawler) thụng thng khỏc, ch khỏc l ỏp dng mi h thu thp tin tc t ng thỡ thnh phn URL nhõn (hay cũn gi l Seed) s l cỏc trang tin tc Phn ny s gii thiu mụ hỡnh tng quan ca Crawler v ỏp dng vo bi toỏn thu thp tin tc t ng Kin trỳc c bn ca mt Crawler bao gm cỏc thnh phn nh sau: Hỡnh 1.1 Kin trỳc cỏc thnh phn c bn ca Web Crawler Gii thớch cỏc thnh phn hỡnh 1.1: - - WWW l thnh phn i din cho cỏc trang Web trờn internet DNS vit tt ca Domain Name Service, dch v phõn ró tờn phc v cho vic tỡm kim a ch IP thc ca trang Web Ti d liu (Fetch) l quỏ trỡnh ti trang Web, thng s dng giao thc HTTP ti v ni dung cỏc trang Web Trớch xut (Parse) l quỏ trỡnh trớch xut ni dung trang Web, trớch xut d liu bn, d liu a phng tin (hỡnh nh, video, õm thanh,) , liờn kt Web, - - Lu ni dung (Store content) l vic lu tr ni dung pha trớch xut vo c s d liu di dng ti liu (Document) Lc URL (URL filter) thng gm cỏc quỏ trỡnh: o Kim tra tin robots.txt xem URL no c phộp truy cp tuõn theo lut ca trang WEB m Web Crawler ang thm o Chun húa cỏc URL chng hn nh mó húa bn (encoding) hay tuyt i húa cỏc ng dn tng i Xúa URL trựng lp (Dup URL Remove) l quỏ trỡnh loi b cỏc URL trựng lp quỏ trỡnh i thm trang Web URL Frontier l ni cha cỏc ng dn Web(URL) cha c Crawler duyt n, ban u URL Frontier s cha cỏc URL nhõn hay gi l Seed URL 1.1.2 H thng thu thp tin tc t ng H thng thu thp tin tc t ng vi kỡ vng d liu tin tc ly c t Crawler s c ỏnh ch mc v phc v cỏc mc ớch khỏc th hin bi hỡnh 1.3 di õy: Hỡnh 1.3 Mụ hỡnh tng quan h tng hp tin t ng c bn Tin tc sau thu thp bi trỡnh thu thp c ỏnh ch mc lờn mỏy tỡm kim h tr vic tra cu tỡm kim thụng tin cho biờn viờn - nhng ngi tng tỏc, tra cu tỡm hiu, tham kho thụng tin Hn th, d liu tin tc sau thu thp cũn c dựng vi mc ớch l xut bn ni dung tin mt trang tng hp tin tc ng phc v ngi c tng tỏc tra cu tỡm kim thụng tin Vi h thng hin ti nh hỡnh 1.3 d liu tin tc ly v c ỏnh ch mc thng lờn mỏy tỡm kim v kt ni trc tip n h qun tr ni dung cng nh trang tng hp thụng tin t ng ny sinh cỏc bt cp sau: - S lng tin tc b trựng lp cỏc trang tin dn ngun ng li khỏ nhiu Cỏc tin tc khụng c phõn loi dn n khú khn vic tra cu theo lnh vc, ch Nhiu tin khụng cú phn túm tt, khụng cú t khúa quan trng nờu bt ch , gõy khú khn vic tra cu, tỡm hiu ni dung chớnh ca tin mt cỏch nhanh chúng Chi tit cỏc bi toỏn v cỏch gii quyt tng bi toỏn thc t s c gii thiu cỏc chng tip ca lun 1.2 Cỏc bi toỏn khuụn kh ti 1.2.1 Bi toỏn x lý trựng lp tin tc Phỏt biu bi toỏn: Input: - Tp cỏc tin tc c thu thp trờn web - Tin tc mi c thu thp, cn kim tra s trựng lp vi c Output: Tin tc mi thu thp cú b trựng lp hay khụng? Trong ti ny lun ly ngng(threshold) l ging ln hn hoc bng 70% ni dung c coi l trựng lp, lu li ID ca bi gc v t l phn trm trựng lp 1.2.2 Bi toỏn phõn loi tin tc Phỏt biu bi toỏn: Input: - Tp cỏc tin tc c thu thp trờn web ó c chn d liu mu phõn ỳng theo cỏc danh mc - Tin tc mi c thu thp, cn kim tra xem thuc danh mc no Output: Danh mc ca bn tin mi c thu thp 1.2.3 Bi toỏn xỏc nh t khúa quan trng v chn túm tt Phỏt biu bi toỏn chn t khúa quan trng: Input: - Tp d liu cỏc tin tc - Ni dung tin tc Output: Cỏc t khúa quan trng phn ỏnh ni dung ca bn tin Phỏt biu bi toỏn chn cỏc cõu cú th l cõu túm tt ca bn tin: Input: - Tp d liu cỏc tin tc - Ni dung tin tc Output: Cỏc cõu cú th chn v sa h tr biờn viờn lm cõu túm tt (mụ t bn tin) nm bn tin 1.3 í ngha ca cỏc bi toỏn c gii quyt ti 1.3.1 í ngha khoa hc xõy dng c cỏc mụ un gii quyt cỏc bi toỏn trờn cn tỡm hiu v ỏp dng khỏ nhiu bi toỏn hc thut liờn quan n khai phỏ d liu lp, thng kờ d liu ph bin, v khai phỏ t khúa xu hng v bi toỏn x lý trựng lp ni dung c s d liu ln phõn tỏn Cỏc ni dung khoa hc ó c tham kho ỏp dng v ci tin ti hi vng mang li mt phn ý ngha úng gúp vo vic gii quyt cỏc khoa hc, nh hng m rng sau ny 1.3.2 í ngha thc tin Cỏc mụ un khuụn kh ti cng gúp phn vụ cựng quan trng cho mt h tng hp ni dung t ng cung cp di dng trang tng hp v h h tr biờn tng hp ni dung phc v cỏc tỏc v phõn tớch hay cỏc trang tin chuyờn bit Vic tng hp tin tc, cp nht liờn tc, phỏt hin c xu hng mi tin, túm lc t khúa cha ni dung chớnh tin giỳp ngi c tip cn nhanh nht n ngun tin tc khng l ú l mt nhng ý ngha thc tin quan trng ca ti Ngoi vic cung cp cỏc API cng cho phộp bờn th ba tip cn ngun tin phc v cỏc mc ớch riờng ca mỡnh nh thng kờ, phõn tớch, khai phỏ d liu khỏc cng l ý ngha thc tin khụng nh 1.4 Kt lun Trong chng ny, lun trỡnh tng quan v h thng thu thp tin tc t ng ng thi gii thiu mn s bi ton khai phỏ d liu h thu thp tin tc t ng, v gii thiu c bn v cỏc bi toỏn khuụn kh ti, ng thi núi lờn ý ngha 12 2.3 Tip cn bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt 2.3.1 Phng phỏp TF-IDF ly s ln xut hin ca t ni bt, Luhn(1958)[10] ó tớnh phõn phi ca tng t ti liu xỏc nh (tf) v phõn phi ca t phm (idf - inverted document frequency) () = log NumDoc: s ti liu bn NumDoc(term); s ti liu m cú term xut hin Gi = () ì () l trng s ca cỏc t, v c sp xp t cao xung thp v gỏn trng s vi giỏ tr We sau ú cỏc cõu gm cỏc cm t s c tớnh trng s cõu bng tng trng s cỏc t Cỏc cõu vi tng trng s cm cao nht c chn Ngoi vic tham chiu vi kho t khúa (tags) ca trỡnh thu thp v tham chiu vi kho t khúa xu hng ni bt cng lm cho vic xỏc nh t khúa quan trng tr nờn chớnh xỏc hn 2.3.2 Phng phỏp Edmundson Phng phỏp Edmundson phc v vic túm tt bn, vi ý tng quan tõm n cỏc yu t c ỏnh giỏ l quan trng ca bn bao gm: cỏc t cht, cỏc t khúa ca bn, tiờu ca bn v v trớ ca cõu bn 2.4 Tng kt Chng ny trung trỡnh by cỏc phng phỏp tip cn cho cỏc bi toỏn x lý trựng lp, bi toỏn phõn loi tin tc, bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt cho tin tc, mi phng phỏp u cú nhn xột hu ớch to tin cho chng tip theo trin khai xut ỏp dng mụ hỡnh thc t x lý gii quyt cỏc bi toỏn 12 13 Chng XUT GII PHP V CI TIN P DNG GII QUYT CC BI TON TRONG THC T 3.1 H thu thp tin tc t ng m rng Da theo c s lý thuyt, nhng ỏnh giỏ quỏ trỡnh tỡm hiu ti liu, cng nh quỏ trỡnh trin khai ca cỏc h thng, cụng trỡnh nghiờn cu trc H thng thu thp tin tc m rng vi cỏc mụ un mi c th hin nh hỡnh di õy: Hỡnh 3.1 Mụ hỡnh tng quan h tng hp tin t ng H thu thp tin tc t ng khuụn kh ti c xut nh mụ hỡnh 3.1 gm cỏc thnh phn chớnh: - - Crawler phõn tỏn gi nhim v thu thp d liu liờn tc mt cỏch t ng, cp nht liờn tc Cỏc giai on x lý d liu bao gm: o Tin x lý d liu: chun húa phụng ch, chun húa bn lc cỏc kớ t phn tha, x lý tỏch t, tỏch cõu o D liu c x lý trựng lp bng dch v x lý trựng lp o B khai phỏ d liu lm nhim v khai phỏ phõn tớch d liu nhm phõn loi, t khúa quan trng, túm tt ni dung ca bn, ngoi cũn cỏc dch v khỏc chy kốm nh phỏt hin sc thỏi tin tc, b phỏt hin xu hng tin tc, D liu sau x lý c lu vo c s d liu c nh v ỏnh ch mc t ng lờn mỏy tỡm kim phc v vic tỡm kim tra cu nhanh 13 14 - Cỏc mụ un kho tin, cỏc mụ un thao tỏc d liu phc v vic thao tỏc vi d liu x lý c, cỏc mụ un phc v ly d liu c vit bi cỏc th tc (Stored Procedure) l mt hp cỏc cõu lnh truy cú cu trỳc dựng thc thi mt nhim v ly d liu nht nh 3.2 Gii quyt bi toỏn trựng lp tin tc 3.2.1 Yờu cu thc t bi toỏn x lý trựng lp tin tc Trong thc t vic x lý trựng lp c nghiờn cu ti nhm ỏp ng ba yờu cu chớnh sau õy: - Crawler ỏnh du tin trựng lp kho Biờn viờn tham kho bi liờn quan Cnh bỏo vic BTV o Mt chc nng khỏc h tr h thng CMS vit bỏo l cnh bỏo vic Biờn viờn, phúng viờn copy bi ca ngi khỏc, vi mc trựng bi 70% s c cnh bỏo 3.2.2 Mụ hỡnh gii phỏp thc t Nh ó phõn tớch chng 2, phn 2.1.5 Simhash õy l bin phỏp ti u phc v cho crawler vi nhim v kim tra trựng lp hng triu d liu, thi gian thc Mụ hỡnh trin khai sau õy c ỏp dng thc t Hỡnh 3.4 Minh thc t trin khai bi toỏn x lý trựng lp D liu tin tc sau thu thp s c tin x lý v ly Simhash tiờu v Simhash phn ni dung, Simhash tiờu c dựng dóy bit 32 bit tiờu thng ngn, Simhash ni dung dựng dóy bit Simhash 64 bit v c lu thnh cỏc hoỏn v mụ t nh chng mc 2.1.5 trong, v c lu trờn b nh memory Redis Cluster Khi bn ghi mi thu thp h thng s tớnh toỏn song song v tr v kt qu cú trựng lp khụng thi gian chp nhn c Mụ hỡnh s c ỏnh giỏ v mt hiu nng tc so vi mt s thut toỏn khỏc chng tip theo 14 15 3.3 Gii quyt bi toỏn phõn loi tin tc 3.3.1 Yờu cu bi toỏn thc t Bi toỏn thc t phõn loi tin tc nh ó núi rừ chng mt cú th quy v bi toỏn phõn lp bn thun tỳy nhm mc ớch chớnh l t chc sp xp tin ỳng theo danh mc, phc v biờn viờn tra cu theo danh mc c thự riờng ca biờn viờn bỏo Vic phõn loi cng cú ý ngha quan trng nhm ỏp ng nhu cu phõn danh mc tin tc cho trang tin tng hp t ng 3.3.2 Mụ hỡnh gii phỏp thc t Hỡnh 3.6 Mụ hỡnh trin khai thc t trin khai bi toỏn phõn loi tin tc D liu mu sau c tin x lý s c tỏch t khúa v xõy dng c trng, c trng õy õy c th nghim bng TF-IDF trng s t ni dung tin v a vo trin khai hun luyn mụ hỡnh vi thut toỏn SVM to mụ hỡnh (model) sau hun luyn Mt bn tin mi cha c phõn danh mc c x lý v biu din di dng Vector vi trng s cng l TF-IDF s c tham chiu vi mụ hỡnh sau hun luyn kt lun bn ú thuc danh mc no 3.4 Gii quyt bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt 3.4.1 Yờu cu bi toỏn thc t Bi toỏn xỏc nh t khúa quan trng Mc ớch thc t ca bi toỏn xỏc nh t khúa quan trng l h tr vic túm tt i ý ca ni dung tin v phc v vic to cỏc ch liờn kt s liờn quan gia cỏc bi bỏo, h tr ti u mỏy tỡm kim Bi toỏn chn cõu túm tt i vi mt s ni dung khụng ly c on trớch dn túm tt ni dung, h thng cú th t túm tt mt on trớch dn ni dung túm tt cho bi vit Hoc h tr biờn viờn, phúng viờn xut cõu dựng lm cõu túm tt mụ t ca bn tin 15 16 3.4.2 Mụ hỡnh gii phỏp thc t Bi toỏn xỏc nh t khúa quan trng Hỡnh 3.9 Mụ hỡnh thc t bi toỏn xỏc nh t khúa quan trng Cỏc úng gúp quan trng b xỏc nh t khúa quan trng: - Tham chiu v trớ cõu, v trớ tiờu , phn mụ t v ni dung, s dng thờm trng s Tf-idf - Tham chiu t b t khúa(Tags) cú sn thu thp d liu t internet, v b cỏc t khúa t vic phõn tớch xu hng thụng tin - Tham chiu kt qu Google Suggestion v Search Volumne ly lng tỡm kim, lng tỡm kim cng cao cú ngha l t khúa cú mc quan trng cng cao Bi toỏn chn cõu túm tt Hỡnh 3.10 Mụ hỡnh thc t bi toỏn xỏc nh cõu túm tt Bi toỏn chn cõu túm tt ti s dng kt hp phng phỏp Tf-idf v Edmundson, va cú im trng s cho t khúa, cõu cú nhiu t khúa quan trng, va xỏc nh tng quan gia v trớ ca cõu, nm tiờu , phn mụ t, ni dung, cui on u on c tớnh toỏn hp lý xut danh sỏch cõu quan trng 16 17 bi tin Vic chn t l cõu xut trờn tng s cõu bn tin cng l quyt nh n chớnh xỏc ca bn tin Vi h thng hin ti sau cỏc kt qu kim nghim thc t cõu s ly i din mt cõu quan trng phự hp vi d liu tin tc 3.5 Tng kt T nhng kt qu nghiờn cu t chng 2, lun ch phng phỏp phự hp cho bi toỏn thc t c chn la a vo thc nghim Sau ú, phỏt biu, mụ t mụ hỡnh chi tit v cỏch gii quyt cho cỏc bi toỏn, cng nh mt s úng gúp quan trng ci thin chớnh xỏc kt qu Phn tip theo ca lun s tin hnh ỏnh giỏ cỏc kt qu thc nghim t c sau ỏp dng cỏc mụ hỡnh 17 18 Chng THC NGHIM V NH GI KT QU chng ny, lun s tin hnh quỏ trỡnh thc nghim v ỏnh giỏ kt qu xut da trờn cỏc bi toỏn Vi c im riờng ca mi bi toỏn s cú nhng cỏch ỏnh giỏ, so sỏnh riờng phự hp vi yờu cu thc t, ng thi m bo ý ngha khoa hc ca bi toỏn 4.1 Mụi trng thc nghim v cỏc cụng c s dng thc nghim Cu hỡnh phn cng, phn mm cỏc gúi i kốm thc nghim c s dng lun c mụ t hai bng sau õy: Bng 4.1 Cu hỡnh phn cng thc nghim Stt Thnh phn Ch s CPU Intel Core i5 4460 3.4GHZ RAM 8GB H iu hnh Ubuntu 14.04 B nh ngoi 500GB 4.2 Quỏ trỡnh thu thp d liu tin tc v tin x lý 4.2.1 Thu thp d liu tin tc D liu c thu thp vi phn mm mó ngun m Apache Nutch 1.11 cu hỡnh chy phõn tỏn, Nutch c tựy bin thờm plugin k tha vic trớch xut d liu v vic ỏnh ch mc d liu lờn Elasticsearch ( mt dng mỏy tỡm kim linh ng vi mc tựy bin tỡm kim cao ) D liu c thu thp cng c chun húa li font ch, lc cỏc tin ni dung nh, video, m bo d liu text ó c chun húa ( normalizefilter) phc v cho vic x lý d liu 4.2.2 Tin x lý d liu Vi d liu c ly v s c cỏc dch v t ng tin hnh x lý tỏch t, tỏch cõu bng hai cụng c mó ngun m l vnSentDetector 2.0.0 v vnTokenizer 4.1.1, tip ú bn tin s c ly du i din simhash simhash c lu tr riờng di dng c bit phc v vic phỏt hin trựng lp, ngoi bn tin cũn c x lý ly t khúa quan trng(tags) v chn mt vi cõu xut túm tt nu bn tin ly v khụng cú cõu túm tt Vi t khúa ó c tỏch, v URL gc bn tin cng c phõn loi mt cỏch t ng 18 19 4.3 ỏnh giỏ phỏt hin trựng lp tin tc 4.3.1 Phng phỏp ỏnh giỏ Trong thc t cú nhng thut gii kim tra trựng lp cho kt qu tt hn vic s dng hm bm Simhash to i din Tuy nhiờn khuụn kh lun tỏc gi ỏnh giỏ vic s dng Simhash trờn phng din phc v cho Crawler kim tra trựng lp nờn tc kim tra trựng lp l yu t c u tiờn hng u 4.3.2 Kt qu ỏnh giỏ Trong thớ nghim ỏnh giỏ, chỳng ta s so sỏnh tc ca hai thut toỏn Simhash v Shingling trờn d liu vi s lng d liu tng dn t 100 bn ghi lờn n 1500 bn ghi, Simhash õy c ly di dng Simhash 32bit v Shingling ly dng token sau ó tỏch t Mụ hỡnh húa di dng biu kt qu tc chy: SIMHASH VS SHINGLING SPEEDS Simhash Shingling 600000 500000 400000 300000 200000 100000 0 200 400 600 800 1000 1200 1400 1600 Hỡnh 4.1 So sỏnh tc simhash v shingling Thut toỏn Shingling th hin rừ phc tớnh toỏn theo thi gian l O(n2) ỏp dng Simhash cho thy kt qu tt rừ rt ỳng vi lý thuyt thi gian chy logarit Hon ton phự hp vi vic ỏp dng vo thc t 4.4 ỏnh giỏ b phõn loi tin tc 4.4.1 Phng phỏp ỏnh giỏ Trc tiờn cn núi thờm v quỏ trỡnh thu thp d liu ca crawler, cỏc danh mc thuc din tin bn c ly v c ỏnh du riờng nm 12 danh mc bao gm:{"cong-nghe","giai-tri","giao-duc","kham-pha","kinh-te","phap-luat","quansu","suc-khoe","tam-su","the-gioi","the-thao","xe-360"} 19 20 Vic ỏnh giỏ thut toỏn phõn loi s s dng o precision/recall v F1 ỏnh giỏ b hc d liu s bao gm 56400 bn c chn sn danh mc hc da trờn ngun VNExpress, 54000 bn thuc 12 ch ( tng ng vi 4500 bn tin/1 ch ) s c dựng hun luyn(train), v 2400 bn s c dựng kim nh (test), khuụn kh lun thc hin ỏnh giỏ trờn phng din vic s dng SVM thun tỳy vi ni dung bn tin v vic ci tin cho kt qu thc t sao, chi tit s c nờu ti phn kt qu Sau õy l mt s o c s dng ỏnh giỏ: F1 l mt trung Precision v Recall bỡnh iu hũa (harmonic mean) ca cỏc tiờu F1 cú xu hng ly giỏ tr gn vi giỏ tr no nh hn gia hai giỏ tr Precision v Recall, F1 cú giỏ tr ln nu c hai giỏ tr Precision v Recall u ln 4.4.2 Kt qu ỏnh giỏ p dng cỏc ci tin vo phõn loi xỏc nh ch bn, bng cỏc bin phỏp ó c nờu chng 3, kt qu t c c cho bng 4.5: Bng 4.5 Kt qu phõn loi c ci tin CatNo Category Precison Recall F1 cong-nghe 80.9 90.58 85.47 giai-tri 81.7 83.29 82.49 giao-duc 82.1 93.26 87.32 kham-pha 73.5 81.4 77.25 kinh-te 76.9 77.25 77.07 phap-luat 77.6 88.92 82.88 quan-su 73.2 95.97 83.05 suc-khoe 84.9 94.04 89.24 tam-su 91.2 93.58 92.37 10 the-gioi 88.7 93.41 90.99 11 the-thao 92.6 92.62 92.61 12 xe-360 73.9 88.24 80.44 Avg 81.43 89.38 85.1 Kt qu bng trờn cho thy, ton b kt qu phõn loi ó c ci thin c v chớnh xỏc v hi tng, chớnh xỏc Precision trung bỡnh t 73.71% lờn n 20 21 81.43%, hi tng Recall cng tng t 78.64% lờn ti 89.38%, kộo theo ú o F1 cng tng khỏ rừ rt 4.5 ỏnh giỏ kt qu xỏc nh t khúa quan trng v chn cõu túm tt 4.5.1 Phng phỏp ỏnh giỏ Vic ỏnh giỏ bi toỏn ny c thc hin mt cỏch th cụng mt phn da trờn ý kin chuyờn gia (expert judgment) bi c im c bit ca bi toỏn Lun s dng vic tng hp kt qu ỏnh giỏ t ba ngi ban biờn viờn ó c o to k nng SEO thc hin ỏnh giỏ vi mi bn 100 bn tin Tng s bn tin c ly t khúa quan trng, v chn cõu túm tt l 300 bn tin, t l chn (nộn cõu túm tt l 5:1)[2] Chi tit kt qu thu c cú phn kt qu ỏnh giỏ 4.5.2 Kt qu ỏnh giỏ Kt qu ỏnh giỏ th cụng ba ln ba biờn viờn cú kinh nghim SEO c o to bi bn c v mng biờn ln kinh nghim v ỏnh giỏ ni dung c cho bng 4.6 Bng 4.6 Thng kờ t l tag v túm tt t yờu cu T l tags t T l túm tt t Ln (100 tin) 73% 71% Ln (100 tin) 76% 69% Ln (100 tin) 78% 64% Bỡnh Quõn 76% 68% Gii thớch: T l Tags t 76% tc l 100 bn tin c ly Tags t ng thỡ cú 76 bn tin t yờu cu theo ý kin ca ngi ỏnh giỏ, cú ngha l phn tags cha cỏc t khúa ny cú th thay th ngi s dng phn tag ni dung t ng khụng cn ngi biờn phi can thip, dựng lm tags phn ỏnh ni dung chớnh ca bn tin T l túm tt t 68% tc l 100 bn tin ly t hp cõu túm tt t ng thỡ cú 68% t hp cõu cú cha mt cõu cú th chn i din h tr biờn viờn t lm cõu túm tt ca bn tin 4.6 Tng kt Chng ny tỏc gi ó trỡnh by cỏc kt qu thc nghim chng minh phng phỏp xut chng Kt qu thc nghim trung vo ba bi toỏn chớnh ú l kim tra trựng lp, phõn loi tin tc v sinh cỏc t khúa ni dung chớnh, sinh cõu xut túm tt ca bn Kt qu thc nghim cho thy phng phỏp xut phự hp mc chp nhn c v ó cú nhng phn kt qu kh quan hn sau thi c úng 21 22 gúp ci tin 22 23 TNG KT Kt qu t c Lun ó trỡnh by cỏc kin thc c bn v phỏt hin trựng lp, phõn loi tin tc, xỏc nh t khúa quan trng v xut cõu túm tt cho tin tc trờn d liu ting Vit Bờn cnh ú, lun ó trỡnh by chi tit cỏc phng phỏp tip cn bi toỏn, cng nh hng gii quyt v kt qu thc t Vi bi toỏn phỏt hin trựng lp tin tc t phớa Crawler lun ó cp phõn tớch u nhc im ca mt s phng phỏp ph bin phỏt hin trựng lp v sau ú xut mụ hỡnh gii quyt bi toỏn vi gii thut SimHash t ú ỏnh giỏ v so sỏnh vi thut toỏn phỏt hin trựng lp ph bin l shingling Vi bi toỏn phõn loi lun cng a mt vi bi toỏn phõn loi cng nh lý s dng hc mỏy bỏn giỏm sỏt vi SVM, Cui cựng l bi toỏn xỏc nh t khúa quan trng, v xut cõu i din chn túm tt cho tin tc c gii quyt bng vic tng hp cỏc bin phỏp Edmundson v TF-IDF Cỏc kt qu cho thy phng phỏp s dng Simhash kim tra trựng lp cú tc tớnh toỏn tng theo hm loragit ci thin hn rt nhiu so vi O(n2) ca phng phỏp shingling, c th d liu ch lờn ti 1500 bn tin tc ca SimHash ó nhanh hn tc ca Shingling ti 91,4 ln Phng phỏp SVM tớch hp vo mụ un phõn loi cng cho kt qu tt sau úng gúp mt s ci tin so vi s dng SVM thun tỳy trờn d liu, vi kt qu tt S dng o chớnh xỏc (precision), o hi tng (recall), v o F-1 (F-1 measured) o lng kt qu cho thy: o chớnh xỏc (89.38%), o hi tng (89.3%), v o F-1 (85.1%) Vi bi toỏn t ng xut tags bao gm cỏc t khúa quan trng v xut mt nhng cõu cú th chn lm túm tt cng cho mt kt qu tớch cc sau ỏp dng cỏc bin phỏp ci tin chng 3, t l chp nhn c gúc ỏnh giỏ ca ngi c o to (expert) lnh vc biờn v SEO cho thy t l tags t 76% v t l chn cõu túm tt chp nhn c t 68% Hn ch Mc dự kt qu t c kh quan nhiờn cỏc gii phỏp lun cng khụng trỏnh mt s hn ch v nhc im cn khc phc chng hn nh: Vic ly hm i din Simhash l vic ỏnh x t vụ hn sang hu hn vy nờn xut hin t l trựng Simhash vi hai bn khỏc Vic phõn loi hin ti phi thit t lut cho Crawler gii hn danh mc c th ca bn tin phc v vic phõn danh mc cú chớnh xỏc cao, cỏc tin vn, tin cú cht lng thp cha c h tr 23 24 Vic chn t khúa túm tt(tags) v chn cõu túm tt cũn ph thuc nhiu vo vic tham chiu kho t c, kho t xu hng cú sn tng cao chớnh xỏc, m cha t ch c t vic da vo bn thõn ca bn Hng phỏt trin Trong thi im tng lai gn, hng phỏt trin trc mt ca lun l khc phc nhng hn ch khuyt im ca cỏc mụ un hin ti v nõng cao kh nng chớnh xỏc ca cỏc thut toỏn, c th l: ci thin tc hn na vic ỏp dng Simhash ng phú vi mụi trng d liu ln hn, ci thin chớnh xỏc phõn loi vi ngun tin tc a dng hn ng thi nõng cao chớnh xỏc vic sinh t khúa, v xut cõu túm tt 24 25 TI LIU THAM KHO Ting Vit B Thụng tin v Truyn thụng (2015), Tỡnh hỡnh phỏt trin lnh vc bỏo nm 2015, H Ni Trn Mai V (2009), Túm Tt a Vn Bn Da Vo Trớch Xut Cõu, i Hc Quc Gia H Ni, Trng i Hc Cụng Ngh, 2009, tr.4 Ting Anh Christopher D Manning, Prabhakar Raghavan and Hinrich Schỹtze (2009), Introduction to Information Retrieval, Cambridge University Press 2009 Martin Law (2011), A Simple Introduction to Support Vector Machines, Michigan State University, Lecture for CSE 802 T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 Jin Huang, Jingjing Lu, Charles X Ling (2003) Comparing Naive Bayes, Decision Trees, and SVM with AUC and Accuracy The Third IEEE International Conference on Data Mining (ICML2003) Sarini, Sarini, McGree, James, White, Nicole, Mengersen, Kerrie, & Kerr, Graham (2015), Comparison of decision tree, support vector machines, and Bayesian network approaches for classification of falls in Parkinsons disease International Journal of Applied Mathematics and Statistics, 53(6), pp 145-151 A Sopharak, B Uyyanonvara, S Barman, World Academy of Science, Engineering and Technology International Journal of Computer, Electrical, Automation, Control and Information Engineering Vol:8, No:5, 2014 Ranjeeta Rana, Vaishali Kolhe (2015) Analysis of Students Emotion for Twitter Data using Naùve Bayes and Non Linear Support Vector Machine Approachs International Journal on Recent and Innovation Trends in Computing and Communication ISSN: 2321-8169 10 HP Luhn (1958), The Automatic Creation of Literature Abstracts, IBM JOURNAL, pp 159-161 25 26 PH LC CHNG NHN PHT TRIN V TRIN KHAI THC T 26 [...]... toỏn x lý trựng lp, bi toỏn phõn loi tin tc, bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt cho tin tc, trong mi phng phỏp u cú nhn xột hu ớch to tin cho chng tip theo trin khai xut ỏp dng mụ hỡnh thc t x lý gii quyt cỏc bi toỏn 12 13 Chng 3 XUT GII PHP V CI TIN P DNG GII QUYT CC BI TON TRONG THC T 3.1 H thu thp tin tc t ng m rng Da theo c s lý thuyt, nhng ỏnh giỏ trong quỏ trỡnh tỡm hiu ti liu, cng... trc H thng thu thp tin tc m rng vi cỏc mụ un mi c th hin nh hỡnh di õy: Hỡnh 3.1 Mụ hỡnh tng quan h tng hp tin t ng H thu thp tin tc t ng trong khuụn kh ti c xut nh mụ hỡnh 3.1 gm cỏc thnh phn chớnh: - - Crawler phõn tỏn gi nhim v thu thp d liu liờn tc mt cỏch t ng, cp nht liờn tc Cỏc giai on x lý d liu bao gm: o Tin x lý d liu: chun húa phụng ch, chun húa vn bn lc cỏc kớ t phn tha, x lý tỏch t,... theo phng phỏp tip cn c trỡnh by trong chng ny bao gm: Bi toỏn x lý trựng lp tin tc, bi toỏn phõn loi tin tc, bi toỏn xỏc nh t khúa quan trng ca tin tc 2.1 Cỏc phng phỏp tip cn bi toỏn trựng lp tin tc V c bn tin tc sau khi thu thp d liu v tin x lý loi b cỏc phn tha, cng nh chun húa d liu tin u vo thỡ bi toỏn phỏt hin trựng lp tin tc cú th quy v bi toỏn phỏt hin trựng lp ni dung vn bn text Cú rt nhiu... Bayes Naive Bayes (NB) l mt trong nhng thut toỏn c bn trong phõn lp xỏc sut da trờn vic ỏp dng lý thuyt ca Bayes mt cỏch ngõy th bng vic gi nh xỏc sut c lp gia cỏc c trng vi lp cn so sỏnh Thut toỏn Naùve Bayes c nghiờn cu t nhng nm 1950, v c gii thiu trong cụng cng ng truy hi thụng tin vo u nhng nm 1960, hin ti vn l mt trong nhng phng phỏp ph bin trong phõn loi d liu vn bn ng dng trong phõn loi vn bn í... ý ngha quan trng nhm ỏp ng nhu cu phõn danh mc tin tc cho trang tin tng hp t ng 3.3.2 Mụ hỡnh gii phỏp thc t Hỡnh 3.6 Mụ hỡnh trin khai thc t trin khai bi toỏn phõn loi tin tc D liu mu sau khi c tin x lý s c tỏch t khúa v xõy dng c trng, c trng õy õy c th nghim bng TF-IDF trng s t trong ni dung tin v a vo trin khai hun luyn mụ hỡnh vi thut toỏn SVM to ra mụ hỡnh (model) sau hun luyn Mt bn tin mi... liu x lý c, cỏc mụ un phc v ly d liu c vit bi cỏc th tc (Stored Procedure) l mt tp hp cỏc cõu lnh truy vn cú cu trỳc dựng thc thi mt nhim v ly d liu nht nh 3.2 Gii quyt bi toỏn trựng lp tin tc 3.2.1 Yờu cu thc t bi toỏn x lý trựng lp tin tc Trong thc t vic x lý trựng lp c nghiờn cu trong ti nhm ỏp ng ba yờu cu chớnh sau õy: - Crawler ỏnh du tin trựng lp trong kho Biờn tp viờn tham kho bi liờn quan. .. tt cho bi vit Hoc h tr biờn tp viờn, phúng viờn xut cõu dựng lm cõu túm tt mụ t ca bn tin 15 16 3.4.2 Mụ hỡnh gii phỏp thc t Bi toỏn xỏc nh t khúa quan trng Hỡnh 3.9 Mụ hỡnh thc t bi toỏn xỏc nh t khúa quan trng Cỏc úng gúp quan trng trong b xỏc nh t khúa quan trng: - Tham chiu v trớ trong cõu, v trớ trong tiờu , phn mụ t v ni dung, s dng thờm trng s Tf-idf - Tham chiu t b t khúa(Tags) cú sn khi thu. .. t, ni dung, cui on u on c tớnh toỏn hp lý xut ra danh sỏch cõu quan trng trong 16 17 bi tin Vic chn t l cõu xut trờn tng s cõu trong bn tin cng l vn quyt nh n chớnh xỏc ca bn tin Vi h thng hin ti sau cỏc kt qu kim nghim thc t 5 cõu s ly i din mt cõu quan trng phự hp vi d liu tin tc 3.5 Tng kt T nhng kt qu nghiờn cu t chng 2, lun vn ch ra phng phỏp phự hp cho bi toỏn thc t c chn la a vo thc nghim... Mụi trng thc nghim v cỏc cụng c s dng trong thc nghim Cu hỡnh phn cng, phn mm cỏc gúi i kốm thc nghim c s dng trong lun vn c mụ t trong hai bng sau õy: Bng 4.1 Cu hỡnh phn cng thc nghim Stt Thnh phn Ch s 1 CPU Intel Core i5 4460 3.4GHZ 2 RAM 8GB 3 H iu hnh Ubuntu 14.04 4 B nh ngoi 500GB 4.2 Quỏ trỡnh thu thp d liu tin tc v tin x lý 4.2.1 Thu thp d liu tin tc D liu c thu thp vi phn mm mó ngun m Apache... chy phõn tỏn, Nutch c tựy bin thờm 2 plugin k tha vic trớch xut d liu v vic ỏnh ch mc d liu lờn Elasticsearch ( mt dng mỏy tỡm kim linh ng vi mc tựy bin tỡm kim cao ) D liu c thu thp cng c chun húa li font ch, lc cỏc tin ni dung nh, video, m bo d liu text ó c chun húa ( normalizefilter) phc v cho vic x lý d liu 4.2.2 Tin x lý d liu Vi d liu c ly v s c cỏc dch v t ng tin hnh x lý tỏch t, tỏch cõu bng

Ngày đăng: 14/09/2016, 23:11

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan