Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa

208 288 0
Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trờng đại học bách khoa Hồ chí minh Báo cáo tổng kết đề tài cấp nhà nớc Mã số kc 01.21 Nghiên cứu phát triển kỹ thuật Xây dựng khai thác thông tin Web có ngữ nghĩa Chủ nhiệm đề tài: pgS Ts Cao hoàng trụ Cơ quan chủ trì: đại học bách khoa Hồ chí minh 6385 29/5/2007 TP Hồ Chí Minh 12/2006 B KHOA HC V CễNG NGH TRNG I HC BCH KHOA HQG TP.HCM 268 Lý Thng Kit, Q.10, TP.HCM Bỏo cỏo tng kt khoa hc v k thut ca ti: Nghiờn cu phỏt trin cỏc k thut xõy dng v khai thỏc thụng tin Web cú ng ngha Mó s ti: KC.01.21 Ch nhim ti: Cao Hong Tr TP.HCM 12/2006 Túm tt Sau gn hai thp niờn i v phỏt trin t nm 1989, World Wide Web (WWW) ó tr thnh mt mụi trng lu tr v chuyn ti thụng tin khụng th thiu mt thi i m mỏy tớnh l cụng ngh ũn by cho hu ht mi lnh vc ca kinh t, chớnh tr, v xó hi Vi s phỏt trin v bóo v bựng n thụng tin trờn nú, gi cng l lỳc WWW cn chuyn sang mt th h mi cú th c khai thỏc mt cỏch hiu qu phc v cho li ớch ca loi ngi ú l th h Web cú Ng ngha (Semantic Web), c Tim Berners-Lee, cha ca WWW, phỏc tho vo nm 1998 th h hin ti, thụng tin c lu tr cỏc trang Web di dng bn, hỡnh nh, v õm m ch cú ngi mi c, nhỡn, nghe v hiu c Vi lng thụng tin vụ cựng ln trờn WWW nh hin nay, ngi khụng th t mỡnh tỡm kim, x lý, v khai thỏc chỳng, m cn cú s tr giỳp ca mỏy tớnh Mun vy, trc ht mỏy tớnh phi hiu c thụng tin lu tr cỏc trang Web cú th x lý chỳng mt cỏch t ng, tc l cỏc trang Web phi cú ng ngha i vi mỏy tớnh Mc tiờu v vin cnh ny ca Web cú ng ngha ó thu hỳt s quan tõm v u t ca nhiu nh nghiờn cu v cỏc t chc trờn th gii Ngoi nhng v lý thuyt v cụng ngh chung, vic a ng ngha vo cỏc trang Web cũn ph thuc vo ngụn ng t nhiờn v tri thc c th ca tng quc gia ú cng l ý ngha ca ti ny, nhm nghiờn cu phỏt trin cỏc k thut xõy dng v khai thỏc thụng tin Web cú ng ngha ting Vit Nh l bc u, ti trung vo mc ng ngha c bn nht ca mt trang Web l lp ca cỏc thc th cú tờn, nh ngi, t chc, ni chn, xut hin ú Trờn c s ng ngha ny, ti phỏt trin mt ng dng cung cp t ng thụng tin v cỏc thc th cho nhng ngi c tin trờn Web Trc ht, ti xõy dng mt c s tri thc v cỏc thc th ph bin nht Vit Nam v trờn th gii Bc tip theo, ti nghiờn cu v hin thc cỏc k thut x lý ting Vit v rỳt trớch lp thc th trờn cỏc trang Web mt cỏch t ng ng thi, ti nghiờn cu cỏc o v k thut x lý truy ngi s dng cú th truy hi chớnh xỏc hoc gn ỳng thụng tin t c s tri thc ó xõy dng v kho ti liu Web ó c chỳ thớch Trờn cỏc c s ny, ti phỏt trin cỏc phn mm ng dng rỳt trớch v truy hi thụng tin cho ngi s dng u cui, v xõy dng mt h thng mỏy ch ỏp ng nhiu yờu cu ng thi Cỏc kt qu t c to nờn mt nn tng cho Web cú ng ngha ting Vit, hin thc mt s ng dng tiờu biu v cú th phỏt trin tip thnh mt c s h tng hon chnh iii Mc lc Danh mc hỡnh vii Danh mc bng x Chng Gii thiu .1 1.1 Thụng tin túm tt v ti 1.2 ng c thc hin ti .4 1.3 Phm vi v mc tiờu ca ti 1.4 Cu trỳc ca quyn bỏo cỏo .8 Chng Tham kho cỏc nghiờn cu liờn quan v thit k h thng 11 2.1 Web cú ng ngha 11 2.2 Cỏc cụng ngh v ngụn ng h tr 17 2.3 H thng KIM 28 2.4 Kin trỳc ca VN-KIM .32 Chng Xõy dng Ontology v c s tri thc 39 3.1 Ontology v c s tri thc ca KIM 39 3.2 Thit k v xõy dng Ontology 41 3.3 Xõy dng c s tri thc .50 3.4 Vn danh 55 Chng Rỳt trớch v chỳ thớch lp ca cỏc thc th cú tờn .57 4.1 Nhn dng mó ting Vit v bn tin 57 4.2 Gỏn nhón t loi v nhn bit danh t riờng .65 4.3 Nhn bit lp thc th .70 4.4 Vn ng tham chiu v mp m thc th 81 Chng Truy c s tri thc v kho cỏc trang Web cú ng ngha .89 5.1 Truy c s tri thc 89 5.2 tng t v bao ph 93 5.3 Truy gn ỳng 101 5.4 Truy kho cỏc trang Web cú ng ngha .106 v Chng Xõy dng h thng mỏy ch v x lý song song cỏc yờu cu 111 6.1 Thit k v hin thc mụ hỡnh x lý song song 111 6.2 Phỏt trin dch v chỳ thớch ng ngha 115 6.3 Phỏt trin dch v truy hi tri thc v ti liu 118 6.4 Th nghim ti ca cỏc dch v .121 Chng Phỏt trin cỏc phn mm cụng c v ng dng 127 7.1 Phn mm xõy dng v qun tr c s tri thc 127 7.2 Phn mm truy hi thụng tin 132 7.3 Plug-in rỳt trớch v truy hi thụng tin 141 Chng Tng kt 145 8.1 Túm tt cỏc kt qu t c 145 8.2 Hng phỏt trin 152 Li cm n 153 Ti liu tham kho 155 Ph lc: Cỏc bỏo cỏo k thut, hng dn s dng phn mm, bi bỏo khoa hc 171 vi Danh mc hỡnh 2.1.1 Cỏc tng ca Web cú ng ngha 12 2.1.2 Biu din ng ngha bng th khỏi nim 15 2.2.1 Kin trỳc ca Sesame 21 2.2.2 Biu din th ca mt truy SeRQL 23 2.2.3 Mt th khỏi nim vớ d 26 2.2.4 Mt th khỏi nim vi liờn kt ng tham chiu .27 2.2.5 Mt th khỏi nim b ph nh 28 2.2.6 Cỏc th khỏi nim lng 28 2.3.1 Rỳt trớch thụng tin bi KIM 29 2.3.2 Kin trỳc tng quỏt ca KIM .31 2.3.3 Mt mu truy c nh ca KIM .32 2.4.1 Kin trỳc ca VN-KIM 33 2.4.2 Thnh phn rỳt trớch thụng tin ca VN-KIM .35 2.4.3 Truy hi thụng tin VN-KIM .36 3.2.1 S phõn cp lp thc th v t chc .43 3.2.2 S phõn cp lp thc th v t chc nh nc 44 3.2.3 S phõn cp lp thc th v t chc giỏo dc v o to .44 3.2.4 S phõn cp lp thc th v t chc thng mi 45 3.2.5 S phõn cp qun lý ca cỏc n v hnh chớnh Vit Nam 46 3.2.6 S phõn cp lp thc th v n v hnh chớnh 46 3.2.7 S phõn cp lp thc th v im c bit 48 4.1.1 Mt trang Web vi cỏc bn tin tc 60 4.1.2 V trớ cỏc bn tin tc tin HTML .60 4.1.3 Hai trang Web cú cựng khung mu 62 4.2.1 Phõn on t VN-KIM .66 4.2.2 Vớ d v mt th trng thỏi phõn on t .67 4.2.3 Vớ d v cỏc lut nhn din ngy thỏng .68 4.2.4 Mụ hỡnh kt hp lut v xỏc sut gỏn nhón t loi 70 4.3.1 S cỏc bc chỳ thớch ng ngha VN-KIM 72 4.3.2 Cỏc bc x lý chi tit ca so trựng mu VN-KIM IE .75 vii 4.3.3 Mt lut loi b chỳ thớch sai cho chui cú vit hoa ch u 75 4.3.4 Hai lut nhn din cỏc tờn thc th ph lp .76 4.3.5 Mt lut nhn din thc th da trờn ng liu .77 4.3.6 Mt lut nhn din thc th da trờn ng cnh 77 4.3.7 Mt lut gii quyt cỏc chỳ thớch gõy mõu thun .78 4.3.8 Mt lut sinh chỳ thớch cui cựng 78 4.4.1 Kt hp phõn gii ng tham chiu v mp m VN-KIM IE 81 4.4.2 Hm kim tra s ng tham chiu VN-KIM IE 84 4.4.3 Gii thut loi b nhp nhng da vo mi quan h gia cỏc thc th 86 4.4.4 Cỏc bc loi b mp m da trờn s ng tham chiu 87 5.1.1 Mt th khỏi nim truy 90 5.1.2 Gii thut dch th khỏi nim truy sang SeRQL .91 5.1.3 Son tho mt th khỏi nim truy .92 5.1.4 Cỏc phỏt biu SeRQL tng ng v kt qu tr v 93 5.2.1 bao ph so vi tng t .98 5.3.1 Mt th khỏi nim truy v s tng quỏt hoỏ ca nú 102 5.3.2 Gii thut tng quỏt hoỏ v dch th khỏi nim truy sang SeRQL 103 5.3.3 Mt th tr li gn ỳng .104 5.3.4 Mt vớ d khỏc v th truy v tr li .104 5.3.5 th khỏi nim truy v tỡm kim gn ỳng .105 5.3.6 th khỏi nim truy v tỡm kim chớnh xỏc 105 5.4.1 Kin trỳc ca HTTPLuceneServer .106 5.4.2 Cu trỳc XML ca kt qu tr v .108 6.1.1 Kin trỳc ca h thng mỏy ch x lý song song SWG cho VN-KIM 112 6.1.2 on mó bng Java khai bỏo mt lp VOIService 114 6.1.3 Mụ hỡnh hot ng ca cỏc dch v v nhúm mỏy ch ca VN-KIM 115 6.2.1 Quỏ trỡnh tip nhn v x lý yờu cu chỳ thớch 116 6.2.2 Cỏc bc ca dch v chỳ thớch ng ngha 117 6.2.3 iu khin cỏc module thc hin quỏ trỡnh chỳ thớch 118 6.3.1 Quỏ trỡnh tip nhn v x lý yờu cu truy hi tri thc .120 6.3.2 Gii thut phõn ti truy c s tri thc 120 6.3.3 Quỏ trỡnh tip nhn v x lý yờu cu truy hi ti liu 121 viii 6.4.1 ỏp ng thi gian ca Server chỳ thớch .122 6.4.2 ỏp ng thi gian ca Sesame Server 124 6.4.3 ỏp ng thi gian ca Lucene Server 125 7.1.1 Giao din son tho lp ca VN-KIM Ontology Builder 129 7.1.2 Giao din son tho thuc tớnh ca VN-KIM Ontology Builder .129 7.1.3 Giao din chớnh ca VN-KIM KB Access 130 7.1.4 Giao din chớnh ca VN-KIM KB Project 131 7.1.5 Giao din to Project mi ca VN-KIM KB Project 132 7.2.1 Son tho cỏc nỳt khỏi nim VN-KIM QER 133 7.2.2 Rng buc cỏc thuc tớnh thc th VN-KIM QER 134 7.2.3 Son tho cỏc nỳt quan h VN-KIM QER 135 7.2.4 Hon tt mt th truy vi VN-KIM QER .135 7.2.5 Tỡm kim chớnh xỏc VN-KIM QER 136 7.2.6 Tỡm kim gn ỳng VN-KIM QER 137 7.2.7 Truy bng SeRQL VN-KIM QER .138 7.2.8 Truy bng mu c nh VN-KIM QER .139 7.2.9 Tỡm kim ti liu VN-KIM QER 140 7.2.10 Chn cỏc thc th tỡm ti liu 140 7.2.11 Cỏc ti liu tr v t VN-KIM QER 141 7.3.1 VN-KIM Plug-in v mt trang Web sau c chỳ gii .142 7.3.2 Duyt cỏc thc th ó c nhn din vi VN-KIM Plug-in 142 7.3.3 Tỡm kim thc th v ti liu vi VN-KIM Plug-in 143 ix Danh mc bng 1.1.1 Thụng tin túm tt v ti .1 1.1.2 Danh sỏch cỏc thnh viờn chớnh ca ti .2 1.1.3 Danh sỏch cỏc thnh viờn tham gia thc hin ti 1.3.1 Danh mc cỏc sn phm khoa hc cụng ngh ca ti .7 3.3.1 Ngun ti liu tham kho cho tng thc th c s tri thc 51 3.3.2 Thng kờ s lng cỏc thc th thuc ba lp cp trờn 54 3.3.3 Thng kờ s lng ng liu tng ng vi ba lp cp trờn 54 3.3.4 Thng kờ s lng thc th thuc cỏc lp chớnh 54 4.1.1 Tc thc thi ca module chuyn mó ting Vit 59 4.1.2 Kt qu th nghim gii thut nhn dng bn tin tc 64 4.2.1 Kt qu ca phng phỏp xỏc sut v phng phỏp kt hp .70 4.3.1 S liu th nghim trờn ba lp c s 80 4.3.2 S liu th nghim trờn mi lp chi tit 80 4.3.3 S liu th nghim cụng ty VYC v bỏo Ngi lao ng 80 5.4.1 Cỏc URL kt ni n HTTPLuceneServer 108 6.4.1 gim thi gian hon thnh chỳ thớch 123 6.4.2 gim thi gian hon thnh truy hi thc th .124 6.4.3 gim thi gian hon thnh truy hi ti liu 125 8.1.1 Cỏc phn mm ch yu ca ti 146 8.1.2 Cỏc bi bỏo khoa hc liờn quan n ti 149 8.1.3 Cỏc sinh viờn v lun ỏn tt nghip liờn quan n ti 150 x Chng Gii thiu 1.1 Thụng tin túm tt v ti Bng 1.1.1 túm lc cỏc thụng tin c bn v ti Bng 1.1.2 l danh sỏch cỏc thnh viờn chớnh ca ti v nhúm cụng vic m trỏch Bng 1.1.3 l danh sỏch cỏc thnh viờn cũn li ó tham gia quỏ trỡnh thc hin ti Bng 1.1.1 Cỏc thụng tin c bn v ti Tờn ti NGHIấN CU PHT TRIN CC K THUT XY DNG V KHAI THC THễNG TIN WEB Cể NG NGHA (SEMANTIC WEB) Mó s Thi gian thc hin T thỏng 01/2004 n thỏng 04/2006 Cp qun lý Nh nc B C s Tnh KC.01.21 Kinh phớ 2.044 triu ng Trong ú, t Ngõn sỏch SNKH: 1.600 triu ng (Thuờ khoỏn: 745tr., nguyờn vt liu: 81tr., thit b: 1.054tr., chi khỏc: 164tr.) 2.3 Rỳt trớch lp ca cỏc thc th cú tờn Nhn dng mó ting Vit v bn tin Hin nay, cỏc trang web Vit Nam dựng rt nhiu bng mó khỏc Do ú, trc cú th rỳt trớch thụng tin mt bn cn phi nhn bng mó c th ang c dựng cho bn ú Chỳng tụi ó phỏt trin mt module chuyn mó ting Vit nhn dng v chuyn mó ca mt trang Web bt k v dng Unicode chun, kt hp phng phỏp da trờn th META v so trựng mó ký t Hin ti module ny c tớch hp VN-KIM IE vi cỏc tớnh nng sau: H tr ba bng mó ting Vit thụng dng nht Vit Nam hin l VNI, TCVN3, v TCVN6909 Cú kh nng nhn bit thụng minh trang Web cha nhiu mó ting Vit khỏc nhau, v chuyn mó xuụi v ngc Chuyn mó nhanh cỏc bng mó c tớch hp vo b nh v x lý theo c ch phõn lung Mt khỏc, mt trang Web cha v hin th cỏc thụng tin khỏc nh cỏc hỡnh qung cỏo, thc n, liờn kt, v c bit l cỏc bn tin tc Con ngi cú th nhn bit d dng cỏc thụng tin ny, nhng mỏy tớnh thỡ khụng Trong rỳt trớch thụng tin cỏc trang Web m ti gii quyt, thụng tin quan tõm ch yu l cỏc bn mang tin tc thi s Vỡ vy, chỳng tụi nghiờn cu v phỏt trin mt module phỏt hin t ng v chuyn v trớ cỏc bn tin tc ny cho cỏc module theo sau tham kho v x lý quỏ trỡnh rỳt trớch thụng tin Vic kho sỏt cỏc cụng trỡnh liờn quan trờn cho thy cha cú mt phng phỏp no hon ton t ng rỳt trớch tc thi cỏc bn tin tc ang c Vỡ vy, chỳng tụi xut mt phng phỏp hon ton t ng thc hin vic ny cho mt trang Web A qua ba bc sau: T ng tỡm kim mt nhúm cỏc trang Web B cú cựng khung mu vi A Chuyn tt c cỏc trang Web sang cu trỳc cõy Ln lt so trựng cõy ca A vi cõy ca mi trang nhúm trang Web B Nu cú mt cp cú cu trỳc tng t nhau, thỡ suy din khung mu chung ca chỳng 13 Gỏn nhón t loi v nhn bit danh t riờng Thnh phn nhn din thc th cú tờn ca VN-KIM cn thụng tin v t loi (Parts-Of-Speech POS) ca cỏc t xut hin bn cn rỳt trớch so trựng mu c bit ú l cỏc danh t riờng (Proper Noun) vỡ chỳng to nờn cỏc tờn thc th Trong ti ny, chỳng tụi s dng kin trỳc v mụi trng ca GATE phõn on t ting Vit theo lut Tp hp 48 t loi ting Vit ca U ban Khoa hc Xó hi Vit Nam ([12]) c s dng cho vic gỏn nhón t loi V hng tip cn, chỳng tụi kt hp phng phỏp xỏc sut vi phng phỏp da trờn lut Cỏc lut c xõy dng theo phong, tc cỏch vit ca mi ngi, mi th loi bn, cn c vo cỏch th hin ca bn mt ng cnh c th xỏc nh t loi cho cỏc t Vic dựng lut thng gp trng hp mp m vỡ mt t loi cú th i cnh cỏc t loi khỏc Vỡ vy, phng phỏp xỏc sut s giỳp phõn gii v chn la t hp t loi tri nht theo kt qu ó thng kờ C th, VN-KIM kt hp v s dng mt b gỏn nhón da trờn lut v mt b gỏn nhón Trigram Trong ú b gỏn nhón Trigram s dng kt hp hai ngun thụng tin l: (1) mt t in ting Vit khong 80.000 t, ú mi t cú kốm theo danh sỏch cỏc nhón v tn sut xut hin tng ng ca chỳng; v (2) mt ma trn gm cỏc b ba nhón t loi cú th xut hin lin bn vi cỏc tn s xut hin ca chỳng Ngun thụng tin th hai ny thu c da vo kho ng liu mu vi khong 79.000 t ó gỏn nhón Cỏc loi du cõu v cỏc ký hiu khỏc bn c x lý nh cỏc n v t vng, vi nhón chớnh l du cõu tng ng Cũn b gỏn nhón da trờn lut, chỳng tụi ó xõy dng c trờn 270 lut nhn din 48 t loi v cỏc kiu ngy thỏng nm Kt qu th nghim tt nht vi cỏc mu ó xõy dng t ti chớnh xỏc khong 80% nu ch dựng phng phỏp xỏc sut v t khong 90% nu dựng phng phỏp kt hp Nhn bit lp thc th im phõn bit VN-KIM IE vi cỏc h thng khỏc l h thng ny rỳt trớch thụng tin vit bng ting Vit, vi nhng c thự v ngụn ng Da trờn kin trỳc GATE, VN-KIM IE nhn lp ca cỏc thc th cú tờn v tham chiu n thc th tng ng c s tri thc, nu cú Theo hng tip cn ny, mó ngun m GATE c bin i cú th s dng c cỏc thụng tin lu tr Ontology v c s tri thc c th m ti xõy dng 14 Vic lm ny, theo kinh nghim ca d ỏn KIM, l khụng n gin vỡ tt c cỏc lp x lý ca h thng u phi c lp trỡnh li, nhiờn ớt tn kộm hn nu phi phỏt trin t u tt c cỏc cụng c x lý ngụn ng t nhiờn m GATE ó cú Hỡnh 2.2 minh cỏc thnh phn x lý tun t ti liu ca VN-KIM, cho n cỏc chỳ thớch ng ngha ca thc th cú tờn m ti liu cp n c sinh Cỏc bc tin x lý ngụn ng t nhiờn ó c trỡnh by trờn Hai bc chớnh cũn li l so trựng cm t v so trựng mu Ni dung Ni dung ti liuti liu Chỳ thớch ng ngha Phõn on t Ontology C s tri thc v Ng liu So trựng mu Tỏch cõu Gỏn nhón t loi So trựng cm t Hỡnh 2.2 S cỏc bc chỳ thớch ng ngha VN-KIM bc so trựng cm t, cỏc chui Token c gỏn nhón l tờn riờng sau bc gỏn nhón t loi c so trựng vi cỏc tờn khỏc ca cỏc thc th c s tri thc, t ú sinh cỏc chỳ thớch tm thi cho cỏc thc th c s tri thc xut hin ti liu Vớ d, ti liu u vo cú chui H Ni v c s tri thc thỡ chui ny cú th l danh ca ba thc th khỏc (th ụ H Ni, di tớch thnh c H Ni, a im du lch H Ni) Nh vy cú ba chỳ thớch c sinh ng vi chui ny Mi chỳ thớch bao gm lp thc th v a ch liờn kt vi thc th tng ng c s tri thc Quỏ trỡnh ny s m bo cho h thng nhn din c cỏc thc th c s tri thc xut hin ti liu Trong GATE, thnh phn Gazetteer thc hin vic so trựng chớnh xỏc mt cm t vi c s tri thc cú sn Tuy nhiờn, Gazetteer ca GATE dựng cho ting Anh nờn cha h tr Ontology v thụng tin lu tr c s tri thc ca VN-KIM Ngoi ra, Gazetteer ca GATE cũn mt s nhc im nh phõn bit ch hoa v ch thng, cũn hn ch v 15 kớch thc t in, v c ch so trựng cha nhanh Do ú, thnh phn ny c xõy dng li VN-KIM IE, c gi l VN Hash Gazetteer trỏnh s phõn bit ch hoa v thng nh GATE, v s khụng nht quỏn cỏch vit tt cỏc danh t riờng v b du ting Vit, chỳng tụi chun húa cm t trc em so trựng Trong bc chun húa ny, tt c cỏc cỏch vit tờn riờng d liu u vo s c a v mt dng chun qui c nht, nh ó thc hin xõy dng c s tri thc ca VN-KIM Thờm vo ú, chỳng tụi s dng k thut bm cỏc tờn thc th tng tc so trựng, vỡ s lng cỏc thc th cú c s tri thc rt ln Tip theo, bc so trựng mu, lut vit da trờn phm JAPE ca GATE c s dng hiu chnh li cỏc thụng tin nhn dng bi thnh phn so trựng cm t v nhn dng thờm cỏc thc th cú tờn khụng cú c s tri thc Vic nhn dng thờm ny c thc hin trờn c s cỏc cỏch vit tờn thc th ting Vit Vớ d nh chui bt u bng mt tin t cụng ty (nh cụng ty, xớ nghip, hóng), theo sau l mt cm t ch loi hỡnh cụng ty (nh liờn doanh, TNHH), cui cựng l mt chui cỏc t vit hoa ch cỏi u, thỡ chui ú cú th l danh ca mt thc th thuc v lp cụng ty Mt vớ d cho trng hp ny l chui Cụng ty TNHH Hũa Bỡnh Vn phm so trựng mu ó chng t s tng thớch vi x lý ngụn ng t nhiờn v rỳt trớch thụng tin B x lý phm JAPE l mt phn ca kin trỳc GATE, cho phộp c t cỏc lut so trựng trờn nhng mu chỳ thớch Vỡ th chỳng ta cú th nh cỏc hnh ng v cỏc chuyn i s xy nu mt lut so trựng vi mt cm t bn Chỳng tụi ó iu chnh b x lý JAPE nhm iu khin cỏc thụng tin liờn quan n Ontology v so trựng cỏc mu chỳ thớch GATE cung cp mt s lut phm JAPE cú sn thnh phn cú tờn gi ANNIE, giỳp nhn v so trựng mt s lp c bn nh ngi, ni chn, t chc, Tuy nhiờn, lut ny ỏp dng cho cỏc thc th cú tờn ting Anh v da trờn thnh phn gỏn nhón t loi ting Anh sn cú ca GATE Vỡ th, chỳng tụi ó c t mt lut mi hon ton so vi ANNIE ỏp dng cho cỏc thc th cú tờn ting Vit Trong lut ny, mi lut c mụ t thụng qua c t lp ca cỏc thc th mu Quỏ trỡnh so trựng dựng nguyờn tc vit tờn thc th chớnh quy v khụng chớnh quy xỏc nh chỳ thớch phự hp cú cựng lp (hay thuc lp con) vi lp mu phm Nh vy chỳng ta cú th xỏc nh mt mu tham chiu n mt lp cha bờn trờn (vớ 16 d lp t chc) cho phộp tt c cỏc lp bờn di (t chc thng mi, t chc giỏo dc o to, t chc nh nc v cỏc lp t chc khỏc) cng so trựng c vi lut phm trờn Tuy nhiờn, vic xõy dng lut ny cho ting Vit l khụng n gin vỡ cha tn ti mt chun vic vit cỏc danh t riờng ting Vit trờn bỏo hin Bờn cnh ú, vic xỏc nh lp cho cỏc thc th cú tờn khụng ch n thun da vo t in, vỡ cú nhiu thc th khỏc cú cựng tờn Vớ d xỏc nh xem thc th Si Gũn m ti liu cp n l mt thnh ph, mt sụng hay mt nh mỏy bia, khụng ch cn phi xột ng cnh ni t ú xut hin m cũn phi xột n cỏc nguyờn tc khụng chớnh quy vic vit tờn riờng ting Vit Chng hn nh i vi cõu Tụi lm vic Si Gũn thỡ theo ý ngha chớnh quy ca cõu khụng nht thit thc th Si Gũn phi l thnh ph m cng cú th l nh mỏy bia Hin ti, VN-KIM IE cú gn 300 lut so trựng mu vit bng phm JAPE Cỏc lut ny c phõn thnh tng nhúm chy tun t, thc hin cỏc bc x lý khỏc nhau, cho n xỏc nh c lp ca mt thc th v liờn h nú vi thụng tin mụ t c s tri thc nu cú Hiu qu ca VN-KIM ó c ỏnh giỏ bi Corpus Benchmark Tool ca GATE v ngi s dng cụng ty du lch VYC v bỏo Ngi lao ng, cho thy chớnh xỏc (Precision) v y (Recall) vo khong 80% 2.4 Truy hi tri thc v thụng tin Truy bng th khỏi nim SeRQL l mt ngụn ng truy mnh cho th RDF, nhng nú khụng thớch hp cho ngi s dng u cui vi cỳ phỏp phc ca ngụn ng v cu trỳc RDF Cỏc mu truy c nh thỡ n gin nhng khụng cho phộp linh hot thay i ti ch cỏc mu truy Vi s biu din bng th, th khỏi nim d c hn SeRQL v linh hot hn cỏc mu truy c nh tn dng c s h tng ca Sesame, chỳng tụi s dng th khỏi nim n gin m rng vi tham chiu truy (Queried Referent) mc giao din, v ỏnh x chỳng sang SeRQL truy hi tri thc Chỳng tụi ó phỏt trin mt phn mm son tho truy cho VN-KIM, cho phộp truy tri thc v ti liu ó chỳ thớch bng cỏc mu c nh, th khỏi nim, v phỏt biu SeRQL Nú cung cp cỏc cụng c v son tho cỏc th khỏi nim truy i 17 vi Ontology v c s tri thc ca VN-KIM Vic son tho khỏi nim c h tr bi mt cụng c duyt cõy phõn cp cỏc kiu khỏi nim v cỏc thc th hin cú thuc mt kiu khỏi nim c th Cõy phõn cp cỏc kiu quan h cng cú th c duyt son tho cỏc quan h, v s phự hp gia mt quan h vi cỏc khỏi nim liờn kt s c kim tra v th khỏi nim Cỏc iu kin v cỏc giỏ tr thuc tớnh ca mt thc th cú th c c t bng cỏc quan h rng buc trờn cỏc giỏ tr tng ng nh nh ngha Ontology Sau ú, cỏc th khỏi nim truy s c ỏnh x sang cỏc phỏt biu SeRQL nh trỡnh by trờn Truy gn ỳng Vi s bựng n thụng tin trờn Web ngy nay, vic ũi hi luụn cú cõu tr li chớnh xỏc tỡm kim thụng tin trờn ú l khụng thc t Vn ny liờn quan n khong cỏch ng ngha gia cỏc khỏi nim, quan h, v thuc tớnh, v iu ny ó thu hỳt nhiu n lc nghiờn cu V khong cỏch ng ngha gia cỏc kiu khỏi nim v quan h, cỏc phng phỏp trc õy cú th c phõn loi theo hai hng tip cn chớnh l da trờn kho ng liu hoc da trờn Ontology Trong cỏch tip cn th nht, khong cỏch ng ngha gia cỏc t biu din cỏc khỏi nim v quan h c xỏc nh theo ng cnh xut hin ca chỳng mt kho ng liu Trong cỏch tip cn th hai, nú c xỏc nh da trờn mt mng ng ngha ca cỏc t Tuy nhiờn, vỡ cỏc phng phỏp ny ph thuc vo s xut hin v ngha thc s ca cỏc t, nờn chỳng khụng ỏp dng c cho cỏc nhón kiu ch mang tớnh nh danh Trong ti ny, vỡ c s tri thc ca VN-KIM c xõy dng trờn mt Ontology, chỳng tụi bin i cụng thc tớnh khong cỏch ng ngha da trờn Ontology gia cỏc t ([5]) cho cỏc nhón kiu khỏi nim v quan h Thay vỡ tớnh cỏc xỏc sut xut hin ca cỏc t mt kho ng liu theo phng phỏp ú, chỳng tụi rỳt cỏc xỏc sut xut hin ca cỏc kiu khỏi nim v quan h t s lng cỏc thc th thuc cỏc kiu ny c s tri thc ca VN-KIM Chỳng tụi gi phng phỏp xut ny l da trờn dõn s (Population-Based) i vi cỏc giỏ tr thuc tớnh, ti ny chỳng tụi quan tõm n cỏc tờn thc th biu din bng cỏc chui kớ t Trong thc t, truy vn, ngi s dng thng khụng nh chớnh xỏc hoc nhp vo chớnh xỏc tờn ca thc th cn tỡm, gõy nờn s sai lch gia cõu truy v cõu tr li Trong [2], cỏc tỏc gi ó m rng phng phỏp 18 TF-IDF vi so trựng m gia cỏc t khoỏ, gi l Soft TF-IDF, nh ngha khong cỏch ng ngha gia tờn thc th Tuy nhiờn, ỏnh giỏ IDF, ý ngha ca mt t khoỏ i vi cỏc tờn thc th thuc mt lp c th cha c xột n Vỡ vy, chỳng tụi xut phng phỏp ci tin l Soft TF-IDF nhy cm vi lp (Class-Sensitive) Ngoi ra, chỳng tụi cng lu ý l, cỏc o i xng nh tng t ó c bn bc nhiu, cỏc nghiờn cu v o bt i xng cú v cũn ớt Núi riờng, ngi ta cú th mun o mc mt th truy bao ph mt th tr li Trong ti ny, c hai so trựng m chỳng tụi nh ngha cho kiu v tờn thc th u bt i xng V mt hin thc, vic xõy dng mt h thng truy hi gn ỳng cỏc th tri thc t u l mt k cụng Do ú, chỳng tụi chn cỏch tip cn bin i truy C th l chỳng tụi tn dng c s h tng ca Sesame v SeRQL qun tr v so trựng chớnh xỏc cỏc th tri thc Tc l, tri thc c lu tr nh cỏc th RDF Sesame Mt th truy trc ht s c tng quỏt hoỏ lờn mt mc truy hi cỏc th RDF thụng qua SeRQL Sau ú, cỏc th tr li chớnh xỏc i vi truy bin i ú mi c so trựng vi truy gc tr v tng t hoc bao ph gia chỳng V kho cỏc trang Web ó c VN-KIM IE chỳ thớch ng ngha, da trờn th vin ca Lucene chỳng tụi ó xõy dng RMILuceneServer phc v vic b sung v khai thỏc kho trang Web ó chỳ thớch thụng qua giao thc RMI Bờn cnh ú, RMI thng b chn bi cỏc tng la, chỳng tụi xõy dng thờm HTTPLuceneServer cỏc chng trỡnh ng dng khai thỏc thụng qua giao thc HTTP 2.5 X lý song song cỏc yờu cu Vi cỏc chc nng ó trỡnh by ca VN-KIM, mc tiờu thit k h thng mỏy ch cho nú l nhm: m bo cỏc ng dng Web cú ng ngha phc v nhiu ngi dựng ng thi To kt qu thi gian trung bỡnh thp Tớnh sn sng cao Chỳng tụi t tờn cho module x lý song song VN-KIM l SWG, vi cỏc nỳt tớnh toỏn l cỏc mỏy ch mnh, phõn lm nhiu nhúm (Cluster), mi nhúm s thc thi mt loi quỏ trỡnh chuyờn bit nh l quỏ trỡnh x lý truy c s tri thc, quỏ trỡnh chỳ thớch cỏc trang Web ting Vit, hoc quỏ trỡnh x lý truy hi ti liu ó c chỳ thớch, 19 Cỏc h thng nhúm Unix/Linux l s ghộp ni ca nhiu mỏy tớnh trm v mỏy ch li vi thụng qua mng truyn tc cao c Gbits/sec ([7]) Trong ú mi nỳt (mỏy tớnh trm hoc mỏy ch) chy h iu hnh Unix/Linux v cỏc dch v cn thit khỏc nh Network File System, Hin nay, cỏc h thng nhúm dựng Unix/Linux ny mang li hiu qu u t cao hn so vi cỏc mỏy tớnh c ln (Mainframe) Hỡnh 2.3 mụ t tng quan kin trỳc ca h thng SWG Kin trỳc phn mm ca SWG c thit k theo mụ hỡnh hng dch v (Service-Oriented Architecture SOA) Lý chn kin trỳc phn mm hng dch v l vỡ nú tit kim c thi gian tớch hp v phỏt trin cỏc module c lp ng thi Hn na cụng nghip, kin trỳc hng dch v c s dng rng rói trờn cỏc ng dng phõn b, nh IBM Service-Oriented Architecture Chỳng tụi ó th nghim thnh cụng mụ hỡnh hng dch v ny cho tớnh toỏn li (Grid Computing), bng vic xõy dng cỏc dch v li (Grid Service) chy trờn mụi trng Globus Toolkit phiờn bn 3.2 gii bi toỏn tỡm kim tri thc theo ng ngha VOAService AS Client VOLService VOKBService VOIService Lucence IS Sesame IS Annotation IS AS Client Client Client SS SS SS LS LS Hỡnh 2.3 Kin trỳc ca h thng mỏy ch x lý song song SWG cho VN-KIM V mt phn mm, SWG cú bn loi dch v ci t mỏy ch tin trm (Front-End) l: 20 Dch v VOIService: Cung cp thụng tin v cỏc chng trỡnh ang hot ng trờn cỏc nhúm mỏy ch x lý yờu cu ca SWG cho cỏc gii thut cõn bng ti tng tớnh tỏi s dng, dch v ny cú th trin khai ti cỏc mỏy tớnh toỏn nhúm ly cỏc thụng tin h thng nh ti rnh ca CPU, s Mbyte trng trờn b nh RAM, Dch v VOAService: Chu trỏch nhim nhn yờu cu chỳ thớch ng ngha cho cỏc trang web ting Vit, ri tỡm mt chng trỡnh chỳ thớch ang hot ng trờn nhúm mỏy ch chỳ thớch h thng SWG Sau ú chuyn yờu cu chỳ thớch ny n chng trỡnh ú, ri ch nhn kt qu chuyn tip v phớa khỏch hng (Client) ó yờu cu chỳ gii Dch v VOKBService: Chu trỏch nhim nhn yờu cu truy c s tri thc t phớa khỏch hng, ri tỡm kim mt h qun tr c s tri thc nh Sesame ang hot ng trờn nhúm mỏy ch qun tr c s tri thc h thng SWG Sau ú chuyn yờu cu truy ny n h qun tr c s tri thc ú, ri ch nhn kt qu chuyn tip v phớa khỏch hng ó yờu cu truy xut c s tri thc Dch v VOLService: Chu trỏch nhim nhn v tr li yờu cu truy xut cỏc ti liu c lu tr mt h qun tr ti liu ó c chỳ thớch ng ngha nh Lucene t phớa khỏch hng Chc nng v cỏch hin thc dch v ny tng t nh ca dch v VOKBService 21 Tng kt Nh mc tiờu chớnh t ban u, ti ó xõy dng c mt nn tng cho Web cú ng ngha ting Vit, hin thc mt s ng dng tiờu biu v cú th phỏt trin tip thnh mt c s h tng hon chnh Kt qu bao gm mt c s tri thc v cỏc thc th cú tờn ph bin Vit Nam v trờn th gii, cỏc phng phỏp v phn mm cụng c thu thp, rỳt trớch v truy hi thụng tin, v mt mụ hỡnh x lý song song cú th ỏp dng cho mt h thng vi s mỏy ch ln Mt phn kt qu khoa hc ca ti ó c cụng b cỏc k yu hi ngh, v sỏch xut bn nc ngoi H thng VN-KIM ca ti ó c trin khai v th nghim cụng ty du lch VYC v bỏo Ngi lao ng, t c cỏc ch tiờu v k thut v chc nng V hiu qu kinh t xó hi, cỏc trang Web thụng tin v qung cỏo ca cỏc bỏo in t, cụng ty du lch, doanh nghip, hay t chc chớnh ph cú rt nhiu cỏc tờn riờng v nhõn vt, t chc, ni chn, m ngi c mun bit hoc tỡm hiu thờm VN-KIM t ng cung cp thụng tin v cỏc i tng xut hin cỏc trang Web ting Vit cho ngi c, m khụng ũi hi vic son tho trc cỏc siờu liờn kt t chỳng n cỏc ngun tin iu ny cng cú ý ngha i vi hng triu trang Web ting Vit ang cú sn, m vic chỳ thớch ng ngha bng tay cho chỳng cú th xem nh l khụng kh thi vỡ s mt rt nhiu thi gian, cụng sc, v chi phớ Cỏc dch v ca VN-KIM c cung cp mt cỏch gn nh thụng qua mt Plug-in, v cỏc cỏ nhõn hoc n v cú nhu cu cú th s dng chỳng di s iu khin quyn truy cp ca h thng 3.1 Sn phm phn mm Bng 3.1 mụ t túm tt cỏc phn mm ch yu ca ti Nh vy, s lng cỏc thc th c s tri thc ó vt gp ụi so vi ch tiờu ban u t l 60.000 thc th ỳng v y ca vic rỳt trớch thụng tin t c ch tiờu ban u t l khong 80% Tc chỳ gii mt tin trung bỡnh vo khong 15 giõy, tha yờu cu ca ngi s dng nhng ni ó th nghim thc t 22 Bng 3.1 Cỏc phn mm ch yu ca ti TT Tờn phn mm VN-KIM KB Mụ t Cht lng Ontology v c s tri thc ca h thng VN-KIM ca ti v cỏc thc th cú tờn ph bin Vit Nam v trờn th gii - Ontology cú 370 lp v 115 tớnh cht, bao quỏt c cỏc lp thc th chung Vit Nam v trờn th gii - C s tri thc gm trờn 120.000 thc th cú tờn ph bin Vit Nam v trờn th gii VN-KIM KBM Phn mm xõy dng Ontology v c s tri thc Chy trờn Microsoft Windows, cho phộp: - Xõy dng Ontology t u - Khi to v cp nht trc tip c s tri thc t xa - Phõn nh v xõy dng tng phn c s tri thc VN-KIM QER Phn mm truy c s tri thc v kho ti liu Web cú ng ngha Chy trờn Microsoft Windows, cho phộp: - Son tho v thc thi truy bng th khỏi nim mt cỏch chớnh xỏc hoc gn ỳng - Son tho v thc thi truy bng SeRQL - Son tho v thc thi truy bng cỏc mu c nh VN-KIM Plugin Phn mm gn vo trỡnh duyt Web rỳt trớch v truy hi thụng tin Gn vo Internet Explorer, cho phộp: - Nhn din thc th cú tờn cỏc trang Web ting Vit, vi chớnh xỏc v y ~80% - Duyt xem thụng tin v cỏc thc th c nhn din - Truy c s tri thc v kho ti liu Web cú ng ngha bng cỏc mu c nh VN-KIM Server Phn mm trờn h thng mỏy ch ì ~5,6GHz phõn ti v ỏp ng cỏc yờu cu rỳt trớch v truy hi thụng tin Gm module chớnh sau: - F-Server: ún nhn v phõn ti cỏc yờu cu, v tr v kt qu - A-Server: nhn din v chỳ thớch lp cho cỏc thc th cú tờn trang Web c yờu cu - S-Server: x lý cỏc yờu cu truy cp n c s tri thc Sesame qun lý - L-Server: x lý cỏc yờu cu truy cp n kho trang Web cú ng ngha Lucence qun lý 23 3.2 Kt qu nghiờn cu khoa hc Cỏc kt qu nghiờn cu chớnh ó c ỏp dng trc tip cho vic xõy dng v phỏt trin VN-KIM l: Phng phỏp v gii thut xõy dng mt c s tri thc ln theo cỏch phõn mnh, nhp d liu giỏn tip, v ti lờn c s tri thc theo cỏc lnh ó c lu vt quỏ trỡnh nhp d liu: cỏch ny cho phộp phõn nh ni dung ca c s tri thc cho nhiu ngi cựng nhp d liu, v khc phc c hn ch ca cỏc phn mm nh Protộgộ khụng qun lý ni ton b mt c s tri thc quỏ ln son tho Gii thut ỏnh x cỏc th khỏi nim truy sang cỏc cõu ca ngụn ng truy SeRQL: kt qu ny cho phộp truy c s tri thc v kho trang Web cú ng ngha ca ti bng th khỏi nim, d s dng hn SeRQL vi cỳ phỏp phc tp, v tn dng c Sesame lm nn phớa di lu tr v truy hi tri thc o tng t v bao ph gia cỏc th tri thc v phng phỏp bin i truy truy hi gn ỳng tri thc: bao ph, khỏc vi tng t, l mt o bt i xng, nờn nú phõn bit c vai trũ khỏc ca cõu truy v cõu tr li; phng phỏp bin i truy giỳp tn dng c ng c tỡm kim chớnh xỏc ó cú ca Sesame Mụ hỡnh v gii thut gỏn nhón t loi ting Vit, c bit cho danh t riờng, kt hp c hai cỏch tip cn l da trờn lut v da trờn xỏc sut thng kờ: mụ hỡnh kt hp ny giỳp lm tng chớnh xỏc ca kt qu gỏn nhón, so vi mụ hỡnh ch dựng cỏc lut hoc s liu thng kờ t cỏc kho ng liu Tp lut v gii thut xỏc nh t ng lp ca cỏc thc th cú tờn ting Vit theo ng cnh ni cỏc thc th xut hin: cỏc lut ó xõy dng l c thự cho ng liu, cỏch vit tờn riờng, v cu trỳc cỏc cm danh t ting Vit, cng nh cho Ontology v c s tri thc ó c thit k v xõy dng v cỏc thc th cú tờn Vit Nam Gii thut rỳt trớch t ng cỏc bn tin tc trờn cỏc trang Web bỏo in t theo cỏch tip cn so trựng theo khuụn mu phỏt hin ni dung khỏc bit: gii thut ny hu ớch nh v cỏc bn tin tht s nm ln cỏc on bn hoc hỡnh nh thc n, qung cỏo, ; nú cng giỳp tỏch bit cỏc on mó 24 thc thi theo kch bn dng bn nm n di mt trang Web cỏc bn hin th cho ngi c Mụ hỡnh v gii thut x lý song song theo hng phõn ti a lung cho cỏc dch v khỏc ca ton b h thng ti: gii thut cho phộp kt ni v phõn ti trờn cỏc cụng ngh x lý ngụn ng t nhiờn GATE, qun tr c s tri thc Sesame, v qun tr kho ti liu cú chỳ thớch ng ngha Lucene; mụ hỡnh c thit k cú th m rng c cho mt h thng nhiu mỏy ch vt lý c nhúm li theo chc nng Mt phn cỏc kt qu ny ó c cụng b 17 bi bỏo xut bn ngoi nc v 05 bi bỏo nc, nh lit kờ Bng 3.2 V vic o to ngun nhõn lc, thụng qua ti, chỳng tụi ó hng dn hon thnh lun ỏn tt nghip cho 01 Tin s, 09 Thc s, v 14 K s Bng 3.2 Cỏc bi bỏo khoa hc liờn quan n ti TT Tờn bi bỏo v tỏc gi Ni xut bn Nm A fuzzy FCA-based approach to conceptual clustering for automatic generation of concept hierarchy on uncertainty data Proceedings of the Concept Lattices and Their Applications Workshop, September 23-24, 2004, VSB - TU Ostrava, Czech Republic 2004 Proceedings of the Knowledge Discovery and Ontologies Workshop, September 24, 2004, Pisa, Italy 2004 Proceedings of the 3rd International Semantic Web Conference, November 7-11, 2004, Hiroshima, Japan, LNCS Vol 3298, Springer-Verlag, pp 726-740 2004 Proceedings of the IEEE Conference on Cybernetics and Intelligent Systems, December 1-3, 2004, Singapore, pp 578-583 2004 Proceedings of the Vietnam-Japan Workshop on Active Mining, December 4-7, 2004, Ha Noi, Japanese Artificial Intelligence Society, SIG-KBS-A403, pp 197-200 2004 Proceedings of the International Conference on High Performance Scientific Computing, March 10-14, 2003, Ha Noi, Springer-Verlag, pp 57-68 2005 Proceedings of the 9th Pacific-Asia Conference on Knowledge Discovery and Data Mining, May 18-20, 2005, Ha Noi, Springer-Verlag, pp 290-300 2005 Ngoi nc Quan, T.T & Hui, S.C & Cao, T.H FOGA: a fuzzy ontology generation framework for scholarly semantic web Quan, T.T & Hui, S.C & Cao, T.H Automatic generation of ontology for scholarly semantic web Quan, T.T & Hui, S.C & Fong Alvis, C.M & Cao, T.H A fuzzy FCA-based approach for citation-based document retrieval Quan, T.T & Hui, S.C & Cao, T.H A domain-specific concept-based searching system Cao, T.H & Ta, M.T.H & Luong, T.Q Searching the Web: a Semantics-Based Approach Cao, T.H & Nguyen, T.H.D & Qui, T.C.T Text classification for DAG-structured categories Nguyen, C.D & Dung, T.A & Cao, T.H 25 Contributions of the 13th International Conference on Conceptual Structures, July 18-22, 2005, Kassel, Germany, Kassel University Press, pp 27-40 2005 Proceedings of the 11th World Congress of International Fuzzy Systems Association, July 28-31, 2005, Beijing, China, Tsinghua-Springer, pp 652-657 2005 Proceedings of the 7th International Conference on Information Integration and Web-Based Applications & Services, September, Kuala Lumpur, Malaysia 2005 Addendum Contributions of the 4th International Conference on Research, Innovation and Vision for the Future, IEEE, February 12-16, 2006, HCM City, pp 47-52 2006 Proceedings of the 4th International Conference on Research, Innovation and Vision for the Future, IEEE, February 12-16, 2006, HCM City, pp 145-152 2006 Book Chapter in Sanchez, E (ed.): Fuzzy Logic and the Semantic Web, Elsevier Science, pp 283-304 2006 Cao, T.H & Huynh, D.T Automatic fuzzy ontology generation for semantic web IEEE Transactions on Knowledge and Data Engineering 2006 International Journal of Metadata, Semantics and Ontologies, Inderscience Publishers 2006 Proceedings of the 3rd International Conference on Soft Methods in Probability and Statistics, September 5-7, 2006, Bristol, UK, Advances in Soft Computing, Springer, pp 365-372 2006 International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 2006 Proceedings of the School on Computational Sciences and Engineering: Theory and Applications, 2-4/3/2005, HCM City, 115-122 2005 K yu Hi ngh Quc gia ln v Nghiờn cu, Phỏt trin v ng dng CNTT&TT, 24-25/9/2004, H Ni, NXB KH&KT, 129-138 2005 K yu Hi tho Quc gia ln v Nghiờn cu C bn v ng dng CNTT, 23-24/9/2005, TP.HCM, NXB KH&KT, 106-116 2006 K yu Hi tho Quc gia ln v Nghiờn cu C bn v ng dng CNTT, 23-24/9/2005, TP.HCM, NXB KH&KT, 307-316 2006 Nguyen, V.T.T & Cao, T.H Gỏn nhón t loi cho ting Vit da trờn phong v tớnh toỏn xỏc sut Tp Phỏt trin Khoa hc & Cụng ngh HQG TP.HCM, Vol 9, 11-22 2006 Conceptual graphs for knowledge querying in VN-KIM Cao, T.H & Do, H.T & Pham, B.T.N & Huynh, T.N & Vu, D.Q Approximate retrieval of knowledge graphs Cao, T.H & Huynh, D.T 10 Matchmaker for semantic web services using different ontologies Ngan, L.D & Goh, A & Cao, T.H 11 Automatic news extraction from web pages Le, P & Cao, T.H 12 Vietnamese proper noun recognition Nguyen, C.Q & Phan, T.T & Cao, T.H 13 14 Approximate knowledge graph retrieval: measures and realization Quan, T.T & Hui, S.C & Fong Alvis, C.M & Cao, T.H 15 Multi-ontology matchmaker Ngan, L.D & Goh, A & Cao, T.H 16 Fuzzy synset-based hidden Markov model for automatic text segmentation Ha, V.T & Nguyen-Van, Q-A & Cao, T.H & Lawry, J 17 Subsumption degrees between entity types and names for approximate knowledge retrieval Cao, T.H & Huynh, D.T Trong nc A practical grid service-oriented architecture Son, N.T & Hung, N.Q Hng n Web Vit cú ng ngha Cao, T.H & Huynh, T.N & Vu, D.Q Gỏn nhón t loi cho ting Vit da trờn phong Nguyen, C.Q & Phan, T.T & Cao, T.H Rỳt trớch thc th cú tờn trờn Web ting Vit bng phm so trựng mu Nguyen, C.Q & Phan, T.T & Cao, T.H 26 Ti liu tham kho chớnh Berners-Lee, T 1998 Semantic web roadmap Bn tho Bilenko, M et al 2003 Adaptive name matching in information integration Trong IEEE Intelligent Systems, 18, 16-23 Cunningham, H et al 2003 Developing language processing components with GATE Ti liu hng dn s dng GATE version 2.1 Gruber, T.R 1993 A translation approach to portable ontology specifications Trong Knowledge Acquisition, 6, 199-221 Jiang, J., Conrath, D.W 1997 Semantic similarity based on corpus statistics and lexical taxonomy Trong k yu ca The International Conference on Research in Computational Linguistics Kampman, A., Harmelen, F., Broekstra, J 2002 Sesame: a generic architecture for storing and querying RDF and RDF schema Trong k yu ca The 1st International Semantic Web Conference Lucke, R.W 2005 Building Clustered Linux Systems Prentice Hall PTR Mihalcea, R., Moldovan, D.I 2001 Document indexing using named entities Trong Studies in Informatics and Control, 10 (1) Noy, N.F., Sintek, M., Decker, S., Crubezy, M., Fergerson, R.W., Musen, M.A 2001 Creating semantic web contents with Protộgộ-2000 Trong IEEE Intelligent Systems, 2(16), 60-71 10 Popov, B et al 2003 KIM semantic annotation platform Trong k yu ca The 2nd International Semantic Web Conference 11 Sowa, J.F 1984 Conceptual Structures - Information Processing in Mind and Machine Addison-Wesley Publishing Company 12 U ban Khoa hc Xó hi Vit Nam 1993 Ng phỏp ting Vit NXB KH Xó hi 27

Ngày đăng: 05/07/2016, 13:28

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan