Tìm hiểu ngữ nghĩa trên lính vực eDoc (Phan Thị Mỹ Phượng vs Từ Thị Ngọc Thanh) - 3 pptx

38 213 0
Tìm hiểu ngữ nghĩa trên lính vực eDoc (Phan Thị Mỹ Phượng vs Từ Thị Ngọc Thanh) - 3 pptx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Trên cú pháp này, ta xác ng – nh ng t ), V – O ( ng t – c quan h cú pháp nh : S – V (ch$ i t ), A – N ( tính t – danh t ), D – N ( danh t ) M i t th c (content words) câu trên, cho dù ã xác xác, nh ng u v n gây nh p nh0ng v ng ngh a Ví d!, nh nh t – c t lo i ng t “enter” ( i vào / nh p), danh t “bank” (ngân hàng/ b sơng/ dãy), tính t “old” (già/ c/ ) Vì v y, ph i s% d!ng n nh ng ràng bu c ng ngh a nh sau: T Ràng bu c / Ràng bu c nhãn ng ngh a I (tôi) Type: Person (Ng Enter1 i) S:Human ( i vào) (ng Enter2 i) S:Human (nh p) (ng Bank1 O:Closed – SPA (khơng kín) O: Data (d li u) i) Type: Hou (nhà c%a, khơng gian kín) (ngân hàng) Bank2 Type: Nat (b sơng) (cơng trình thiên nhiên, khơng gian h ) Old1 N: Ani (già) (có s s ng) Old2 (c/) B ng 5: Danh sách ngh a ràng bu c c$a t th c câu 0112274 – Ph m Th M Ph ng - 77 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Hình 14 Cây quy t -nh vi&c ch)n ngh!a phù h p Qua vi c t t xu ng v i g c ng t (Enter), cu i ta ch n c ngh a phù h p: enter1 ( i vào), bank1 ( ngân hàng), old2 (c/) Trong vi c xét i u ki n ràng bu c v ng ngh a, ph i xét n tính c#p b c (hierachical) h th ng nhãn ng ngh a (ontology) mà ó khái ni m s* k th a nét ngh a c$a khái ni m cha có thêm nét ngh a m i riêng c$a chúng Thông tin v "c i m ng ngh a (type) c$a t ng m!c t th c c/ng nh ràng bu c ã nh t c xác i n LDOCE FrameNet 2.4.2.3.3 Tri th c v ngôn t ( Collocation) Ràng bu c v ng ngh a gi a thành ph n cú pháp không ph i lúc c/ng gi i quy t c m i nh p nh0ng, có nh ng quan h ti m 5n v logic, v ng ngh a ho"c th m chí thói quen mà vi c nh n bi t ph i òi h2i nh ng tri th c th gi i th c mà n ng i ta c/ng ch a th tích h p h t vào t i n hay c s tri th c khác máy tính 0112274 – Ph m Th M Ph ng - 78 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Ví d!, danh t “bank” câu “I go to the bank…” có ngh a gì? Ta s* ch n ngh a s ngh a: “ngân hàng/ b (sông) / dãy”; danh t “way” “ ng ( i) / cách (th c)”?; danh t “letter” “b c th / ch cái”?;… N u ta ch& xét ràng bu c v ng ngh a ( không ph i lúc ràng bu c c/ng có m"t khó mà có th xác Vì v y, nh y $ ) ta c xác ngh a c$a t nh p nh0ng ó kh% nh p nh0ng nh ng tr ng h p này, ng i ta th ng xét n hình thái ng ngh a c$a t lân c n hay g i ngôn t (collocation) Ch+ng h n th#y “bank … river” → “b sông”, “bank … account/money” → “ngân hàng”; “way to” → “ ng ( i)”, “way of” → “cách th c”; “write … letter … to” → “b c th ”, “… letter A” → “ch cái”, “… letters, digits, symbols …” → “ch cái”, “write … papers, letters, messages,…” → “b c th ”;… Ph m vi lân c n c$a t c n kh% ng ngh a có th bên trái 1, hay n t bên ph i 1, hay n t Vi c ch n l a lân c n ph! thu c vào t ng tr ng h p cá nhân c! th 2.4.2.3.4 Tri th c v ch Trong m t s tr ng h p nh p nh0ng, có th xác úng c$a t n u ta bi t v v#n c ch$ “tài chính” th n” ( n u ch$ (subject) nh c ngh a c$a v n b n Ch+ng h n t “bank”, n u ang nói ng có ngh a “ngân hàng”; t “driver” → “trình i u l nh v c “tin h c”); “sentence” → “câu” (n u ch$ “ngôn ng / v n ph m”) ho"c “b n án” ( n u ang nói v “pháp lu t”); “element” → “nguyên t ” ( “hoá”) / “ph n t%” (trong “toán / tin h c”);… xác -nh c ch c a v8n b n ang c n d ch, ta c+n xem xét s# xu(t hi&n c a m t s t" chuyên môn l!nh v#c ó Ch+ng h n, n u v n b n ta th#y xu#t hi n t nh : “ellipsis” (t&nh l (th i t ), “pharse” (ng ), … ta có th “ngơn ng h c”; t c), “bilingual” (song ng ), “anaphora” oán nh n v n b n ang nói v ch$ ng t cho t “computer”, “memory”, “peripherals”, “CPU”,… → ang nói v “tin h c”, … 0112274 – Ph m Th M Ph ng - 79 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Chính v y, t i n LDOCE/ LLOCE chuyên mơn Chúng ta có th xác xem xét t chun mơn lân c n t nh u có mã s ch$ c ch$ cho t m t cách t ng b0ng cách ang c n kh% nh p nh0ng 2.4.2.3.5 Tri th c v t n su t ngh a c a t M t t không ph i lúc c/ng thu c v m t ch$ nh#t nh ( t i n LDOCE, h n 56% t thu c d ng này), v y tính thơng d!ng c$a m t ngh a ó th c d a o v t n su#t (frequency) xu#t hi n c$a t ó i v i ngh a c! ó Ví d!, danh t “pen”có ngh a thơng d!ng nh#t “bút/ vi t” (bên c nh ngh a thơng d!ng h n, nh : “chu1ng”, “l1ng chim”); “ball” th ng có ngh a “qu banh/ bi” h n “bu.i khiêu v/”,… o t n su#t xu#t hi n c$a m i ngh a c$a m i t c th ng kê nh ng ng li u r#t l n thu c nhi u lo i v n b n khác Chính v y, WordNet LDOCE, ngh a c li t kê c s p x p theo th t gi m d n (ngh a thông d!ng nh#t s* u tiên) 2.4.2.3.6 Tri th c Trong t nh ngh a c a ngh a t (definition): i n LDOCE/ WordNet, m i ngh a s* kèm theo Ví d!, t “bank” LDOCE s* có ngh a kèm c nh ngh a có ví d! nh ngh a c$a nh : - “land along the side of a river, lake, etc.” ( #t d c bên sông / h1 ) - “a place where money is kept and paid ….” (n i gi ti n tr ti n …) - “a row, a line of …” (m t hàng, m t dãy …) D a thơng tin c nh, ta có th xác nh nh ngh a này, so sánh v i thông tin c$a ng c ngh a phù h p c$a t ng c nh ó th c hi n i u này, Wilks et.al ã tính tốn ph n giao (overlap) c$a t#t c t h p ngh a c$a t th c câu ti ng Anh dùng 0112274 – Ph m Th M Ph ng nh ngh a m i ngh a c$a t - 80 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 2.4.2.4 Gán nhãn ng% ngh!a Kh% nh p nh0ng ngh a c$a t toán "c tr ng gán nhãn ng ngh a T c ngh a c$a t a ngh a s* c xác nh n u bi t nhãn ng ngh a c$a nó, ví d!: danh t “bank” s* có ngh a “ngân hàng” n u c gán nhãn “HOU”, có ngh a “b (sông)” n u gán nhãn “NAT”, … Trong mơ hình gán nhãn ng ngh a theo cách ti p c n d a ngu1n tri th c nói trên, ng i ta th ng s% d!ng b nhãn có m n (granularity) khác B nhãn m n ( chi ti t hàng tr m ngàn nhãn nh WordNet) xác c$a vi c gán nhãn s* th#p h n nh ng kh n ng kh% nh p nh0ng ngh a c$a s* cao h n ( khơng có tr ng h p nhãn mà khác ngh a) Ng thơ ( ch& có 36 nhãn nh LLOCE), c l i, n u ch n b nhãn xác gán nhãn s* cao h n t#t nhiên kh n ng kh% nh p nh0ng ngh a s* th#p h n ( s* có nhi u tr ng h p nhãn nh ng khác ngh a) Ngoài ra, vi c gán nhãn ng ngh a ho"c gán cho m t s t c phân bi t theo quy mô gán nhãn: i n hình ( nh Hwee Ng Hian Lee cho m t t interest, David Yarowsky cho 12 t ,…) ho"c gán cho h u h t t th c (nh Mark Stevenson Yorick Wilks, Mona Diab Philip Resnik) Vi c ch n ngu1n tri th c cho m i tình hu ng b0ng ph ng pháp h c giám sát ng li u ã c h th ng quy t nh c gán nhãn ng ngh a xác ( ây ng li u hu#n luy n hay g i ng li u vàng) Gi i thu t h c có th m ng Neural, quy t nh, MBL, TBL,… mà ó gi i thu t h c d a ký hi u (symbolic) t2 xác h n 2.4.2.5 Các m'c nh*p nh9ng x lý ng% ngh!a: 2.4.2.5.1 Nh p nh ng m c t v ng: Nh câu ví d! “I enter the bank” xác nh c m i quan h gi a trên, sau phân tích cú pháp, máy tính ã ng t “enter” ( i vào) ngân hàng hay b sơng?) ph i c n phân tích ng ngh a c$a t “bank” Trong tr i t c$a “bank” (là ng t “enter” danh ng h p máy s* v n d!ng ý ni m c$a ngôn ng h c tri 0112274 – Ph m Th M Ph ng - 81 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc nh n bi t r0ng “enter” hành ng “ i vào khơng gian kín (close space)” danh t “bank” v i ngh a “b sơng” có thu c tính “khơng gian h ” s* khơng tho thu c tính này, ch& có “bank” v i ngh a “ngân hàng” s* tho i u ki n “khơng gian kín” này, nên cu i máy tính s* ch n ngh a “ngân hàng” 2.4.2.5.2 Nh p nh ng m c c u trúc: Ví d! xét ng “Old man and woman”, ta có phân tích: “[Old man] and [woman]” “Old [man and woman]” máy tính s* ch n cách phân tích th nhì (do tính cân b0ng v n có c#u trúc song song c$a liên t “and”) Tuy nhiên, n u xét “Old man and child”, ta c/ng s* có phân tích: “[Old man] and [child]” “Old [man and child]” máy tính s* ch n cách phân tích th nh#t, máy th#y c#u trúc th nhì vơ lý (do có s i l p gi a thu c tính “tr,” “child” già “man”) 2.4.2.5.3 Nh p nh ng m c liên câu: Ví d! xét câu “The monkey ate the banana because it was hungry” (con kh& n chu i ói) Trong m t s tr ng h p, máy tính hi n có th xác t “it” (nó) thay th cho t nào: “monkey” (kh&) hay “banana” (chu i) c nh p nh0ng này, máy tính ph i xem l i m nh gi i th c có WordNet tr nh c i gi i quy t c v n d!ng tri th c v th bi t r0ng “ch& có kh& m i có kh n ng ói” nên s* ch n “it thay th cho monkey” Còn câu: “The monkey ate the banana because it was ripe” (con kh n chu i chín), máy tính s* bi t r0ng “ch& có chu i m i có kh n ng chín), nên s* ch n “it thay th cho banana” 2.4.3 Phân lo4i v8n b n (Text Classification) Trong th i i ngày này, th i i c$a thông tin, l ta c n phân lo i v n b n thành nhóm ch$ ng v n b n ngày l n khác nhau, nh : theo chuyên ngành (Toán, Lý, Hoá, V n, S%, …), theo l nh v c (Khoa h c, V n hố, Xã h i, Chính tr , …), … Do kh i l v y, m t ch trình này, ng ng q l n, ta khơng th phân lo i th$ cơng b0ng tay ng trình máy tính phân lo i t ng c yêu c u c Vì xây d ng ch ng i ta ã dùng nhi u cách ti p c n khác nhau, nh : d a t khoá, d a 0112274 – Ph m Th M Ph ng - 82 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc tr ng ng ngh a c$a t có t n s xu#t hi n cao, mơ hình Maximum Entropy, d a lý thuy t t p thô, … i v i ti ng Anh, k t qu l nh v c r#t kh quan Còn ti ng Vi t, g n ây ã có m t s cơng trình nghiên c u v v#n k t qu ban iv i ã có m t s u nh ng cịn h n ch ph n phân tích hình thái (tách t ) t i ný ni m (phân lo i ng ngh a) cho ti ng Vi t ch a hoàn thi n Bên c nh vi c phân lo i v n b n, ng i ta c/ng quan tâm v n b n có n i dung t n ng d!ng gom c!m v n b n nh0m nhóm ng t (theo thơng s c$a v n b n) l i v i 0112274 – Ph m Th M Ph ng - 83 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Ch ng : MƠ HÌNH VÀ GI I THU T 3.1 Cơng ngh& tìm ki m ng% ngh!a th gi i hi&n nay: H u h t hi u qu g n ây c$a cơng c! tìm ki m d a vào ng ngh a ph! thu c cao vào công ngh x% lí ngơn ng t nhiên v#n M t nh ng cơng c! tìm ki m phân tích hi u câu truy u tiên thông d!ng nh#t Ask Jeeves (http://www.askjeeves.com/) Nó liên k t nh ng i m m nh c$a ph n m m phân tích ngơn ng t nhiên, x% lí khai khoáng d li u, t o c s tri th c v i nh ng phân tích theo kinh nghi m Ng c nh ng tr l i tho i dùng có th gõ truy v#n b0ng ngơn ng t nhiên nh n M t ví d! d a ng ngh a khác Albert ( http://www.albert.com/) 'u i m l n nh#t c$a cung c#p nhi u ngôn ng thêm vào cho ti ng Anh, ví d! nh ti ng Pháp, Tây Ban Nha, c Lo i c$a search engine c n m t s xây d ng nên m t m ng ng ngh a r#t l n nh0m m!c ích h ông ng i ng t i vi c th c thi h p lí M t ki u nâng cao khác c$a cơng c! tìm ki m Internet Cycorp (http://www.cyc.com/) Cyc liên k t c s tri th c l n nh#t th gi i v i Internet Cyc (en-cyc-lopedia) m t c s tri th c bao la a ng c nh V i Cyc Knowledge Server, cho phép site Internet thêm vào tri th c ng ngh a thông d!ng phân bi t nh ng ngh a khác c$a khái ni m nh p nh0ng 3.1.1 Các hi&u qu tìm ki m ng% ngh!a hi&n Khi cơng ngh Web trí tu nhân t o tr nên nâng cao h n, s% d!ng th, RDF OWL s* m ng ang ó nh h a nh ng c h i ng ngh a cho tìm ki m Tuy nhiên, kích th c c$a c tìm ki m s* ph i thi t l p m t kho ng tr ng cho gi i pháp ph c t p ng m nh n kh n ng xu#t hi n c$a k t qu thành công Nhi u công ty l n ang th t s h ng n v#n c$a tìm ki m ng ngh a S phát tri n c$a Microsoft v Web có l* ph! thu c vào kh n ng c$a cơng c! tìm ki m mà d n u Google K t qu Microsoft ã 0112274 – Ph m Th M Ph ng - 84 - hoàn thi n a m t ch 0112398 – T Th Ng c Thanh ng tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc trình tìm ki m m i g i MSNBot, l t qua Web liên k t HTML tài li u MSNBot cd h p ng d!ng cho h xây d ng m t ch& m!c c$a nh nh m t công ngh mà k t i u hành Windows Sau ó Microsoft s* k t n i cơng c! tìm ki m c$a v i c.ng MSN phiên b n Windows k ti p c$a nh0m làm cho ddàng tìm ki m e-mail, spreadsheets tài li u PC (Personal Computer), m ng h p nh#t, c/ng nh Web 3.1.2 Cơng ngh& tìm ki m Tìm ki m ng ngh a gi i quy t v i khái ni m m i quan h logic N u xem xét v#n ki m ng tr th c t c$a tìm ki m ng ngh a, s* th#y r0ng tìm c tình tr ng thi u logic Problem) hay v#n a n v#n ch a hoàn t#t (Incompleteness “ng c ng ” (Halting Problem) u tiên xem xét v(n ch a hồn t(t K t lu n có th c xem nh m t s suy di-n c$a m t dãy logic g n l i v i ( m i i m, có th có nhi u h ng khác t i m t suy di-n m i Vì v y, nh0m kh n ng phân nhánh b0ng cách ó h nhóm phân nhánh ó có th tr i h Ví d!, b n có th mu n c g ng ng t hi u qu , có m t nhóm n m t gi i pháp úng Và ng m i l nh ngh a “ai ng i mà Kevin Bacon bi t” d a thơng tin v m i quan h gia ình c$a anh ta, nh ng phim c$a anh ta, hay nh ng ti p xúc công vi c c$a Do ó, có nhi u h n m t h ng a nm t s k t qu Các k t qu n0m m t nhóm phân nhánh kh n ng có th có Do v y, k t lu n h th ng c$a m t lo i c$a v#n tìm ki m, c bi u th nh m t tìm ki m Có th b t câu truy v#n u &nh c$a cây, c h2i M i b g c, hay t nhánh c l n xu ng nút có th nh m t suy di-n logic ti m tàng di chuy n h v#n nguyên th$y mà s% d!ng b có th &nh c$a có th ng c xem n vi c c g ng xác nh n câu truy c suy di-n logic H ng r* qu t c$a kh n ng c xem nh phân nhánh này, tr nên r m r p h n sâu h n M i ti p c n k t thúc b0ng vi c tr thành m t b 0112274 – Ph m Th M Ph ng - 85 - c con, n m t nút 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc T ng t ng r0ng m i nút bi u th m t vài h M i liên k t t m t nút cha cao h n gi v#n ng xác nh n n m t nút bi u th m t câu l nh logic Bây có m t l n c$a kh n ng Trong m t h th ng logic ph c t p, có m t s l ng l n ch ng c ti m tàng M t s chúng dài không rõ ràng n u ch& có m t ch ng c c ch ng minh vào nh ng n m 1930, m t s h th ng logic $ ph c t p v n ã không (không th quy t nh) Nói cách khác, có câu l nh mà khơng th minh m t cách logic Lu n c c$a cho i u ó liên quan n m t v#n y $ c ch ng khác, v#n “ng c ng ” (Halting Problem) V(n halting suy r0ng thu t gi i hi n s* không bao gi k t thúc m t câu tr l i Khi nói v Web, nói v hàng tri u s ki n hàng ch!c ngàn lu t mà có th n i k t an l i v i nh ng h ng ph c t p, th khơng gian c$a ch ng c ti m tàng vô t n theo logic s* tr nên vô t n Theo ó, s* i vào v#n khơng hồn t#t v n có; ví d! nh khơng th th#y m i ch ng c có th có thu t#t c câu tr l i Chúng ta s* i vào tình tr ng khơng hồn t#t b i tìm ki m q l n Vì th h ng ti p c n c$a chúng tơi ch& ph i tìm ki m ph n c$a Có m t chi n l c n.i ti ng cho vi c b0ng cách chi n l tìm ki m nh v y M t c tìm ki m theo “chi u sâu” (depth-first) Tìm ki m chi u sâu s* b t s ch& v#n u &nh i xu ng sâu ng d n ó, m r ng nút i, cho n m c có th m t n tìm th#y m t k t thúc ch t (dead end) M t k t thúc có th m t ích (thành cơng) hay m t nút mà không th t o m i Vì v y h th ng khơng th ch ng minh b#t c th ngồi i m Hãy xem qua tìm ki m theo chi u sâu xoay theo tr!c c$a Chúng ta b t u nút &nh i sâu nh#t có th : 1) B t 2) u nút cao nh#t i xu ng sâu nh#t có th theo m t h 0112274 – Ph m Th M Ph ng - 86 - ng 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 3.4 Các gi i thu*t s d ng 3.4.1 Gi i thu*t x lý tài li&u: Tài li u sau c thu th p v s* c x% lí thơng qua b l c S gi i thu t: chuy6n sang text eDoc text l c b: nh%ng t" không quan tr)ng Danh t" t" Kho ng% li&u ng Kho ng% li&u lemmatize Danh t" ng t" nguyên m u Các key word thông tin tài li&u th ng kê t+n s xu(t hi&n c a t" l!nh v#c c a tài li&u Hình 18: Gi i thu*t x lý tài li&u: 0112274 – Ph m Th M Ph ng - 100 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Gi i thu*t cho b c lemmatize: Kho ng li u s% d!ng cho vi c stemming WORDNET s l kho ng li u l n (v i 100 000 danh t 11 000 t s% d!ng d ng nguyên m u Ngoài t “noun.exc” “verb.exc”, ây hai file b#t qui t c sang s chuy n ng t ng t ), i n c$a WORDNET có file chuy n danh t d ng s nhi u ng t kh ti p di-n d ng b#t qui t c v nguyên m u Các b c stemming n gi n: B1: Ki m tra t ng t , n u t có “noun.exc” hay “verb.exc” l#y d ng nguyên m u c$a B2: N u khơng có thì: N u t k t thúc b0ng “s” thì: ti n hành b2 “s” theo lu t • N u t k t thúc b0ng “ss”, “chs”, “shs”, “xs”, “is”, “zs” ây khơng ph i s nhi u • N u t k t thúc “ ’s ” ây d ng s h u cách nên b2 hai kí t • B2 kí t ‘s’ cu i t • Ki m tra kho ng li u danh t ng t , n u có t ây t ngun m u • N u khơng có (ngh a t ch a d ng nguyên m u) thì: o N u t k t thúc b0ng “se”, ”che”, “she”, “xe”, “ze” b2 kí t ‘e’ sau o n u t k t thúc b0ng “ie” b2 “ie” thêm “y” N u t k t th c b0ng “ed” thì: • B2 “ed” • Ki m tra kho ng li u ng t , n u có ây d ng nguyên m u 0112274 – Ph m Th M Ph ng - 101 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc • N u khơng có thì: o N u t có hai kí t cu i gi ng b2 m t kí t cu i o N u t k t thúc b0ng “i” thay b0ng “y” o Cịn tr ng h p cịn l i thêm vào cu i kí t ‘e’ N u t k t th c b0ng “ing” thì: • B2 “ing” • Ki m tra kho ng li u ng t , n u có ây d ng ngun m u • N u khơng có thì: o N u t có hai kí t cu i gi ng b2 m t kí t cu i o N u t k t thúc b0ng “y” thay “y” b0ng “ie” o Còn tr 3.4.2 Gi i thu*t rút trích siêu d% li&u: Sau ã x% lí tài li u metadata ng h p cịn l i thêm vào cu i kí t ‘e’ l#y thông tin v tài li u, ch ng trình xây d ng mơ t tài li u ó Metadata s% d!ng chu5n Dublin Core mô t v l u tr d ng RDF 0112274 – Ph m Th M Ph ng - 102 - 0112398 – T Th Ng c Thanh a tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Các key word thông tin tài li&u tiêu Tác gi Key word -a ch3 tài li&u DC: Title DC: Creator DC: Subject DC: Description Ngôn ng% DC: Language File RDF Hình 19: Gi i thu*t rút trích siêu d% li&u S% d!ng tag chính: - title: mơ t tên tài li u - identifier: mô t URI c$a tài li u - language: ngôn ng tài li u - description: mô t thông tin tài li u - subject: t khoá cho tài li u (m t s trang HTML có th, meta này, k t h p v i m t s t th ng kê c n i dung tài li u) 0112274 – Ph m Th M Ph ng - 103 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc N i dung c$a tag ch$ y u HTML Tr tag identifier subject c l#y ph n HEAD c$a file c thêm vào t thông tin nh n di n tài nguyên c$a robot thông tin th ng kê key word 3.4.3 Gi i thu*t phân lo4i l!nh v#c cho tài li&u: M t tài li u, sau dung c rút trích thơng tin ph n header, s* phân lo i l nh v c cho Các l nh v c c a c x% lí n i phân lo i nh ng l p (subclass) ontology Và hình th c phân lo i s% d!ng m t t p t ng v i m i l p bao g1m t 1ng ngh a t chi ti t h n c$a l p ó, g i t chuyên ngành Vi c xây d ng t i n t d a vào kho ng li u WordNet Tropes (công c! phân lo i v n b n) Ví d!, l nh v c “khoa h c máy tính” có nh ng l p nh “máy tính” (computer), “l p trình” (programming)… Và l p “máy tính” (computer) l i ch a t riêng c$a nh : computing machine, hardware, CPU… Các b c phân lo i l nh v c: B1: D a vào danh sách t chuyên ngành, tìm tài li u xu#t hi n c$a nó, s ms l n c xem nh tr ng s c$a t tài li u B2: C ng tr ng s c$a t t ng l p tính tr ng s cho m i l p B3: L p có tr ng s cao nh#t c xem l p t i u tài li u s* c x p vào l p ó Và m i quan h gi a tài li u v i l p s* c l u tr theo d ng ch& m!c Doc_Onto 3.4.4 Gi i thu*t x lí câu truy v(n: Các b c phân tích l nh v c c$a câu truy v#n c/ng c th c hi n t ng t nh gi i thu t phân lo i l nh v c cho tài li u T vi c phân tích ó, nh ng tài li u thu c l nh v c t i u c$a câu truy v#n s* ng c a xem nh ó k t qu tr v cho i dùng 0112274 – Ph m Th M Ph ng - 104 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Ch ng : CH NG TRÌNH 4.1 Gi i thi&u ch ng trình 'ng d ng: Trong ch NG D NG ng này, chúng em xây d ng m t công c! tìm ki m minh ho cho vi c tìm ki m Web Internet có k t h p v i ng ngh a Mơ hình xây d ng c hi n th c d a c s áp d!ng phát tri n mơ hình Web ng ngh a mà chúng em ã trình bày ch Ch ng tr c ng trình ng d!ng s* th c hi n vi c tìm ki m ng ngh a thông qua công ngh Web ng ngh a hi n có gi i pháp mà chúng em ã - Thi hành I.E5 - 4.2 Ch Ch xu#t: ng trình có s% d!ng cơng c! RDF Gateway ng trình có s% d!ng cơng c! RDF editor Ki n trúc c a 'ng d ng: thi t k cơng c! tìm ki m ng ngh a ng d!ng eDoc, chúng em xu#t m t ki n trúc mơ hình h tr vi c tìm ki m Internet Intranet g1m công o n sau: Công o4n 1: Thi t k ontology Các Ontology th ng l u d i d ng t p tin có i: rdf, rdfs, owl, daml, xml, … Ontology mô t m i quan h gi a chuyên gia v l nh v c ã it c t o s6n, Ontology cho phép m i ng ng th c t Ontology s6n Internet i có th chia s,, t o, "c tính c$a c ghi Do ó, có th phát tri n Ontology theo ý mu n Các Ontology c/ng c t o t nh ng t p tin c#u trúc d ng: HTML, RDF, Image, Excel, WinWord, SQL Server, Oracle, … Các Ontology s* thông qua m t công c! so n th o, sau ó chúng s* cl ud c t o i d ng t p tin có i: rdf, rdfs, owl, daml, … 0112274 – Ph m Th M Ph ng - 105 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Các công c! có th dùng so n th o Ontology là: - S% d!ng HTML Parser - Protégé - RDF Editor - … Công o4n 2: Xây d#ng 'ng d ng Các b c q trình xây d ng ng d!ng: o B c 1: Dùng ph n m m nh Crawlers, Spiders, … óng vai trị robot thu th p thông tin internet, c/ng nh thu th p Ontology t internet o B c 2: Dùng ti n ích RDF Query Analyzer ph n m m RDF Gateway a file Ontology( thu c B c ) vào c s d li u c$a RDF Gateway o B c 3: Xây d ng ng d!ng: • Ti n hành phân lo i Ontology ( ã thu c) theo nh ng l nh v c c n tìm • Tài li u sau ã thu th p ( B c 1), ti n hành rút trích siêu d li u v i thành ph n quan tâm: title, author, keyword, subject, description, … R1i phân lo i tài li u theo l nh v c • Siêu d li u rút trích li u SQL Server gi a i t c s* c a xu ng c s d 1ng th i c/ng xây d ng m i quan h ng Ontology v i siêu d li u rút trích • V i truy v#n ng i dùng nh p vào, vào c s d li u ti n hành truy v#n tr k t qu cho ng 0112274 – Ph m Th M Ph ng - 106 - i dùng 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 4.3 Mô t ph4m vi 'ng d ng 4.3.1 Mô t tốn: Trong ng d!ng này, chúng em tích h p Ontology (l#y t internet) vào m t th m!c máy c!c b ti n cho vi c minh ho ng d!ng Tuy nhiên, ta có c/ng có th l#y ontology tr c ti p t internet Các ontology c l u vào localhost: http://localhost/eDocSearch/Library/RDF/ ( ây ch& s% d!ng nh ng ontology cho t ng l nh v c nh#t nh, n u m t l nh v c có nhi u ontology ho"c m t ontology ng d!ng cho nhi u l nh v c ta ph i ti n hành phân lo i ontology theo l nh v c ( ây h 7ng d!ng ng m r ng c$a lu n v n) c xây d ng nh0m minh h a cho vi c tìm ki m ng ngh a l nh v c edoc, ph m vi ng d!ng gi i h n l nh v c nh sau: • Khoa h c máy tính (computer scient) • Ngh thu t (art) 4.3.2 Xác -nh yêu c+u: Yêu c+u l u tr%: L u thông tin ng ngh a c n tìm ( it CSDL, thơng tin mô t thu t ng t ng) t ontology vào ng ng h tr cho vi c tìm ki m Yêu c+u tra c'u: Tìm ki m tài li u liên quan n thu t ng mà ng i dùng gõ vào Tính hi&u qu : K t qu tìm ki m ph i phù h p, xác, nhanh chóng theo cơng ngh Semantic Web Tính ti n hố: Các tài li u h tr nhi u tài li u h n, nhi u l nh v c h n, … Tính t Ng ng thích: i dùng ch& c n m t trình t web k t n i 0112274 – Ph m Th M Ph ng - 107 - c n server 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Tính ti&n d ng: Giao di n thân thi n, d- s% d!ng, ng i dùng ch& c n gõ vào m t thu t ng c n tìm ki m r1i nh#n vào nút Search Tính b o m*t: Ng i dùng ch& xem c k t qu tra c u d i d ng t nh (htm/html) Tính d; b o trì: D- dàng phát tri n hay thêm ontology thu n l i 4.4 Xây d#ng 'ng d ng: 4.4.1 D li u Thi t k d% li&u: c l u tr SQL Server 2000 Bao g1m b ng: Hình 20: S 0112274 – Ph m Th M Ph ng d% li&u quan h& c a 'ng d ng - 108 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Tên b ng DOCUMENTS Các tr 7ng Mô t DocID varchar(12) B ng l u tr thông tin Title text c$a tài li u v i Descript text l nh v c mà tài li u ó URI varchar(200) thu c v Author varchar(200) Datacreate varchar(12) Keywords text Version varchar(50) ScenID char(3) B ng l u tr thông tin ScenID char(3) ontology DocID varchar(12) M i quan h gi a tài OntoID varchar(12) DOC_ONTO OntoID varchar(12) Word varchar(50) ONTOLOGIES li u nt ng c$a it ng c$a ontology Có th xem ây danh sách t có th có ScenID char(3) m t l nh v c WordID varchar(10) Các t tham chi u OntoID varchar(12) WORD_ONTO WordID varchar(10) Word varchar(50) WORDS m t it n ng c$a Ontology STATISTIC OntoID varchar(12) ây b ng t m dùng NumWords int l u tr s t tìm th#y ScenID char(3) tài li u ng v i m t it ng Ontology B ng s% d!ng 0112274 – Ph m Th M Ph ng - 109 - phân lo i tài 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc li u theo m t l nh v c WORD_TEMP Word varchar(50) Numwords int ây c/ng m t b ng t m nh0m l u t có tài li u ng sau l#y key word cho tài li u B ng Mô t c s$ d% li&u cho 'ng d ng c bi&t b ng Ontology gateway c xây d ng t nh ng tài li u RDF S% d!ng RDF truy v#n cache d li u vào b ng giúp tìm ki m nhanh chóng d- dàng h n 4.4.2 Ch Thi t k x lý: ng trình s% d!ng ngơn ng l p trình C# k t h p v i ASP.NET S% d!ng SQL Server 2000 Ch STT l u tr d li u ng trình có module: Module Ý ngh!a eDocSearch Th c hi n giao ti p v i ng i dùng, ti p nh n câu truy v#n, x% lí câu truy v#n, hi n th k t qu cho ng eDocSearchAdministrator i dùng Qu n lí c s d li u t , ontology, tài li u Thu th p tài li u t Internet, x% lí tài li u B ng Các module c a ch 0112274 – Ph m Th M Ph ng - 110 - ng trình 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Các l p it ng cho t ng module: Module eDocSearch: STT L p it ng Ý ngh!a UserQuery.cs Có trách nhi m x% lí câu truy v#n c$a ng i dùng, tr k t qu cho câu truy v#n B ng Module eDocSearch Module eDocSearchAdministrator: STT L p it ng Ý ngh!a Database.cs Th c hi n k t n i c s d li u SQL server RDF gateway Spider.cs Thu th p tài li u t Internet DocumentProcess.cs Qu n lí c s d li u tài li u ( rút trích metadata cho tài li u, phân lo i l nh v c cho tài li u) TextProcess.cs Có trách nhi m x% lí v n b n (l c b2 t không quan tr ng, th c hi n “lemmatize”) Word_database.cs Qu n lí c s d li u t chuyên ngành cho t ng l nh v c ManageOntology.cs Qu n lí c s d li u Ontology DatabaseProcess.cs X% lí Ontology, chuy n t d ng l u tr RDF sang c s d li u quan h SQL server B ng Module eDocSearch 0112274 – Ph m Th M Ph ng - 111 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 4.5 K t qu ch ng trình Tài li u cho vi c tìm ki m th% nghi m c download v l u máy ch$ th m!c http://localhost/eDocSearch/DataTest/ S l ng tài li u kho ng 500 tài li u cho c hai l nh v c Môi tr ng ng d!ng: Máy Celeron, 256 MB RAM, 1.2 GB, hdh Windows XP Th i gian x% lý v n b n ~ 2s/tài li u Th i gian x% lý truy v#n nhanh Phân lo i v n b n theo l nh v c: 91% Ch ng trình cho phép ng i dùng truy v#n nh ng v#n quan tâm b0ng ngôn ng t nhiên Giao di n c$a ch ng trình: Hình 21: Giao di&n c a 'ng d ng 0112274 – Ph m Th M Ph ng - 112 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Hình 22: Giao di&n k t qu tìm ki m c a 'ng d ng Giao di n qu n lí tài ngun: Hình 23: Giao di&n qu n lí tài nguyên 0112274 – Ph m Th M Ph ng - 113 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 4.6 Th#c nghi&m ch ng trình Danh sách câu truy v(n th nghi&m ch STT T" truy v(n ng trình: S tài li&u S tài li&u không tr v úng n i dung Programming 14 Oop 10 Asp 10 Assembly Java 12 Visual basic C# 10 Data Database 76 33 10 Metadata 32 14 11 Register 0 12 Security 13 Computer science 63 25 14 Computing 47 17 15 Algorithm 45 16 Machine 52 17 translation 17 Computer vision 62 27 18 Internet 46 19 www 43 18 20 Site 43 18 21 Server 57 22 22 Computer 29 24 23 Hardware 11 0112274 – Ph m Th M Ph ng - 114 - 0112398 – T Th Ng c Thanh ... Th M Ph ng - 105 - 011 239 8 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Các cơng c! có th dùng so n th o Ontology là: - S% d!ng HTML Parser - Protégé - RDF Editor - … Công o4n... n u tìm th#y ích 0112274 – Ph m Th M Ph ng c tìm ki m ng c$a agent c n c$a vi c tìm m t trang Web ch a m t i m ích - 88 - 011 239 8 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc. .. m u 0112274 – Ph m Th M Ph ng - 93 - 011 239 8 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Khi b n tìm ki m m t c s d li u ch& m!c LSI, cơng c! tìm ki m xem xét nh ng giá tr

Ngày đăng: 12/08/2014, 10:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan