Tìm hiểu ngữ nghĩa trên lính vực eDoc (Phan Thị Mỹ Phượng vs Từ Thị Ngọc Thanh) - 4 potx

38 272 0
Tìm hiểu ngữ nghĩa trên lính vực eDoc (Phan Thị Mỹ Phượng vs Từ Thị Ngọc Thanh) - 4 potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 24 Information 10 processing 25 Natural language processing 26 Sofrware 12 27 Freeware 28 Shareware 29 Virus 30 Norton antivirus 31 Graphic 32 Picture 33 Artwork 15 34 Art school 100 90 35 Artist 12 36 Gallery 19 17 37 Museum 19 38 Clip art 100 90 39 Painting 36 27 40 Landscape 11 41 Portrait 10 B ng 10 Các câu truy v(n th nghi&m K t qu th ng kê truy v(n theo t"ng l!nh v#c: Công th c th ng kê: xác c$a l nh v c = trung bình c ng(ph n tr m xác c$a t ng t l nh v c ó) 0112274 – Ph m Th M Ph ng - 115 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Computer & information science: STT Tên l!nh v#c xác Programming 87% Data 57% Security 93% Computer science 65% Internet 67% Computer 26% Information science 21% Software 64% Virus 100% B ng 11 Th ng kê l!nh v#c khoa h)c máy tính Art: STT Tên l!nh v#c xác Art and artwork 10% Artist 75% Gallery 11% Museum 58% Art school 10% Painting 25% Music 70% Music style 65% B ng 12 Th ng kê l!nh v#c ngh& thu*t 0112274 – Ph m Th M Ph ng - 116 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Nh*n xét: - 7ng d!ng ch& xây d ng hai l nh v c ngh thu t khoa h c máy tính nên m i tài li u a vào ó làm gi m i - u c phân vào m t hai l nh v c xác S tài li u tr v cho m i t m t l p ontology không b0ng ph ng pháp x% lí câu truy v#n là: l#y nh ng tài li u l p c$a ontology 1ng th i l#y nh ng tài li u có t khố có v i t khố c$a câu truy v#n - xác vi c phân lo i tài li u theo t ng l p ch a cao l p ontology thi t k ch a y $, ch a bao hàm h t khái ni m m t l nh v c s t m t l nh v c ch a nhi u y $ - M"t khác, h xác vi c phân lo i c$a tài li u b ng s l nh ng t c$a n i dung tài li u (tài li u ch& ch a a s hyperlink hình nh) - L nh v c ngh thu t có c$a ontology khơng l p s l Tóm l i, ch theo l nh v c l n, Ng xác th#p t m i l p c phân bi t rõ ràng, m t t có th n0m nhi u ng t ng trình ng d!ng t hi u qu t t vi c phân lo i tài li u i v i t ng l p m i l nh v c hi u qu ch a cao i qu n tr có th nâng cao hi u qu c$a ch ng trình b0ng cách xây d ng t#t c l nh v c th c t , b sung t t ng l p c$a m i l nh v c theo xu h ng nhi u t "c tr ng cho l p t t (m c cô l p gi a l p cao) 0112274 – Ph m Th M Ph ng - 117 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Ch ng : K T LU N 5.1 ánh giá k t qu nghiên c'u 5.1.1 u i6m V c b n lu n v n ã th c hi n t t n i dung qu nh#t t cm ts k t nh : o Lu n v n ã trình bày c s lý thuy t v nguyên lý v n hành c/ng nh u khuy t i m c$a m t h th ng search engine o Lu n v n trình bày rõ mơ hình Web ng ngh a v i t i ng c$a nh RDF, OWL, … o Trình bày v#n v ng ngh a c/ng nh h ng gi i quy t vi c x% lí ngơn ng t nhiên nh0m giúp máy tính “hi u” câu h2i c$a ng c i dùng o T nh ng c s nghiên c u lí thuy t, lu n v n ã mơ hình cho vi c xây d ng cơng c! tìm ki m ng ngh a, th c hi n cài "t m t cơng c! tìm ki m tài li u i n t% phù h p v i ng ngh a c$a câu truy v#n c$a ng i dùng o Lu n v n có th xác nh t thu c v Và ph n xác ng ng i xác l nh v c mà tài li u nh c l nh v c c$a câu truy v#n c$a i dùng Ý ngh a th c ti-n: Tìm hi u mơ hình, n m v ng cơng ngh tìm ki m ng ngh a áp d!ng chi ti ng Vi t Ý ngh a khoa h c: ây công c! ph!c v! cho nhu c u phân lo i v n b n, phân lo i tài li u h c t p 0112274 – Ph m Th M Ph ng - 118 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 5.1.2 Khuy t i6m: Tuy nhiên, v#n v n ch& m t s h bao hàm h t v ng ngh a m t v#n ng nghiên c u hi n ph c t p r ng l n nên lu n m t s l nh v c h u h n, không th c khái ni m c/ng nh ngôn ng c$a ng Nh ng v#n c i xu#t lu n v n nh0m m!c ích a m t h ng gi i quy t mang tính ch#t tham kh o nên có th s* có nhi u i m ch a t i u, c n c hoàn thi n h n Trong ch ng trình ng d!ng, lu n v n s% d!ng c s d li u t cho t l nh v c, c s d li u h n ch v s l ng "c tr ng c xây d ng ch$ y u d a vào WordNet, song v n ng t riêng cho t ng chuyên ngành N u câu truy v#n c$a i dùng h2i v nh ng t không n0m c s d li u có th s* khơng tìm th#y k t qu Và vi c phân lo i t l nh v c mang tính ch$ quan nên có th ch a t i u Vi c phân lo i tài li u theo l nh v c t nh ng vi c phân lo i câu truy v#n c$a ng ng i t t có s l i dùng, s% d!ng m t l ng t nhi u ng t r#t nên có m t s câu truy v#n khơng có k t qu tr v Ngoài ra, lu n v n ch& s% d!ng c s d li u tài li u l u s6n v máy ch$ nên s l ng tài li u ch a l n 5.2 H ng phát tri6n Ch ng trình ng d!ng c$a lu n v n b n, song có th phát tri n c xây d ng d a nh ng v#n ngày hoàn thi n t i u h n Nh ng h c ng phát tri n c$a lu n v n: - M r ng tìm ki m t#t c l nh v c - Tìm ki m nhi u ontology, phân lo i ontology - Th c s tìm ki m online - 7ng d!ng cho Ti ng Vi t 0112274 – Ph m Th M Ph ng - 119 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc TÀI LI U THAM KH O I Lu*n v8n, lu*n án: [I.1] "ng Th Qu3nh Chi Lu n v n th c s tin h c Nghiên c'u v mơ hình, khám phá khai thác m i quan h& web ng% ngh!a, xây d#ng 'ng d ng Ng [I.2] ih ng d n khoa h c: Nguy-n Ti n D/ng Lê Thuý Ng c, M Nhung Lu n v n c% nhân tin h c Tìm hi6u v Search Engine xây d#ng 'ng d ng minh ho4 cho Search Engine ti ng Vi&t GVHD: Nguy-n Th Di-m Tiên II Sách, eBooks: [II.1] Ying Ding, Dieter Fensel, Michel Klein, and Borys Omelayenko The Semantic Web: Yet another Hip? Data and knowedgle engineering, 2002 [II.2] Eero Hyvonen Semantic web Kick – off in Finland vision, Technologies, Research, and Applications; May 19, 2002 [II.3] inh i n, Giáo trình X% Lý Ngôn Ng T Nhiên, tháng 12/2004 [II.4] Dr V Richard Benjamins, Jesús Contreras; Six challenges for the semantic web; April 2002 [II.5] Nicola Guarino; Some Ontological Principles for Designing Upper Level Lexical Resources; 28 – 30 May 1998 [II.6] Urvi Shah, Tim Finin, Anupam Joshi, R Scott Cost, James Mayfield; Information Retrieval on the Semantic Web* [II.7] Luke K McDowell; Meaning for the Masses: Theory and Applications for Semantic Web and Semantic Email Systems; 2004 [II.8] Gareth Osler;The Semantic Web Through Semantic Data – A Four Tier Architecture Model ; Mar 2005 0112274 – Ph m Th M Ph ng - 120 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc [II.9] Julius Stuller; Network of Excellence Semantic Web; June 2002 [II.10] Peter Dolog and Wolfgang Nejdl; Challenges and Benefits of the Semantic Web for User Modelling [II.11] Pang Wang; A Search Engine Based on the Semantic Web; May, 2003 [II.12] Karen Sparck Jones; What’s new about the Semantic Web? Some questions; December 2004, 18 – 23 [II.13] Mark Klein, Abraham Bernstein; Searching for Services on the Semantic Web Using Process Ontology; July 30 – August 1, 2001 [II.14] Michael Sintek, Stefan Decker; TRIPLE – A Query Language for the Semantic Web; November 2001 [II.15] Stefan Decker, Vipul Kashyap; The Semantic Web: Semantics for Data on the Web; September 10 2003 [II.16] Catherine C Marshall; Taking a Stand on the Semantic Web; 2003 [II.17] Eric Miller, Ralph Swick; Semantic Web Activity: Adcanced Development; 07/09/2003 [II.18] Tim Berners – Lee; Semantic Web Road map; 10/14/1998 [II.19] Raul Corazzon; Ontology A resource guide for philosophers; 06/01/2005 [II.20] John F.Sowa; Guided Tour of Ontology; June 03 2005 [II.21] John F Sowa; Building, Sharing, and Merging Ontologies; June 03 2005 [II.22] ISO; Information and documentation – The Dublin Core metadata element set; 02/26/2003 [II.23] IEEE; Draft Standard for Learning Object Metadata; 15 July 2002 [II.24] Shigeo SUGIMOTO, Jun ADACHI, Stuart WEIBEL; 68th IFLA Council and General Conference; August 24 2002 [II.25] Stiching SURF; DARE use of Dublin Core, version 2.0; December 2004 0112274 – Ph m Th M Ph ng - 121 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc [II.26] CEN/ISSS MII – DC (WI3) Report; Guidance for the Deployment of Dublin Core Metadata in Corporate Environments; 8/20/2004 DRAFT [II.27] Kazuhiko Asou, Takako Nakahara, Takao Namiki; A report on Dublin Core based research information service on mathematics; 10/26/2001 [II.28] Western States Digital Standards Group, Metadata Working Group; Western States Dublin Core Metadata Best Practices, Version 2.0; 01/12/2005 [II.29] Jay Cross, CEO, Internet Time Group; eLearning; mid – 1999 [II.30] ADOBE; A primer on electronic document security; 11/2004 [II.31] Gerhard U Bartsch; Introduction to Electronic Document Management Whitepaper ; March 16 2003 [II.32] Andreas Hotho; Using Ontologies to Improve the Text Custering and Classification Task; January 14 2005 [II.33] Norman Paskin; DOI: implementing a standard digital identifier as the key to effective digital rights management; March 2000 III Website: [III.1] W3C SemanticWeb Activity http://www.w3.org/2001/sw [III.2] Semantic web server http://www.semanticwebserver.com [III.3] RDF http://www.w3.org/RDF [III.4] Tim Berners – Lee Notation3 http://www.w3.org/DesignIssues/Notation3.html [III.5] http://www.cimtech.co.uk [III.6] http://www.adobe.com/security [III.7] RDQL: RDF Data Query Language http://www.htl.hp.com/semweb/rdql.html [III.8] RDF/XML Syntax Specification http://www.w3.org/TR/rdf-syntaxgrammar/ [III.9] DAML http://www.daml.org [III.10] RDF Data http://www.rdfdata.org 0112274 – Ph m Th M Ph ng - 122 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc [III.11] National Information Standards Organization http://www.niso.org [III.12] Intellidimension: Delivering a Platform for the Semantic Web http://www.intellidimension.com/ [III.13] eLib http://purl.org/metadata/dublin_core 0112274 – Ph m Th M Ph ng - 123 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc PH L C Cú pháp RDF: rdfs:Resource T#t c m i th c mô t b i RDF c g i resources thành viên c$a class rdfs:Resource rdfs:Literal L p rdfs:Listeral i di n cho m t l p giá tr ký t nh strings intergers Ví d!: thu c tính giá tr : chu i text rdfs:XMLLiteral L p rdfs:XMLLiteral i di n cho l p giá tr chu i c$a XML rdfs:Class L p t ng ng v i khái ni m chung type ho"c catalog c$a tài nguyên RDF class membership (quan h thành viên l p RDF) c s% d!ng i di n cho types catalog c$a tài nguyên Hai l p có th có thành viên rdf:Property rdf:Property i di n cho nh ng tài nguyên có thu c tính RDF rdfs:Datatype rdfs:Datatype i di n cho nh ng tài nguyên có ki u d li u RDF rdf:type Thu c tính rdf:type cho bi t m t tài nguyên thành viên c$a class Khi m t tài ngun có m t thu c tính rdf:type mà giá tr c$a thu c tính m t s class xác nh, nói r0ng tài nguyên m t instance of c$a class xác 0112274 – Ph m Th M Ph ng - 124 - 0112398 – T Th Ng c Thanh nh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc table, data source component ( c#p table, d- dàng s%a i vi c c, vi t, xoá quy n cho user riêng bi t M t khái ni m b o m t d a dòng table c d a c t “context”, tr ng thêm vào th t predicate, object M t user có th (rights) i v i l nh RDF c cho phép c add vào subject, c, vi t, xoá quy n i v i m t context riêng bi t Khơng h có s h tr i v i m t nhóm ng i s% d!gn (user group – RDF Gateway khơng có khái ni m này) o Configuration and Management (c(u hình qu n lý) Các s s p "t (setting) c#u hình chi ti t di n web, giao di n c truy c p thông qua giao c d n vào nh web server g n li n Ng i dùng ph i ng nh p vào b0ng cách s% d!ng m t account có vai trị administrator c$a windows 7ng d!ng web truy c p c "t tên “RDF Gateway Management Utility” cung c#p n databases, tables, users, contexts, ActiveX Components, Data Services, Roles, Packages, MimeTypes Timers i v i h u h t thành ph n này, ch n l a b o m t v s cho phép có th c "t Ti n ích qu n lý c th c thi nh RDF Gateway web package Trên ây nh ng gi i thi u bao qt v RDF Gateway Ngồi ta c/ng có th xem thêm v cú pháp cu RDF Gateway chi ti t ph n help c$a ti n ích RDF Query Analyzer H& th ng nhãn ng% ngh!a: H th ng nhãn ng ngh a v i t lo i: danh t , c gi i thi u ây g1m ti u h th ng nh2 ng ng t tính t Trong m i ti u h th ng, l i c phân thành c#p: c#p c b n ch a m t s nhãn chung nh#t, s% d!ng nhi u nh#t nh ng nhãn vi t t t (g i nh ) d* nh ; c#p chuyên sâu nh ng nhãn theo h th ng 0112274 – Ph m Th M Ph ng - 138 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc LLOCE Ngoài ra, ph n này, c/ng li t kê m t s h th ng nhãn ng ngh a khác nh WordNet, CoreLex 3.1 Nhãn ng% ngh!a c b n cho danh t": STT Nhãn Mô t Ý ngh a ABS Abstraction Nh ng tr u t ACT Act Hành AGT Agent Tác nhân ANM Animal Sinh v t ART Artifact Nhân t o ATR Attribute Thu c tính BDY Body C th ng CEL Cell T bào CHM Chemical Hoá ch#t 10 COM Communication Truy n tin 11 CON Consequence H u qu 12 ENT Entity Th c th 13 EVT Event Bi n c 14 FEL Feel S c m nh n 15 FEM Female Gi ng cái/ n 16 FOD Food Th c n 17 FRM Shape, form Hình d ng 18 GAS Gas Th khí 19 GRB Group biology Nhóm sinh h c 20 GRP Group Nhóm nói chung 21 GRS Group social Nhóm xã h i 22 HOU House Cơng trình xây d ng 23 HUM Human Con ng 0112274 – Ph m Th M Ph ng - 139 - ng ng i i 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 24 LFR Life form S s ng 25 LIN Line 26 LIQ Liquid 27 LME Linear measure 28 LOC Location V trí 29 LOG Location geography Vùng 30 MAL Male Gi ng 31 MEA Measure 32 MIC Microoragnism Vi sinh v t 33 MOT Motion S chuy n 34 NAT Natural object V t th thiên nhiên 35 PHM Phenomenon Hi n t 36 PHO Physical object V t th v t lý 37 PLT Plant Th c v t 38 POS Possession S s h u 39 PRO Process Quá trình 40 PRT Part, piece B ph n 41 PSY Psychological Thu c tính tâm lý 42 QUD Definite quantity il ng h u h n 43 QUI Indefinite quantity il ng vô h n 44 REL Relation Quan h 45 SOL Solid Th r n 46 SPC Space Không gian 47 STA State Tr ng thái 48 SUB Substance Ch#t li u 49 TME Time Th i gian 50 UNT Unit Thu c ng, nét, d#u v t Th l2ng ol ng il a lý c/ nam ng ng ng nv B ng 13: Nhãn ng ngh a c b n cho danh t 0112274 – Ph m Th M Ph ng - 140 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 3.2 Nhãn ng% ngh!a c b n cho STT Nhãn VBDY ng t": Mô t Ý ngh a Body Các ng t c$a c th : n, m"c, … VCHG Change Các ng t thu c v s thay i: t ng, i, … VCOG Human Các ng t tri nh n: suy ngh , xét oán,… VCOM Communication Các ng t truy n thông: k , h2i, l nh, … VCMP Competition Các ng t v c nh tranh: chi n #u, thi #u, … VCSM Consumption Các ng t v tiêu th!: n, u ng, … VCON Contact Các ng t v ti p xúc: ánh, ào, … VCRE Creation Các ng t v s t o l p: s n, khâu, thi hành, … VEMO Emotion Các ng t v c m giác: yêu, ghét,… 10 VMOT Motion Các ng t v chuy n ng: i, bay, b i, … 11 VPER Perception Các ng t v giác quan: nghe, th#y, c m th#y, … 12 VPOS Possession Các ng t v s h u: mua, bán, s h u, … 13 VSOC Social Các ng t v ho t ng xã h i: b u c%, t i vì, … 0112274 – Ph m Th M Ph ng - 141 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc VSTA 14 Stative Các ng t v tr ng thái, quan h không gian 15 VWEA Weather Các ng t v th i ti t: m a, t, s#m, … B ng 14: Nhãn ng ngh a c b n cho 3.3 ng t Nhãn ng% ngh!a c b n cho tính t": STT Nhãn Mơ t Ý ngh a ACOL Color Các tính t v màu s c: 2, xanh, … ASIZ Size Các tính t v kích th ATME Time Các tính t thu c v th i gian: lâu, mau, c: tròn, d t, … … ASPC Space Các tính t thu c v khơng gian: l n, nh2, dài, … ASTR Strength Các tính t v s c m nh: m nh, y u, … ADEG Degree Các tính t v m c AFEA Feature Các tính t v : nhi u, ít, … "c i m, n i dung: khó, hay, … AREF Reference Các tính t b ngh a s ch&: former (president) AREL Relation Các tính t quan h : Vietnamese (war) B ng 15 : Nhãn ng ngh a c b n cho tính t 3.4 H& th ng nhãn ng% ngh!a LDOCE Mã ng ngh a c b n STT A Con v t Mã ng ngh a phát sinh E Ch#t r n/ l2ng (S + (animal) B 0112274 – Ph m Th M Ph Con v t ng - 142 - L) K Ng i/con v t 0112398 – T Th Ng c Thanh c tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc (female animal) C (D +M) V t c! th O Ng (concrete) D + H) Con v t c R Ng (male animal) F Ng in G Khí (gas) i/con v t (B + F) U (female human) i/ v t (A T p h p ng i/con v t (Col + O) V Th c v t/ v t (P + A) H Ng i (human) W V t tr u t ng/c! th (T + I) I V t c! th X khơng có s s ng J V t r n di chu4ên 10 L V t tr u t ng Y c Ng Ng N i nam ( Tr u t P Th c v t ( Q c plant) 14 ng/ ch#t r n ( T + S) V t r n không di chuy n 13 i /ch#t r n ( H + S) male human) 12 ng/ có s s ng (T + Q) Ch#t l2ng M i (T + H) V t tr u t (liquid) 11 ng/ Ch#t l2ng/ tr u t ng (L + T) Ch#t khí/ ch#t l2ng (G + L) Có s s ng (animate) 15 S 16 Ch#t r n (solid) T Tr u t ng (abstract) 0112274 – Ph m Th M Ph ng - 143 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Z 17 Không ánh d#u (unmarked) 18 V t th tr u t 19 ng (abs physic) Ch#t h u c ( organic material) B ng 16: H& th ng nhãn ng% ngh!a LDOCE H& c s$ tri th'c ng% ngh!a t" v#ng WordNet 4.1 Tr H& th ng nhãn ng% ngh!a c a danh t": c h t, ta s* tìm hi u nh ng h n ch cách l u tr thông tin v ng ngh a c$a danh t t i n thơng th ng, t ó, m i th#y nh ng u th c$a WordNet cách l u tr , truy xu#t, c p nh t thơng tin ó 4.1.1 T ch'c c a danh t" t" i6n thông th 7ng: Khi ta tra m t danh t ó t nh ng l i gi i thích có v, i n thông th ng, ta s* nh n y $ Ví d!, tra t “tree” (cây), ta s* nh n c c nh ngh a “tree is a plant that is large, woody, perennial and has a distinct trunk” ( m t th c v t mà có thân, s ng lâu n m, có g , kích th có ki n th c ph thơng, có th ch#p nh n c l n) i v i nh ng ng i nh ngh a Nh ng n u mu n bi t sâu h n nh “cây có r-, có t bào xen – lu – lơ, t ch c có s s ng, …” ta c n ph i tra ng ngh a c$a t “plant”, nhiên tra t “plant”, ta s* nh n c hai l i gi i thích hồn tồn khác nhau: m t dành cho ngh a “nhà máy” m t dành cho ngh a “th c v t” Câu h2i "t là, mu n truy xu#t t ngh a nào? ây h n ch c$a t Các t (structure), i n thơng th i n thơng th ng ng ch$ y u thi u thông tin mang tính c#u trúc nh ngh a c$a ch& mang thơng tin có tính d t ch c theo v n abc, nên không th ch a 0112274 – Ph m Th M Ph ng ng, máy tính s* ch n - 144 - ki n (fact), cách m i t m i thơng tin có liên quan 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc nh ngh a c$a c, làm nh v y s* trùng l p thơng tin, kích th c c$a t i n s* vơ l n không kinh t Cu i cùng, m t khuy t i m l n nh#t mà h u h t t ph i, ó vi c i n thông th ng u g"p nh ngh a t Wb, r1i nh ngh a vòng tròn Ngh a là: dùng t Wa nh ngh a l i t Wa l i có ch l i dùng t Wb 4.1.2 T ch'c d% li&u danh t" WordNet Th#y c khuy t i m c$a t i n thông th ng, WordNet l u tr danh t thành m t h th ng phân c#p hình d a theo quan h h danh (hyponymy) th ng danh (hypernymy) Xu#t phát t g c m t ý ni m cha r#t t.ng quát, d a theo quan h th ng danh (hypernymy), t gi phân (nhánh) thành ý ni m c! th h n, r1i c/ng t ý ni m này, l i ti p t!c phân nh2 n a thành ý ni m chi ti t h n, c nh th n khơng cịn c n thi t phân chia n a (trung bình c ch!c c#p) nút t n ó (nút lá) danh t Ví d!, “cây s1i” (oak) m t loài “cây” (tree), “cây” m t loài “th c v t” (plant), “th c v t” m t loài “h u c ” (organism) Trong WordNet s* di-n t nh sau: oak @ → tree @ → plant @ → organism, v i ký hi u “@ →” cha, th hi n quan h h danh (hyponymy), hay g i quan h ISA quan h h danh quan h th c ký hi u “~ →” oak ( WordNet tr2 n nút il pv i ng danh (hypernymy) WordNet, quan h n nút con, ví d!: organism ~ → plant ~ → tree ~ → c l u tr d hyponymy m t cách t tr2 i d ng i n t%, nên WordNet ch& c n l u quan h ng minh, quan h hypernymy s* ct ng suy t quan h hyponymy) V i cách t ch c phân c#p nh trên, WordNet khơng c n l u m i tính ch#t c$a m i ý ni m (nút), mà ch& c n l u "c i m riêng c$a ý ni m ó mà thơi, cịn tính ch#t khác ct ng suy di-n t "c tính chung c k th a t ý ni m cha v i "c tính khác c$a ý ni m i u giúp cho WordNet kh c ph!c khuy t i m c$a t i n thông th ng (không l u trùng l p thông tin mà v n ch a y $ thông tin, ti t ki m không gian l u tr ) 0112274 – Ph m Th M Ph ng c - 145 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Ngoài ra, v i t ch c phân c#p có k th a nh trên, WordNet kh c ph!c c hi n t ng nh ngh a vịng quanh, khơng bao gi có hi n t ngh a t Wb, r1i Wb l i h ch& có m t chi u nh#t d i, i t t.ng th it d nh ngh a Wa Vì theo t ch c hình cây, m i lo i quan nh, ví d! quan h th ng danh, ch& có chi u t xu ng n chi ti t ( chun bi t hố), cịn quan h h danh ng i lên trên, i t chi ti t nh ng t Wa c l i: n t.ng th (t.ng qt hố) Tuy nhiên, khơng ph i m i thông tin v th gi i th c u c ni m c$a WordNet, nên th c t , ta c/ng khơng th có tri th c v th gi i th c c$a “cây” nh tri th c c$a ng i c l u ý y $ hồn tồn c Ví d!: WordNet khơng l u nh ng thông tin, nh : “cây” cho bóng mát, khơ có th làm c$i un, … Hi n nay, WordNet ch a liên k t “bác s ” v i “b nh vi n”, ch a th liên k t “v t”, “banh”, “l i”, … v i “sân ch i tennis” 4.1.3 Các ý ni&m nguyên thu2 (primitive semantic) Trong WordNet, ta có “gia ph ” c$a t “oak” nh sau: {oak} @→ {tree} @→ {plant, flora} @→ {organism, living thing} @→ {thing, entity} Nh v y, ý ni m {thing, entity} m t ý ni m g c, ý ni m cao nh#t, t.ng qt nh#t, v y ch+ng mang m t ý ngh a ( ó r#t chung chung) m i ý ni m WordNet u d n t i ý ni m g c ó ( u cháu c$a nó) Tuy nhiên, n u ta t ch c ý ni m danh t v i m t g c ý ni m nh#t s* n cho có kích th c r#t l n, vi c t ch c nhãn cho ý ni m ph i chi ti t h n tránh trùng Ví d!: gi a “plant” c$a ý ni m “th c v t” “plant” c$a ý ni m “nhà máy”, WordNet ph i dùng nhãn (d ng t ) khác phân bi t, h n n a, s gom v chung m t g c l n nh v y c/ng ch+ng có k th a c thơng tin ( ý ni m g c r#t chung chung, thơng tin) Chính v y mà WordNet ã phân thành 25 g c nh b ng d t Các g c c g i ý ni m nguyên thu4 M i nh v y i ây mô c l u thành m t t p tin riêng r* Chính v y, mà g"p nhãn “plant” (th c v t) nh trên, máy tính khơng nh0m l n v i “plant” có ngh a “nhà máy”, ý ni m mà ch a “tree” mà có ý ni m nguyên thu4 {plant} (th c v t) 0112274 – Ph m Th M Ph ng - 146 - c l u riêng bi t v i 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc ý ni m mà có ch a “plant” v i ngh a “nhà máy” (ý ni m c l u khác, mà có ý ni m nguyên thu4 {artifact}) Quan sát 25 ý ni m nguyên thu4 ó, ta th#y có m t s ý ni m có nh ng nét ngh a chung (ví d!: {animal}, {person}, {plant} u nh ng v t có s s ng), v y mà WordNet, nh ng ý ni m có chung nét ngh a nh v y s* nhóm v i t o thành c$a m t ý ni m cao h n Sau nhóm rút g n l i, WordNet ch& 11 ý ni m nguyên thu4 (nh ng ý ni m b ng d c in nghiêng i ây) Entity Organism Animal (súc v t) (th c th (v t có s Person (ng xúc s ng) ti p c) i) Plant (th c v t) Object (v t Artifact ( nhân t o) th không Natural object (v t th t nhiên) có s s ng) Substance (ch#t) Body (c th ) Food (th c n) Abstraction Attribute (thu c tính) ( t c tr u Quantity (s l ng) ng ) Relation (quan h ) Time (th i gian) Psychology Cognition (tri nh n) feature (v Feeling (c m giác) tâm lý) Motivation (tình c m) Natural phenomenon (hi n t t nhiên) ng Process (quá trình) Activity (ho t ng) Event (bi n c ) Group (nhóm ng i) Location (v trí ) Possession (s h u) 0112274 – Ph m Th M Ph ng - 147 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc Shape (hình d ng) State (tr ng thái) B ng 17:S phân l p danh t WordNet Các ý ni m b ng ây c g i nh ng ý ni m nguyên thu4 (primitive semantic component) T nh ng ý ni m nguyên thu4 này, WordNet ã xây d ng nên h th ng phân l p cho danh t theo quan h h danh (hyponymy) th ng danh (hypermyny) V i cách s p x p nh trên, th c t s% d!ng WordNet, tác gi th#y sâu c$a WordNet r#t c n (c 10 – 12 c#p) g n m t n%a s ý ni m ph i i qua ó, mang ý ngh a k thu t nhi u h n 4.1.4 c i6m riêng c a m=i ý ni&m h& phân c(p: Theo cách t ch c c$a WordNet, ý ni m k th a m t ý ni m cha, c n ph i có m t s "c tính riêng nh0m phân bi t v i ý ni m cha ý ni m anh em v i Các "c tính phân bi t g1m lo i, ví d! v i ý ni m {robin} (chim c 2), có lo i "c tính sau: Thu c tính (attributes), (n i v i tính t ) [ màu = 2, kích th c = nh2] B ph n (parts) (n i v i dnh t ) [m2, lông,cánh] Ch c n ng (functions) (n i v i T ng t ) = [hót, bay] ng t , ý ni m {canary} (chim vàng anh) c/ng c$a ý ni m {bird} (chim), có thu c tính [ màu = vàng, kích th c = nh2], có b ph n [ m2, lơng, cánh], có kh n ng [hót, bay, , tr ng] V y ta th#y gi a {robin} {canary} ( u lồi chim), có i m khác bi t v màu s c Nh v y, thơng tin c$a m t ý ni m thông tin k th a t ý ni m cha c n thêm "c tính riêng c$a V y ta có th nói synset {A} c$a synset {B} n u t#t c "c tính c$a synset {B} u có synset {A} Vì v y m t t thu c synset con, có th làm ti n trí t (antecendent) thay cho m t t thu c synset cha, hay có th thay cho m t ki n it i t c$a m t ng t v i i u ó thu c synset cha Ví d!: 0112274 – Ph m Th M Ph ng - 148 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc - Trong câu “Tôi a anh #y m t cu n ti u thuy t hay, nh ng cu n sách ó làm bu1n” Ta có cu n ti u thuy t ý ni m c$a ý ni m cu n sách, nên có th làm ti n trí t cho t cu n sách - Trong câu “Tôi u ng n c”, có th thay th t “u ng” b0ng b#t k3 i t mà thu c ý ni m c$a nó, nh : n 4.2 c ngot, n c trà, n i t “n ng t": ng t t lo i quan tr ng nh#t t b t bu c ph i có Hornby) D a ng c su i, … H& th ng nhãn ng% ngh!a c a ti ng Anh D a "c i m c$a c” c$a ng t , ta có th xác ng t , ta có th xác i v i m i câu nh c#u trúc c$a câu (A.S nh vai câu (Fillmore) S l ng ng t ti ng Anh ch& b0ng 1/3 s l ng danh t , m c ng t l i cao h n (trung bình m t ng t có 2.11 ngh a, cịn danh t có 1.74 ngh a) Ngh a c$a ng t r#t uy n chuy n, linh n WordNet chia hành m h1 ngh a c$a ng theo danh t có liên quan ng t thành 15 nhóm ( trên) ch& bi n c (event), ng (action) hay tr ng thái (state) khác d a theo s phân chia v m"t ng ngh a, nh : nhóm ng t ch ch c n ng vi c ch m sóc c th , s nh n th c, quan h xã h i, … Vi c xây d ng t p 1ng ngh a (synset) cho h n so v i danh t khó xác ng t nh t ng t c/ng g"p nhi u khó kh n 1ng ngh a Ta th#y ti ng Anh có m t s 1ng ngh a, nh : begin – commence (b t u), end – terminate (k t thúc), buy – purchase (mua), hide – conceal (gi#u), … nh ng th c ch#t vi c dùng l n l n ng t 1ng ngh a không ph i lúc c/ng úng Ví d!: ng “Where have you hidden Dad’s slippers?” (Anh gi#u dép c$a Dad i ta th ng nói âu?) ch khơng nói “Where have you concealed Dad’s slippers?” Vi c bi u di-n ng ngh a t ch c ng t i u khó kh n nh#t so v i t lo i khác Có r#t nhi u cách ti p c n khác ch$ y u phân rã ng ngh a s cách phân gi i ng ngh a 0112274 – Ph m Th M Ph bi u di-n ng ngh a c$a ng t , ng t thành d ng hay d ng khác Sau ây m t ng t ng - 149 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc 4.2.1 S# phân gi i ng% ngh!a c a H u h t cách ti p c n ngh a ng t": i v i ng ngh a ng t c g ng phân gi i ng ng t thành m t s h u h n thành ph n ý ni m – ng ngh a ph quát (universal semantic – conceptial components), hay g i ý ni m nguyên thu4, nguyên t , s kh i, v t nguyên t%, danh t ánh d#u (noun marker), ví d!: “kill” (gi t) = {CAUSE TO BECOME NOT ALIVE} (gây s d n Cách ti p c n ã nh n c nhi u ý ki n khác nhau, có ng Lakoff, Jackendoff, Schank, Miller) nh ng c/ng có ng h p (Chomsky m t s ng n khơng s ng) i 1ng tình (Katz, i cho khơng thích i khác) S phân tích ng ngh a quan h c$a c$a i ph n ng t ng t khác v i s phân gi i ng ngh a ng t S phân gi i ng ngh a ch$ y u d a ý ni m c s ( n v ng ngh a nh2 nh#t), cịn s phân tích ng ngh a quan h l i d a vào ý ni m c n b n ã hình thành u óc c$a ng i Ví d!: nh quan h CAUSE (nguyên nhân) liên k t c"p ng t teach (d y) – learn (h c), show (ch&) – see (th#y), d a quan h c/ng giúp ta phân bi t m t cách có h th ng tha verb) t ng t (transitive ng t (intransitive verb) 4.2.2 Quan h& kéo theo c a Trong WordNet, m i t lo i ng t": c t ch c d a theo m t quan h ó, ví d!: danh t d a theo quan h h danh (hyponymy), tính t d a theo quan h ph n ngh a (antonymy), cịn ng t d a vào quan h kéo theo (entialment) Gi a quan h kéo theo có ph n ó gi ng quan h b ph n (meronymy), nh ng khơng thích h p cho ý ngh a V1 b ph n c$a V2 gi ng nh bên danh t Ví d!: ta th% xét có ph i “thinking” (s suy ngh ) m t b ph n c$a “planning” (vi c ho ch nh) hay không? Nh ng nhi u ng i cho r0ng ng t không th phân chia b ph n gi ng nh danh t vì: danh t b ph n c$a danh t (referent) c! th , phân bi t ó bên Ngoài ra, quan h gi a ng t khơng u có s ch& v t c rõ ràng nh v y ng t ph! thu c vào th i gian th c hi n, x y hành ng, bi n c (bên danh t : quan h b ph n không ph! thu c vào th i gian) M t 0112274 – Ph m Th M Ph ng - 150 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc hành ng hay bi n c c g i m t b ph n c$a m t hành ng hay bi n c khác ch& m t ph n, m t giai o n trình th c hi n c$a hành Tóm l i, qua quan sát tr ng trên, ta rút nh n ng nh sau: n u V1 kéo theo V2 n u th i gian di n V1 n m hay bao hàm th i gian di n V2 gi a V1 V2 có quan h b ph n – tồn th (part – whole) 4.2.3 Quan h& cách th'c c bi&t c a ng t": Trong WordNet, quan h h danh (hyponymy) óng vai trị vi c t ch c danh t , ví d!: “canary” (chim vàng anh) m t lo i (h danh c$a) “bird” (chim), nh ng iv i ng t , ta th#y khơng thích h p n u nói “limp” ( i kh p khi-ng) m t lo i c$a “walk” ( i b ) i u do: s khác bi t ng ngh a gi a ng t khác v i nh ng "c tr ng phân bi t gi a danh t quan h h danh Trong vi c xem xét quan h “h danh” c$a không tr n gi n nh danh t , mà liên quan ng t , ng i ta nh n th#y n s cân nh c t& m& v ng ngh a ng ngh a (semantic field) khác Ví d!: phân tích ng: “slide” (tr t) “pull” (kéo), ng i ta nh n th#y r0ng chúng m t s k t h p khác gi a nét ngh a MOVE (chuy n ng) v i nét ngh a MANNER (cách th c) Chính v y, mà WordNet, ã s% d!ng m t quan h m i, cách th c (troponymy) ng t chuy n c g i quan h di-n t “V1 V2 v i cách th c "c bi t”, ví d!: “limp” ( i kh p khi-ng) có quan h cách th c v i "c bi t v i “walk” ( i b ) “ i kh p khi-ng m t cách th c i b cách th c ng, hành "c bi t” Cách th c "c bi t ph i ng, mà cịn có th ý x y bi n c , nh, c hi u r ng không ch& ng c , môi tr ng, … hành hình thành tr ng thái Trong m i quan h cách th c "c bi t, gi a ng t V1 c$a m t ng t V2 t.ng quát h n, bao gi c/ng có quan h V1 c/ng kéo theo V2 Ví d! nh : di-n hành ng “ i kh p khi-ng” hi n nhiên lúc ó c/ng ph i di-n ang di-n hành ng “ i b ” Vì v y, ta có th nói: quan h cách th c h p c bi t (troponymy) m t tr ng c bi t c a quan h kéo theo (entailment) M t quan h kéo theo mà ó th i gian di-n hành 0112274 – Ph m Th M Ph ng c$a ng ng t trùng Còn gi a hai - 151 - ng t “buy/ 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc pay” hay “snore/ sleep” ch& quan h kéo theo mà thơi ch khơng có quan h cách th c "c bi t (vì th i gian di-n c$a hành 0112274 – Ph m Th M Ph ng - 152 - ng không trùng nhau) 0112398 – T Th Ng c Thanh ... c$a lu n v n: - M r ng tìm ki m t#t c l nh v c - Tìm ki m nhi u ontology, phân lo i ontology - Th c s tìm ki m online - 7ng d!ng cho Ti ng Vi t 01122 74 – Ph m Th M Ph ng - 119 - 0112398 – T Th... s h u, … 13 VSOC Social Các ng t v ho t ng xã h i: b u c%, t i vì, … 01122 74 – Ph m Th M Ph ng - 141 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng l nh v c eDoc VSTA 14 Stative Các... ph n 41 PSY Psychological Thu c tính tâm lý 42 QUD Definite quantity il ng h u h n 43 QUI Indefinite quantity il ng vô h n 44 REL Relation Quan h 45 SOL Solid Th r n 46 SPC Space Không gian 47

Ngày đăng: 12/08/2014, 10:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan