Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1 potx

40 251 0
Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1 potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép IC M N Chúng em xin g i l i c m n chân thành nh t n tình h ng d n, giúp n th y H B o Qu c, ng i ã chúng em su t th i gian th c hi n lu n v n Chúng c m n Cha, M gia ình, nh ng ng i ã d y d , khuy n khích, ng viên chúng nh ng lúc khó kh n, t o m i u ki n cho chúng nghiên c u h c t p Chúng em c m n th y, cô khoa Công Ngh Thơng Tin ã dìu d t, gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu nh ng n m h c qua m n ch Lê Thúy Ng c b n ã t n tình óng góp ý ki n cho lu n v n a c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót, mong nh n c s thơng c m góp ý c a th y b n Tháng n m 2005 Sinh viên Nguy n Th Thanh Hà – Nguy n Trung Hi u Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép NH N XÉT C A GIÁO VIÊN H NG D N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép NH N XÉT C A GIÁO VIÊN PH N BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép CL C DANH SÁCH CÁC B NG DANH SÁCH CÁC HÌNH V Ph n : TÌM HI U LÝ THUY T 11 Ch ng 1: T NG QUAN V TÌM KI M THƠNG TIN 11 Gi i thi u v tìm ki m thông tin 11 1.1 Khái ni m v tìm ki m thơng tin 11 1.2 M t s v n vi c tìm ki m thông tin: .11 H tìm ki m thơng tin – IRS 12 Các thành ph n c a m t h tìm ki m thông tin [1.1] 13 So sánh IRS v i h th ng thông tin khác 14 4.1 H qu n tr c s d li u (DBMS) 15 4.2 H qu n lý thông tin (IMS) 15 4.3 H h tr quy t nh (DSS) 16 4.4 H tr l i câu h i (QAS) 16 4.5 So sánh IRS v i h th ng thông tin khác 17 Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THƠNG TIN 18 Ki n trúc c a h tìm ki m thông tin [1.3] 18 M t s mơ hình xây d ng m t h tìm ki m thơng tin [1.2] 19 2.1 Mơ hình khơng gian vector 19 2.2 Tìm ki m Boolean .21 2.3 Tìm ki m Boolean m r ng .22 2.4 M r ng vi c thêm vào tr ng s c a câu h i .23 2.4.1 M r ng cho s t tu ý 23 2.4.2 Thêm toán t t ng 24 2.5 Mơ hình xác su t 24 2.6 ánh giá chung v mơ hình 25 Các b c xây d ng m t h tìm ki m thơng tin [3.2] 25 3.1 Tách t t ng cho t p tài li u 25 3.2 L p ch m c cho tài li u .25 3.3 Tìm ki m 26 3.4 S p x p tài li u tr v (Ranking) 26 Nh ng khó kh n vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t .26 4.1 Khó kh n vi c tách t ti ng Vi t .27 4.2 V n b ng mã ti ng Vi t 27 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 4.3 Các khó kh n khác .27 Ch ng 3: TÁCH T T NG 29 Tách t Ti ng Anh 29 Tách t Ti ng Vi t 29 2.1 M t s c m v t ti ng Vi t [2.2] 29 2.1.1 Ti ng 29 2.1.2 T .30 2.2 Tách t t ng ti ng Vi t 30 Các ph ng pháp tách t ti ng Vi t .30 3.1 fnTBL (Fast Transformation-based learning) [3.1] 30 3.1.1 Mô t 30 3.1.2 Áp d ng tách t ti ng Vi t 31 3.2 Longest Matching [1.4] 37 3.3 K t h p gi a fnTBL Longest Matching .37 Ch ng 4: L P CH M C 38 Khái quát v h th ng l p ch m c 38 Ph ng pháp l p ch m c [1.1] 38 2.1 Xác nh t ch m c 38 2.2 Các ph ng pháp tính tr ng s c a t 40 2.2.1 T n s tài li u ngh ch o 40 2.2.2 nhi u tín hi u (The Signal – Noise Ratio) 40 2.2.3 Giá tr phân bi t t (The Term Discrimination Value) 42 2.3 L p ch m c t ng cho tài li u ti ng Anh 43 L p ch m c cho tài li u ti ng Vi t 45 T p tin ngh ch o tài li u .46 4.1 Phân bi t gi a t p tin ngh ch o t p tin tr c ti p 46 4.2 T i s d ng t p tin ngh ch o l p ch m c .47 Ph n : PHÂN TÍCH VÀ THI T K 49 Ch ng 5: PHÂN TÍCH .49 S UseCase h th ng 49 S L p 51 2.1 S l p th hi n 51 2.2 S l p x lý 52 Tách t 53 3.1 S UseCase 53 3.2 S Tu n t 53 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 3.3 S C ng tác 54 3.4 S L p 54 L p ch m c 55 4.1 S UseCase 55 4.2 S Tu n t 56 4.2.1 T o m i ch m c 56 4.2.2 C p nh t ch m c .57 4.3 S C ng tác 58 4.3.1 T o m i ch m c 58 4.3.2 C p nh t ch m c .59 4.4 S L p 60 Tìm ki m .61 5.1 S UseCase 61 5.2 S Tu n t 61 5.3 S C ng tác 62 5.4 S L p 63 Ch ng 6: THI T K VÀ CÀI T 64 C u trúc l u tr d li u 64 1.1 T p tin l u n i dung tài li u .64 1.1.1 C u trúc DTD / XSD 64 1.1.2 Tài li u XML 66 1.2 T p tin sau tách t tài li u 67 1.2.1 C u trúc DTD / XSD 67 1.2.2 Tài li u XML 68 1.3 T p tin ch a t không th hi n n i dung c a v n b n (stop list) 70 1.3.1 C u trúc DTD / XSD 70 1.3.2 Tài li u XML 71 1.4 T p tin ch m c o ( Inverted ) 71 1.4.1 C u trúc DTD / XSD 71 1.4.2 Tài li u XML 73 1.5 T p tin sau tách t câu h i 74 1.5.1 C u trúc DTD / XSD 74 1.5.2 Tài li u XML 75 1.6 T p tin ch a t c a câu h i sau lo i b t danh sách StopList 76 1.6.1 C u trúc DTD / XSD 76 1.6.2 Tài li u XML 77 1.7 T p tin ch a t câu h i tài li u liên quan 77 1.7.1 C u trúc DTD / XSD 77 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 1.7.2 Tài li u XML 79 1.8 T p tin ch a t ng quan gi a câu h i tài li u .80 1.8.1 C u trúc DTD / XSD 80 1.8.2 Tài li u XML 82 Chi ti t l p i t ng 83 2.1 Các l p trình tách t 83 2.1.1 S l p 83 2.1.2 L p tách t ghép 83 2.1.3 L p tách t 86 2.1.4 L p giao di n tách t 89 2.2 Các l p trình l p ch m c 91 2.2.1 S l p .91 2.2.2 L p l p ch m c 92 2.2.3 L p giao di n t o m i ch m c 94 2.2.4 L p giao di n c p nh t ch m c 96 2.3 Các l p trình tìm ki m 98 2.3.1 S l p .98 2.3.2 L p tìm ki m .99 2.3.3 L p giao di n tìm ki m 105 M t s hình giao di n khác 109 3.1 Màn hình c a ch ng trình 109 3.2 Màn hình tìm ki m nhi u câu h i 110 3.3 Màn hình tìm ki m ( giao di n Web) 112 3.4 Màn hình tr v tài li u tìm c ( giao di n Web) 113 3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web) 114 Ph n : T NG K T 115 Ch ng trình th nghi m 115 ánh giá k t qu t c 115 H ng phát tri n 116 TÀI LI U THAM KH O 117 Sách 117 Lu n v n 117 Website 117 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép DANH SÁCH CÁC B NG ng 1-1 So sánh IRS v i h th ng thông tin khác 17 ng 4-1 Cách t p tin ngh ch o l u tr .47 ng 4-2 Cách t p tin tr c ti p l u tr 47 ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o .48 ng 5-1 Danh sách Actor .50 ng 5-2 Danh sách UseCase 50 DANH SÁCH CÁC HÌNH V Hình 1-1 Mơi tr ng c a h tìm ki m thơng tin 13 Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin 14 Hình 2-1 H tìm ki m thơng tin tiêu bi u .18 Hình 3-1 Quá trình h c 35 Hình 3-2 Giai n xác nh t cho tài li u m i 36 Hình 4-1 Các t c s p theo th t 39 Hình 4-2 Quá trình ch n t làm ch m c 45 Hình 5-1 S Use-case c a h th ng 49 Hình 5-2 S l p th hi n 51 Hình 5-3 S l p x lý 52 Hình 5-4 S Use-case tách t 53 Hình 5-5 S tu n t tách t .53 Hình 5-6 S c ng tác tách t .54 Hình 5-7 S l p tách t .54 Hình 5-8 S use-case l p ch m c .55 Hình 5-9 S tu n t t o m i ch m c 56 Hình 5-10 S tu n t c p nh t ch m c 57 Hình 5-11 S c ng tác t o m i ch m c 58 Hình 5-12 S c ng tác c p nh t ch m c 59 Hình 5-13 S l p l p ch m c 60 Hình 5-14 S use-case tìm ki m .61 Hình 5-15 S tu n t tìm ki m 61 Hình 5-16 S c ng tác tìm ki m .62 Hình 5-17 S l p tìm ki m .63 Hình 6-1 S l p tách t .83 Hình 6-2 L p tách t ghép 83 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Hình 6-3 L p tách t .86 Hình 6-4 L p giao di n tách t 89 Hình 6-5 Màn hình tách t .89 Hình 6-6 Màn hình chi ti t tách t 90 Hình 6-7 S l p l p ch m c .91 Hình 6-8 L p l p ch m c 92 Hình 6-9 L p giao di n t o m i ch m c 94 Hình 6-10 Màn hình t o m i ch m c 95 Hình 6-11 L p Màn hình c p nh t ch m c 96 Hình 6-12 Màn hình c p nh t ch m c 97 Hình 6-13 S l p tìm ki m .98 Hình 6-14 L p x lý tìm ki m .99 Hình 6-15 L p giao di n tìm ki m .105 Hình 6-16 Màn hình tìm ki m .106 Hình 6-17 Xem t khóa câu h i 106 Hình 6-18 Xem t khóa tài li u 107 Hình 6-19 Màn hình 109 Hình 6-20 Màn hình tìm ki m nhi u câu h i 110 Hình 6-21 Giao di n tìm ki m Web 112 Hình 6-22 Giao di n tài li u tr v sau tìm ki m 113 Hình 6-23 Giao di n chi ti t n i dung c a tài li u 114 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép U Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr máy tính ngày nhi u ó vi c tìm ki m thơng tin xác nhu c u thi t y u i m i ng i i m i l nh v c Internet hi n ã tr thành m t kho t li u kh ng mà vi c tìm ki m thơng tin kho t li u c n ph i c h tr b i cơng c tìm ki m (search engine) t t Các h th ng tìm ki m thơng tin thông d ng nh Google, Yahoo Search ã áp ng th ng c xây d ng c ph n nhu c u ó c a m i ng i Tuy nhiên, h x lý tìm ki m v n b n ti ng Châu Âu, chúng ch a th t s phù h p cho v n b n ti ng Vi t Do ó nhu c u ph i có m t công c tìm ki m “hi u” x lý t t v n b n tí ng Vi t Các h tìm ki m thơng tin cho v n b n n Giai ngôn ng u ph i th c hi n giai n l p ch m c (indexing) trích t ch m c (index term) bi u di n t t nh t n i dung c a v n n ph thu c vào ngôn ng c a v n b n ph ng pháp x lý t ng ó Hi n ch a có nhi u h th ng tìm ki m thông tin kho tài li u ti ng Vi t có khai thác c tr ng c a ti ng Vi t cho vi c l p ch m c Vì v y m c tiêu c a lu n v n nh m xây d ng m t h th ng tìm ki m thơng tin b ng ti ng Vi t có s d ng k t qu c a x lý ngôn ng t nhiên t nh ng xác c ch m c t (word) hay t ghép (compound word) c a ti ng Vi t Nguy n Th Thanh Hà - 0112215 10 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép vào danh sách g i stop list i v i ti ng Anh hay ti ng Vi t list Chi ti t v trình l p ch m c s c mơ t ch u có danh sách stop ng IV: L p ch m c 3.3 Tìm ki m Ng ng s i dùng nh p câu h i yêu c u tìm ki m, câu h i mà ng c x lý, ngh a ta s tách t cho câu h i Ph ng nên ph ng pháp tách t cho câu h i ng pháp tách t cho tài li u thu th p c thích Sau ó, h th ng s tìm ki m t p tin ch m c quan n câu h i c a ng 3.4 i dùng nh p vào mb os t xác ng nh tài li u liên i dùng p x p tài li u tr v (Ranking) Các tài li u sau ã xác nh liên quan n câu h i c a ng p x p l i, b i tài li u ó có nh ng tài li u liên quan n H th ng s d a vào m t s ph ng pháp nh t, s p x p l i (ranking) tr v cho ng xác i dùng s c n câu h i nhi u nh tài li u liên quan nhi u i dùng theo th t u tiên Nh ng khó kh n vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t Hi n nay, ã quen thu c v i r t nhi u cơng c h tr vi c tìm ki m thông tin nh Google, Yahoo Search, AltaVista, … Tuy nhiên, ây công c c a ng in c nên chúng ch gi i quy t t t ng có m t s cơng c h tr i v i yêu c u c a h Chúng ta tìm ki m thơng tin ti ng Vi t nh : Vinaseek, NetNam,…Các công c c ng tách t ch y u d a vào kho ng tr ng nên vi c tìm ki m c ng ch a c c i thi n Nhìn chung, Nguy n Th Thanh Hà - 0112215 26 xây d ng m t h th ng tìm ki m thông Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép tin ti ng Vi t, g p khó kh n vi c tách t ti ng Vi t xác nh b ng mã ti ng Vi t 4.1 Khó kh n vi c tách t ti ng Vi t Có th nói tách t giai thơng tin ti ng Vi t tr ng i v i ti ng Anh, vi c xác tách t Ví d , câu: “I am a student” s Tuy nhiên, th n khó kh n nh t xây d ng m t h tìm ki m nh t ch n gi n d a vào kho ng c tách thành t : I, am, a, student i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c ti ng T có c ghép t m t hay nhi u ti ng T ph i có ý ngh a hồn ch nh có c u t o n nh Câu: “Tôi m t sinh viên” ó, t “sinh viên” c tách thành t : Tôi, là, m t, sinh viên Trong c hình thành t ti ng: sinh viên Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t Tuy nhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph xác 100% Và vi c l a ch n ph ng pháp t c ng pháp t t nh t c ng ang v n tranh cãi 4.2 n b ng mã ti ng Vi t Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý M t công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ng mã (VNI, TCVN3, ViQR,…) 4.3 Các khó kh n khác Ø Ti ng Vi t có t tr vi c xác ng ngh a nh ng khác âm Các công c hi n không nh t Nguy n Th Thanh Hà - 0112215 ng ngh a Vì v y, k t qu tr v s không 27 y Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ø Ng c l i, có nh ng t có ch a t ã ng âm khác ngh a Các h th ng s tr v tài li u c tách câu h i mà không c n xác nh chúng có th c liên quan hay khơng Vì v y, k t qu tr v s khơng xác Ø t s t xu t hi n r t nhi u nh ng khơng có ý ngh a tài li u Các t nh : và, v i, nh ng,… có t n s xu t hi n r t l n b t c v n b n N u tìm cách tr v tài li u có ch a nh ng t s thu c k t qu vô ích, khơng n thi t Do ó, c n tìm cách lo i b t tr Nguy n Th Thanh Hà - 0112215 28 c tìm ki m Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ch Tr ng 3: TÁCH T c l p ch m c giai tách t Nh ng c ti ng Vi t ngôn ng i v i ti ng Anh ch n gi n d a vào i v i ti ng Vi t không th d a vào kho ng tr ng n l p Hi n nay, có r t nhi u ph nh ng v n ch a th ng nh t ph ti t v m t s ph NG n tách t cho tài li u, ây công vi c quan tr ng m t h th ng tìm ki m thông tin kho ng tr ng T ng pháp c xu t tách t cho ti ng Vi t, ng pháp t t nh t Ch ng s trình bày chi ng pháp tách t Tách t Ti ng Anh Do tr ng c m ng pháp c a ti ng Anh, tách t ch n gi n d a vào kho ng phân bi t t Tách t Ti ng Vi t 2.1 ts c m v t ti ng Vi t [2.2] 2.1.1 Ti ng m t ng âm, ti ng âm ti t Âm ti t bao g m nh ng âm v M i âm v nv b c th p h n g i c ghi b ng m t ký t g i ch Nguy n Th Thanh Hà - 0112215 29 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép m t ng ngh a, ti ng n v nh nh t có ngh a, nh ng c ng có m t s ti ng khơng có ngh a giá tr ng pháp, ti ng hai tr Ø n v c u t o t S d ng ti ng t o thành t , ta có ng h p nh sau: m t ti ng: g i t n Tr ng h p m t t ch có m t ti ng Ví d nh : ơng, bà, … Ø hai ti ng tr lên: g i t ph c Tr ng h p m t t có th có hai hay nhi u ti ng tr lên Ví d nh : xã h i, an ninh, h p tác xã,… 2.1.2 n v nh nh t t o thành câu Trong t câu, dùng t ch không dùng ti ng 2.2 Tách t t Tách t t ng ti ng Vi t ng ti ng Vi t d a m t s ph ta s nghiên c u m t s ph ng pháp c s d ng ng pháp có s n Sau ây chúng tách t cho v n b n ti ng Vi t Các ph ng pháp tách t ti ng Vi t 3.1 fnTBL (Fast Transformation-based learning) [3.1] 3.1.1 Mô t Nguy n Th Thanh Hà - 0112215 30 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép Ýt ng c a ph tv n ng pháp h c d a s bi n ó ta s áp d ng phép bi n t qu t t nh t s c ch n thúc khơng cịn phép bi n i, t i m i b c áp d ng l i v i v n i i (TBL) gi i quy t c, phép bi n i cho ã a Thu t toán k t c ch n H th ng fnTBL g m hai t p tin chính: Ø p tin d li u h c (Training): T p tin d li u h c xác M i m u (template) li u h c cho vi c xác c c làm th cơng, ịi h i t m t dịng riêng bi t Ví d : t p nh t lo i c a m t v n b n có th có nh d ng nh sau: Công ty danhtu An ông danhturieng dongtu giám sát dongtu Trong ví d m i m u g m có hai ph n: ph n hai t lo i t Ø u tiên t , ph n th ng ng p tin ch a m u lu t (rule-template): M i lu t th ng fTBL s d a vào m u lu t c t m t dòng, h áp d ng vào t p tin d li u h c Ví d : chunk_-2 chunk_-1 => chunk Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , chunk_- 1= s t , chunk=danh t lu t có ý ngh a nh sau: n u hai t tr c ó ng t s t chuy n t lo i hi n hành thành danh t 3.1.2 Áp d ng tách t ti ng Vi t Nguy n Th Thanh Hà - 0112215 31 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Sau nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph tách t cho ti ng Vi t, ch c n thay Ø Xây d ng t p tin d li u h c: im ts ng pháp nh d ng cho phù h p p tin d li u cho vi c tách t ti ng Vi t có d ng nh sau: Vì B B cơng B ty I Vi t B Hà I B tB vào B tình B tr ng I … Các ký t B, I g i chunk có ý ngh a nh sau: Ti ng có chunk=B ngh a ti ng ó b t u m t t (begin) Ti ng có chunk=I ngh a ti ng ó n m m t t (inside) Trong ví d trên, ta có c t : Vì, sao, cơng ty, Vi t Hà, b , t, vào, tình tr ng, … Ø Xây d ng t p tin ch a m u lu t: Sau tìm hi u v t ti ng Vi t, chúng em xây d ng c lu t áp d ng cho vi c tách t ti ng Vi t nh sau: chunk_0 word_0 => chunk Nguy n Th Thanh Hà - 0112215 32 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép chunk_0 word_-1 word_0 => chunk chunk_0 word_0 word_1 => chunk 3.1.2.1 Quá trình h c (1) T t p d li u h c xây d ng t n t (2) Kh i t o t (3) Rút t p lu t b có t c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta s n ti ng (Lexicon) Các ti ng có th xu t hi n t v i chunk khác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i chunk t Ví d , ng ng i v i t “cơng ty” ti ng “cơng” có chunk=B nh ng t “c a cơng” ti ng cơng có chunk=I b c (2) t t p d li u h c, t o t p d li u h c chunk b ng cách xóa h t chunk t ng ng T p d li u m i s chunk thông d ng nh t d a vào t b kh i t o l i n c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào m u lu t ã cho, ta s rút c lu t ng viên, ng v i m i lu t ng viên ta l i áp d ng vào t p d li u ang xét tính m cho (d a vào s l i phát sinh so sánh v i p d li u h c t p d li u chu n) Ch n lu t có ng c s d ng ng cho tr c t qu ta s a vào danh sách lu t c m t t p lu t m cao nh t l n h n m t c ch n c ch n Các lu t có d ng nh sau: SCORE:414 RULE: chunk_0=B word_0=t => chunk=I SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I Nguy n Th Thanh Hà - 0112215 33 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I SCORE:231 RULE: chunk_0=B word_0= ng => chunk=I SCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I SCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I SCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=I SCORE:100 RULE: chunk_0=B word_0=th => chunk=I dịng ta có lu t: n u t hi n hành “công” (word_0=cơng) t tr c ó “c a” (word_-1=c a) chunk c a t hi n hành B ( chunk_0=B) chuy n chunk a t hi n hành I , ngh a “c a cơng” ph i m t t Tồn b trình h c Nguy n Th Thanh Hà - 0112215 c mô t nh sau: 34 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Hình 3-1 Quá trình h c 3.1.2.2 Xác (1) Tài li u m i nh t cho tài li u m i a vào ph i có nh d ng gi ng nh t p tin d li u h c, ngh a m i ti ng m t dòng (2) D a vào t n, gán chunk thông d ng nh t cho ti ng tài li u m i Nguy n Th Thanh Hà - 0112215 35 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép (3) Áp d ng lu t có c t giai n h c vào tài li u ang xét ta s tách c t hoàn ch nh Giai n xác nh t cho tài li u m i Hình 3-2 Giai Nguy n Th Thanh Hà - 0112215 n xác c mô t nh sau: nh t cho tài li u m i 36 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 3.2 Longest Matching [1.4] Ph ng pháp Longest Matching tách t d a vào t Theo ph ng pháp này, n có s n tách t ti ng Vi t ta i t trái sang ph i ch n t có nhi u âm ti t nh t mà có m t t câu V i cách này, ta d dàng tách n, r i c ti p t c cho t k ti p cho nh t c xác ng /câu nh : ”h p tác| mua bán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph tách t sai tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”, “tr c | bàn | m t | ly| n 3.3 c”,… t h p gi a fnTBL Longest Matching Chúng ta có th k t h p gi a hai ph có a ph ng pháp s c k t qu tách t t t nh t ng pháp s u tiên ta s tách t b ng Longest Matching, u vào cho ph Nguy n Th Thanh Hà - 0112215 ng pháp fnTBL Longest Matching u ng pháp fnTBL h c lu t 37 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ch P CH M C ng 4: Khái quát v h th ng l p ch m c t cách t ng t c tìm ki m thơng tin lên t o ch m c cho tài li u Tuy nhiên, vi c l p ch m c có m t nh c ph i c p nh t l i t p tin ch m c Nh ng m l n, ó thêm m t tài li u m i, i v i h th ng tìm ki m thông tin, ch c n p nh t l i t p tin ch m c vào m t kho ng th i gian nh k Do ó, ch m c m t cơng c r t có giá tr p ch m c bao g m công vi c sau: Ø Xác Ø nh t có kh n ng i di n cho n i dung c a tài li u ánh tr ng s cho t này, tr ng s ph n ánh t m quan tr ng c a t m t tài li u Ph ng pháp l p ch m c [1.1] 2.1 Xác Ø nh t ch m c Cho m t t p g m có n tài li u V i m i tài li u, tính t n s c a m i t riêng bi t tài li u ó G i FREQik: t n s xu t hi n c a t k tài li u i Ø Xác nh t n s c a t k t p tài li u, ký hi u TOTFREQk b ng cách tính t ng t n s xu t hi n c a k t t c n tài li u: Nguy n Th Thanh Hà - 0112215 38 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép n TOTFREQK = ∑ FREQ ik i=1 Ø li u Xác p x p t gi m d n d a vào t n s xu t hi n c a t p tài nh giá tr ng ng cao lo i b t t c t có t n s xu t hi n l n h n giá tr Ø ng t , lo i b t có t n s th p Ngh a là, xác lo i b t t c t có t n s xu t hi n nh h n giá tr nh ng ng th p u s lo i b xu t hi n t p tài li u, nên s có m t c a t c ng không nh h ng n vi c th c hi n truy v n Ø Các t có t n s xu t hi n trung bình cịn l i s c s d ng làm t ch c Hình 4-1 Các t Nguy n Th Thanh Hà - 0112215 c s p theo th t 39 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 2.2 Các ph ng pháp tính tr ng s c a t Tr ng s c a m t t ph n ánh t m quan tr ng c a t m t t xu t hi n th ó tài li u Ý t ng ng xuyên t t c tài li u quan tr ng h n ch xu t hi n t p trung m t s tài li u 2.2.1 n s tài li u ngh ch ây ph o ng pháp tính tr ng s mà mơ hình khơng gian vector ã s d ng tính tr ng s c a t tài li u n: s t phân bi t t p tài li u FREQik : s l n xu t hi n c a t k tài li u Di (t n s t ) DOCFREQk : s tài li u có ch a t k Khi ó, tr ng s c a t k tài li u Di c tính nh sau: WEIGHTik = FREQik * [log (n) – log (DOCFREQk)] Tr ng s c a t k tài li u Di t ng n u t n s xu t hi n c a t k tài li u i t ng gi m n u t ng s tài li u có ch a t k t ng 2.2.2 t quan nhi u tín hi u (The Signal – Noise Ratio) mt ng t c xem xét ó d a vào thông tin quan tr ng c a t Trong th c t , n i dung thông tin c a m t xác ánh giá t m n hay m t t có th nh d a vào xác su t xu t hi n c a t v n b n ã cho Rõ ràng, xác su t xu t hi n c a m t t cao thơng tin mà ch a i dung thơng tin c a m t t Nguy n Th Thanh Hà - 0112215 c xác 40 nh nh sau: Nguy n Trung Hi u - 0112216 ... 11 Ch ng 1: T NG QUAN V TÌM KI M THƠNG TIN 11 Gi i thi u v tìm ki m thơng tin 11 1. 1 Khái ni m v tìm ki m thông tin 11 1. 2 M t s v n vi c tìm ki m thơng tin: .11 H tìm. .. 11 7 Website 11 7 Nguy n Th Thanh Hà - 011 2 215 Nguy n Trung Hi u - 011 2 216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép DANH SÁCH CÁC B NG ng 1- 1 So sánh... 11 3 Hình 6-2 3 Giao di n chi ti t n i dung c a tài li u 11 4 Nguy n Th Thanh Hà - 011 2 215 Nguy n Trung Hi u - 011 2 216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép

Ngày đăng: 12/08/2014, 12:21

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan