Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép pot

38 345 0
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép pot

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép • XSD Nguy n Th Thanh Hà - 0112215 81 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 1.8.2 Tài li u XML Nguy n Th Thanh Hà - 0112215 82 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép Chi ti t l p it ng 2.1 Các l p trình tách t 2.1.1 l p Hình 6-1 S 2.1.2 l p tách t p tách t ghép Hình 6-2 L p tách t ghép p tách t ghép s có nhi m v tách m t v n b n thành t riêng bi t Nguy n Th Thanh Hà - 0112215 83 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép u vào m t chu i v n b n u m t chu i ch a t , m i t s cách i d u xu ng dòng ( ‘\r\n’ ) Ví d : chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t chu i u = “Thanh niên\r\nVN\r\n ng m i, t m nhìn m i.” ng l c\r\ncho\r\nnh ng\r\ný t ng\r\n i\r\nt m nhìn\r\nm i\r\n” 2.1.2.1 Ý ngh a c a bi n thành ph n: • ch : m ng ký t ch m,…) c bi t (d u ch m, d u ph y, ch m than, ch m h i, hai tách v n b n thành c m t • hVietnamese : b ng b m l u t t c t t n ti ng Vi t 2.1.2.2 Các hàm : - Hàm TachThanhCumTu( ) : tách chu i v n b n thành c m t d a vào kí t c bi t nh : d u ch m, ph y, ch m h i, ch m than… * Thu t toán : void TachThanhCumTu (chu i v n b n) { while(g p t c bi t u tiên chu i v n b n) { // C t ph n u thành m t c m t // Gán chu i v n b n thành ph n sau } } Nguy n Th Thanh Hà - 0112215 84 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ví d : chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.” tr v ta s có chu i c m t : chu i = “Thanh niên VN” chu i = “ ng l c cho nh ng ý t ng m i” chu i = “t m nhìn m i” - Hàm TachMangTieng( ) : tách m t c m t thành t ng ti ng d a vào kh ang tr ng * Thu t toán : void TachMangTieng(c m t ) { while(g p ký t kho ng tr ng u tiên c m t ) { // C t ph n u thành m t ti ng // Gán c m t thành ph n sau } } Ví d : chu i u vào = “ ng l c cho nh ng ý t ti ng = { ng m i” tr v m ng chu i ch a ng”;”l c”;”cho” “nh ng”;”ý”;”t ng”;”m i”} - Hàm XacDinhTu( ) : g p ti ng l i thành t , so sánh t n ti ng Vi t ta s l u l i t vào m ng t Nguy n Th Thanh Hà - 0112215 85 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép * Thu t toán : void XacDinhTu(m ng ti ng) { B1 : gán t = ti ng u tiên B2 : so sánh t có t B3 : n u t có t n hay khơng n có ti ng tr lên ta s l u l i B4 : N u m ng ti ng v n cịn t := t + ti ng ti p theo Ng c l i k t thúc hàm B5 : Quay l i B2 } i m ng ti ng c a ví d sau g i hàm ta s có m ng t nh sau: ng chu i t ={” 2.1.3 ng l c”;”cho” “nh ng”;”ý t ng”; ”m i”} p tách t Hình 6-3 L p tách t Nguy n Th Thanh Hà - 0112215 86 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép p tách t s có nhi m v t o t p tin v n b n Xml t t p tin v n b n g c, sau ó s trích t v n b n cu i l u l i t trích li u ch a t c v i tài ó thành t p tin Xml tách t 2.1.3.1 Ý ngh a c a bi n thành ph n: • ttg : it ng thu c l p CTachTuGhep 2.1.3.2 Các hàm : - Hàm TaoXML( ) : chuy n m t t p tin v n b n có c u trúc thành t p tin XML * Thu t toán : void TaoXML (t p tin v n b n) { T o t p tin Xml l u l i n i dung t p tin v n b n // D ch tr t p tin while(ch a h t t p tin v n b n) { B1 : tìm t khóa DOC l y ph n giá tr B2 : tìm t khóa TITLE l y ph n giá tr B3 : tìm t khóa AUTHOR l y ph n giá tr B4 : tìm t khóa DATE l y ph n giá tr B5 : tìm t khóa NEW l y ph n giá tr B6 : tìm t khóa CONTENT l y ph n giá tr l u l i ph n giá tr vào t p tin Xml Nguy n Th Thanh Hà - 0112215 87 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép }// ENDWHILE } - Hàm Tachtu( ) : c ph n n i dung c a t p tin XML v n b n dùng ng thu c l p CTachTuGhep i trích thành t * Thu t toán : string Tachtu (t p tin v n b n Xml) { - y ph n n i dung (CONTENT) t p tin Xml Dùng it ng c a l p tách t ghép tách t t qu tr v s m t m ng ch a t riêng bi t } - Hàm KetQuaToXmlWord( ) : t sau trích s c l u thành t p tin XML m i g i “t p tin sau tách t tài li u” * Thu t toán : void KetQuaToXmlWord(chu i ch a t ) { B1 : T o m t t p tin Xml B2 : Tách t ng t chu i B3 : Ki m tra t ó có l u t p tin Xml ch a ? o u ch a : l u t ó l u tài li u t o u r i : ki m tra tài li u ó ã ng ng c l u t ó ch a u ch a ta m i l u tài li u ó Nguy n Th Thanh Hà - 0112215 88 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép B4 : N u ch a h t chu i quay l i b c B5 : L u t p tin Xml l i } 2.1.4 p giao di n tách t Hình 6-4 L p giao di n tách t * Giao di n tách t : Hình 6-5 Màn hình tách t Nguy n Th Thanh Hà - 0112215 89 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép - Ng i dùng có th ch n ng d n t i t p tin v n b n c n tách t - ListBox1 ch a t p tin v n b n ng d n ã ch n - ListBox2 ch a t p tin v n b n c ch n - ListBox3 ch a t p tin xml ã c tách t - ListBox4 ch a DocID t p tin xml ã tách t c tách t Vì m t t p tin v n b n xml s ch a nhi u tài li u m i tài li u s có DocID Ng DocID ó i dùng có th ch n xem k t qu tách t t n s c a m i t tài li u ó Sau ch n m t DocID s có giao di n nh sau : Hình 6-6 Màn hình chi ti t tách t Nguy n Th Thanh Hà - 0112215 90 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép wqj = : N u t j có câu truy v n Q wqj = : N u t j khơng có câu truy v n Q Th c ch t ta ch c n c ng t ng quan t ng t khóa c a câu h i ta s có ng quan c a câu h i v i tài li u Ví d : t p tin TuongQuan.xml sau g i hàm TaoFileDoTuongQuan - Hàm TinhDoTuongQuan( ) : hàm nh m tính tài li u có liên quan t ng quan gi a câu h i n Trên th c t ta g i hàm v a nêu * Thu t toán : void TinhDoTuongQuan() { ThemDocVaWeight(); BoSungCacDocThieu(); TaoFileDoTuongQuan(); } Nguy n Th Thanh Hà - 0112215 104 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép 2.3.3 p giao di n tìm ki m Hình 6-15 L p giao di n tìm ki m 8.3.1 Ý ngh a c a bi n thành ph n : § Term : m ng chu i ch a t khóa c a câu h i § DocID : m ng chu i ch a DocID liên quan § Sim : m ng s th c ch a (DocID t t n câu h i ng quan c a câu h i v i tài li u ng ng) § Words : m ng s nguyên ch a s t c a câu h i có tài li u (DocID t ng ng) § n : t ng s tài li u liên quan § tk : it n câu h i ng c a l p x lý tìm ki m Nguy n Th Thanh Hà - 0112215 105 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép * Giao di n tìm ki m : Hình 6-16 Màn hình tìm ki m - Sau tìm ki m xong ng i s d ng có th xem t khóa c a câu h i Ví d v i câu i : an tồn giao thơng t i Tp HCM b n s có c t khóa nh sau : Hình 6-17 Xem t khóa câu h i Nguy n Th Thanh Hà - 0112215 106 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép - Xem t khóa c a tài li u : ngh a ng i s d ng ch n m t tài li u ó ch n ch c n ng xem t khóa tài li u h s th y t khóa ó xu t hi n v i t n s tr ng s t ng ng c a Hình 6-18 Xem t khóa tài li u 8.3.2 Các hàm c a l p : - Hàm TimKiem_Click( ) : hàm s dùng tách t câu h i r i tính t it ng c a l p x lý tìm ki m ng quan c a tài li u v i câu h i * Thu t toán : void TimKiem_Click() { CtimKiem tk = new CtimKiem; tk.TachTuCauHoi(câu h i) tk.LoaiBoSLCauHoi(câu h i); tk.TinhDoTuongQuan(); // Sau g i hàm ta s t o c t p tin TuongQuan.xml ta Nguy n Th Thanh Hà - 0112215 107 c t p tin TuongQuan.xml a vào m ng DocID, Sim, Words Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép SapXepUuTien(); HienThiTaiLieu(); } - Hàm s p x p u tiên : dùng gi i thu t InterchangeSort liên quan s p x p tài li u n câu h i nhi u nh t * Thu t toán : void SapXepUuTien () { // u tiên theo Words (s t c a câu h i tài li u) // u tiên theo Sim ( t ng quan c a tài li u v i câu h i) } - Hàm hi n th tài li u : ta s hi n th tài li u lên Form cho ng Nguy n Th Thanh Hà - 0112215 108 i dùng xem Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép t s hình giao di n khác 3.1 Màn hình c a ch ng trình Hình 6-19 Màn hình Ch ng trình s có ch c n ng : • Tách t : tách t tài li u • o m i ch m c : t o t p tin Inverted • p nh t ch m c : c p nh t thêm tài li u vào t p tin Inverted • Tìm ki m : gõ câu h i nh n tài li u tr v Nguy n Th Thanh Hà - 0112215 109 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép • Thốt : thóat h th ng ch ng trình 3.2 Màn hình tìm ki m nhi u câu h i Hình 6-20 Màn hình tìm ki m nhi u câu h i Các câu h i s c l u m t t p tin Xml theo c u trúc Ví d t p tin CauHoi.xml sau : kinh t tri th c Nguy n Th Thanh Hà - 0112215 110 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép án tham nh ng l n Nguy n Th Thanh Hà - 0112215 111 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 3.3 Màn hình tìm ki m ( giao di n Web) Hình 6-21 Giao di n tìm ki m Web Nguy n Th Thanh Hà - 0112215 112 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép 3.4 Màn hình tr v tài li u tìm c ( giao di n Web) Hình 6-22 Giao di n tài li u tr v sau tìm ki m Nguy n Th Thanh Hà - 0112215 113 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web) ` Hình 6-23 Giao di n chi ti t n i dung c a tài li u Nguy n Th Thanh Hà - 0112215 114 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép Ph n : Ch NG K T ng trình th nghi m th ng tìm ki m thơng tin ti ng Vi t (Search4VN) c cài u hình : Pentium IV, CPU 2.0 Ghz, b nh Ram 256 MB, li u c l p ch m c 13.000 tài li u t ng dung l a c ng 40 GB, s tài ng kho ng 35 MB L p ch m c cho toàn b d li u t o thành t p tin Inverted.xml có dung l Ch t máy có ng trình h tr d ng giao di n : giao di n Web ch cho ng ng 40 MB i s d ng tìm ki m, giao di n Window Application cho Admin s d ng, c hai giao di n phát tri n mơi tr t c Nhìn chung, lu n v n ã hoàn thành nh ng yêu c u Ø Nghiên c u c cách th c ho t ra: ng c a m t h th ng tìm ki m thơng tin c mơ hình xây d ng m t h tìm ki m thơng tin Ø Tìm hi u ph Ø Tìm hi u ph c ng Visual studio NET ánh giá k t qu Ø Tìm hi u u ng pháp tách t ng pháp l p ch m c cho tài li u Ø Áp d ng xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c có c u trúc th ng có m t s u m nh sau: Ø Tách t ti ng Vi t xác Ø Tham s hóa y u t liên quan Nguy n Th Thanh Hà - 0112215 n l p ch m c tra c u 115 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ø Tìm ki m nhanh Các tài li u tr v Ø Tóm t t c s p x p xác c n i dung tài li u tr v Ø Giao di n thân thi n, d s d ng Tuy nhiên, h th ng m t s khuy t Ø Ch a t ng l y m c n c i thi n: c tài li u m i gi ng nh m t h th ng Search Engine Ø Ch a h tr b gõ Ø Ch a h tr ch c n ng tìm ki m nâng cao ng phát tri n Ø Tìm hi u k t h p cơng c tách t cho k t qu tách t t t nh t Ø tr b gõ ti ng Vi t Ø tr ch c n ng tìm ki m nâng cao Ø ng t c c p nh t ch m c, tìm ki m Ø Thêm ch c n ng t ng l y tài li u c p nh t vào t p tin ch m c phát tri n thành m t trang Web tìm ki m cho ti ng Vi t Nguy n Th Thanh Hà - 0112215 116 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép TÀI LI U THAM KH O Sách [1.1] Gerard Salton/ Michael J.McGill; Introduction to Modern Information Retrieval [1.2] David A.Grossman/Ophir Frieder; Information Retrival: Algorithms and Heuristics [1.3] C.J van RIJSBERGEN Department of Computing Science University of Glassgow; Information Retrival [1.4] inh n; lý ngôn ng t nhiên Lu n v n [2.1] Thành Giang Lu n án th c s khoa h c Tìm hi u v cách xác xây d ng công c xác [2.2] Nguy n H i Quy n, L nh t lo i Giáo viên h nh t lo i ng d n : T.S H B o Qu c ng Th Hoàng Thuý Lu n v n c nhân tin h c o khoá cho v n b n ti ng Vi t GVHD: Chu T t Bích San [2.3] Lê Thúy Ng c, M Nhung Lu n v n c nhân tin h c Tìm hi u v Search Engine xây d ng ng d ng cho Search Engine ti ng Vi t Giáo viên ng d n : Th.S Nguy n Th Di m Tiên Website [3.1] http://nlp.cs.jhu.edu/~rflorian/fntbl/tbl-toolkit/ Nguy n Th Thanh Hà - 0112215 117 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép [3.2] http://www.dcs.gla.ac.uk [3.3] http://www.vinaseek.com [3.4] http://www.google.com [3.5] http://www.yahoo.com Nguy n Th Thanh Hà - 0112215 118 Nguy n Trung Hi u - 0112216 ... Trung Hi u - 0112216 Xây d ng h th ng t? ?m ki m th? ?ng tin ti ng Vi t d a ch m c t ghép * Thu t toán : void TachTuCauHoi (c? ?u h i) { CTachTuGhep ttg = new CTachTuGhep String str = ttg.TachTuGhep (c? ?u... c? ?ch th c ho t ra: ng c a m t h th ng t? ?m ki m th? ?ng tin c m? ? h? ?nh xây d ng m t h t? ?m ki m th? ?ng tin Ø T? ?m hi u ph Ø T? ?m hi u ph c ng Visual studio NET ánh giá k t qu Ø T? ?m hi u u ng pháp t? ?ch t. .. tr v Nguy n Th Thanh H? ? - 0112215 109 Nguy n Trung Hi u - 0112216 Xây d ng h th ng t? ?m ki m th? ?ng tin ti ng Vi t d a ch m c t ghép • Th? ? ?t : th? ?at h th ng ch ng trình 3.2 M? ?n h? ?nh t? ?m ki m nhi

Ngày đăng: 12/08/2014, 12:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan