Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt

132 560 2
Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRNG I HC KHOA HC T NHIÊN KHOA CÔNG NGH THÔNG TIN B MÔN H THNG THÔNG TIN SINH VIÊN THC HIN NGUYN TRN THIÊN THANH - TRN KHI HOÀNG TÌM HIU CÁC HNG TIP CN BÀI TOÁN PHÂN LOI VN BN VÀ XÂY DNG PHN MM PHÂN LOI TIN TC BÁO IN T KHÓA LUN C NHÂN TIN HC Tp.HCM, 2005 TRNG I HC KHOA HC T NHIÊN KHOA CÔNG NGH THÔNG TIN B MÔN H THNG THÔNG TIN SINH VIÊN THC HIN ̇ NGUYN TRN THIÊN THANH - 0112243 ̇ TRN KHI HOÀNG - 0112305 TÌM HIU CÁC HNG TIP CN BÀI TOÁN PHÂN LOI VN BN VÀ XÂY DNG PHN MM PHÂN LOI TIN TC BÁO IN T KHÓA LUN C NHÂN TIN HC GIÁO VIÊN HNG DN C nhân : NGUYN VIT THÀNH Thc s : NGUYN THANH HÙNG Niên khóa 2001-2005 i LI CM N Chúng em xin gi li cm n chân thành và sâu sc nht đn thy Nguyn Vit Thành và thy Nguyn Thanh Hùng đã tn ty hng dn, đng viên, giúp đ chúng em trong sut thi gian thc hin đ tài. Chúng em xin chân thành cm n quý Thy Cô trong Khoa Công Ngh Thông Tin truyn đt kin thc quý báu cho chúng em trong nhng nm hc va qua. Chúng con xin nói lên lòng bit n đi vi Ông Bà, Cha M luôn là ngun chm sóc, đng viên trên mi bc đng hc vn ca chúng con. Xin chân thành cám n các anh ch và bn bè đã ng h, giúp đ và đng viên chúng em trong thi gian hc tp và nghiên cu. Mc dù chúng em đã c gng hoàn thành lun vn trong phm vi và kh nng cho phép nhng chc chn s không tránh khi nhng thiu sót. Chúng em kính mong nhn đc s cm thông và tn tình ch bo ca quý Thy Cô và các bn. Sinh viên thc hin, Nguyn Trn Thiên Thanh & Trn Khi Hoàng 07/2005 ii LI NÓI U Trong nhng nm gn đây, s phát trin vt bc ca công ngh thông tin đã làm tng s lng giao dch thông tin trên mng Internet mt cách đáng k đc bit là th vin đin t, tin tc đin t Do đó mà s lng vn bn xut hin trên mng Internet cng tng theo vi mt tc đ chóng mt. Theo s lng thng kê t Broder et al (2003), lng thông tin đó li tng gp đôi sau t 9 đn 12 tháng, và tc đ thay đi thông tin là cc k nhanh chóng. Vi lng thông tin đ s nh vy, mt yêu cu ln đt ra đi vi chúng ta là làm sao t chc và tìm kim thông tin có hiu qu nht. Phân loi thông tin là mt trong nhng gii pháp hp lý cho yêu cu trên. Nhng mt thc t là khi lng thông tin quá ln, vic phân loi d li u th công là điu không tng. Hng gii quyt là mt chng trình máy tính t đng phân loi các thông tin trên. Chúng em đã tp trung thc hin đ tài “Tìm hiu các hng tip cn cho bài toán phân loi vn bn và xây dng ng dng phân loi tin tc báo đin t” nhm tìm hiu và th nghim các phng pháp phân loi vn bn áp dng trên ting Vit.  thc hin vic phân lo i, điu bt buc đi vi ting Vit đó là vic tách t. Trong lun vn này, chúng em cng tìm hiu mt s cách tách t ting Vit và th nghim mt phng pháp tách t mi thích hp cho vic phân loi mà không dùng bt k t đin hoc tp ng liu nào. Cui cùng, chúng em xây dng phn mm phân loi vn bn tích hp vào trang web “Toà son báo đ in t” (Lun vn khoá 2000 - Hoàng Minh Ngc Hi (0012545), Nguyn Duy Hip (0012038)) nhm phc v cho vic phân loi tin tc báo đin t. Hin nay, trang web ca khoa chúng ta vn cha thc hin đc vic phân loi t đng các tin tc ly v, do đó gây ra rt nhiu lãng phí v thi gian và công sc ca nhà qun tr cng nh làm gii hn vic thu thp tin tc t nhiu ngun khác nhau. ng dng phân loi tin tc báo đin t tích hp vi vic ly tin tc t đng ca chúng em hy vng s đem đn mt cách qun tr mi, nhanh chóng và hiu qu hn cách ly tin truyn thng. Ngoài ra, trong điu kin cn cp nht thông tin mt iii cách nhanh chóng nh hin nay, phn mm phân loi vn bn t đng ca chúng em còn có kh nng ng dng cho nhiu loi trang báo đin t ting Vit khác. Ni dung ca lun vn đc trình bày bao gm 8 chng; trong đó, 3 chng đu trình bày các hng tip cn cho phân loi vn bn và tách t ting Vit hin nay; 2 chng tip theo trình bày hng tip cn ca lun v n đi vi phân loi vn bn và tách t ting Vit; 3 chng cui trình bày h thng th nghim vn bn, ng dng vào phân loi tin tc bán t đng, và cui cùng là đánh giá, kt lun quá trình nghiên cu ca lun vn. Ü Chng 1. Tng quan: gii thiu s lc v các phng pháp phân loi vn bn và các hng tip cn cho vic tách t ti ng Vit; đng thi xác đnh mc tiêu ca đ tài. Ü Chng 2. Mt s phng pháp phân loi vn bn: gii thiu tóm tt mt s phng pháp phân loi vn bn dành cho ting Anh. Ü Chng 3. Phng pháp tách t ting Vit hin nay: trình bày tóm tt mt s phng pháp tách t ting Vit hin nay, u đim và hn ch ca các ph ng pháp đó. Ü Chng 4. Phng Tách t Ting Vit không da trên tp ng liu đánh du (annotated corpus) hay t đin (lexicon) – Mt thách thc: trình bày phng pháp tách t ting Vit mi ch da vào vic thng kê t Internet thông qua Google mà không cn bt k t đin hay tp ng liu nào. Ü Chng 5. Bài toán phân loi tin tc báo đin t: trình bày hng tip c n cho bài toán phân loi tin tc báo đin t. Ü Chng 6. H thng th nghim phân loi vn bn: gii thiu v h thng th nghim các phng pháp tách t và phân loi vn bn do chúng em xây dng. Ngoài ra, trong chng 6, chúng em trình bày v d liu dùng đ th nghim và các kt qu th nghim thu đc. Ü Chng 7. ng dng phân loi tin tc báo đi n t bán t đng: gii thiu ng dng phân loi tin tc báo đin t do chúng em xây dng tích hp iv trên trang web do lun vn “Tòa son báo đin t” khóa 2000 xây dng ca sinh viên Hoàng Minh Ngc Hi (0012545), Nguyn Duy Hip (0012038) Ü Chng 8. Tng kt: là chng cui cùng ca đ tài, tóm li các vn đ đã gii quyt và nêu mt s hng phát trin trong tng lai. v MC LC Chng 1. TNG QUAN 2 1.1. t vn đ 2 1.2. Các phng pháp phân loi vn bn 2 1.3. Tách t Ting Vit – Mt thách thc thú v 3 1.4. Mc tiêu ca lun vn 5 1.4.1. Phn tìm hiu các thut toán phân loi vn bn 5 1.4.2. Phn tách t ting Vit 5 1.4.3. Phn mm phân loi tin tc báo đin t bán t đng 5 1.4.4. óng góp ca lun vn 6 Chng 2. CÁC PHNG PHÁP PHÂN LOI VN BN TING ANH 8 2.1. Bi cnh các phng pháp phân loi vn bn hin nay 8 2.2. Các phng pháp phân loi vn bn ting Anh hin hành 8 2.2.1. Biu din vn bn 8 2.2.2. Support vector Machine(SVM) 10 2.2.3. K–Nearest Neighbor (kNN) 12 2.2.4. Naïve Bayes (NB) 13 2.2.5. Neural Network (NNet) 15 2.2.6. Linear Least Square Fit (LLSF) 17 2.2.7. Centroid- based vector 18 2.3. Kt lun 19 Chng 3. CÁC PHNG PHÁP TÁCH T TING VIT HIN NAY 22 3.1. Ti sao tách t ting Vit là mt thách thc? 22 3.1.1. So sánh gia ting Vit và ting Anh 22 3.1.2. Nhn xét 23 3.2. Bi cnh các phng pháp tách t hin nay 23 3.2.1. Bi cnh chung 23 3.2.2. Các hng tip cn da trên t (Word-based approaches) 24 3.2.3. Các hng tip cn da trên ký t (Character-based approaches) 26 3.3. Mt s phng pháp tách t ting Vit hin nay 28 3.3.1. Phng pháp Maximum Matching: forward/backward 28 vi 3.3.2. Phng pháp gii thut hc ci bin ( TBL) 30 3.3.3. Mô hình tách t bng WFST và mng Neural 31 3.3.4. Phng pháp quy hoch đng (dynamic programming) 34 3.3.5. Phng pháp tách t ting Vit da trên thng kê t Internet và thut toán di truyn (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC) 34 3.4. So sánh các phng pháp tách t Ting Vit hin nay 37 3.5. Kt lun 37 Chng 4. TÁCH T TING VIT KHÔNG DA TRÊN TP NG LIU ÁNH DU (ANNOTATED CORPUS) HAY T IN (LEXICON) – MT THÁCH THC 40 4.1. Gii thiu 40 4.2. Các nghiên cu v thng kê da trên Internet 40 4.2.1. Gii thiu 40 4.2.2. Mt s công trình nghiên cu v thng kê da trên Internet 41 4.2.3. Nhn xét 43 4.3. Các phng pháp tính đ liên quan gia các t da trên thng kê 43 4.3.1. Thông tin tng h và t-score dùng trong ting Anh 44 4.3.2. Mt s ci tin trong cách tính đ liên quan ng dng trong tách t ting Hoa và ting Vit 46 4.3.3. Nhn xét v các cách tính đ liên quan khi áp dng cho ting Vit 48 4.4. Tin x lý (Pre-processing) 49 4.4.1. X lý vn bn đu vào 49 4.4.2. Tách ng & tách stopwords 50 4.5. Hng tip cn tách t da trên thng kê t Internet và thut toán di truyn (Internet and Genetic Algorithm - based ) 51 4.5.1. Công c trích xut thông tin t Google 51 4.5.2. Công c tách t dùng thut toán di truyn (Genetic Algorithm – GA) 53 4.6. Kt lun 61 Chng 5. BÀI TOÁN PHÂN LOI TIN TC IN T 63 5.1. Lý do chn phng pháp Naïve Bayes 63 5.2. Thut toán Naïve Bayes 64 5.2.1. Công thc xác sut đy đ Bayes 64 vii 5.2.2. Tính đc lp có điu kin (Conditional Independence) 65 5.2.3. Ngun gc thut toán Naïve Bayes 65 5.2.4. Phng pháp Naïve Bayes trong phân loi vn bn 66 5.2.5. Hai mô hình s kin trong phân loi vn bn bng phng pháp Naïve Bayes 68 5.3. Bài toán phân loi tin tc đin t ting Vit 70 5.3.1. Quy c 70 5.3.2. Công thc phân loi vn bn trong IGATEC [H. Nguyen et al, 2005] 71 5.3.3. Công thc Naïve Bayes trong bài toán phân loi tin tc đin t ting Vit s dng thng kê t Google 72 5.4. Kt lun 74 Chng 6. H THNG TH NGHIM PHÂN LOI VN BN 76 6.1. Gii thiu h thng th nghim Vikass 76 6.1.1. Chc nng h thng Vikass 76 6.1.2. T chc và x lý d liu 76 6.1.3. Mt s màn hình ca h thng Vikass 79 6.2. Th nghim các cách trích xut thông tin 82 6.2.1. Các phng pháp th nghim 82 6.2.2. Nhn xét 84 6.3. D liu th nghim 84 6.3.1. Ngun d liu 84 6.3.2. S lng d liu th nghim 84 6.3.3. Nhn xét 86 6.4. Th nghim các công thc tính đ tng h MI 87 6.4.1. Các phng pháp th nghim 87 6.4.2. Kt qu 87 6.4.3. Nhn xét 88 6.5. Th nghim phân loi tin tc đin t 89 6.5.1. Thc đo kt qu phân loi vn bn 89 6.5.2. Các phng pháp th nghim 91 6.5.3. Kt qu 91 6.5.4. Nhn xét 96 viii Chng 7. NG DNG PHÂN LOI TIN TC IN T T NG 99 7.1. Gii thiu tòa son báo đin t 99 7.2. Tính cn thit ca phân loi tin tc t đng 99 7.3. Phân tích hin trng 100 7.3.1. Mô hình DFD quan nim cp 2 hin hành cho ô x lý Nhn bài và Tr bài 100 7.3.2. Phê phán hin trng 103 7.3.3. Mô hình DFD quan nim cp 2 mi cho ô x lý Nhn bài và Tr bài 104 7.4. Trin khai DLL 105 7.5. Chng trình cài đt “Tòa son báo đin t” đã tích hp module phân loi tin tc 106 7.6. Kt qu 110 Chng 8. TNG KT 112 8.1. Kt qu đt đc 112 8.1.1. V mt lý thuyt 112 8.1.2. V mt thc nghim 113 8.2. Hn ch và hng phát trin 113 8.3. Kt lun 114 [...]... phộp ĩ Pr( wi | C j ) 1 TF ( wi , C j ) cl ng Laplace [Napnik, 1982] : TF ( w , C j ) F w F Ngoi ra cũn cú cỏc ph ng phỏp NB khỏc cú th k ra nh sau ML Naive Bayes, MAP Naive Bayes, Expected Naive Bayes, Bayesian Naive Bayes [Jason, 2001] Naive Bayes l m t cụng c r t hi u qu trong m t s tr ng h p K t qu cú th r t t i n u d li u hu n luy n nghốo nn v cỏc tham s d oỏn (nh khụng gian c tr ng) cú ch t l... ra phỏn oỏn ch 2.2.4.2 Cụng th c chớnh M c ớch chớnh l tớnh c xỏc su t Pr(Cj, d ) , xỏc su t trong l p Cj Theo lu t Bayes, v n b n d s v nb n d n m c gỏn vo l p Cj no cú xỏc su t tớnh Pr(Cj, d ) [Joachims, 1997] Pr(Cj , d ) cao nh t Cụng th c sau dựng d Pr(C j ) Pr( wi | C j ) i 1 H BAYES (d ) arg max d Cj C Pr(C ) C C Pr( wi | C ) i 1 Pr( w | C j )TF ( w,d ) Pr(Cj ) w F arg max Pr( w | C )TF ( w,d... ng ng trờn hai b d li u Reuter v Oshumed l k = 45 [Joachims, 1997] 2.2.4 Naùve Bayes (NB) NB l ph ng phỏp phõn lo i d a vo xỏc su t c s d ng r ng rói trong l nh v c mỏy h c [Mitchell, 1996] [Joachims, 1997] [Jason, 2001] c s d ng l n u tiờn trong l nh v c phõn lo i b i Maron vo n m 1961 [Maron, 1961] sau ú tr nờn ph bi n dựng trong nhi u l nh v c nh trong cỏc cụng c tỡm ki m [Rijsbergen et al, 1970],... hi n vi c c nhi u c i ti n c a h Vi t dựng trong phõn lo i v n b n theo ph ng h m i, t cỏch cụng th c ng ti p c n tỏch t ti ng ng phỏp d a trờn th ng kờ Internet i v i tỏch t ti ng Vi t, chỳng em t c phõn ngh thờm m t cụng th c tớnh toỏn ú th c hi n th nghi m tớnh hi u qu c a cỏch tớnh ny so v i nh ng cụng trỡnh khỏc Trong quỏ trỡnh xõy d ng thu t toỏn di truy n dựng trong tỏch t , chỳng em ó c i ti... chỳng em c i ti n cụng th c tớnh trong h ti p c n Naùve Bayes phự h p v i ph ng phỏp tớnh d a trờn th ng kờ t Google 6 ng Ch ng 2 CC PH NG PHP PHN LO I V N B N TI NG ANH B i c nh cỏc ph Cỏc ph ng phỏp phõn lo i v n b n hi n nay ng phỏp phõn lo i v n b n ti ng Anh hi n hnh Bi u di n v n b n Support vector Machine (SVM) KNearest Neighbor (kNN) Naùve Bayes (NB) Neural Network (NNet) Linear Least Square Fit... a cỏc ph ng a ra m t s so ng phỏp: Support Vector Machine (Joachims, 1998), k- Nearest Neighbor (Yang, 1994), Linear Least Squares Fit (Yang and Chute, 1994) Neural Network (Wiener et al, 1995), Naùve Bayes (Baker and Mccallum, 2000), Centroid-based (Shankar and Karypis, 1998) Sau ú, chỳng em s ch n v ỏp d ng m t ph tin t c bỏo i n t ti ng Vi t ch p nh n phộp c a m t lu n v n h c, phự h p v i m c v... ti n b c Trong lu n v n ny, chỳng em c g ng tỡm hi u, c i ti n, ci m t ph ng phỏp tỏch t ti ng Vi t theo h ch p nh n phõn t, th nghi m ng ti p c n IGATEC, cú chớnh xỏc c, v i u quan tr ng l khụng c n dựng t p ng li u (corpus) nh ranh gi i t Sau ú, chỳng em s ci t, th nghi m chớnh xỏc c a ph ng phỏp tỏch t ny trong khớa c nh phõn lo i v n b n 1.4.3 Ph n m m phõn lo i tin t c bỏo i n t bỏn t 5 ng th... Hỡnh 6 4 Mn hỡnh trớch xu t t Google 80 Hỡnh 6 5 Mn hỡnh phõn lo i tin t c i n t 81 Hỡnh 6 6 Cõy ch Hỡnh 6 7 Bi u 86 so sỏnh k t qu cỏc cụng th c tớnh Hỡnh 6 8 Cỏc thụng s dựng tớnh thu v , t ng h MI 88 chớnh xỏc 89 Hỡnh 6 9 Bi u F1 cho c p 1 94 Hỡnh 6 10 Bi u F1 cho c p 2 96 ix Hỡnh 7 1.Mụ hỡnh DFD hi n hnh 100 Hỡnh 7 2 Mụ hỡnh DFD... phỏp phõn lo i thụng d ng hi n nay l: Support Vector Machine [Joachims, 1998], k-Nearest Neighbor [Yang, 1994], Linear Least Squares Fit [Yang and Chute, 1994] Neural Network [Wiener et al, 1995], Naùve Bayes [Baker and Mccallum, 2000], Centroidbased [Shankar and Karypis, 1998] Cỏc ph 2 ng phỏp trờn u d a vo xỏc su t th ng kờ ho c thụng tin v tr ng s c a t trong v n b n Chi ti t v ý t ng v cụng th c tớnh... ng c ỏp d ng thnh cụng trờn ngụn ng ny : mụ hỡnh h i quy [Fuhr et al,1991], phõn lo i d a trờn lỏng gi ng g n nh t (k-nearest neighbors) [Dasarathy, 1991], ph cõy quy t ng phỏp d a trờn xỏc su t Naùve Bayes [Joachims, 1997], nh [Fuhr et al,1991], h c lu t quy n p [William & Yoram, 1996], m ng n ron (neural network)[Wiener et al, 1995], h c tr c tuy n[William & Yoram, 1996], v mỏy vector h tr (SVM-support . toán Naïve Bayes 65 5.2.4. Phng pháp Naïve Bayes trong phân loi vn bn 66 5.2.5. Hai mô hình s kin trong phân loi vn bn bng phng pháp Naïve Bayes 68 5.3. Bài toán phân loi tin. dng vào phân loi tin tc bán t đng, và cui cùng là đánh giá, kt lun quá trình nghiên cu ca lun vn. Ü Chng 1. Tng quan: gii thiu s lc v các phng pháp phân loi vn bn và. bài toán phân loi tin tc báo đin t. Ü Chng 6. H thng th nghim phân loi vn bn: gii thiu v h thng th nghim các phng pháp tách t và phân loi vn bn do chúng em xây dng.

Ngày đăng: 06/05/2015, 11:10

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan