tìm hiểu về phân loại văn bản và xây dựng chương trình ứng dụng

89 452 1
tìm hiểu về phân loại văn bản và xây dựng chương trình ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HUTECH B GIÁO DC VÀ ÀO TO TRNG I HC K THUT CÔNG NGH KHOA CÔNG NGH THÔNG TIN B MÔN CÔNG NGH PHN MM LUN VN TT NGHIP TÌM HIU V PHÂN LOI VN BN VÀ XÂY DNG CHNG TRÌNH NG DNG Sinh viên thc hin: 1. H tên: PHAN THANH BÌNH MSSV: 10102019 2. H tên: LÊ BCH V MSSV: 10102218 TP. H CHÍ MINH NM HC: 2005-2006 HUTECH B GIÁO DC VÀ ÀO TO TRNG I HC K THUT CÔNG NGH KHOA CÔNG NGH THÔNG TIN B MÔN CÔNG NGH PHN MM LUN VN TT NGHIP TÌM HIU V PHÂN LOI VN BN VÀ XÂY DNG CHNG TRÌNH NG DNG Sinh viên thc hin: 1. H tên: PHAN THANH BÌNH MSSV: 10102019 2. H tên: LÊ BCH V MSSV: 10102218 Ging viên hng dn: Ths. NGUYN CHÁNH THÀNH TP.HCM, THÁNG 1 NM 2006 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 1 LI NÓI U Ngày nay, vi s phát trin ca công ngh thông tin, thì s lng thông tin cng bùng n nhanh chóng. Các thông tin tn ti di nhiu hình thc khác nhau nh: các trang web, th đin t, c s d liu… Do đó công vic tìm kim thông tin theo ni dung nào đó cng tr nên khó khn. T thc tin này nhu cu phân loi các thông tin đã xut hin t rt sm. Nhng nu dùng con ngi đ phân loi các thông tin thì s mt rt nhiu công sc và tin bc. Cho nên ngi ta đã tìm ra nhiu phng pháp phân loi vn bn t đng giúp gim gánh nng cho con ngi. HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 2 TÓM TT NI DUNG Trong lun vn này chúng tôi s trình bày v các phng pháp phân loi vn bn và hin thc gii thut K-Nearest Neightbour (K-NN). ây là gii thut không quá phc tp nhng có đ chính xác khá cao. Các phn trong lun vn s đc trình bày nh sau: Chng 1: Chng này s trình bày v nhu cu thc tin ca vic phân loi vn bn và các ng dng thc t ca các ph ng pháp phân loi vn bn t đng. Chng này s cho ta thy s cn thit ca vic phân loi vn bn t đng trong thi đi ngày nay. Chng 2: Chng này trình bày v các c s lý thuyt liên quan đn quá trình phân loi vn bn t đng. Cung cp các kin thc rt quan trng dùng đ cài đt và kim tra hiu qu ca các phng pháp phân loi t đng. Chng 3: Chng này trình bày tng quan mt s phng pháp phân loi vn bn t đng nh: Gii thut Rocchio, Gii thut K-Nearest Neighbour, Naïve Bayes, Gii thut cây quyt đnh, Gii thut mng neuron, Gii thut Support Vector Machine. Chng 4: Chng này s trình bày bng thit k và cài đt chng trình phân loi vn bn t đng theo phng pháp K-Nearest Neighbour. Sau đó chúng tôi s trình bày các kt qu đt đc sau khi chy th nghim chng trình nh đ chính xác, tc đ ca chng trình.  minh ha cho vic ng dng phng pháp phân loi vn bn t đng, chúng tôi có cài đt các module crawler dùng đ rút trích vn bn trên mng máy tính, module index dùng đ lp ch mc các vn bn đã phân loi và mt trang web tìm kim. Chng 5: Chng này s trình bày các tho lun và rút ra các kt lun và kt qu đi chiu vi mc tiêu đ ra. Cui cùng là đnh hng phát trin ca đ tài. HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 3 LI CM N Li cám n đu tiên chúng tôi xin gi đn Thc s Nguyn Chánh Thành. Thy đã tn tình hng dn và đnh hng cho chúng tôi t đ án c s, đ án chuyên ngành và nay là lun vn tt nghip. Chúng tôi xin chúc thy luôn vui v hnh phúc và luôn nhit tình ch bo cho các sinh viên. Tip theo chúng tôi xin cám n các anh ch trong công ty Thng mi c phn HPT chi nhánh thng mi TP-HCM đã nhit tình giúp đ và to điu kin cho chúng tôi tìm kim vn bn và d liu kim chng chng trình. Cui cùng xin cám n đn các bn thân hc cùng khóa 01- TH đã quan tâm đng viên c húng tôi trong quá trình thc hin đ tài này. HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 4 MC LC LI NÓI U 1 TÓM TT NI DUNG 2 LI CM N 3 MC LC 4 DANH MC HÌNH 9 DANH MC BNG 11 Chng 1 12 PHÁT BIU VN  12 1.1. Gii thiu 12 1.1.1. ng c thúc đy vic phân loi vn bn t đng 13 1.1.2. Mt s ng dng ca vic phân loi vn bn theo ch đ 14 1.2. Ni dung đ tài 15 1.3. ng dng m rng - Lp ch mc và tìm kim ca Lucene 16 1.3.1. Gii thiu Lucene 16 1.3.2. C s nn tng ca Lucene 18 1.3.3. Mc đích, chc nng, công dng 18 1.3.4. To ch mc và tìm kim 19 Chng 2 20 C S LÝ THUYT PHN LOI VN BN 20 2.1. Biu din vn bn 20 2.1.1. Phng pháp Boolean 23 2.1.2. Phng pháp tn sut t (work frequency) 24 2.1.3. Phng pháp tf-idf (frequency x inverse document frequency) 24 2.1.4. Phng pháp tfc (Term Frequency Component) 25 2.1.5. Phng pháp ltc (Log Term Component) 25 2.1.6. Phng pháp Entropy 26 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 5 2.2. Rút gn danh sách t 26 2.2.1. Phng pháp ngng tn xut ca vn bn. 27 2.2.2. Phng pháp đ li thông tin 27 2.2.3. Phng pháp thông tin tng h 28 2.2.4. Phng pháp đ mnh ca t 28 2.2.5. Phng pháp thng kê 2 χ 29 2.3. Tp vn bn dùng đ phân loi 30 2.3.1. Gii thiu 30 2.3.2. Tp Reuters 30 2.3.3. Tp 20-newsgroup 33 2.4. ánh giá đ chính ca vic phân loi vn bn 34 2.4.1. Thông s precision. 35 2.4.2. Thông s recall 35 2.4.3. Thông s f (f-score) 35 2.4.4. Thông s accuracy 36 2.4.5. Thông s error 36 Chng 3 37 CÁC GII THUT PHÂN LOI VN BN 37 3.1. Gii thut Rocchio 37 3.1.1. Gii thiu 37 3.1.2. Giai đon hun luyn 38 3.1.3. Giai đon phân loi 39 3.1.4. ánh giá gii thut 40 3.2. Gii thut K-Nearest Neighbour 41 3.2.1. Gii thiu 41 3.2.2. Giai đon hun luyn 42 3.2.3. Giai đon phân loi 43 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 6 3.2.4. ánh giá gii thut 44 3.3. Gii thut Naïve Bayes 45 3.3.1. Gii thiu 45 3.3.2. Giai đon hun luyn 46 3.3.3 Giai đon phân loi 46 3.3.4. ánh giá gii thut 47 3.4. Gii thut cây quyt đnh 47 3.4.1. Cây quyt đnh 47 3.4.2. Entropy và đ li thông tin. 49 3.4.3. Ct nhánh cây quyt đnh. 49 3.4.4. Nhn xét 50 3.5. Gii thut mng Neuron (Neural Network) 50 3.5.1. Gii thut 50 3.5.2. ánh giá gii thut 53 3.6. Gii thut Support Vector Machine 54 3.6.1. Các mt phân cách (Hyperplanes) 54 3.6.2. Gii thut Support Vector Machine. 55 3.6.3. Nhân xét. 56 3.7. Chn gii thut 57 Chng 4 58 THIT K VÀ HIN THC CHNG TRÌNH PHÂN LOI VN BN 58 4.1. Quá trình xây dng gii thut K-Nearest Neighbour 58 4.1.1. Xây dng t đin (danh sách t khóa) 58 4.1.2. Giai đon hun luyn 58 4.1.3. Giai đon phân loi 59 4.2. S đ usecase 60 4.3. S đ tun t ca vài nghip v chính 61 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 7 4.3.1. Hun luyn vn bn 61 4.3.2. Phân loi vn bn 62 4.3.3. ánh giá kt qu phân loi 63 4.3.4. Trích rút d liu trên mng 65 4.3.5. Lp ch mc 66 4.3.6. Tìm kim 67 4.4. S đ lp 68 4.4.1. Pakage textcategory.reader 68 4.4.2. Package textcategory.analysis 69 4.4.3. Package textcategory.training 70 4.4.4. Package textcategory.category 72 4.4.5. Package store. 72 4.4.6. Package crawler 73 4.4.7. Package index 74 4.4.8. Package util 74 4.5. Thit k c s d liu 75 4.6. Thit k giao din 76 4.6.1. Màn hình chính ca chng trình 76 4.6.2. Màn hình to loi vn bn 76 4.6.3. Màn hình hun luyn chng trình 77 4.6.4. Màn hình phân loi d liu 77 4.6.5. Màn hình kt qu phân loi 78 4.6.6. Màn hình to ch mc (reverted index) 78 4.6.7. Màn hình trích rút d liu trên mng 79 4.6.8. Trang ch tìm kim theo ch đ 79 4.6.9. Trang tìm kim theo ch đ 80 4.7. Kt qu đt đc 80 HUTECH Lun vn tt nghip GVHD: Th.s Nguyn Chánh Thành SVTH: Phan Thanh Bình & Lê Bch V Trang 8 Chng 5 83 ÁNH GIÁ VÀ HNG PHÁT TRIN 83 5.1. ánh giá 83 5.1.1. Kt qu đt đc 83 5.1.2. Các hn ch ca đ tài 84 5.2. Hng phát trin ca đ tài 84 PH LC 86 1. T đin gii thích các thut ng 86 2. Các mã ngun m đc s dng trong lun vn 87 3. Tài liu tham kho 87 [...]... ình bày là phân lo - m tiêu c k 1.1.1 vi Phân lo b c H U TE N tham gia vào vi này r C H Th à th phân lo chuyên gia, vì v ân lo vi hi Th th SVTH: Phan Thanh Bình & Lê B Trang 13 GVHD: Th.s Nguy Lu 1.1.2 M hân lo ch a Phân lo dùng các h b t theo ngôn ng b Phân lo C hia các thông tin nh N thì s lo c kh s H U TE quan c n C H theo ch chính xác c Tìm ki Vi nh tri ph nên các c giúp không gian tìm ki Ngoài... Lucene không quá ph t xây d H U TE tìm ki Ta có th ình bên trên, nh SVTH: Phan Thanh Bình & Lê B , giúp x ình sau: Trang 16 GVHD: Th.s Nguy H U TE C H Lu Hình 1 Mô hình ki n trúc c a Lucene M s m th Lucene Wiki , và tìm ki (http://wiki.apache.org/jakarta- lucene/PoweredBy) v LARM, và jSearch V c h ho và tìm ki SVTH: Phan Thanh Bình & Lê B Trang 17 GVHD: Th.s Nguy Lu 1.3.2 Lucene là s và s cho phép m Software... j j 1 và 2 max w max 2 w, c j SVTH: Phan Thanh Bình & Lê B Trang 29 GVHD: Th.s Nguy Lu 2.3 T nb 2.3.1 Gi Các t luy T máy h sau này v C H T h T lo i sau khi xây d H U TE 2.3.2 T T ti - 21578, do nhóm Reuter xây d cho m Lewis và Peter Schoemaker vào 1996 v quát chu b SGML (Standard Generalized Markup Language) nh s các t lo làm gi Lewis và Schoemaker tìm th ng l ngh t ngôn ng các K -m ã -21578 và lo... magazine, Epiphany, và m Doug Cutting, m (tìm ki và công c t ki -Twin và hi H U TE gi C H 1.3.3 M text-search là ki Searchable email : M thêm vào nh t Online documentation search: m Searchable Webpages: M CD, Web - t Web hay máy ch xây d Website search: M Website c SVTH: Phan Thanh Bình & Lê B Trang 18 GVHD: Th.s Nguy Lu Content search: M b ã trong m ( Open Document dialog) Version control và content management:... Nguy Lu Content search: M b ã trong m ( Open Document dialog) Version control và content management: m b có th , hay phiên b nh d T Lucene tìm ki l b -T tích n tên/giá tr H U TE Fields c C H 1.3.4 T - Tìm ki vào m dùng m IndexSearcher câu truy v QueryParser c xây d và tr h tr score cho m SVTH: Phan Thanh Bình & Lê B Trang 19 GVHD: Th.s Nguy Lu LÝ THUY T PH N LO N 2.1 Bi H ác t d t C H chuy D Lo Chuy... Lê B Trang 14 GVHD: Th.s Nguy Lu d Phân lo Ch g phân lo -T - Phân ph - Chuy 1.2 N Trong lu – Nearest ahoo, … tu algorithm), m óm gi structure and H U TE Các ch C H nay có r trí tu chúng giao nhau r còn l b thu toàn khác nhau nên vi m trên thì vi Tóm l toàn có th h th SVTH: Phan Thanh Bình & Lê B Trang 15 GVHD: Th.s Nguy Lu 1.3 -L 1.3.1 Gi Lucene là b t (indexing) và tìm ki ho viên r các d g b Lucene... 53 C H Hình 9 Mô hình lan truy 54 Hình 11 Các tr 55 Hình 12 Bi 55 56 Hình 14 Ví d 59 H U TE Hình 13 Mô t Hình 15 S mô t Hình 16 S Hình 17 S quá trình phân lo Hình 18 S Hình 19 S trình Hình 20 S Hình 21 S 60 61 62 64 65 66 m ki 67 Hình 22 Package reader 68 Hình 23 Pakage analysis 69 Hình 24 Pakage... 11 GVHD: Th.s Nguy Lu PHÁT BI U V 1.1 Gi Lu nt ã liên t t h ngh C H Phân lo b x này, là m X thu H U TE dung và trong nhi NLP: Natural Language Processing) là l cho vi cho các câu l nó thu hút r t Text to Speech) Nhân d Speech Recognition) Sinh ra ngôn ng Natural Language Generation) Máy d Machine Translation) Tr Question Answering) Tìm ki (Information Retrieval) Trích rút thông tin (Information Extraction)... Lê B Trang 23 GVHD: Th.s Nguy Lu f ij f ij 1 0 wij 2.1.2 Ph 0 0 áp t w ij b w ij 2.1.3 f ij Ph áp tf-idf (frequency x inverse document hi m và t xu Thi w ij H U TE Kh C H frequency) g pháp này b ij s ij v -idf: tf ij * log 2 N df i Ta có: tf ij f ij max( f ij ) và idf i log 2 N df i SVTH: Phan Thanh Bình & Lê B Trang 24 GVHD: Th.s Nguy Lu - tf ij : là s ong df i t - idf i : là ngh s Suy ra công th wij... ] including conducting appraisals, in connection with the acquisitions Reuter ENDDOC b Phân nhóm các t SVTH: Phan Thanh Bình & Lê B Trang 32 GVHD: Th.s Nguy Lu Ví d Quy t Chúng ta không s ho Quy t C H ít nh Quy t n chia các t H U TE hu B ng 3 Th ng kê m t s ch 2.3.3 T T trong t p Reuters -newsgroup -newsgroup c phân lo -newsgroup không h nhiên t SVTH: Phan Thanh Bình & Lê B Trang 33 GVHD: Th.s Nguy . quá trình hun luyn chng trình 61 Hình 17. S đ tun t ca quá trình phân loi vn bn 62 Hình 18. S đ tun t ca quá trình đánh giá kt qu phân loi 64 Hình 19. S đ tun t ca quá trình. DC VÀ ÀO TO TRNG I HC K THUT CÔNG NGH KHOA CÔNG NGH THÔNG TIN B MÔN CÔNG NGH PHN MM LUN VN TT NGHIP TÌM HIU V PHÂN LOI VN BN VÀ XÂY DNG CHNG TRÌNH. index dùng đ lp ch mc các vn bn đã phân loi và mt trang web tìm kim. Chng 5: Chng này s trình bày các tho lun và rút ra các kt lun và kt qu đi chiu vi mc tiêu đ ra.

Ngày đăng: 24/11/2014, 04:24

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan