Kỹ Thuật Gom Nhóm Văn Bản Trong Lĩnh Vực Khai Phá Tri Thức

28 518 0
Kỹ Thuật Gom Nhóm Văn Bản Trong Lĩnh Vực Khai Phá Tri Thức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Học Quốc Gia Tp. Hồ Chí Minh Trường Đại Học Công Nghệ Thông Tin  Báo cáo cuối kỳ môn Công Nghệ Tri Thức Kỹ Thuật Gom Nhóm Văn Bản Trong Lĩnh Vực Khai Phá Tri Thức GVHD : GS.TS Hoàn Kiếm Học Viên : Đỗ Duy Phúc - CH1101122 Trịnh Hoàng Việt Quốc - CH1101127 Lớp: Cao Học K6 Tp. HCM, Tháng 06 năm 2012 Mục Lục LỜI GIỚI THIỆU  !"# $%&#'()*+ #%,%-%& +.)%- /0123(134+ %&#(56,)#&!"#7 #/)8$+/0)')39#56 )#56,!:#()',%+#%; <#+=/>'?@&#/*%%&!!! +/$%)AB$+##&?! C$BD(3E#&(+ F%&G"+HI%I JF+IJ<FIK)/,<+#"#%&GJLK 5D(!,.+)8 M-)A%,#%-%&<#2.GFINFI% %K+2.G+NFI%%K!C6%O+#2<7& ?#HI<D*HI<FI0#P2/<#+#+6 )&+*!Q06'02M+*&@7 = F%&G %&)A2.K$%&'IR B*S&+!J+)*2)3)B+)''$B #(TU%&0V+#"#%&P<7 90+**#)A%,%- P<72)3)B+'"#)A#I+= FT@#(,%;)+# !(T6 +@#(')A#&)'F%O+#O)6F! L*F?<+#@+"#%&P<7)AW)B #<+#XQI:FIYXQI:FFZ+YXQI[\+Y] Q+)U#^.I,&*F?_0+P<7 G%+IFIK,&#%O0+#"NIF++ P<7! ` Phần 1: Giới Thiệu 1. Công Nghệ Tri Thức: "# &công nghệ tri thức (knowledge engineering))A)/+P abcd!e5*_0,)BOD6A(+#& ?#6%M7@B#2)3(-)1^*()*+ (f+/! g&-&()AD)B#@#$5%;<7+ %h#'#&?cơ sở tri thức (knowledge-based systems)! )'2,,&3)AF%O+2 3i;f+#6j6&5-+#(& D&kA@B)=&?)=! L*F?#OO'f&(+@#$#'#& F (Fj Ne##,)=2)3! NE#'*2.+&? F(! NQ2.#(D@()*D! Ng&;(2.+ F(! N"'#;#()l)AD+! NQ6A<7+%h&?! N:9F)##&?! 2. Máy Học: Máy học (machine learning)*#f6&5-+*i; +@5)B&BB#'#0+#+W#6 )A#%;D%&62&!U%& ')BT#<*7<B+ F%&!L*,0D( 6+i;)'#6';)*M0#' R(-)#@B)=%;D%&mA, R)l<B! d 3. Khai Phá Dữ Liệu: Khai phá dữ liệu (data mining) <,56+@#$khám phá tri thức từ cơ sở dữ liệu( Knowledge discovery in database, KDD). e5* i;1+n)ABAT3i;#f+# 6*@#$$B###'R(T*0,% &!0%O# #D(T#i;#6& 5-+#?D&? F%&!Q+)F%O#  #T#?D32! LODf@#$#()'.6)A(T* 0%&Fo')8.2.+/'' )A+ODF%O !VD-#<,561<+ U#6-f@7%& F%&3F%&$ F%p)#,)+)##IW)*(-0# 2.$)A<'%p;@!] q Phần 2: Gom Nhóm Văn Bản 1. Giới thiệu Gom nhóm văn bản(document/ text clustering)*i;+f gom nhóm dữ liệu(data clustering). A##&T#i; 2GZ++IIrstK;DG I+IFFruEK#GIINLuK!QT)5+ <B+P<7Fv)A)30+! w#$+,,#&#;DT),& *#$8@f#5,Gf)3K+*0A&P <7!Q+i;6&5-+)5)AI* ## #F#!x+D<=R,@#$5,!Q+ *2)35,P<7F?A5,G#62fK)A <B,#&P<7)A5?+#,!A-+ *2)3+<2y7F?A*6+62D f#5,)B)A<B,![;5<B)A $a!E5,D)AI*6%Of ### F#! g$a! L* #+?')AI*#8(*0 &+#+)#&P<7+m*)3 F; ;*F;#<&F+,&#!w# z $+7PFvF7#5#<&+#5 +GUKD!Q+#5+7P* &Fv2&+3!:5^))3$2D*  #+&@7{C,0fBf#D ($57/+5^(f#0+##)# #.! 2. Phân loại thuật toán. a) Phân loại theo đặc tính của thuật toán: :#0+#+'5+-j#0+##<& G%FIK#0+#F7FGIIIK! L*#'#0+##<&+#F+F#)* )UI+ T+k&P<7%;DF; )UFv? *D4)'-+*#+?!ef#0+# /#5%&#<&! |*,##0+#F7F7)=M*F;5?# F2+%&!C&f.?$5f#5 F++#5mA,F;5?%&*#? )![74f#0+#+-#5+U! b) Phân loại theo mô hình biểu diễn dữ liệu: Q#()2D+*<+#+#)=)6+f *&)A%m)'-+65+-!*##.$ *$<'%p%&+P<7!J)<D-#5+-D '5+-0+#%;I+#.;$<'%p% &+@#$! E,##B0+&-<'%pk& *I )-%&+*)'3!QT)'* &P<7*%-<'%pmA+#B0+% &3?! L*#$B+#<'%pI )A-+<M# T}OT&P<7*03G%~IK!L* 03+B)U=)=iF;B?f#)9+*)U =!J,$I #B@7*%-)U=F?!C& +D)U=B)2)3'<+#))/ • GH+<IK #)/$#5)9)U=, F;)(l#-?#)96?! L*B@7#T&;<'%p<MI 0TN& )A-+'2,!C&*,-+*D<7? ).B-2G+HNKf*0T)-+*  #5+-?+m0%&! L*)'B3f$I+l3 (;fT!J+0)5*F?,B#<'%p #+3)=iF; )U#<'%p,1<+ UD2&f#T}OTF22&m, +I+*k+)! 3. Các phương pháp đánh giá. :#0+#+')A)##I+3##!" 26F;)U03#+#?2![;;  #+/%;Di;D()A;&!C6%O* D ( €s   v D 6    #   m   G Z++K+*F?D(Ti;stFv # •NIFI!:# #)##Fv)A<0-)5! :&;#3&Pf#0+#+)*6# GIF+K)*&0GIK!Q+i;stđộ triệu tập)A)=i 9&#&P<7D@G)B5)A<8 &Kđã được truy xuấtraF+,tất cả các tài liệu có liên quan&U- ++<*0&)AW!Q+)độ chính xác9& &đã được truy xuất và có liên quanF+,tất cả tài liệu đã được truy xuất.V$2/)')A)*&0*#+7+<M# 2+<*&+<2y2++D•NIFI*, )+ABA7)*&0)*6#)A,&!Q@,t )*&0E)*6#$(•NIFI8@#)A)=i Fj e*6#)*&0/)A+mF?GF a K <B'U-)#F?.#6%O)*6#+ ‚  F+,)*&0+A-G.)A#lA F ƒ!z F ` K e'*(+@#$+%&.7)= MF;U-f*0#5,7+G)A%;)+#,K #5)A$2G)f#0+#+K)A)? #&)A2T#5,!Q$()3& Fj +)n8F?&argmax$F?jF++F)-)A #=?)! Q+•NIFI9)A2A8@#f@#$+ +8&F229)AF;2f<7 5#!g,)+<8F)*BGKf I+!E)+2Pf#D*5,8*  ++*G, $? K+I+$BF;5 ?#2f#&Tk5,D@+kG^  ? K!C.(Fj BF?A5<M,F?Af#'+-&*F;  ('B0$#,)+D')A#%O,* !QDB*F;2@#F?A5, 7+#5)A$<0+#$#6#) 0F;9)A2Af#5! el<M(9M+/Am GLsK*,)+B F+,)*B+I+!Q+ ;BLs)A?73#)*%) =G+\I%LsrLsK!QI+)= c i@,n h F?&+5,hn l F?R+5l n h,l F?R+5,h 5l,$(Fj Ls,-++7„ƒa…+)#=fF?a)-%&F;F+, &)?#5#5,!-)*;fLs *,)+)*6#+@#$+'=)AF;<2 ?2F?A#5$2F?A#5, 7+!:*F?A)#'#<B3+P<7)37)= *F?5+,k,$B+/A#)+ 3?')AF%O! L*#$#32Af*0+#+F;8)=f #5-+@3-!L*,B08<0)')+ )*8)=$&P<$!Q+0mGLsK B@7-+)A€LsGII+\I%Z++Kj+ *0frF?+*-+O'$€Ls )A)=ij Q+#0RG+ZF+K2&/ D+#<B3+# ##D7D .2&)f)'*.6)5!L*0R *O<'%p;@2*F;8A3k5-+ <&?! V ` ` ƒ Bảng 1: Một ma trận nhầm lẫn cho các phân lớp: A (4 phần tử), B (4 phần tử), C (8 phần tử) V7a'%p7Fj0+#+'5<& 5€5V5<&#)?A+5,: *#+7+! b Q27 #D7D)3)A%m++-5#<&! tD)?,#0+#+F%O+/* # %O)')##)f*0+#+/F#5 #<&†T*B@7)/G@#$)A@# $cứng hóa - hardening#5K<M#)*#=h +;)*Df#&!:i#&+()* DA*h#=f*+)$)A+*5 )B*&)3Ahf5$Fv* 7! 4. Một số thuật toán tiêu biểu: a) K- means và các mở rộng: * Thuật toán k-means: Q+i;#%&0+#+NIF*  # f5 6!LO  Df 0+#    n )?AO DG)A<'%p#)'+)3Kk+ )k)?AOD*3)'2!"NIF 0  +# D <'+ +- 0 +# +  # <& G%FI +FK! ED<7%O2fNIFF%O*_09 +!C$F;68<B*f0NIF/)AD )BD<76# $)50+#u+%G Df/#K#D)A,+#6)B/ D !:B0+#Fj :+*0k )'m 1 (1) ,…,m k (1) 0+#;<M#+ <,Fj NV,#j#k)?AOD+)' 2! Q+)kx p )A56#+*S i (t) 7' 5+)A#! NV,9jk6+##)',<M5)A 6T#)?AOD)A5++)! aƒ [...]... trong 24 tập số tài liệu chứa hạn t trong demo nhỏ này chúng em xem trọng số của các hạn là tần số xuất hiện của hạn đó trong văn bản d) Xác định các hạn(term) trong văn bản Xác định các hạn trong văn bản chính là việc xác định các từ trong văn bản. Tách từ trong văn bản là một bải toán khó, đặc biệt trong tiếng Việt Đối với việc xác định các hạn trong văn bản thì các từ tối nghĩa sẽ được... dụng thuật toán K-mean vào phân lớp văn bản ta cần phải thưc hiện vector hóa văn bản mỗi văn bản được biểu diễn dưới dạng vector , việc vector hóa văn bản sử dụng mô hình vector không gian Sau khi có tập các vector ta có thể áp dụng thuật toán K-mean vào tách văn bản b) Mô hình vector không gian Mô hình vector không gian hay mô hình vector hạn là một mô hình đại số cho đại diện các tài liệu văn bản. .. đầu thưc thi gom nhóm 26 Phần 4: Kết Luận Qua các thông tin trình bày trên, chúng ta đã tìm hiểu được các khái niệm chung về lĩnh vưc công nghệ tri thức, máy học và truy vấn thông tin, cung như đã đi sâu vào lĩnh vưc khai phá dữ liệu, cụ thể là lĩnh vưc gom nhóm dữ liệu văn bản Chúng ta đã biết được về hiện trạng các hướng tiếp cận hiện nay cho vấn đề này, các thành quả về thuật toán, mô... thời đại thông tin số phát tri n như vũ bão hiện nay Lượng dữ liệu số cũng như văn bản đều tăng theo cấp số nhân sau từng giây Điều đó cũng tỉ lệ thuận với lượng thông tin quí giá rất lớn đang ẩn giấu khối dữ liệu khổng lồ cần được thu nhận Từ thưc trạng này, ta thấy được các kỹ thuật trong ngành rút trích thông tin như gom nhóm dữ liệu cũng như gom nhóm văn bản là các ngành nghiên... k-means): đây là thuật toán mở rộng của k-means cầu Nó sử dụng kỹ thuật học cạnh tranh để làm tăng tốc quá trình gom nhóm trong khi vẫn đạt được độ chính xác tương tư hoặc tốt hơn Với khuôn mẫu học cạnh tranh trưc tuyến, các văn bản được truyền đến liên tục.Hoàn toàn trái ngược với một thuật toán chạy hoàn toàn trên một tập dữ liệu một lần như thuật toán k-means cầu.Khi các văn bản được đưa... nơi mà các nhóm được phân biệt một cách tốt đẹp, thì tất cả kỹ thuật trên đều có xu hướng hiệu suất tương tư nhau.Tuy nhiên, khi có một sư trùng lắp đáng kể giữa các nhóm, điều điển hình xảy ra với dữ liệu văn bản, thì các đường cắt min-max sẽ thưc hiện tốt hơn Một số thuật toán tiêu biểu thuộc nhóm này như: - Thuật toán chia nhỏ và gọp lại (divide and merge algorithm) - Đồng gom nhóm mờ (fuzzy... điều đó có thể dẫn đến thuật toán hội tụ về các điểm tối ưu địa phương; các phân nhóm sẽ có thể chứa nhiều thành phần ngoại lại và nhiễu; và độ phức tạp của nó là O(nkl), trong đó n là số lượng tài liệu văn bản trong tập dữ liệu, k là số nhóm mong muốn, và l là số vòng lặp Thuật toán nàythông thường phù hợp áp dụng cho các tập dữ liệu văn bản lớn và ít thay đổi - Thuật toán k-meanscầu trực... tâm trong từng nhóm phân biệt đầu tiên thì là rất tốt, tuy nhiên điều này khó thưc hiện được Trong chương trình, chúng em chỉ thưc hiện Random trọng tâm ban đầu Số nhóm ban đầu cũng là một vấn đề, chúng ta cần phải xác định được từ đầu số nhóm, trong khi các ứng dụng thưc tế thì số nhóm này cần rút ra được từ tập dữ liệu c) Xác định trọng số (tọa độ) của hạn (term) trong văn bản: Trong. . .Thuật toán được cho rằng đã hội tụ và dừng lại một khi các sư phân bổ không còn thay đổi nữa * Các dạng mở rộng của k-means: Trong lĩnh vưc gom nhóm văn bản, để phù hợp với kiểu dữ liệu đặc thù, thuật toán k-means truyền thống được biến đổi thành các dạng phù hợp hơn: - Thuật toán k-means cầu (spherical k-means): đây là thuật toán tương tư với thuật toán k-means truyền... thuật toán kernel kmeans đã thành công phân biệt rõ hai nhóm như là kết quả của việc chiếu các vectơ văn bản lên một không gian có nhiều chiều hơn b) Các thuật toán sản sinh (generative algorithm): Trong nhóm này tiêu biểu có thuật toán c-meansmờ (fuzzy c-means), một thuật toán rất nhạy cảm với các phần tử ngoại lai Trong các tập dữ liệu văn bản pha tạp, các phần tử ngoại lai này xuất hiện rất thường . Minh Trường Đại Học Công Nghệ Thông Tin  Báo cáo cuối kỳ môn Công Nghệ Tri Thức Kỹ Thuật Gom Nhóm Văn Bản Trong Lĩnh Vực Khai Phá Tri Thức GVHD : GS.TS Hoàn Kiếm Học Viên : Đỗ Duy Phúc - CH1101122 Trịnh. F%&3F%&$ F%p)#,)+)##IW)*(-0# 2.$)A<'%p;@!] q Phần 2: Gom Nhóm Văn Bản 1. Giới thiệu Gom nhóm văn bản( document/ text clustering)*i;+f gom nhóm dữ liệu(data clustering). A##&T#i; 2GZ++IIrstK;DG I+IFFruEK#GIINLuK!QT)5+ <B+P<7Fv)A)30+! w#$+,,#&#;DT),& *#$8@f#5,Gf)3K+*0A&P <7!Q+i;6&5-+)5)AI*. liệu không lồi mà thuật toán k-means gặp vấn đề khi gom nhóm. Trong (b) là thuật toán kernel kmeans đã thành công phân biệt rõ hai nhóm như là kết quả của việc chiếu các vectơ văn bản lên một không

Ngày đăng: 10/04/2015, 16:26

Từ khóa liên quan

Mục lục

  • LỜI GIỚI THIỆU

  • Phần 1: Giới Thiệu

    • 1. Công Nghệ Tri Thức:

    • 2. Máy Học:

    • 3. Khai Phá Dữ Liệu:

    • Phần 2: Gom Nhóm Văn Bản

      • 1. Giới thiệu

      • 2. Phân loại thuật toán.

        • a) Phân loại theo đặc tính của thuật toán:

        • b) Phân loại theo mô hình biểu diễn dữ liệu:

        • 3. Các phương pháp đánh giá.

        • 4. Một số thuật toán tiêu biểu:

          • a) K- means và các mở rộng:

            • * Thuật toán k-means:

            • * Các dạng mở rộng của k-means:

            • b) Các thuật toán sản sinh (generative algorithm):

            • c) Các thuật toán gom nhóm phổ (spectral clustering algorithms):

            • Phần 3: Demo Thực Hiện Gom Nhóm Văn Bản Bằng Thuật Toán K-Means

              • 1. Cụ thể thuật toán K-means

                • a) Phát biểu bài toán phân lớp với K-means:

                • b) Ví dụ hiện thực:

                • 2. Áp dụng thuật toán K-mean vào phân lớp văn bản

                  • a) Giới thiệu:

                  • b) Mô hình vector không gian

                  • c) Xác định trọng số (tọa độ) của hạn (term) trong văn bản:

                  • d) Xác định các hạn(term) trong văn bản

                  • 3. Chương trình demo:

                    • a) Giao diện:

                    • b) Hướng dẫn sử dụng chương trình demo:

Tài liệu cùng người dùng

Tài liệu liên quan