PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC

45 248 0
PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trích chọn thực thể là bài toán đơn giản nhất trong các bài toán trích chọn thông tin. Tuy cơ bản nhưng lại đóng vai trò khá quan trọng, như hỗ trợ các hệ thống tóm tắt văn bản tự động, ứng dụng cho máy tìm kiếm hướng thực thể …

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc Đạt PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc Đạt PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành HÀ NỘI – 2009 Lời cảm ơn  !"#$% & '()*+& ,,-./0123&4) 56()&&.378)"9/&: ;,<#=>?*<:#8=>@AB@&#C'+?;D ,*.)?" ,&;E,. '.F+4()G C 3H,I :3&J?JK"9/-J?L, :J?M,N-;D ;8*.)OC " <P /,IL,I QC 33&R3O, 3&&C4()&::383&C " !3 SOA>? Tóm tắt nội dung %*:&T341,*;,)5-8 E% *4M&CJ& JE3,UD1,*"#EE MF5VMWF)))I;XI;4M 3&E))1,*38/54YJ-T,. <E+)))).;,J&%*4M )))*@ZZ [;E,.&IJ&C))) M%*thực thể tên tổ chức tiếng Việt37JS8: \J"]))&54,2^L,!_&VM&. `a]b938%*c)1,8tên sách và tác giảL,- d:\J"eML,)))&&%4,8)L,  ;:4WFL,D5V)V/fH?g]h!X,i"j 14837JS8)))&; 1," Mục lục k"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l EC5""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m _, n  o 3 p 7 p """""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""q Z^"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""r <@es#Bt"!skeu<_vahw#bx<@<@y#@z<@{|#}<@~<""""""• <@es#B€"@e•#Ba‚]<ƒ#_vahw#bx<@<@y#@z<@{"""""""""""""""t€ €"t"b(%c)1,8g ,iL,&8YJ"""""""""""""""""""t€ €"€".)3&+DH.)&8YJ""""""""""""""""""""""""""""""""""""""""""""""t„ €"l"@8!YJ,"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""t… €"m"R;""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""€€ l"m"A†,""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""lm <@es#Bm"@z<#B@a‡Z"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l… m"t"<ˆJf3&"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l… m"t"t".)5-8""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l… m"€"Z:48""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""l• m"l"j148"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m‰ m"m"#./0"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m€ jk.""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m€ &8,;Š""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""m„ Ba ̉ ng tư ̀ viê ́ t tă ́ t Tư ̀ hoă ̣ c cu ̣ m tư ̀ Viê ́ t tă ́ t `, a,3],b,  9/), `a]b9 Z:‹ o Z,;3 n  @ZZ Mở đầu %*4M&J&J&%*:" J?E3,U;1,* WF8E37J 4C D5VI;4M[_&%*4M S8'FD3&7 E+)))1F, ,3-;1F;1,";E,.& ,,C )))Œ*;:•M)5VJ&"  )?3L,;E,.&†48(%C?4ME&4MR D"k.37F,&mŠ  <tB81,3+%*:3&J&%*4M RDO2T,L,E"  <€IJ&).M1J&"<,,lJ& (%c)1,88;,.)&8g1,8Žauthor, title• Žcategory, named entity• Žorganization, location•i"•^%L,J& &&&54,3&:-L,F(%MJM5$ (55?6g),i H6&(%,F"_&J &L,_X(%c)1,8Žauthor, title•"j‘.1,3UF) 5VM(%4M 54,3&.`a]b9"SUc),5V;1 L,3Uc)&3&"<4MFF(%^W3U ; (3Uc);’,'+;85H'"ZWJ&,,+E JM5$6 )PF)3-L,H1,8(%"HJ& L,],,',2T3+C)))*;:M) 5VJ&;E,.&"@8!YJ,C3JM 5$),3&)DFL,4MF"  <lIJ&:IR13&JL,J&(%4 MRD"Z:IR154,J&L,_3+(%c)1, 8Ž, • cJ8&;‘.`a]b9" M/)J, 3J&L,],,X/)&),"S/)&IE MF3Uc)48"<J48&Š_, C6g),iM.+RD“FC/gF;” 3*&ED,4Mi,,+E“†,/F4 r M“**-4M?58H.)4MF“/?F4 M?583&5-8MI/+“,),H.)/+ E“)V3Uc)[<OIJ&.),H +L,4M“P&,C.)•JM5$ H E/54F†,MFF)2"  <m&)48"`-8ˆJf :483&; 148"<†,,C;148?58MM8% L,J&" … CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC 1.1. Tổng quan về trích chọn thông tin S4JPRL,a3&)8-'?,CF: ;RQ"_?E3+C/2: O%%/& &7"`EJ&c,3&D&I,-)))  8138/2:)D5V"@8, I ;g,i4838I-,YJ)PF)3’ 5P"J^3IFCL,E&,\J8& 8 +DEF:;;:LM)DI;L, 5P"S6U+ˆ-f JC).L,,\J"`E ;,F-DEN,?+:JR%">E&T34& Œ%*:•D" %*:&CT341,*;,)5-8 4838 (%,:E(H.)&8:X;:E("j: M&JC37J 8%*:†.JC: 1,^CT34&E"@,EC; C6g),i J,Q4M 1,84M[" 8%*:E8 3V)%&8:MI,:%F)+3&D 6E" S%5V3+8%*:Š • Hình 1 : Hệ thống trích chọn thông tin @848(%,JCJ,1,8ŽNAME, TITLE, ORGANIZATION• H.)&8YJ3&JRJlE3&^5-8" 1.2. Bài toán rút trích thực thể tên tổ chức RD&C-FJ/837J cJ8& YJ3+; /'C [<P34)ML,?8  4&E,[IM3+RDS8#,O& 3+F1,"b(%RD&8;,5,RD /837J" _&(%4Mg&VM^;E,.&&J&%*4 MRDi&J&JJ&%*:"_^3I ;;,)FD3+C% %L,4M I(, )(%,F%/L,4ME"E&J&J Q ?+3+.)•&38(%c);E;7">cJ83:- S8 ,5?3 :;.)•3+-)) 3&,ECˆ t‰ [...]... hợp các luật hỗ trợ để rút trích thực thể tên tổ chức Tuy nhiên, có một hạn chế là thuật toán DIPRE thường áp dụng cho bài toán rút trích cặp quan hệ như (tên sách, tên tác giả), (tổ chức, trụ sở chính của tổ chức) …., còn nội dung khóa luận này chỉ là trích chọn thực thể đơn – tên tổ chức Nhưng lợi thế của DIPRE là tính tự động (automatic), cần ít thao tác thủ công của con người, có thể áp dụng trong... tiết của bài toán trích chọn Dựa trên các bài toán ở chương 2, em sử dụng phương pháp học gần không giám sát kết hợp sự hỗ trợ của các luật để giải quyết bài toán của mình Các bài toán đã trình bày ở chương 2 là rút trích các cặp quan hệ, còn mục tiêu của khóa luận này là rút trích tên các tổ chức – đơn, nên khi áp dụng tư tưởng của các bài toán đó vào bài toán trích chọn tên các tổ chức, cần có sự...nào cụ thể về chữ hoa, chữ thường cho tên tiếng Việt cũng như xuất hiện nhiều từ “thừa” chỉ mang tính chất liệt kê, bổ nghĩa Có nhiều phương pháp được áp dụng cho bài toán rút trích tên thực thể như phương pháp học máy HMM [4] … Trong khóa luận này, em sử dụng phương pháp học gần không giám sát dựa trên thuật toán DIPRE và ý tưởng rút trích cặp quan hệ (author, title)... trình giảm được số lần thực hiện 23 vòng lặp Chương trình dừng lại khi độ chính xác của các thực thể rút trích được thấp dưới một ngưỡng cho phép Quy trình rút trích được mô tả như hình dưới đây : Hình 5: Mô hình tổng quát Có một điểm khác biệt giữa thực thể mà Brin rút trích với kiểu thực thể của chúng ta Đó là Brin rút trích theo cặp thực thể quan hệ, cụ thể ở đây là cặp (tên sách, tên tác giả) của cuốn... Pasca hay hệ thống Snowball, có thể thấy các thực thể được rút trích và patterns sinh ra có quan hệ tương hỗ với nhau Nghĩa là “chất lượng” của cái này ảnh hưởng đến chất lượng của cái kia Không những thế còn ảnh hưởng đến chất lượng của các vòng lặp tiếp theo Bài toán rút trích thực thể tên tổ chức cũng như vậy, cụ thể ở đây là giữa PrefixPattern và thực thể tên tổ chức Do đó, sinh ra một PrefixPattern... Find_IndexsOfPrefixPattern Để rút trích được một thực thể, cần phải biết được ngữ cảnh xung quanh nó Ở bài toán này chỉ quan tâm đến “tiền tố” (prefix) của nó Bởi vì đứng trước mỗi một thực thể tên tổ chức thường là các “tiền tố” có dạng đặc biệt, hoặc nằm trong miền giá trị cụ thể Ví dụ như thường là : Tổ chức, công ty, tập đoàn, phòng ….” Còn đứng sau mỗi tên tổ chức thường không có một quy tắc nào... Filter_Entities Tập thực thể sau khi được rút trích sẽ được ánh xạ ngược vào tập dữ liệu ở vòng lặp tiếp theo để tìm sự xuất hiện (Occurrences) Nhưng không phải tất cả các thực thể được dùng để ánh xạ Bởi có 2 lý do Thứ nhất nếu như sử dụng tất cả các thực thể, thì thời gian để tìm Occurrences là rất lâu Thứ hai, không phải tất cả các thực thể được rút trích ra đều chính xác, và không phải tất cả đều... phát bằng 5 cặp thực thể (tên sách, tên tác giả), từ cặp thực thể đó tìm ra sự xuất hiện (occurrences ) của chúng trên tài liệu Web và từ đó đưa ra quy tắc để sinh mẫu (pattern) Mỗi tập mẫu thu được lại tiếp tục tìm ra cặp thực thể (title, author) mới… Với bài toán của chúng ta, ở mức tổng quát gồm các bước: - Xuất phát là một mẫu được xây dựng thủ công; - Rút trích ra các thực thể tên tổ chức trong tập... CandidateString thu được là “ Hàng không Việt Nam thua kiện ở châu” 3.2.3 Trim Tập CandidateStrings được đoán nhận ở bước trên chỉ mới được “kỳ vọng” là có chứa các thực thể thích hợp Cần “cắt tỉa” để hoặc thu được tên thực thể mong muốn hoặc loại bỏ nếu không chứa tên thích hợp Thủ tục Trim thực hiện công việc đó trên CandidateStrings thu được tập thực thể Entities – tập thực thể được rút trích ở mỗi vòng lặp Chi... sách sẽ có tên sách và tác giả viết ra cuốn sách đó Do vậy cách biểu diễn nó trên tài liệu sẽ có một quy luật nào đó Còn bài toán của chúng ta chỉ là rút trích ra tên thực thể đơn – tên tổ chức Tuy nhiên, thường thì “tiền tố” của tên các tổ chức ở một dạng nhất định, trên một miền nhất định Và có một đặc điểm thuận lợi nữa là tên tổ chức thường ở dạng kí tự đầu tiên của mỗi từ là viết hoa hoặc không thì . KH NG GI M S T ĐỂ TR CH CH N TH C TH T N T CH C KHOÁ LU N T T NGHI P ĐẠI H C H CH NH QUY Ng nh: C ng nghệ th ng tin C n bộ h ng d n: TS. Nguy n Tr Th nh. ĐẠI H C QU C GIA H N I TR NG ĐẠI H C C NG NGHỆ Vũ Qu c Đ t PH NG PH P H C G N KH NG GI M S T ĐỂ TR CH CH N TH C TH T N T CH C KHOÁ LU N T T NGHI P ĐẠI

Ngày đăng: 25/04/2013, 13:30

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan