một số phương pháp lai trích xuất sự kiện và áp dụng vào hệ thống theo dõi tin tức trực tuyến NewSOMoni

33 345 1
một số phương pháp lai trích xuất sự kiện và áp dụng vào hệ thống theo dõi tin tức trực tuyến  NewSOMoni

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CÔNG TRÌNH DỰ THI GIẢI THƯỞNG SINH VIÊN NGHIÊN CỨU KHOA HỌC 2012 MỘT PHƯƠNG PHÁP LAI TRÍCH XUẤT SỰ KIỆN VÀ ÁP DỤNG VÀO HỆ THỐNG THEO DÕI TIN TỨC TRỰC TUYẾN NewSOMoni Sinh viên thực Nguyễn Minh Hoàng Nguyễn Sỹ Quân Ngô Quang Hiểu Giới tính: Nam Giới tính: Nam Giới tính: Nam Lớp: K53CLC Lớp: K53CB Lớp: K54CC CNTT CNTT CNTT Cán hướng dẫn TS Phan Xuân Hiếu ThS Trần Mai Vũ Phòng thí nghiệm Công nghệ Tri Thức Phòng thí nghiệm Công nghệ Tri Thức Hà Nội, Ngày 22 tháng năm 2012 Tóm tắt nội dung Trích chọn thông tin vấn đề có vai trò cốt yếu xây dựng hệ thống khai phá liệu, đặc biệt hệ thống theo dõi/giám sát thông tin, hệ thống tư vấn tin tức, hệ hỗ trợ định Một toán trích chọn thông tin trích xuất kiện liệu lớn Sự kiện lấy đắn từ kho liệu lớn giúp hệ thống khai phá liệu dễ dàng việc thực thi nhiệm vụ Nghiên cứu tập trung xem xét phương pháp trích xuất kiện hiệu dành cho tiếng Việt với lượng liệu lớn cách thức áp dụng vào hệ thống theo dõi tin tức trực tuyến đánh giá thấy phương pháp đưa có khả quan Nhóm tác giả hy vọng kết nghiên cứu góp phần vào phát triển hệ thống xử lý tin tức dành cho tiếng Việt Mục lục Tóm tắt nội dung ii Mục lục iii Danh sách hình vẽ iv Danh sách bảng v Danh sách ký hiệu từ viết tắt vi Lời nói đầu 1 Giới thiệu toán trích xuất kiện 1.1 Động lực nghiên cứu 1.2 Vấn đề nghiên cứu 1.2.1 Bài toán 1.2.2 Các vấn đề cần giải Ý nghĩa 1.3.1 Ý nghĩa khoa học 1.3.2 Ý nghĩa thực tiễn 1.4 Thách thức 1.5 Nghiên cứu liên quan 1.5.1 Một số nghiên cứu liên quan nước 1.5.2 Một số nghiên cứu liên quan nước 1.3 Mô hình hệ thống theo dõi tin tức trực tuyến NewSOMoni 12 2.1 Phương pháp đánh giá hiệu trích xuất kiện 12 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni 13 2.2.1 Kho liệu 14 2.2.2 Thu thập liệu 15 2.2.3 Phân loại kiện 16 2.2.4 Trích xuất kiện 16 2.2.5 Trực quan hóa liệu 17 ii MỤC LỤC Thực nghiệm hệ thống 3.1 18 Môi trường thực nghiệm 18 3.1.1 Cấu hình phần cứng 18 3.1.2 Công cụ phần mềm 19 3.2 Dữ liệu thực nghiệm 19 3.3 Đánh giá khả phát kiện 20 3.4 Đánh giá kết trích xuất kiện 20 3.5 Giới thiệu hệ thống đồ kiện 21 Tài liệu tham khảo 24 iii Danh sách hình vẽ 1.1 Hệ thống BioCaster 1.2 Hệ thống EpiSpider 10 1.3 Hệ thống Frontex 10 1.4 Hệ thống NOAM 11 2.1 Mô hình hệ thống NewSOMoni 14 2.2 Khuôn dạng tin tức lấy qua kênh RSS 15 3.1 Kết phân lớp 20 3.2 Bản đồ kiện 22 3.3 Bản đồ kiện 22 iv Danh sách bảng 2.1 Dữ liệu sau tiền xử lý 16 3.1 Cấu hình phần cứng 18 3.2 Danh sách công cụ phần mềm 19 3.3 Các thành phần báo 19 3.4 Kết phân lớp 20 3.5 Kết trích xuất kiện 21 v Bảng ký hiệu từ viết tắt Ký hiệu ACE DARPA MUC SIGIR SIGKDD TDT VDC Ý nghĩa Automatic Content Extraction Defense Advanced Research Project Agency Message Understanding Conferences Special Interest Group on Information Retrieval International Conference on Knowledge Discovery and Data Mining Topic Detection and Tracking eVent Detection and Characterization vi Lời nói đầu Được cộng đồng nghiên cứu khoa học toàn giới quan tâm sớm, trích xuất kiện xem toán quan trọng lĩnh vực trích chọn thông tin (Information Extraction) Từ năm 1987, trích xuất kiện trở thành đề tài chủ chốt hội nghị Message Understanding Conferences lần tổ chức [RB96] Từ đến nay, nhiều phương pháp trích xuất kiện đưa áp dụng hệ thống thực tế BioCaster (http://born.nii.ac.jp/), HealthMap (http://healthmap.org), EpiSpider (www.epispider.org/), Metro Monitor (www.metromonitor.com/), Công trình nghiên cứu Một phương pháp lai trích xuất kiện áp dụng vào hệ thống theo dõi tin tức trực tuyến NewSOMoni khảo sát số phương pháp trích xuất kiện tiêu biểu có hiệu tốt, sử dụng nhiều hệ thống theo dõi thông tin Dựa sở đó, nghiên cứu đề xuất phương pháp lai nhằm mục đích trích xuất kiện miền tin tức tiếng Việt thử nghiệm hệ thống theo dõi tin tức trực tuyến NewSOMoni Phương pháp đề xuất kết hợp phương pháp học máy Maximum Entropy phương pháp trích xuất dựa luật với cải tiến áp dụng cho liệu tiếng Việt Qua tiến hành thực nghiệm, thu kết tương đối tốt ổn định Điều chứng tỏ tính đắn phương pháp đề xuất tính thực tiễn hệ thống theo dõi tin tức trực tuyến, góp phần đưa thông tin đến với người dùng xác, kịp thời Báo cáo bao gồm bốn chương mô tả Chương Giới thiệu toán trích xuất kiện khái quát chung động lực thực nghiên cứu, mô tả toán trích xuất kiện nêu số nghiên cứu liên quan nước Chương Mô hình hệ thống theo dõi tin tức trực tuyến NewSOMoni trình bày phương pháp trích xuất kiện dựa luật kết hợp với phương pháp học máy Maximum Entropy–phương pháp mô hình giải nghiên cứu Đồng thời, mô hình hệ thống theo dõi tin tức nêu rõ phân tích chi tiết Chương Thực nghiệm phương pháp hệ thống theo dõi tin tức trình bày trình xây dựng hệ thống giám sát tin tức sở áp dụng phương pháp đề xuất Chương Kết thực nghiệm đánh giá hiệu mô tả kỹ lưỡng chương Phần kết luận tổng kết, tóm lược nội dung nghiên cứu hướng phát triển Giới thiệu toán trích xuất kiện 1.1 Động lực nghiên cứu Thế giới thay đổi nhanh với tham gia phương tiện truyền thông xã hội Mọi thông tin đến với người dùng theo nhiều nguồn khác Tuy nhiên, sử dụng phương tiện truyền thông xã hội riêng lẻ khó cập nhật kịp thời xác thông tin Để đáp ứng nhu cầu đó, hệ thống tổng hợp tin tức xuất giúp cho người dễ dàng nắm bắt thông tin Vào năm 2005, hệ thống tổng hợp tin tức tự động Việt Nam đời dựa thành tựu nghiên cứu Hệ thống thu thập tách thông tin ICPS hai tác giả Nguyễn Thành Long Nguyễn Phú Bình đạt giải nhì thi Trí Tuệ Việt Nam 2002 Hệ thống xử lý tiếng Việt tự động ePi người dùng biết đến với tên Báo nhanh chóng trở thành trang tin tức tổng hợp nhiều người sử dụng tính tiện lợi cập nhật Mặc dù có ưu điểm vậy, hệ thống tổng hợp tin tức có yếu điểm chưa thể khắc phục Thứ nhất, thông tin thu thập từ nguồn tin định trước dựa giao diện cập nhật nguồn tin, chưa phân tích sâu ý nghĩa tính chất kiện chứa đựng thông tin Thứ hai, tin tức không trực quan hóa theo xu hướng quan tâm người dùng Thông thường, độ ưu tiên quan tâm người dùng là: thời gian (when) > địa điểm (where) > thông tin gì(what) Hơn nữa, hệ thống tổng hợp tin tức xem xét tất tin từ nguồn tin, sau phân lớp vào lớp định nghĩa trước Bởi tính phong phú dạng thông tin, tính xác trình phân lớp câu hỏi lớn chưa có lời giải đáp thỏa đáng! Giải nhược điểm hệ thống tổng hợp tin tức tự động cần có phương pháp trích xuất kiện phù hợp với tiếng Việt hoạt động ổn định Từ sớm, trích xuất kiện cộng đồng khoa học máy tính đầu tư công sức nghiên cứu Tiêu biểu kể đến hội nghị Message Understanding Conferences (MUC) tổ chức lần năm 1987 hỗ trợ DARPA (Quỹ nghiên cứu quốc phòng Hoa Kỳ) Một www.baomoi.com http://www-nlpir.nist.gov/related_projects/muc 1.2 Vấn đề nghiên cứu đóng góp quan trọng hội nghị MUC đưa phương pháp trích xuất kiện theo khung mẫu (scenario template) với mục đích lấy kiện thông tin liên quan: tổ chức, đối tượng tham gia (người, vật, việc) Độ xác độ hồi tưởng nghiên cứu tham dự MUC nằm khoảng 50% tới 60 % Ngoài ra, chương trình nâng cao hiệu trích xuất kiện Automatic Content Extraction (ACE) Đại học Pennsylvania (Hoa Kỳ) chương trình tiếng, thu hút nhiều nhóm nghiên cứu trích xuất kiện tham gia có kết tích cực Tuy nhiên, trích xuất kiện vấn đề mang đặc trưng ngôn ngữ học Ngôn ngữ ảnh hướng lớn tới hiệu phương pháp trích xuất Theo tìm hiểu chúng tôi, trích xuất kiện liệu tiếng Việt chưa có nhiều nghiên cứu Bởi vậy, phương pháp trích xuất kiện dành cho tiếng Việt hạn chế chất lượng lẫn số lượng Một yếu tố khác đưa đến với đề tài nghiên cứu thú vị xử lý liệu lớn Theo xu hướng phát triển Công Nghệ Thông Tin đại, thi hành hệ thống với liệu lớn tất yếu Các công ty hàng đầu giới Công Nghệ Microsoft 2, Google , Oracle , Facebook có chiến lược phát triển lâu dài xử lý liệu lớn Cùng với đó, trường đại học hàng đầu giới khoa học máy tính đưa vào trường trình đào tạo khoa học xử lý liệu lớn Đại học Priceton (Hoa Kỳ) , Đại học Stanford Kỳ) hay Đại học tổng hợp Zurich (Hoa Kỳ) , Đại học Carnegie Mellon (Hoa (Thụy Sỹ) Sự hỗ trợ tuyệt vời liệu kỹ thuật từ phía ThS Trần Mai Vũ giúp có thêm động lực tâm hoàn thành đề tài 1.2 1.2.1 Vấn đề nghiên cứu Bài toán Những vấn đề phân tích phần 1.1 đưa nhóm nghiên cứu hướng tới ý tưởng đưa phương pháp trích xuất kiện phù hợp xử lý với liệu tiếng Việt xây dựng nên hệ thống theo dõi tin tức trực tuyến mà trích xuất kiện yếu tố trung tâm Nghiên cứu đóng góp hai nội dung: khoa học ứng dụng Ý nghĩa việc giải vấn đề trình bày chi tiết mục 1.3 http://projects.ldc.upenn.edu/ace www.microsoft.com www.google.com www.oracle.com www.facebook.com http://www.cs.princeton.edu/courses/archive/spr02/cs493 http://www.stanford.edu/class/cs246 http://www.cs.cmu.edu/ neill/courses/90866.html http://las.ethz.ch/courses/datamining-s12 Mô hình hệ thống theo dõi tin tức trực tuyến NewSOMoni Chương trình bày hệ thống theo dõi tin tức trực tuyến có tên NewSOMoni phương pháp lai luật học máy Maximum Entropy để trích xuất kiện Trước tiên, phương pháp đánh giá hiệu trích xuất nói tới nhằm mục đích làm rõ tiêu chí ước lượng phương pháp trích xuất làm sở để so sánh phương pháp với phương pháp khác Tiếp sau, mô hình đề xuất diễn giải chi tiết hệ thống NewSOMoni xem xét phần 2.2 2.1 Phương pháp đánh giá hiệu trích xuất kiện Mọi phương pháp trích xuất kiện đề xuất phải đánh giá hiệu trích xuất Tuy vậy, để đánh giá hiệu trích xuất cách tự động công việc khó tính bất định kiện hàng ngày Hội nghị MUC định nghĩa khung mẫu kiện với trường chưa xác định Công việc nhà nghiên cứu tìm cách xác định trường Bởi thế, ước lượng phương pháp trích xuất kiện sử dụng độ xác độ hồi tưởng tính công thức 2.1, 2.2 [RB96] độ xác = N điền N +N điền điền sai (2.1) N điền N phải điền (2.2) độ hồi tưởng = Trong đó: • N phải điền • N điền số trường khung mẫu phải điền vào số trường mà phương pháp điền [nju: ’sΛm mΛni] Magnitude Smartness z}|{ z}|{ New S O M oni |{z} Orientation viết tắt News Online Monitoring 12 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni • N điền sai số trường mà phương pháp điền sai Do tính phức tạp kiện dạng kiện nhiều nên chương trình ACE sử dụng tập liệu gán nhãn kiện để đánh giá phương pháp trích xuất Một hệ thống trích xuất kiện ước lượng trọng số V DC_V aluesys tổng giá trị trích xuất hệ thống dạng kiện, tính công thức 2.3 V DC_V aluesys = giá trị trích xuất dạng kiện thứ i (2.3) i Giá trị trích xuất dạng kiện cho tích giá trị kiện trích xuất tổng giá trị thực thể tham gia kiện (công thức 2.4) Giá trị kiện trích xuất = Giá trị kiện × giá trị thực thể tham gia thứ p (2.4) p Giá trị kiện tính hàm số, mà đó, kiện có tập liệu mẫu giá trị giá trị nhỏ kiện tương ứng liệu mẫu Ngược lại, kiện trích xuất không nằm liệu mẫu, giá trị gán trọng số đủ nhỏ khác Giá trị thực thể tham gia hàm số Nếu thực thể tồn liệu mẫu gán nhãn thực thể tham gia kiện giá trị giá trị thực thể liệu mẫu Ngược lại, trọng số đủ nhỏ khác gán Tuy cách đánh giá MUC đơn giản, dễ dàng thực nghiên cứu không theo cách tiếp cận họ nên sử dụng phương pháp ước lượng tương tự Bên cạnh đó, xây dựng tập liệu mẫu ACE thực tốn nhiều thời gian công sức Trong công trình này, đánh giá hiệu trích xuất kiện qua hai bước: • Bước 1: Đánh giá độ hồi tưởng độ xác phương pháp học máy Maximum Entropy pha Phân lớp chủ đề • Bước 2: Đánh giá đắn kiện trích xuất sau thực xong pha Trích xuất kiện yếu tố người 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni Công trình nghiên cứu xây dựng hệ thống theo dõi tin tức trực tuyến Nhiệm vụ hệ thống quan sát tức đưa lên nguồn cung cấp tin tức, phân loại nhận dạng kiện thuộc ba lĩnh vực: Tai nạn giao thông, Hình sự, Cháy nổ Cuối trực quan hóa đồ cho người dùng dễ dàng theo dõi, cập nhật Mô hình hệ thống thể rõ hình 2.1 Hệ thống NewSOMoni có năm phần chính: 13 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni Hình 2.1: Mô hình hệ thống NewSOMoni • Kho liệu sở không ràng buộc, hướng tài liệu (MongoDB), lưu trữ lượng lớn liệu tin tức • Thu thập liệu thu thập liệu tự động tiền xử lý liệu • Phân lớp chủ đề đưa tin tức thu thập vào hai dạng: Sự kiện, Không phải kiện • Trích xuất kiện thực bước cần thiết để trích xuất kiện • Trực quan hóa liệu có nhiệm vụ tương tác với sở liệu để hiển thị thông tin cho người dùng Mỗi thành phần hệ thống diễn giải chi tiết 2.2.1 Kho liệu Hệ thống phải xử lý liệu lớn nên cần lựa chọn kiểu lưu trữ thiết kế sở liệu phù hợp Riêng lượng liệu thu thập ngoại tuyến gồm 3.842.137 tin tức điện tử phục vụ cho trình sinh luật học mô hình phân lớp ban đầu có dung lượng gần 60GB Hơn nữa, hệ thống chạy trực tuyến ngày nhận khoảng 1500 báo điện tử Do vậy, cần thiết hệ sở liệu có khả truy xuất liệu nhanh có khả mở rộng sau Qua khảo sát, nhóm nghiên cứu nhận thấy hệ sở 14 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni liệu không quan hệ (NoSQL) phù hợp với tiêu chí đề NoSQL không tồn ràng buộc bảng lưu trữ Điều giúp cho tốc độ truy vấn tốt hẳn so với hệ sở liệu quan hệ truyền thống Thứ nữa, NoSQL hệ sở liệu phân tán, mở rộng theo chiều ngang, nghĩa yếu tố phần cứng nhớ (HDD), nhớ (RAM) tăng thêm cách kết hợp nhiều thành phần phần cứng nhỏ với Trong nghiên cứu này, lựa chọn hệ sở liệu MongoDB làm thành phần lưu trữ liệu khả truy vấn liệu nhanh, tự động dàn trải liệu dễ dàng phân tán Kho liệu gồm hai phần: sở liệu tin tức, sở liệu kiện Cơ sở liệu tin tức Đầu vào: tin tức từ thu thập liệu sau tiền xử lý liệu (Pha 2) Cơ sở liệu kiện Đầu vào: kiện thông tin kiện từ pha trích xuất kiện (Pha 4) 2.2.2 Thu thập liệu Hiện nay, hầu hết trang tin tức cung cấp chế chia sẻ tin RSS Tận dụng tính này, thu thập liệu qua RSS xây dựng Thu thập tin tức RSS Tin tức từ kênh RSS trang tin tức điện tử theo dạng XML hình 2.2 tự động thu thập qua RSSFeeder Hình 2.2: Khuôn dạng tin tức lấy qua kênh RSS 15 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni Bảng 2.1: Dữ liệu sau tiền xử lý Tên trường Giá trị Tiêu đề Xe tải tông nát taxi, người chết Tóm tắt Một vụ tai nạn kinh hoàng xẩy trưa ngày 20/3 Hà Tĩnh, có người chết người bị thương Đường dẫn vietnamnet.vn/vn/xa-hoi/64932/xe-tai-tong-nat-taxi–3-nguoi-chet.html Ngày đăng tin 3/20/2012 2:27:26 PM Tiền xử lý liệu Sau RSSFeeder lấy tin tức về, liệu cần phải lọc thông tin cần thiết Hai lý cần thiết để làm việc Một giảm dung lượng liệu lưu trữ hệ thống Hai giúp cho bước xử lý sau dễ dàng Đầu vào tin có định dạng hình 2.2 Đầu thông tin bao gồm: tiêu đề, tóm tắt, đường dẫn tới báo ngày đăng tin Bảng 2.1 ví dụ cho nội dung tin tức thể hình 2.2 Dữ liệu sau tiền xử lý lưu trữ sở liệu tin tức 2.2.3 Phân loại kiện Pha giải vấn đề nhận dạng kiện Tin tức thu từ pha thu thập liệu định có chứa kiện hay không Qua khảo sát liệu, nhận thấy hầu hết tiêu đề tin tức thể rõ nội dung tin tức có nói kiện Bởi vậy, toán đưa phân lớp nhị phân mức câu Đây bước trình kết hợp luật ngữ nghĩa học máy để trích xuất kiện mà chung đề xuất Hai việc cần phải làm pha Đầu tiên, tập đặc trưng lựa chọn Các đặc trưng trích chọn tập tin tức thu thập trước (dữ liệu ngoại tuyến) Sau đó, mô hình phân lớp sinh phương pháp học máy Maximum Entropy Tin tức qua mô hình phân lớp truyền tới pha nhận dạng chứa kiện, bị loại bỏ ngược lại Lựa chọn trích chọn đặc trưng Phân lớp chủ đề 2.2.4 Trích xuất kiện Sau nhận dạng tin tức có chứa kiện, kiện ba thông tin liên quan: người, thời gian, địa điểm trích xuất Ba vấn đề cần giải để hoàn thành pha gồm có trích chọn thực thể, trích xuất quan hệ thực thể trích xuất kiện 16 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni Hai vấn đề sử dụng kết kế thừa từ nghiên cứu phòng thí nghiệm Công Nghệ Tri Thức (KT–Lab) Giải vấn đề thứ ba bước thứ hai bước cuối trình kết hợp luật ngữ nghĩa học máy Maximum Entropy để trích xuất kiện Trích chọn thực thể Trích xuất quan hệ thực thể Trích xuất kiện 2.2.5 Trực quan hóa liệu Pha trực quan hóa liệu lấy kiện thông tin liên quan thể trực quan đồ Google Map 1 cung cấp https://developers.google.com/maps/ 17 Thực nghiệm hệ thống Để đánh giá hệ thống trích xuất kiện cần đánh giá khả phát kiện miền tin tức việc trích xuất thành phần kiện Trong chương này, đưa số kết thực nghiệm việc phát kiện trích xuất thành phần kiện để chứng minh tính đắn khả ứng dụng thực tiễn mô hình 3.1 3.1.1 Môi trường thực nghiệm Cấu hình phần cứng Bảng 3.1: Cấu hình phần cứng Thành phần Chỉ số Bộ xử lý Intel Core Due (2*2.0GHz) RAM 2GB Hệ điều hành Ubuntu 11.10 64-bits Bộ nhớ 320 GB 18 3.2 Dữ liệu thực nghiệm 3.1.2 Công cụ phần mềm Bảng 3.2: Danh sách công cụ phần mềm STT Tên phần mềm Maxent Site: http://www.cs.princeton.edu/maxent Công dụng: Bộ công cụ phân lớp chủ đề sử dụng giải thuật Maximum Entropy feed4j Site: http://www.sauronsoftware.it/ Công dụng: Bộ thư viện giúp download, xử lý RSS feed MongoDB Site: http://www.mongodb.org Công dụng: Hệ quản trị sở liệu No-SQL giúp lưu trữ liệu crawler kiện sau xử lý Eclipse Indigo Morphia 3.2 Mô tả Site: http://www.eclipse.org/downloads Công dụng: Đây công cụ lập trình Java Site: http://code.google.com/p/morphia/ Công dụng: Thư viện nguồn mở giúp tương tác sở liệu Java Dữ liệu thực nghiệm Chúng tiến hành thu thập liệu từ trang báo điện tử tổng hợp Báo thông qua thu thập RSS Các thành phần báo mà thu thập mô tả bảng 3.3 Chúng tiến hành kiểm thử hệ thống theo phương pháp kiểm thử chéo 10-folds cross validation Chia ngẫu nhiên liệu thành 10 mẫu kiểm thử theo tỉ lệ 9:1, phần liệu sử dụng làm liệu huấn luyện phần lại sử ụng làm liệu kiểm tra Bảng 3.3: Các thành phần báo STT Thành phần Mô tả Tiêu đề Tiêu đề báo Đây thành phần để xác định có báo có phải kiện hay không Mô tả báo Một đoạn giới thiệu ngắn nội dung báo Đây thành phần để tiến hành trích xuất thành phần kiện Thời gian Thời gian báo đăng Có thể giúp xác định thời gian kiện Liên kết Liên kết tới báo gốc 19 3.3 Đánh giá khả phát kiện 3.3 Đánh giá khả phát kiện Kết trình phân lớp thể bảng 3.4 biểu đồ hình 3.1 Bảng 3.4: Kết phân lớp Độ xác Độ hồi tưởng Độ đo F1 Fold 92.70 89.23 90.93 Fold 93.08 91.39 92.23 Fold 93.32 91.54 92.42 Fold 93.32 91.54 92.42 Fold 93.68 91.78 92.72 Fold 93.50 91.60 92.54 Fold 92.95 90.81 91.87 Fold 92.39 89.01 90.67 Fold 91.81 88.65 90.20 Fold 10 91.68 88.37 89.99 Trung bình 92.84 90.39 91.60 Hình 3.1: Kết phân lớp Nhận xét: Độ xác đạt phân lớp việc phát kiện dựa mô hình Maximum Entropy khả quan, cho thấy tính đắn việc sử dụng mô hình học máy 3.4 Đánh giá kết trích xuất kiện Kết trình trích xuất thành phần kiện sau: Nhận xét: Dựa vào kết cho thấy việc sử dụng chiến lược trích rút thành 20 3.5 Giới thiệu hệ thống đồ kiện Bảng 3.5: Kết trích xuất kiện Độ xác Fold Fold Fold Fold Fold Fold Fold Fold Fold Fold 10 Trung bình phần kiện sử dụng phương pháp dùng luật, từ điển phù hợp với liệu miền tin tức 3.5 Giới thiệu hệ thống đồ kiện Từ kết trình nghiên cứu thực nghiệm, tiến hành xây dựng hệ thống đồ theo dõi kiện Với hệ thống đồ này, theo dõi kiện xảy theo khu vực nước Việc theo dõi qua đồ giúp ta dễ dàng nắm bắt thông tin kiện Hệ thống đồ thể hình 3.2, 3.3 21 3.5 Giới thiệu hệ thống đồ kiện Hình 3.2: Bản đồ kiện Hình 3.3: Bản đồ kiện 22 Tổng kết Nghiên cứu kết hợp hai phương pháp: học máy Maximum Entropy luật ngữ nghĩa để trích xuất kiện miền liệu tin tức Mỗi phương pháp kể áp dụng vào hệ thống theo dõi tin tức trực tuyến NewSOMoni thể rõ bổ xung cho tốt chúng hiệu trích xuất lớn 85% Điều chứng tỏ kết hợp đắn phù hợp với toán đặt Hơn nữa, nói sản phẩm trình nghiên cứu hệ thống tiên phong lĩnh vực trích xuất kiện Việt Nam Bên cạnh thành công bước đầu, cần cải tiến phương pháp để nâng cao hiệu trích xuất thời gian Trong đó, luật ngữ nghĩa phải làm giàu thêm, qua hai đường: thủ công bán tự động Lựa chọn trích xuất đặc trưng cần cải tiến để nâng cao hiệu phân lớp kiện 23 Tài liệu tham khảo [FFU11] Frederik Hogenboom, Flavius Frasincar, Uzay Kaymak, Franciska De Jong An Overview of Event Extraction from Text Workhop on Detection, Representation, and Exploitation of Events in the Semantic Web, DeRiVE, 2011 [MW11] Martin Wunderwald NewsX–Event Extraction from News Articles Master Thesis Dresden University of Technology, Germany, 2011 [JM11] Jakub Piskorski, Martin Atkinson Frontex real-time news event extraction framework International Conference on Knowledge Discovery and Data Mining, KDD11, 2011 [FIM11] Florent Nicart, Ilias Flaounas, Marco Turchi, Nello Cristianini, Omar Ali, Tijl De Bie, Tristan Snowsill NOAM: news outlets analysis and monitoring system International Conference on Management of Data, SIGMOD11, 2011 [RG10] Ralph Grishman The Impact of Task and Corpus on Event Extraction Systems, International Conference on Language Resources and Evaluation, 7th , LREC, 2010 [YKW09] Yoko Nishihara, Keita Sato, Wataru Sunayama Event Extraction and Visualization for Obtaining Personal Experiences from Blogs Human Interface and the Management of Information Information and Interaction LNCS, vol 5839, Springer–Verlag, 2009 4, [MM09] Masayuki Okamoto, Masaaki Kikuchi Discovering Volatile Events in Your Neighborhood: Local-Area Topic Extraction from Blog Entries Asia Information Retrieval Symposium on Information Retrieval Technology, 5th , AIRS09, 2009 4, [CVJ09] K Bretonnel Cohen Karin Verspoor, Helen L Johnson, Chris Roeder, Philip V Ogren, William A Baumgartner, Jr., Elizabeth White, Hannah Tipney, Lawrence Hunter High-precision biological event extraction with a concept recognizer BioNLP09 Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing, 2009 4, 5, [MYL08] Mingrong Liu, Yicen Liu, Liang Xiang, Xing Chen, Qing Yang Extracting Key Entities and Significant Events from Online Daily News International Conference on Intelligent Data Engineering and Automated Learning, 9th , IDEAL08, 2008 24 TÀI LIỆU THAM KHẢO [HJM08] Hristo Tanev, Jakub Piskorski, Martin Atkinson Real-Time News Event Extraction for Global Crisis Monitoring International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems, 13th , NLDB08, 2008 4, [FK08] Felix Jungermann, Katharina Morik Enhanced Services for Targeted Information Retrieval by Event Extraction and Data Mining International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems, 13th , NLDB08, 2008 4, [JHP07] Jakub Piskorski, Hristo Tanev, Pinar Oezden Wennerberg Extracting violent events from on-line news for ontology population International Conference on Business Information Systems, 10th , BIS07, 2007 4, [FHH06] Feiyu Xu, Hans Uszkoreit,Hong Li Automatic Event and Relation Detection with Seeds of Varying Complexity AAAI Workshop on Event Extraction and Synthesis, 2006 4, [LWZ05] Zhen Lei, Ling-da Wu, Ying Zhang, Yu-chi Liu, A System for Detecting and Tracking Internet News Event Pacific–Rim Conference on Multimedia, 6t h, PCM05, 2005 [RDA05] Ralph Grishman, David Westbrook, Adam Meyers NYU’s English ACE 2005 System Description ACE Program, 2005 [MD04] Maria Vargas-Vera, David Celjuska Event Recognition on News Stories and Semi-Automatic Population of an Ontology.IEEE/WIC/ACM International Conference on Web Intelligence, WI04, 2004 5, [CHR04] Hong-woo Chun, Young-sook Hwang, Hae-Chang Rim Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns International Joint Conference on Natural Language Processing, 1st , IJCNLP04, 2004 4, [TFA03] Thorsten Brants, Francine Chen, Ayman Farahat A System for new event detection Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval, 26th , SIGIR03, 2003 [FHD02] Fang Li, Huanye Sheng, Dongmo Zhang Event Pattern Discovery from the Stock Market Bulletin International Conference on Discovery Science, 5th , DS02, 2002 4, [CM00] Chinatsu Aone, Mila Ramos-Santacruz REES: a large-scale relation and event extraction system Applied Natural Language Processing Conference, 6th , ANLP00, 2000 4, 25 TÀI LIỆU THAM KHẢO [YTJ98] Yiming Yang, Tom Pierce, Jaime Carbonell A study of retrospective and online event detection Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 21st , SIGIR98, 1998 [JRV98] James Allan, Ron Papka, Victor Lavrenko On-line new event detection and tracking Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 21st , SIGIR98, 1998 [RB96] Ralph Grishman, Beth Sundheim Message Understanding Conference - 6: A Brief History MUC–6, 1996 1, 12 [BS92] Beth Sundheim Overview of the fourth message understanding evaluation and conference MUC–4, 1992 26 [...]... Monitoring 12 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni • N điền sai là số trường mà phương pháp điền được nhưng sai Do tính phức tạp của sự kiện và dạng sự kiện nhiều hơn nên chương trình ACE sử dụng một tập dữ liệu đã được gán nhãn sự kiện để đánh giá phương pháp trích xuất Một hệ thống trích xuất sự kiện được ước lượng bởi trọng số V DC_V aluesys là tổng giá trị trích xuất của hệ thống đối với... thông tin về các sự kiện hơn Hệ thống bản đồ được thể hiện ở hình 3.2, 3.3 21 3.5 Giới thiệu hệ thống bản đồ sự kiện Hình 3.2: Bản đồ sự kiện Hình 3.3: Bản đồ sự kiện 22 Tổng kết Nghiên cứu của chúng tôi đã kết hợp giữa hai phương pháp: học máy Maximum Entropy và luật ngữ nghĩa để trích xuất sự kiện trên miền dữ liệu tin tức Mỗi phương pháp kể trên được áp dụng vào hệ thống theo dõi tin tức trực tuyến NewSOMoni. .. thế nào là trích xuất sự kiện tin tức và những phương pháp thường được sử dụng để làm điều đó? Thứ hai tồn tại những khó khăn nào khi áp dụng những phương pháp từ câu hỏi trên vào dữ liệu tiếng Việt và cách giải quyết những khó khăn này? Và cuối cùng một hệ thống theo dõi tin tức có khả thi không? 1.3 1.3.1 Ý nghĩa Ý nghĩa khoa học Về mặt khoa học, chúng tôi đề xuất phương pháp trích xuất sự kiện dựa... tưởng và độ chính xác của phương pháp học máy Maximum Entropy trong pha Phân lớp chủ đề • Bước 2: Đánh giá sự đúng đắn của sự kiện được trích xuất sau khi thực hiện xong pha Trích xuất sự kiện bằng yếu tố con người 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni Công trình nghiên cứu này chúng tôi đã xây dựng một hệ thống theo dõi tin tức trực tuyến Nhiệm vụ chính của hệ thống là quan sát tức mới... luật và học máy Maximum Entropy để trích xuất sự kiện Trước tiên, phương pháp đánh giá hiệu quả trích xuất sẽ được nói tới nhằm mục đích làm rõ tiêu chí ước lượng phương pháp trích xuất và làm cơ sở để so sánh phương pháp của chúng tôi với các phương pháp khác Tiếp sau, mô hình đề xuất và diễn giải chi tiết của hệ thống NewSOMoni được xem xét ở phần 2.2 2.1 Phương pháp đánh giá hiệu quả trích xuất sự kiện. .. 1.2: Hệ thống EpiSpider Hình 1.3: Hệ thống Frontex 10 1.5 Nghiên cứu liên quan Hình 1.4: Hệ thống NOAM Quốc Gia Thành Phố Hồ Chí Minh) chủ trì đều chỉ dừng lại ở mức thử nghiệm phương pháp chứ chưa có công bố chính thức nào 11 2 Mô hình hệ thống theo dõi tin tức trực tuyến NewSOMoni Chương này chúng tôi sẽ trình bày về hệ thống theo dõi tin tức trực tuyến có tên NewSOMoni 1 2 cùng phương pháp lai giữa... dựng một hệ thống theo dõi, giám sát thông tin sự kiện Bởi quy mô của một công trình sinh viên nghiên cứu khoa học, nhóm chúng tôi tập trung vào ba loại sự kiện thường xảy ra hằng ngày: tai nạn giao thông, hình sự và cháy nổ Một cách rõ ràng nhất, sự kiện thuộc ba dạng trên sẽ được trích xuất theo các thông tin: tên sự kiện, thời gian/địa điểm diễn ra sự kiện, các nhân tố tham gia sự kiện Sau đó, sự kiện. .. Trung bình phần của sự kiện sử dụng các phương pháp như dùng luật, từ điển là phù hợp với dữ liệu miền tin tức 3.5 Giới thiệu hệ thống bản đồ sự kiện Từ kết quả của quá trình nghiên cứu và thực nghiệm, chúng tôi đã tiến hành xây dựng một hệ thống bản đồ theo dõi sự kiện Với hệ thống bản đồ này, chúng ta có thể theo dõi các sự kiện mới xảy ra theo các khu vực trên cả nước Việc theo dõi qua bản đồ giúp... hiện [CHR04] Tất cả những phương pháp trên đều cho độ chính xác và độ hồi tưởng cao Tuy giúp hai hướng tiếp cận trên phụ trợ nhau, nhưng việc kết hợp chúng làm cho hệ thống trích xuất sự kiện trở nên phức tạp và khó xây dựng hơn Bên cạnh những nghiên cứu kể trên, các hệ thống ứng dụng trích xuất sự kiện cũng đã được xây dựng Ngoài một số hệ thống trích xuất và theo dõi sự kiện thương mại đã được nhắc... dạng sự kiện, tính như ở công thức 2.3 V DC_V aluesys = giá trị trích xuất của dạng sự kiện thứ i (2.3) i Giá trị trích xuất của một dạng sự kiện được cho bởi tích giữa giá trị của sự kiện được trích xuất và tổng các giá trị của các thực thể tham gia sự kiện (công thức 2.4) Giá trị sự kiện trích xuất = Giá trị sự kiện × giá trị thực thể tham gia thứ p (2.4) p Giá trị sự kiện được tính bởi một hàm số, ... cứu Một phương pháp lai trích xuất kiện áp dụng vào hệ thống theo dõi tin tức trực tuyến NewSOMoni khảo sát số phương pháp trích xuất kiện tiêu biểu có hiệu tốt, sử dụng nhiều hệ thống theo dõi. .. tin Dựa sở đó, nghiên cứu đề xuất phương pháp lai nhằm mục đích trích xuất kiện miền tin tức tiếng Việt thử nghiệm hệ thống theo dõi tin tức trực tuyến NewSOMoni Phương pháp đề xuất kết hợp phương. .. Mô hình hệ thống theo dõi tin tức trực tuyến NewSOMoni Chương trình bày hệ thống theo dõi tin tức trực tuyến có tên NewSOMoni phương pháp lai luật học máy Maximum Entropy để trích xuất kiện Trước

Ngày đăng: 06/12/2015, 10:51

Từ khóa liên quan

Mục lục

  • Tóm tắt nội dung

  • Mục lục

  • Danh sách hình ve

  • Danh sách bang

  • Danh sách ký hiệu và từ viết tắt

  • Lời nói đầu

  • 1 Giới thiệu bài toán trích xuất sự kiện

    • 1.1 Động lực nghiên cứu

    • 1.2 Vấn đề nghiên cứu

      • 1.2.1 Bài toán

      • 1.2.2 Các vấn đề cần giải quyết

      • 1.3 Ý nghĩa

        • 1.3.1 Ý nghĩa khoa học

        • 1.3.2 Ý nghĩa thực tiễn

        • 1.4 Thách thức

        • 1.5 Nghiên cứu liên quan

          • 1.5.1 Một số nghiên cứu liên quan ở nước ngoài

          • 1.5.2 Một số nghiên cứu liên quan ở trong nước

          • 2 Mô hình hệ thống theo dõi tin tức trực tuyến NewSOMoni

            • 2.1 Phương pháp đánh giá hiệu quả trích xuất sự kiện

            • 2.2 Hệ thống theo dõi tin tức trực tuyến NewSOMoni

              • 2.2.1 Kho dữ liệu

              • 2.2.2 Thu thập dữ liệu

              • 2.2.3 Phân loại sự kiện

              • 2.2.4 Trích xuất sự kiện

              • 2.2.5 Trực quan hóa dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan