Trích chọn sự kiện trong văn bản tin tức tiếng việt

4 365 1
Trích chọn sự kiện trong văn bản tin tức tiếng việt

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trích chọn sự kiện trong văn bản tin tức tiếng Việt Phan Thị Thuận Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04 Người hướng dẫn: TS. Nguyễn Trí Thành Năm bảo vệ: 2014 Keywords. Hệ thống thông tin; Trích chọn thông tin; Văn bản tiếng Việt Content Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data Mining - DM). Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trên thế giới và đã thu được nhiều kết quả trong thực tế. Trích chọn sự kiện có thể áp dụng vào nhiều miền dữ liệu khác nhau như kinh tế, văn hóa, y tế, xã hội (chẳng hạn như thông tin về các vụ tai nạn giao thông), chính trị, Theo những con số thống kê trên các trang báo điện tử về con số tai nạn hàng năm, như: thông tin đăng trên báo điện tử http://binhduong.gov.vn, sáng 03 – 01-2013, Chính phủ tổ chức “Hội nghị trực tuyến tổng kết công tác trật tự an toàn giao thông năm 2012 và triển khai nhiệm vụ năm 2013” do Phó Thủ tướng Chính phủ Nguyễn Xuân Phúc chủ trì. Trong hội nghị, Ủy ban An toàn giao thông ATGT Quốc gia đã thống kê: năm 2012, cả nước xảy ra 36.376 vụ tai nạn giao thông, làm chết 9.838 người, bị thương 38.060 người. Cũng theo báo điện tử http://hanoimoi.com.vn, ngày 31-12- 2013, Phó Thủ tướng Chính phủ, Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc đã chủ trì hội nghị trực tuyến với các bộ, ngành, địa phương nhằm tổng kết công tác bảo đảm trật tự ATGT năm 2013 và triển khai nhiệm vụ năm 2014. Theo thống kê của Ủy ban ATGT Quốc gia, năm 2013 cả nước đã xảy ra 29.385 vụ tai nạn giao thông (TNGT), làm chết 9.369 người, bị thương 29.500 người. Từ các con số thống kê tai nạn giao thông hàng năm, chúng ta thấy số vụ tai nạn còn rất cao, đi cùng với nó là con số tử vong và số thương vong là rất lớn. Mặt khác, bản tin vụ tai nạn được cập nhật khá đầy đủ và mang tính thời sự trên các báo điện tử. Hơn nữa, trích chọn sự kiện đang rất phát triển, chúng ta có thể sử dụng trích chọn sự kiện để trích chọn thông tin hữu ích từ các bản tin vụ tai nạn, kết quả của quá trình này sẽ được thống kê thành các con số hữu ích giúp các nhà quản lý và người dân tham gia giao thông đúng cách. Đó cũng là lý do, tác giả chọn và nghiên cứu đề tài“Trích chọn sự kiện trong văn bản tin tức tiếng Việt” miền dữ liệu khai thác là sự kiện vụ tai nạn. Chi tiết luận văn được chia thành 4 chương: Chương 1. Giới thiệu đề tài Chương này trình bày cơ bản về bài toán trích chọn sự kiện trong bối cảnh bùng nổ thông tin trên Internet. Hơn nữa nêu lên được ý nghĩa khoa học, ý nghĩa thực tiễn, ứng dụng của đề tài trích chọn sự kiện vụ tai nạn giao thông trên miền văn bản tiếng Việt. Chương 2.Một số phương pháp tiếp cận Chương này tập trung trình bày các phương pháp tiếp cận cho bài toán trích chọn sự kiện đó là, phương pháp tiếp cận dựa trên tâp luật, phương pháp tiếp cận dựa trên học máy, phương pháp tiếp cận kết hợp luật và học máy, trong mỗi phương pháp đều có nhận xét hữu ích. Từ đó, luận văn sẽ chỉ ra phương pháp phù hợp cho bài toán trích chọn sự kiện vụ tai nạn. Chương 3. Đề xuất mô hình trích chọn sự kiện vụ tai nạn Chương này, phát biểu và mô tả mô hình tổng thể cho bài toán trích chọn sự kiện vụ tai nạn. Sau đó, phát biểu, mô tả mô hình chi tiết và cách giải quyết cho hai bài toán: phát hiện sự kiện và trích chọn sự kiện. Chương 4. Thực nghiệm và đánh giá Chương này, luận văn mô tả quá trình thực nghiệm và đánh giả kết quả đề xuất dựa trên hai bài toán, đó là: bài toán phát hiện sự kiện và bài toán trích chọn sự kiện. Ba độ đo được sử dụng trong pha phát hiện sự kiện là độ chính xác (P - Precision), độ hồi tưởng (R - Recall), và độ đo F1 (F1- score) và so sánh với kết quả đánh giá thủ công (bằng tay) cho pha trích chọn sự kiện. Thống kê và đánh giá (biểu đồ) các thuộc tính đã được trích chọn. Phần kết luận: trình bày kết quả đạt được của luận văn, những hạn chế và hướng phát triển của luận văn trong tương lai. References Tài liệu tiếng Anh [1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India, [2] Douglas E. Appelt. Introduction to information extraction technology. In Tutorial held at IJCAI- 99, Stockholm, Sweden, 1999. [3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim. Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns. In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004). Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol. 3248:777786, 2004. [4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong. An overview of event extraction from text. Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp. 4857, 2011.10 [5] M.A Hearst. Automatic acquisition of hyponyms from large text corpora. In: 14th Conference on Computational Linguistics (COLING 1992), vol. 2:539545, 1992. [6] M.A Hearst. Wordnet: An electronic lexical database and some of its applications. In Automated Discovery of WordNet Relations, pp. 131151. MIT Press, 1998. [7] Frederik Hogenboom Jethro Borsje and Flavius Frasincar. Semi-automatic financial events discovery based on lexico-semantic patterns. International Journal of Web Engineering and Technology, 6(2):115140, 2010. [8] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian. Ontology-based fuzzy event extraction agent for chinese e-news summarization. In Expert Systems with Applications 25(3), 431 447, 2003. [9] Okamoto Masayuki and Masaaki Kikuchi. Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries. In: 5th Asia Information Retrieval Symposium (AIRS 2009). Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol. 5839:181192, 2009. [10] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang. Extracting key entities and significant events from online daily news. In: 9th International Conference on Intel- ligent Data Engineering and Automated Learning (IDEAL 2008). Lecture Notes in Computer Science. Springer- Verlag Berlin Heidelberg, vol. 5326:201209, 2008. [11] L. Peshkin and A. Pfeffer. Bayesian information extraction network. In Proc.of the 18th International Joint Conference on Artificial Intelligence (IJCAI), 2003. [12] Hristo Tanev Piskorski Jakub and Pinar Oezden Wennerberg. Extracting violent events from on- line news for ontology population. In: 10th International Conference on Business Information Systems (BIS 2007). Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol. 4439:287300, 2007. [13] Silja Huttunen Ralph Grishman and Roman Yangaber. Information extraction for enhenced access to disease outbreak reports. Journal of Biomedical Informastic, 35(4):pp. 236246, 2002. [14] Ai Kawazoe Son Doan and Nigel Collier. Global health monitor - a web-based system for detecting and mapping infectious diseases. Proc. International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume,Hyderabad, India:pp. 951956, 2008. [15] William H. Hsu Svitlana Volkova, Doina Caragea and Swathi Bujuru. Animal disease event recognition and classification. 2010 [16] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii. Event extraction from biomedical papers using a full parser. In In: 6th Pacific Symposium on Biocomputing (PSB 2001):pp. 408419, 2001. [17] Helen L. Johnson Chris Roeder Philip V. Ogren-William A. Baumgartner Jr. Elizabeth White Hannah Tipney K. Bretonnel Cohen, Karin Verspoor and Lawrence Hunter. High-precision biological event extraction with a concept recognizer. In In: Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting. pp. 5058. Association for Computational Linguistics, 2009. [18] S. Soderland, “Learning information extraction rules for semi-structured and free text,” Machine Learning, vol. 34, 1999. [19] H. Cunningham, D. Maynard, K. Bontcheva, and V. Tablan, “Gate: A framework and graphical development environment for robust nlp tools and applications,” in Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics, 2002 [20] W. Shen, A. Doan, J. F. Naughton, and R. Ramakrishnan, “Declarative information extraction using datalog with embedded extraction predicates,” in VLDB, pp. 1033–1044, 2007. [21] Ralph Grishman and Beth Sundheim. Message understanding conference-6: a brief history. Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA, USA, Volume 1:pp. 466471, 1996. [22] Doddington George R. The automatic content extraction (ace) program tasks, data, and evaluation. In LREC, 2004 [23] Keita Sato Nishihara, Yoko and Wataru Sunayama. Event extraction and visualization for obtaining personal experiences from blogs. In: Symposiumon Human Interface 2009 on Human Interface and the Management of Information. Information and Interaction. Part II. Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol. 5618:315324, 2009. [24] Chinatsu Aone and Mila Ramos-Santacruz. Rees: A large-scale relation and event extraction system. In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp. 7683. Association for Computational Linguistics, 2000. [25] Huanye Sheng Li Fang and Dongmo Zhang. Event pattern discovery from the stock market bulletin. In: 5th International Conference on Discovery Science (DS 2002). Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol. 2534:3549, 2002. [26] Vargas-Vera Maria and David Celjuska. Event recognition on news stories and semi-automatic population of an ontology. In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004). pp. 615618 , 2004. [27] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and Stavroula Voyatzi. A risk assessment system with automatic extraction of event types. Intelligent Information Processing IV, IFIP International Federation for Information Processing. Springer Boston, vol. 288:220229, 2008. . thông tin; Trích chọn thông tin; Văn bản tiếng Việt Content Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event Extraction - EE) là một lĩnh vực con trong. Đó cũng là lý do, tác giả chọn và nghiên cứu đề tài Trích chọn sự kiện trong văn bản tin tức tiếng Việt miền dữ liệu khai thác là sự kiện vụ tai nạn. Chi tiết luận văn được chia thành 4 chương:. bản tin vụ tai nạn được cập nhật khá đầy đủ và mang tính thời sự trên các báo điện tử. Hơn nữa, trích chọn sự kiện đang rất phát triển, chúng ta có thể sử dụng trích chọn sự kiện để trích chọn

Ngày đăng: 25/08/2015, 13:26

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan