nhận dạng thực thể trong văn bản tiếng việt

Thông tin tài liệu

ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Bá Đạt NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Hà Nội – 2009 ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Bá Đạt NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin GV hướng dẫn: TS. Phạm Bảo Sơn Hà Nội – 2009 Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt i Lời mở đầu Bài toán nhận dạng thực thể trong văn bản là bài toán khá cơ bản và quan trọng trong nhóm các bài toán rút trích thông tin. Nó có nhiệm vụ tìm kiếm và phân loại các thực thể như: thực thể chỉ người, thực thể chỉ tổ chức, thực thể chỉ địa điểm v.v… Trong khóa luận này, chúng tôi giới thiệu một hệ thống nhận dạng thực thể trong văn bản tiếng Việt được phát triển trên nguồn mở GATE (General Architecture for Text Engineering), với kết quả khá khả quan: F-measure – 82.03%. Toàn bộ hệ thống và những tài liệu liên quan gồm: định nghĩa thực thể, cách phân loại thực thể và một tập dữ liệu được gán nhãn chuẩn sẽ được mở cho cộng động sử dụng và phát triển. Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt ii Lời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy TS. Phạm Bảo Sơn, người đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa qua. Em cũng xin chân thành cảm ơn thầy TS. Bùi Thế Duy đã luôn chỉ bảo mỗi khi em có những vấn đề vướng mắc. Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua. Tôi xin chân thành cảm ơn đề tài “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC01.01/06-10 đã hỗ trợ kinh phí và dữ liệu để tôi có thể hoàn thành khóa luận này. Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm việc tốt hơn. Cảm ơn bé Ngân đã luôn ở bên và động viên tớ. Cảm ơn tất cả bạn bè đã luôn sát cánh cùng tôi. Hà Nội, ngày 20 tháng 5 năm 2009 Nguyễn Bá Đạt Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt iii Mục lục Lời mở đầu i Lời cảm ơn ii Mục lục iii Danh sách hình vẽ v Danh sách bảng vi Chương 1 Giới thiệu 1 Chương 2 Các hướng tiếp cận cho bài toán nhận dạng thực thể 4 2.1 Hướng tiếp cận sử dụng hệ luật cho bài toán nhận dạng thực thể 5 2.2 Hướng tiếp cận sử dụng các phương pháp học máy cho bài toán nhận dạng thực thể 7 2.3 Hướng tiếp cận lai 10 Chương 3 Giới thiệu GATE 11 3.1 Tổng quan về GATE 11 3.2 Những khái niệm trong khung làm việc GATE 13 3.3 Bộ từ điển (Gazetteers) 14 3.4 Bộ luật JAPE 15 3.4.1 Mệnh đề trái (LHS) 16 3.4.2 Thành phần thay thế (Macros) 17 3.4.3 Mệnh đề phải (RHS) 18 3.4.4 Sử dụng đoạn mã Java trong JAPE 19 3.4.5 Một vài lựa chọn khi viết luật 20 3.5 Tạo thêm thành phần tích hợp trên khung làm việc GATE 22 3.6 Tạo ứng dụng trên GATE 25 3.7 Các công cụ quản lý chất lượng 25 3.7.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bản (Annotation Diff) 26 Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt iv 3.7.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool) 26 Chương 4 Nhận dạng thực thể trong văn bản tiếng Việt 28 4.1 Định nghĩa thực thể, các loại thực thể và cách phân biệt các loại thực thể 29 4.1.1 Các khái niệm cơ bản 29 4.1.1.1 Định nghĩa thực thể và tên thực thể 29 4.1.1.2 Các loại thực thể được nhận dạng 29 4.1.2 Quy tắc nhận dạng thực thể 30 4.2 Chuẩn bị tập dữ liệu 30 4.3 Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt 32 4.3.1 Bộ tách từ và bộ gán nhãn từ loại 33 4.3.2 Bộ từ điển 35 4.3.3 Bộ luật 37 4.3.3.1 Chuẩn hóa tập nhãn Lookup 38 4.3.3.2 Tạo nhãn “NamePhrase” 38 4.3.3.3 Nhận dạng thực thể chỉ công trình <Facility> 39 4.3.3.4 Nhận dạng thực thể chỉ địa điểm <Location> và thực thể thuộc về quốc gia <Nationality> . 39 4.3.3.5 Nhận dạng thực thể chỉ tổ chức <Organization> 41 4.3.3.6 Nhận dạng thực thể chỉ các tổ chức tôn giáo <Religion> 41 4.3.3.7 Nhận dạng các thực thể chỉ người <Person > 42 4.3.3.8 Sử dụng văn cảnh và quá trình nhận dạng thông minh 42 Chương 5 Kết quả thực nghiệm và phân tích lỗi 48 5.1 Các bước tiến hành thực nghiệm 48 5.2 Kết quả thực nghiệm 48 5.3 Phân tích lỗi 51 Chương 6 Tổng kết và hướng phát triển 54 Tài liệu tham khảo 55 Phụ lục A. Annotation Guideline. 58 Phụ lục B. Bảng nhãn từ loại tiếng Việt 63 Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt v Danh sách hình vẽ Hình 2.1 - Kết quả cho 10 lần thực nghiệm của Nguyễn Cẩm Tú (Nguyễn 2005) 9 Hình 3.1 - Kiến trúc tổng quát của GATE 12 Hình 3.2 - Giao diện thêm một thành phần tích hợp vào GATE. 24 Hình 3.3 - Chọn các thành phần cho ứng dụng GATE 25 Hình 3.4 - Giao diện của Annotation Diff 27 Hình 3.5 - Giao diện của Corpus Benchmark tool 27 Hình 4.1 - Mô hình các bước phát triển của hệ thống 31 Hình 4.2 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng Việt 32 Hình 4.3 - Mô tả kết quả nhận dạng của một trường hợp nhập nhằng giữa Person và Nationality 43 Hình 4.4 – Một ví dụ cho quá trình nhận dạng thông minh 45 Hình 4.5 - Trường hợp hệ thống nhận dạng một dãy các thực thể cạnh nhau 46 Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt vi Danh sách bảng Bảng 3.1 – Minh họa về nhãn (annotation) 14 Bảng 5.1 – Kết quả nhận dạng trên tập huấn luyện 49 Bảng 5.2 – Bảng kết quả nhận dạng trên tập kiểm tra 49 Bảng 5.3 – Kết quả nhận dạng trên tập kiểm tra với tiêu chí “lỏng” ( lenient evaluation) 50 Bảng 5.4 – Kết quả thực nghiệm của một số hệ thống nhận dạng thực thể trong văn bản tiếng Việt 51 Chương 1. Giới thiệu bài toán nhận dạng thực thể Nguyễn Bá Đạt 1 Chương 1 Giới thiệu Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích chọn thông tin, tóm tắt nội dung văn bản v.v… ra đời như một nhu cầu tất yếu. Bài toán nhận dạng thực thể là một bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin. Nó có nhiệm vụ tìm kiếm và rút ra những thông tin liên quan đến thực thể (một đối tượng hoặc một tập hợp đối tượng của thế giới tự nhiên) trong văn bản, thông thường là loại thực thể. Có thể tùy theo từng bài toán, từng lĩnh vực cụ thể, người ta đưa ra danh sách những loại thực thể được nhận dạng khác nhau. Các hệ thống nhận dạng thực thể trong văn bản (Cao 2007, Mansouri 2008) thường nhận một số loại thực thể: Thực thể chỉ người (Person). Thực thể chỉ tổ chức (Organization). Thực thể chỉ địa điểm (Location). Thực thể chỉ ngày (Date). Thực thể chỉ thời gian (Time). Thực thể chỉ các đơn vị tiền tệ (Money). Thực thể chỉ phần trăm (Percent). Trong đó, loại thực thể chỉ ngày (Date), thực thể chỉ thời gian (Time), thực thể chỉ các đơn vị tiền tệ (Money), thực thể chỉ phần trăm (Percent) thường ít mang tính nhập nhằng, không khó để nhận dạng. Ngoài ra tùy từng lĩnh vực, người ta có thể chú ý Chương 1. Giới thiệu bài toán nhận dạng thực thể Nguyễn Bá Đạt 2 thêm vào những loại thực thể khác đặc thù. Ví dụ hệ thống nhận dạng thực thể trong văn bản với lĩnh vực y tế (Phạm 2007) sẽ nhận những thực thể chỉ tên thuốc, hoặc các loại bệnh v.v… như những loại thực thể chính. Có ba hướng tiếp cận chính cho bài toán nhận dạng thực thể trong văn bản: hướng tiếp cận sử dụng hệ luật được xây dựng bởi chuyên gia (Maynard 2001, Cao 2007), hướng tiếp cận sử dụng các phương pháp học máy (Mansouri 2008) và hướng tiếp cận lai (Fang 2002). Tuy mang tính tự động cao, nhưng các hướng tiếp cận sử dụng các phương pháp học máy và hướng tiếp cận lai đòi hỏi cần phải có một tập dữ liệu đã được gán nhãn (annotated corpus) đủ lớn cho quá trình huấn luyện. Trong khi đó, hướng tiếp cận sử dụng hệ luật được xây dựng bởi chuyên gia lại không yêu cầu điều này, hệ thống có thể hoạt động ngay khi hệ luật được hình thành. Là một bài toán khá quan trọng và cơ bản nhưng hiện nay vẫn chưa có nhiều nghiên cứu về bài toán nhận dạng thực thể trong văn bản đối với tiếng Việt. Hơn nữa những hệ thống hiện thời không phải là nguồn mở nên rất khó để tiếp cận sử dụng và phát triển (Nguyễn 2005, Cao 2007). Chính vì vậy chúng tôi quyết định xây dựng một hệ thống nhận dạng thực thể sử dụng hệ luật cho văn bản tiếng Việt trên nguồn mở của khung làm việc GATE (General Architecture for Text Engineering) 1 . Toàn bộ hệ thống sẽ được mở cho cộng đồng sử dụng và phát triển. Song song với việc phát triển hệ thống, chúng tôi cũng xây dựng một bộ tài liệu bao gồm: định nghĩa các thực thể, các loại thực thể, cùng với một tập dữ liệu được gán nhãn chuẩn (corpus) cho bài toán nhận dạng thực thể trong văn bản tiếng Việt. 1 Website chính thức của GATE: http://gate.ac.uk/download/index.html [...]... – trong tiếng Việt cũng có thể nhận ra một số lượng lớn các thực thể trong văn bản Bởi vậy ngay từ giai đoạn đầu xây dựng tập dữ liệu được gán nhãn cho bài toán nhận dạng thực thể trong văn bản tiếng Việt, chúng tôi đã tiến hành song song việc phát triển hệ thống luật và gán nhãn cho tập dữ liệu Hệ thống sử dụng hệ luật chạy và nhận dạng thực thể tự 5 Chương 2 Các hướng tiếp cận cho bài toán nhận dạng. .. bài toán nhận dạng thực thể trong văn bản tiếng Việt đã hình thành và bắt đầu thu được những kết quả khả quan Một số hệ thống tiêu biểu như: hệ thống nhận dạng thực thể trong văn bản dựa trên mô hình Conditional Random Fields (CRF) (Nguyễn 2005), hệ thống nhận dạng thực thể sử dụng phương pháp máy vector hỗ trợ (SVM) (Phạm 2007), hệ thống VN-KIM NE, nhận biết và chú thích tự động cho các thực thể (Cao... toán nhận dạng thực thể trong văn bản tiếng Việt, ví dụ như: Chưa có tập các loại nhãn chuẩn cho thực thể: Nguyễn đưa ra 8 loại nhãn cho thực thể (Nguyễn 2005), Phạm đưa ra 22 loại nhãn (Phạm 2007), trong khi Cao nhận diện 7 loại thực thể (Cao 2007) Chưa có một khung làm việc chuẩn Các hệ thống nhận dạng thực thể hiện nay ở Việt Nam xây dựng trên nền mã nguồn đóng, và rất khó để cộng đồng có thể tiếp... bài toán nhận dạng thực thể là một bài toán khá cơ bản trong trích chọn thông tin và xử lý ngôn ngữ tự nhiên nhưng chưa có nhiều nghiên cứu về bài toán này đối với tiếng Việt Một trong những nghiên cứu đầu tiên là của tác giả Nguyễn với hệ thống nhận dạng thực thể trong văn bản dựa trên mô hình Conditional Random Fields (CRF) để xác định 8 loại thực thể: thực thể chỉ người (Person), thực thể chỉ địa... tập văn bản và tất cả các nhãn Giao diện của Corpus Benchmark tool như hình 3.5 26 Chương 3 Giới thiệu GATE Nguyễn Bá Đạt Hình 3.4 - Giao diện của Annotation Diff Hình 3.5 - Giao diện của Corpus Benchmark tool 27 Chương 4 Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt Chương 4 Nhận dạng thực thể trong văn bản tiếng Việt Cùng với sự phát triển của lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt, ... Recall) x 100% Trong đó: N1: Số thực thể được nhận dạng chính xác N2: Tổng số thực thể được nhận ra N3: Số thực thể thực tế 4 Chương 2 Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt 2.1 Hướng tiếp cận sử dụng hệ luật cho bài toán nhận dạng thực thể Sử dụng chuyên gia xây dựng hệ luật là phương pháp truyền thống, có thể nói là được áp dụng sớm nhất trong các bài toán xử lý ngôn ngữ... thể nói là được áp dụng sớm nhất trong các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán nhận dạng thực thể trong văn bản nói riêng Hệ luật là một tập hợp các luật do con người đặt ra nhằm những mục đích nhất định, ở đây là việc nhận dạng các thực thể trong văn bản Một hệ thống nhận dạng thực thể sử dụng hệ luật thông thường sẽ có các các thành phần chính như: từ loại (danh từ, động từ v.v…),... thống nhận dạng thực thể trong văn bản tiếng Việt được xây dựng trên khung làm việc GATE Chương 5: Chúng tôi đưa ra những kết quả thực nghiệm và phân tích những lỗi vẫn còn tồn tại Chương 6: Chúng tôi đưa ra những kết luận về hệ thống và hướng phát triển hệ thống trong tương lai 3 Chương 2 Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt Chương 2 Các hướng tiếp cận cho bài toán nhận dạng. .. với tiếng Việt, có thể nói hệ thống VN-KIM IE là hệ thống đầu tiên có sử dụng bộ luật JAPE trong khung làm việc GATE(Cao 2007) Chức năng chính của bộ VN-KIM IE là nhận biết và chú thích tự động cho các thực thể có tên trong trang web tiếng Việt Quá trình rút trích thông tin của VN-KIM IE được thực hiện qua các bước: Quy chuẩn các văn bản trên web về một loại mã tiếng Việt Trích ra các khối văn bản. .. Kết quả cho 10 lần thực nghiệm của Nguyễn Cẩm Tú (Nguyễn 2005) Trong khi đó Phạm giới thiệu hệ thống nhận dạng thực thể trong văn bản tiếng Việt sử dụng phương pháp máy vector hỗ trợ (SVM) (Phạm 2007) Tác giả mô tả khá kỹ quá trình xây dựng hệ thống song song với quá trình xây dựng tập dữ liệu bởi ở Việt Nam hiện nay vẫn chưa có một tập dữ liệu chuẩn cho bài toán nhận dạng thực thể Tác giả chọn phương . 2009 Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt i Lời mở đầu Bài toán nhận dạng thực thể trong văn bản là bài toán khá cơ bản. tool) 26 Chương 4 Nhận dạng thực thể trong văn bản tiếng Việt 28 4.1 Định nghĩa thực thể, các loại thực thể và cách phân biệt các loại thực thể 29 4.1.1

Ngày đăng: 17/02/2014, 23:00

Xem thêm: nhận dạng thực thể trong văn bản tiếng việt, nhận dạng thực thể trong văn bản tiếng việt

nhận dạng thực thể trong văn bản tiếng việt

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan