Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

46 584 1
Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu tham khảo công nghệ thông tin Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆVũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨCKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tinHÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆVũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨCKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công nghệ thông tinCán bộ hướng dẫn: TS. Nguyễn Trí ThànhHÀ NỘI – 2009 Lời cảm ơnTrước tiên em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn Trí Thành, người đã giúp em chọn đề tài, đưa ra những nhận xét quý giá và trực tiếp hướng dẫn giúp em hoàn thành luận văn tốt nghiệp. Em xin chân thành cảm ơn các thầy cô giáo trong khoa CNTT- Trường Đại học Công Nghệ - ĐHQG Hà Nội đã truyền đạt kiến thức cho em trong suốt thời gian học tập tại trường.Trong suốt thời gian làm khóa luận, em đã nhận được nhiều sự giúp đỡ, động viên từ gia đình, thầy cô và bạn bè. Em xin gửi lời cảm ơn tới những người bạn của em, luôn bên cạnh em để chia sẽ những kiến thức, kinh nghiệm học tập cũng như trong cuộc sống.Cuối cùng, em xin gửi lời cảm ơn sâu sắc nhất tới gia đình của mình, nguồn động viên và cổ vũ lớn lao, và là động lực giúp em thành công trong công việc và trong cuộc sống.Sinh viênVũ Quốc Đạt Tóm tắt nội dungTrích chọn thông tin là lĩnh vực quan trọng trong khai phá dữ liệu, trong đó trích chọn thực thể là một bài toán con, cơ bản nhưng đóng vai trò hết sức quan trọng. Nó có thể được sử dụng để hỗ trợ cho phương pháp tìm kiếm mới – tìm kiếm hướng thực thể, và góp phần quan trọng cho việc xây dựng web ngữ nghĩa.Có nhiều phương pháp tiếp cận khác nhau cho bài toán trích chọn thực thể như phương pháp học máy HMM, … Trong khóa luận này em trình bày một phương pháp để trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trường Web. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toán DIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sách tiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệp của con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS – tag). Kết quả thực nghiệm trên các văn bản tiếng Việt cho thấy phương pháp này tương đối khả quan. Mục lụcLời cảm ơn . 3 Tóm tắt nội dung 4 Bảng từ viết tắt . 7 Mở đầu . 8 CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC 10 CHƯƠNG 2. HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ . 13 2.1.Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web 13 2.1.1.Occurrences của sách 13 2.1.2.Patterns của sách 14 2.1.3.Quy trình rút trích . 14 2.1.4.Thuật toán sinh Patterns 15 2.2.Thu thập tên và miền tương ứng từ tập tài liệu web . 16 2.3.Hệ thống Snowball 19 2.3.1.Sinh patterns . 20 2.3.2.Sinh cặp quan hệ . 22 2.4.Tổng kết chương . 23 3.2.1.Find_IndexsOfPrefixPattern . 28 3.2.2.Extract_CandidateStrings . 29 3.2.3.Trim 30 3.2.4.Filter_Entities . 30 3.2.5.Find_PrefixStrings . 31 3.2.6.Generate_NewPrefixPattern 31 3.3.1.Biểu diễn PrefixString 32 3.3.2.Thuật toán sinh PrefixPattern 33 3.4.Quy tắc cắt tỉa . 35 3.4.1.Extract_By_Capitalize_Rule . 37 3.4.2.Extract_By_Left_Rule 37 3.4.3.Extract_Standard_Name 38 3.4.4.Compare_Discard_Name 38 3.4.5.Các trường hợp cắt tỉa khác 38 CHƯƠNG 4. THỰC NGHIỆM 39 4.1.Chuẩn bị đầu vào 39 4.1.1.Thu thập dữ liệu . 39 4.2.Môi trường thực nghiệm . 40 4.2.1.Phần cứng . 40 4.2.2.Phần mềm . 41 4.3.Kết quả thực nghiệm 41 4.4.Nhận xét 43 Kết Luận . 43 Tài liệu tham khảo: . 46 Bảng từ viết tắtTừ hoặc cụm từ Viết tắtDual Iterative Pattern Relation Expansion DIPREMô hình Markov ẩn HMM Mở đầuTrích chọn thực thể là bài toán đơn giản nhất trong các bài toán trích chọn thông tin. Tuy cơ bản nhưng lại đóng vai trò khá quan trọng, như hỗ trợ các hệ thống tóm tắt văn bản tự động, ứng dụng cho máy tìm kiếm hướng thực thể … Bài toán trích chọn thực thể tên tiếng Việt đã được nghiên cứu vài năm gần đây, có nhiều phương pháp giải quyết được đưa ra với những kết quả thu được tương đối khả quan. Trong khóa luận này, em đưa ra một phương pháp mới “học gần không giám sát” để áp dụng cho bài toán trên. Tuy nhiên, trong phạm vi của khóa luận này em chỉ thực hiện rút trích một loại thực thể đó là thực thể tên tổ chức. Luận văn được chia thành 4 chương: Chương 1 Giới thiệu qua về trích chọn thông tin và bài toán trích chọn thực thể tên tổ chức cũng như ý nghĩa của nó. Chương 2 trình bày hướng tiếp cận để giải quyết bài toán. Chương đưa ra 3 bài toán rút trích các cặp quan hệ hệ khác nhau trên tập tài liệu (quan hệ <author, title>, <category, named entity>, <organization, location> ). Ý tưởng chính của các bài toàn này là dựa vào thông tin ngữ cảnh của đối tượng cần rút trích để biểu diễn chúng dưới dạng mẫu (pattern), từ mẫu này rút trích ra đối tượng. Bài toán cơ bản nhất là của Brin – rút trích cặp quan hệ <author, title>. Kỹ thuật quay vòng được áp dụng để rút trích thực thể, dựa vào thuật toán DIPRE. Vòng lặp sau sử dụng kết quả của vòng lặp trước làm đầu vào. Các thực thể lần lượt được rút trích ở mỗi vòng, kết thúc vòng lặp khi thỏa mãn điều kiện dừng đã cho. Mỗi bài toán đưa ra đều có cách biểu diễn mẫu riêng, phù hợp với ngữ cảnh của từng quan hệ cần rút trích.Từ bài toán của Pasca nãy ra ý nghĩ về một phương pháp học gần không giám sát để áp dụng cho bài toán trong khóa luận này. Hệ thống Snowball độc đáo với cách biểu diễn pattern và phương thức đánh giá chất lượng của thực thể thu được.  Chương 3 trình bày mô hình tổng quát và các bước chi tiết của bài toán rút trích thực thể tên tổ chức. Mô hình tổng quát dựa trên bài toán của Brin về rút trích cặp quan hệ <author, title>, đặc biệt là kỹ thuật DIPRE. Tuy nhiên, điểm xuất phát ban đầu giống với bài toán của Pasca – xuất phát là patterns. Với cách xuất phát này thì có thể giảm được số vòng lặp thực hiện. Chi tiết các bước thực hiện là: Ban đầu cho một mẫu (pattern) để đoán nhận tiền tố tên tổ chức; ước lượng một xâu (được kỳ vọng là có chứa tên thực thể) ngay sau tiền tố đó; cắt tỉa xâu trên thu được tên thực 8 thể; chọn lọc những thực thể đại diện từ tập thực thể thu được; ánh xạ ngược thực thể đại diện vào dữ liệu để tìm xâu tiền tố; sinh ra các pattern mới từ tập xâu tiền tố đó; tiếp tục vòng lặp mới… Chương cũng trình bày thuật toán sinh pattern từ cho tiền tố của thực thể; cuối cùng là đưa một số nhập nhằng trong cách biểu diễn tên, từ đó xây dựng chiến lược cắt tỉa để thu được tên hợp lý. Chương 4 là phần thực nghiệm. Dữ liệu chuẩn bị, môi trường thực nghiệm và kết quả thực nghiệm. Chỉ đưa ra một số kết quả thực nghiệm đại diện để thể hiện tính chất của bài toán.9 CHƯƠNG 1. SƠ LƯỢC BÀI TỐN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC1.1. Tổng quan về trích chọn thơng tinVới sự bùng nổ của Internet và các phương tiện lưu trữ đã tạo ra một lượng thơng tin khổng lồ. Bên cạnh đó nhu cầu về tốc độ xử lý thơng tin, cũng như tính chính xác ngày càng tăng. Do đó bài tốn đặt ra đối với các nhà nghiên cứu là tìm ra những phương pháp mới, hiệu quả cho việc xử lý thơng tin đáp ứng nhu cầu sử dụng. Hiện nay, các máy tìm kiếm (search engine) thực hiện việc tìm những trang web phù hợp với u cầu câu hỏi người dùng. Tuy nhiên bởi vì đối tượng tác động của nó là trang Web trong hệ thống tài liệu, nên miền tri thức nó thu được đơi khi khơng đủ để đáp ứng u cầu tìm kiếm của người dùng. Vẫn còn tiềm ẩn những giá trị trong các câu, bộ phận của trang Web. Do đó khai thác được những tri thức đó sẽ mang lại nhiều thơng tin bổ ích. Đó là lĩnh vực mà “trích chọn thơng tin” nghiên cứu. Trích chọn thơng tin là một lĩnh vực quan trọng trong khai phá dữ liệu, thực hiện việc rút trích ra thơng tin có cấu trúc từ tập tài liệu thơ – khơng có cấu trúc. Khơng giống như hiểu tồn bộ văn bản, các hệ thống trích chọn thơng tin chỉ cố gắng nhận biết một số thơng tin đáng quan tâm ở một lĩnh vực nào đó. Hay nói một cách khác, cho một mẫu (template) bao gồm các trường thực thể, quan hệ thực thể …., hệ thống trích chọn thơng tin có nhiệm vụ phân tích tài liệu thơ để tìm ra thơng tin thích hợp điền vào các trường tương ứng trong mẫu đó. Ví dụ về hệ thống trích chọn thơng tin : 10 [...]... các tổ chức Việt Nam cũng như thế giới là vấn đề đáng được quan tâm Rút trích tên tổ chức là liệt kê ra danh sách tên các tổ chức xuất hiện trong văn bản Bài toán rút trích tên thực thể (mà cụ thể ở khóa luận này là bài toán trích chọn thực thể tên các tổ chức) là bài toán cơ bản trong các bài toán trích chọn thông tin Bởi vì trước khi khai phá được các tri thức về thuộc tính, tính chất của các thực thể, ... nhiều phương pháp được áp dụng cho bài toán rút trích tên thực thể như phương pháp học máy HMM [4] … Trong khóa luận này, em sử dụng phương pháp học gần không giám sát dựa trên thuật toán DIPRE và ý tưởng rút trích cặp quan hệ (author, title) của Brin [7], kết hợp các luật hỗ trợ để rút trích thực thể tên tổ chức Tuy nhiên, có một hạn chế là thuật toán DIPRE thường áp dụng cho bài toán rút trích cặp... tiết của bài toán trích chọn Dựa trên các bài toán ở chương 2, em sử dụng phương pháp học gần không giám sát kết hợp sự hỗ trợ của các luật để giải quyết bài toán của mình Các bài toán đã trình bày ở chương 2 là rút trích các cặp quan hệ, còn mục tiêu của khóa luận này là rút trích tên các tổ chức – đơn, nên khi áp dụng tư tưởng của các bài toán đó vào bài toán trích chọn tên các tổ chức, cần có sự... quan hệ như (tên sách, tên tác giả), (tổ chức, trụ sở chính của tổ chức) …., còn nội dung khóa luận này chỉ là trích chọn thực thể đơn – tên tổ chức Nhưng lợi thế của DIPRE là tính tự động (automatic), cần ít thao tác thủ công của con người, có thể áp dụng trong miền dữ liệu lớn Hơn thế nữa tên các tổ chức thường có “quan hệ” nào đó với các “tiền tố” đứng liền nó Đấy là những tiền đề để áp dụng kỹ... giúp của hệ thống trích chọn thực thể - Hỗ trợ hệ thống tóm tắt văn bản tự động … Bài toán rút trích thực thể tên tổ chức trong khóa luận này đưa ra chỉ là bài toán cơ bản, chưa có ứng nhiều trong thực tế Mới chỉ dừng lại ở mức là làm giàu thông tin cho dữ liệu Tuy nhiên nó là cơ sở để phát triển bài toán phức tạp hơn, hữu ích hơn 12 CHƯƠNG 2 HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ Học máy là hướng... trình giảm được số lần thực hiện 24 vòng lặp Chương trình dừng lại khi độ chính xác của các thực thể rút trích được thấp dưới một ngưỡng cho phép Quy trình rút trích được mô tả như hình dưới đây : Hình 5: Mô hình tổng quát Có một điểm khác biệt giữa thực thể mà Brin rút trích với kiểu thực thể của chúng ta Đó là Brin rút trích theo cặp thực thể quan hệ, cụ thể ở đây là cặp (tên sách, tên tác giả) của cuốn... Pasca hay hệ thống Snowball, có thể thấy các thực thể được rút trích và patterns sinh ra có quan hệ tương hỗ với nhau Nghĩa là “chất lượng” của cái này ảnh hưởng đến chất lượng của cái kia Không những thế còn ảnh hưởng đến chất lượng của các vòng lặp tiếp theo Bài toán rút trích thực thể tên tổ chức cũng như vậy, cụ thể ở đây là giữa PrefixPattern và thực thể tên tổ chức Do đó, sinh ra một PrefixPattern... biến nhất cho bài toán trích chọn thực thể Bài toán trong khóa luận sẽ tiếp cận theo một cách khác Chương này sẽ giới thiệu một số bài toán điển hình đã được thực nghiệm để rút trích cặp quan hệ, từ đó có thể rút ra ý tưởng áp dụng cho bài toán rút trích thực thể tên tổ chức 2.1 Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web Nhận thấy rằng thông tin trên WWW không phải chỉ ở dạng... Find_IndexsOfPrefixPattern Để rút trích được một thực thể, cần phải biết được ngữ cảnh xung quanh nó Ở bài toán này chỉ quan tâm đến “tiền tố” (prefix) của nó Bởi vì đứng trước mỗi một thực thể tên tổ chức thường là các “tiền tố” có dạng đặc biệt, hoặc nằm trong miền giá trị cụ thể Ví dụ như thường là : Tổ chức, công ty, tập đoàn, phòng ….” Còn đứng sau mỗi tên tổ chức thường không có một quy tắc nào... Filter_Entities Tập thực thể sau khi được rút trích sẽ được ánh xạ ngược vào tập dữ liệu ở vòng lặp tiếp theo để tìm sự xuất hiện (Occurrences) Nhưng không phải tất cả các thực thể được dùng để ánh xạ Bởi có 2 lý do Thứ nhất nếu như sử dụng tất cả các thực thể, thì thời gian để tìm Occurrences là rất lâu Thứ hai, không phải tất cả các thực thể được rút trích ra đều chính xác, và không phải tất cả đều . ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆVũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨCKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC. 2009 ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆVũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨCKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC

Ngày đăng: 23/11/2012, 15:04

Hình ảnh liên quan

Hình 1: Hệ thống trích chọn thông tin - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Hình 1.

Hệ thống trích chọn thông tin Xem tại trang 11 của tài liệu.
Hình 2: Quy trình rút trích - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Hình 2.

Quy trình rút trích Xem tại trang 15 của tài liệu.
Để tăng số lượng cặp (C,N) rút trích được, mô hình đưa ra phương thức để “tự động” sinh ra những patterns mới - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

t.

ăng số lượng cặp (C,N) rút trích được, mô hình đưa ra phương thức để “tự động” sinh ra những patterns mới Xem tại trang 18 của tài liệu.
Hình 3: Rút trích Patterns mới - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Hình 3.

Rút trích Patterns mới Xem tại trang 18 của tài liệu.
Bảng 2: Phân hạng các Pattern rút trích được LeftContext  (POS tags)InnerPattern (words) RightContext (POS tags) - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Bảng 2.

Phân hạng các Pattern rút trích được LeftContext (POS tags)InnerPattern (words) RightContext (POS tags) Xem tại trang 19 của tài liệu.
Mô hình của Snowball được biểu diễn như dưới: - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

h.

ình của Snowball được biểu diễn như dưới: Xem tại trang 20 của tài liệu.
Quy trình rút trích được mô tả như hình dưới đây: - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

uy.

trình rút trích được mô tả như hình dưới đây: Xem tại trang 25 của tài liệu.
Hình 6. Mô hình bài toán - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Hình 6..

Mô hình bài toán Xem tại trang 27 của tài liệu.
Hình 7: Quy tắc cắt tỉa - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Hình 7.

Quy tắc cắt tỉa Xem tại trang 36 của tài liệu.
Bảng 5: Kếtquả lần 1                   Kếtquả - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Bảng 5.

Kếtquả lần 1 Kếtquả Xem tại trang 42 của tài liệu.
Để lấy kết quả đưa vào bảng, với mỗi lần kiểm tra độ chính xác, em thực hiện lấy 3 lần - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

l.

ấy kết quả đưa vào bảng, với mỗi lần kiểm tra độ chính xác, em thực hiện lấy 3 lần Xem tại trang 42 của tài liệu.
Bảng 7: Kếtquả lầ n3 - Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Bảng 7.

Kếtquả lầ n3 Xem tại trang 43 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan