Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

50 419 0
Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục lục Chương 1. Bài toán phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể. . 3 1.1. Hệ thống tìm kiếm thực thể . . 3

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đạo Thái PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đạo Thái PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: PSG.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Trần Mai Vũ HÀ NỘI - 2010 Lời cảm ơn Trước tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sỹ Trần Mai Vũ, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tôi chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu trường Đại Học Công Nghệ Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên nhóm “Khai phá liệu” phịng thí nghiệm KT-Sislab giúp tơi nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt khố luận Cuối cùng, tơi muốn gửi lời cảm vơ hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn ! Sinh viên Nguyễn Đạo Thái Tóm tắt nội dung Một lĩnh vực tìm kiếm Internet người dùng quan tâm tìm kiếm thơng tin thực thể người Thực thể người loại thực thể có độ nhập nhằng cao nhất, tên ứng với thực thể người khác nhau, tên khác ứng với thực thể người Tuy nhiên máy tìm kiếm thao thác văn chứa tên người giống văn bình thường khác dẫn đến kết tìm kiếm khơng người dùng mong đợi Khóa luận tập trung nghiên cứu phương pháp giải nhập nhằng tên người tập văn miền liệu báo điện tử tiếng Việt dựa đặc trưng từ vựng mạng xã hội đề xuất áp dụng xây dựng hệ thống tìm kiếm thực thể người Thực nghiệm ban đầu với tập tên người có độ nhập nhằng cao cho thấy mơ hình phân biệt nhập nhằng tên người tập văn có độ xác cao đạt độ đo F mức tốt (F0.5 = 0.791 F0.2 = 0.773) Kết cho thấy phương pháp phân biệt nhập nhằng tên người đề xuất triển khai khả quan cho ngôn ngữ tiếng Việt Mục lục Chương Bài toán phân biệt nhập nhằng tên người hệ thống tìm kiếm thực thể 1.1 Hệ thống tìm kiếm thực thể 1.1.1 Những thuận lợi khó khăn việc khai thác thông tin WWW 1.1.2 Hệ thống tìm kiếm thực thể 1.1.3 Vấn đề giải nhập nhằng tên hệ thống tìm kiếm thực thể người 1.2 Bài toán phân biệt nhập nhằng tên người tập văn 1.2.1 Phát biểu toán 1.2.3 Mối quan hệ với toán phân biệt nhập nhằng nghĩa từ 1.2.3 Phương pháp đánh giá 10 Tóm tắt chương 11 Chương Phương pháp giải toán nhập nhằng tên người tập văn 12 2.1 Tiếp cận dựa thực thể định danh 12 2.2 Tiếp cận dựa từ khóa 14 2.3 Tiếp cận dựa kỹ thuật trích xuất thơng tin 18 2.4 Một số cách tiếp cận khác 20 Tóm tắt chương hai 21 Chương 3: Mơ hình hệ thống phân biệt nhập nhằng tên người 22 3.1 Cơ sở thực tiễn 22 3.2 Cơ sở lý thuyết 24 3.2.1 Mơ hình khơng gian vector 24 3.2.2 Thuật toán phân cụm HAC 26 3.3 Mơ hình hệ thống phân biệt nhập nhằng tên người tập văn 31 3.4 Áp dụng toán phân biệt nhập nhằng tên người hệ thống tìm kiếm thực thể người 33 Tóm tắt chương ba 34 Chương Thực nghiệm đánh giá 35 4.1 Môi trường công cụ sử dụng thực nghiệm 35 4.2 Xây dựng tập liệu 36 4.3 Thực nghiệm 37 Thực nghiệm phân biệt nhập nhằng tên người tập văn 37 Kết luận 41 Tài liệu tham khảo 42 Danh sách hình vẽ Hình - Kết tìm kiếm từ Google với truy vấn “nokia 6030” Hình - Đồ thị trang Web góc nhìn thực thể Hình - Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa kỹ thuật trích xuất thông tin Hình - Hệ thống tìm kiếm nơi nghỉ mát Cazoodle Hình - Danh sách top 10 từ khóa tìm kiếm Google, Bing Yahoo năm 2009 Hình - Các mẫu trích xuất sinh tự động cho ngày sinh 19 Hình - Đoạn trích từ báo “Năm 2010: ĐH Quốc gia Hà Nội tuyển sinh 5.500 tiêu” .22 Hình - Đoạn trích từ báo “Cá ngừ độc chứa histamin tự do” 23 Hình 10 - Trích từ báo “11 giám đốc bưu điện đồng loạt hầu tòa” từ trang vnexpress.net 23 Hình 11 - Trích từ báo “Siêu lừa Nguyễn Lâm Thái có dấu hiệu tâm thần” từ trang vnexpress.net 24 Hình 13 - Quy trình phân cụm .26 Hình 14 - Ví dụ thuật toán K-means .27 Hình 15 - Hình vẽ minh họa cho phân cụm liệu dựa mật độ .27 Hình 16 - Sơ đồ phân tử trước phân cụm 28 Hình 17 - Sơ đồ phần tử sau phân cụm phân cấp .28 Hình 18 - Phân cụm với Single-linkage 30 Hình 19 - Phân cụm với Complete-linkage 30 Hình 20 - Trung bình khoảng cách GAAC 31 Hình 22 - Trích từ viết “Lê Thị Thanh Nhàn – nữ PGS toán học trẻ VN” -báo dantri.com.vn 39 Hình 23 - Trích từ viết “Kịch tính vịng chung khảo Nhân tài đất Việt CNTT 2008!” – báo dantri.com.vn 39 Danh sách từ viết tắt HAC Hierarchical agglomerative clustering GAAC Group-average agglomerative clustering WSD Word Sense Disambiguation WWW World Wide Web Mở đầu Sự đời máy tìm kiếm giúp ích cho người nhiều hoạt động khai thác thông tin Tuy nhiên, chất lượng tìm kiếm thơng tin cịn nhiều hạn chế, đặc biệt tìm kiếm thơng tin người, lĩnh vực có truy vấn lớn máy tìm kiếm Mặt khác, thực thể người loại thực thể có độ nhập nhằng cao nhất, mà kết trả máy tìm kiếm bao gồm tất người có tên giống người dùng cần phải đọc để tìm kết mong muốn Vì mà cần thiết phải có hệ thống có khả gom cụm kết cho trang Web thuộc cụm nói người, trang Web thuộc cụm khác nói người khác Bài tốn cốt lõi cho vấn đề toán giải nhập nhằng tên người tập văn Bài toán nhận quan tâm từ nhà nghiên cứu hội nghị lớn năm gần Colling, ACL, Senseval…Đặc biệt hội nghị WebPS1, hội nghị dành riêng cho vấn đề giải nhập nhằng tên người kết tìm kiếm Web Trong năm gần đây, có nhiều nghiên cứu ý tưởng đề xuất giới để giải toán này, Tuy nhiên, tiếng Việt thi nghiên cứu toán hạn chế Các nghiên cứu tập trung chủ yếu vào việc thể tốt ngữ cảnh riêng biệt cho người, tìm độ đo tương đồng ngữ cảnh phù hợp phân cụm ngữ cảnh, hay phân cụm văn chứa ngữ cảnh Và phương pháp thường thao tác miền liệu tương đối đặc thù, khơng có phương pháp khả thi nhiều miền liệu Việc tìm phương pháp tốt cho tiếng Việt vấn đề khó khăn, tiếng Việt giải số toán sở (thuộc đề tài KC 01.01/06-10), nhiên so với nhu cầu toán giải nhập nhằng tên người chưa đủ Mục tiêu khóa luận khảo sát, nghiên cứu để đưa phương pháp đủ tốt giải toán phân biệt nhập nhằng tên người miền liệu báo điện tử tiếng Việt Để đạt mục tiêu này, khóa luận khảo sát số phương pháp tiêu biểu giải tốn giới Từ đó, khóa luận đưa phương pháp giải toán phân biệt nhập nhằng tên người tập văn tiếng Việt Đầu tiên, khảo sát miền liệu báo điện tử để tìm đặc trưng tốt (dựa từ vựng đặc điểm mạng xã hội) thể riêng biệt cho người, phân biệt người với người khác tên Tiếp đó, thực việc gom cụm văn chứa tên http://nlp.uned.es/weps/ người thuật tốn HAC Khóa luận thực nghiệm với kết độ đo F đạt mức tốt so với kết giới (F 0.5 = 0.791 F 0.2 = 0.773); đồng thời, đề xuất mơ hình hệ thống tìm kiếm thực thể người dựa kết toán Nội dung khóa luận chia thành chương sau: Chương 1: Khóa luận giới thiệu khái quát hệ thống tìm kiếm thực thể tốn giải nhập nhằng tên người tập tài liệu, vai trò tốn hệ thống tìm kiếm thực thể người Khóa luận trình bày mối liên hệ toán với toán phân biệt nhập nhằng nghĩa từ, phương pháp đánh giá cho toán phân biệt nhập nhằng tên người tập văn Chương 2: Khóa luận giới thiệu chi tiết phương pháp tiêu biểu để giải vấn đề phân biệt nhập nhằng tên người tập văn Chương 3: Khoá luận giới thiệu đặc trưng miền liệu báo điện tử để từ đề xuất mơ hình giải tốn nhập nhằng tên người tập văn ứng dụng toán việc đề xuất mơ hình hệ thống tìm kiếm thực thể người Chương 4: Thực nghiệm, kết đánh giá Tiến hành thực nghiệm việc việc phân biệt nhập nhằng miền liệu báo điện tử tiếng Việt với tập liệu kiểm thử tên người có độ nhập nhằng cao Phần kết luận: Tóm lược kết đạt khóa luận định hướng phát triển tương lai Chương Bài toán phân biệt nhập nhằng tên người hệ thống tìm kiếm thực thể Tìm kiếm thơng tin nhu cầu thiết yếu sống người Con người có thơng tin mong muốn từ nhiều nguồn tài liệu khác sách vở, tạp chí, đặc biệt Internet Internet kho liệu đồ sộ, nhiên khai thác thách thức lớn liệu Internet đa dạng khơng có cấu trúc Con người mong muốn có thơng tin dạng thực thể, ghi (thơng tin có cấu trúc) việc phải đọc trang Web để tìm thơng tin mong muốn Một đối tượng tìm kiếm quan tâm tìm kiếm người Tuy nhiên, thực thu thập thông tin người, vấp phải thách thức người khác có tên người mong muốn tìm kiếm số họ Vì hệ thống tìm kiếm thực thể người, giải tốn nhập nhằng tên có ý nghĩa quan trọng Chương giới thiệu số khái niệm vấn đề liên quan đến toán phân biệt nhập nhằng tên người máy tìm kiếm thực thể 1.1 Hệ thống tìm kiếm thực thể 1.1.1 Những thuận lợi khó khăn việc khai thác thông tin WWW Khối lượng liệu khổng lồ WWW nguồn tài quyên quý giá cho người dùng việc khai thác tìm kiếm thông tin phục vụ cho nhu cầu hiểu biết Người dùng truy cập nguồn tài ngun lúc, nơi cách thuận tiện; họ có nhiều hội tìm kiếm, tổng hợp tri thức để tạo giá trị Tuy nhiên, khai khác nguồn tri thức cho hiệu vấn đề lớn Đặc biệt lượng thông tin WWW ngày nhiều, thay đổi hàng ngày hàng tiêu biểu tờ báo điện tử tin tức cập nhật trang tin, website thị trường chứng khốn Hình thức thơng tin ngày đa dạng từ văn đến âm thanh, hình ảnh làm cho người cảm giác ngập tri thức, khó khăn việc tìm tri thức cần Do đó, cần phải có cách thức tổ chức, quản lý, điều hành, cập nhật thông tin từ WWW phù hợp để thuận lợi cho việc khai thác Máy tìm kiếm đời cơng cụ hữu ích trợ giúp việc khai thác thơng tin WWW, phần đáp ứng nhu cầu người dùng Máy tìm kiếm có cách tổ chức tương đối phức tạp nhằm mục tiêu cải thiện chất lượng khai thác thông tin, bao gồm thành phần [10]: G tập hợp cụm S tập phân hợp trang Web cần phân cụm k tham số để dừng thuật tóan số lượng cụm mong muốn tạo q tham số ngưỡng dừng thuật toán độ tương tự cụm nhỏ ngưỡng G

Ngày đăng: 30/10/2012, 09:51

Hình ảnh liên quan

Hình 1- Kết quả tìm kiếm từ Google với truy vấn “nokia 6030” - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 1.

Kết quả tìm kiếm từ Google với truy vấn “nokia 6030” Xem tại trang 12 của tài liệu.
Hình 3- Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất thông tin - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 3.

Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất thông tin Xem tại trang 13 của tài liệu.
Hình 4- Hệ thống tìm kiếm nơi nghỉ mát của Cazoodle - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 4.

Hệ thống tìm kiếm nơi nghỉ mát của Cazoodle Xem tại trang 14 của tài liệu.
Hình 5- Danh sách top 10 từ khóa được tìm kiếm trong Google, Bing và Yahoo năm 2009  - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 5.

Danh sách top 10 từ khóa được tìm kiếm trong Google, Bing và Yahoo năm 2009 Xem tại trang 15 của tài liệu.
Hình 1. 6– - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 1..

6– Xem tại trang 16 của tài liệu.
Hình 2. 1– Kết quả phân tích đồng tham chiếu văn bản doc.36 - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 2..

1– Kết quả phân tích đồng tham chiếu văn bản doc.36 Xem tại trang 20 của tài liệu.
Hình 2. 3- Lược đồ hệ thống phân biệt nhập nhằng tên người dựa trên từ khóa - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 2..

3- Lược đồ hệ thống phân biệt nhập nhằng tên người dựa trên từ khóa Xem tại trang 22 của tài liệu.
Khi áp dụng mô hình trên hệ thống thu được các mẫu với quan hệ tên và ngày ngày sinh:  - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

hi.

áp dụng mô hình trên hệ thống thu được các mẫu với quan hệ tên và ngày ngày sinh: Xem tại trang 26 của tài liệu.
Hình 12 - Biểu diễn văn bản trong không gian vector. - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 12.

Biểu diễn văn bản trong không gian vector Xem tại trang 32 của tài liệu.
Hình 1 3- Quy trình phân cụm - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 1.

3- Quy trình phân cụm Xem tại trang 33 của tài liệu.
Hình 1 4- Ví dụ về thuật toán K-means •Phân cụm dữ liệu dựa trên mật  độ :  - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 1.

4- Ví dụ về thuật toán K-means •Phân cụm dữ liệu dựa trên mật độ : Xem tại trang 34 của tài liệu.
Hình 15 - Hình vẽ minh họa cho phân cụm dữ liệu dựa trên mật độ. •Phân cụm phân cấp  - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 15.

Hình vẽ minh họa cho phân cụm dữ liệu dựa trên mật độ. •Phân cụm phân cấp Xem tại trang 34 của tài liệu.
Hình vẽ minh họa cho thuật toán HAC: - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình v.

ẽ minh họa cho thuật toán HAC: Xem tại trang 35 của tài liệu.
Hình 1 8- Phân cụm với Single-linkage - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 1.

8- Phân cụm với Single-linkage Xem tại trang 37 của tài liệu.
Hình 19 - Phân cụm với Complete-linkage - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 19.

Phân cụm với Complete-linkage Xem tại trang 37 của tài liệu.
Hình 2 0- Trung bình các khoảng cách trong GAAC - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Hình 2.

0- Trung bình các khoảng cách trong GAAC Xem tại trang 38 của tài liệu.
Chương 4. Thực nghiệm và đánh giá - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

h.

ương 4. Thực nghiệm và đánh giá Xem tại trang 42 của tài liệu.
Dựa vào cơ sở lý thuyết và mô hình đề xuất ở chương 3, khóa luận tiến thành thực nghiệm việc phân biệt nhập nhằng tên người trên miền dữ liệu báo điện tử  - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

a.

vào cơ sở lý thuyết và mô hình đề xuất ở chương 3, khóa luận tiến thành thực nghiệm việc phân biệt nhập nhằng tên người trên miền dữ liệu báo điện tử Xem tại trang 42 của tài liệu.
Bảng tập tên người thực nghiệm mô hình - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Bảng t.

ập tên người thực nghiệm mô hình Xem tại trang 43 của tài liệu.
Bảng kết quả thực nghiệm. Đặc trưng  Purity  Inverse  - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Bảng k.

ết quả thực nghiệm. Đặc trưng Purity Inverse Xem tại trang 44 của tài liệu.
Bảng kết quả từ khóa, và thực thể người liên quan với tên “Nguyễn Hữu Đức” - Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Bảng k.

ết quả từ khóa, và thực thể người liên quan với tên “Nguyễn Hữu Đức” Xem tại trang 45 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan