Phân giải nhập nhằng thực thể có tên dựa trên các ontolopy đóng và mở

Chương 1: GIỚI THIỆU Thực thể có tên thực thể tham khảo đến tên, người, tổ chức, nơi chốn Phân giải nhập nhằng thực thể có tên (Named Entity Disambiguation - NED) nhằm ánh xạ tên xuất văn vào thực thể (đối tượng tham chiếu) nguồn tri thức (bên ngồi) với định danh Nổi lên gần tốn đầy thách thức, có nhiều ý nghĩa việc thực hóa Web có ngữ nghĩa, phát triển nâng cao ứng dụng xử lý ngôn ngữ tự nhiên, phân giải nhập nhằng thực thể có tên thu hút quan tâm nhiều nhóm nghiên cứu khắp giới Luận án đề xuất phương pháp luận áp dụng cho phân giải nhập nhằng thực thể có tên Ý tưởng chủ đạo phương pháp luận dựa vào định danh thực thể xác định để phân giải nhập nhằng cho trường hợp cịn lại q trình lặp cải thiện dần Dựa phương pháp luận đó, luận án đề xuất ba phương pháp cho tốn, nghiên cứu sâu ba yếu tố quan trọng ảnh hưởng đến hiệu phân giải nhập nhằng nguồn tri thức sử dụng, đặc trưng biểu diễn thực thể, mơ hình phân giải nhập nhằng Các nguồn tri thức khai thác ontology đóng Wikipedia Các ontology đóng xây dựng chuyên gia theo hướng tiếp cận từ xuống, với khái niệm có quan hệ thứ bậc dựa tập từ vựng có kiểm sốt ràng buộc chặt chẽ Wikipedia, xem ontology mở, xây dựng người tình nguyện theo hướng tiếp cận từ lên, với khái niệm hình thành từ tập từ vựng tự thoả thuận mang tính cộng đồng Các đặc trưng nghiên cứu tên thực thể đồng xuất hiện, định danh thực thể xác định, từ với cụm từ xuất xung quanh tên xem xét xung quanh tên đồng tham chiếu với tên văn Ngồi luận án khai thác vị trí xuất hiện, chiều dài tên, tên thường dùng -1- thực thể Luận án đề xuất ba mơ hình phân giải nhập nhằng tương ứng với ba phương pháp nói là: (i) mơ hình dựa heuristic; (ii) mơ hình dựa thống kê; (iii) mơ hình lai - kết hợp heuristic thống kê Sau đóng góp luận án Đề xuất phương pháp luận phân giải nhập nhằng lặp cải thiện dần Theo q trình phân giải nhập nhằng gồm nhiều vòng lặp Tại vòng lặp, định danh thực thể xác định sử dụng để phân giải nhập nhằng cho trường hợp lại Như vậy, thực thể sau xác định, định danh nó, với định danh thực thể xác định trước nó, dùng để phân giải nhập nhằng cho trường hợp cịn lại Q trình diễn tiến xác định định danh tất thực thể đề cập đến văn hai lần lặp khơng có thêm ánh xạ thực Đề xuất phương pháp phân hạng thực thể ứng viên dựa ontology Các ứng viên tên nhập nhằng phân hạng dựa vào mối quan hệ ngữ nghĩa chúng với thực thể xác định xung quanh tên Việc có hay khơng có mối quan hệ hai thực thể xác định dựa ontology cụ thể Đề xuất mơ hình phân hạng ứng viên dựa thống kê Trong mô hình phân hạng chúng tơi khai thác đặc trưng hoàn toàn so với nghiên cứu trước từ xuất xung quanh tên đồng tham chiếu với tên xét Mơ hình phân hạng ứng viên dựa thống kê sử dụng để khai phá đánh giá kết hợp khác đặc trưng trích từ văn từ ontology, xác định kết hợp cho hiệu phân giải nhập nhằng tốt Đề xuất mơ hình lai, kết hợp heuristic mơ hình thống kê, để thực việc phân giải nhập nhằng sử dụng Wikipedia Việc phân giải nhập nhằng thực hai giai đoạn Giai đoạn thứ sử dụng heuristic để thu giảm -2- ứng viên, chọn thực thể có thể, q trình lặp cải thiện dần Giai đoạn hai triển khai mơ hình phân hạng ứng viên dựa thống kê để phân giải nhập nhằng cho trường hợp lại Quá trình phân giải nhập nhằng giai đoạn hai lặp cải thiện dần Đề xuất độ đo mới, để đánh giá hiệu phân giải nhập nhằng, phù hợp cho trường hợp mà tên văn nhận bán phần, thực thể đề cập không tồn nguồn tri thức sử dụng Luận án bao gồm 152 trang chia làm chương Chương 1-Giới thiệu; chương 2-Nền tảng kiến thức; chương 3-Phân giải nhập nhằng dựa ontology; chương 4-Phân giải nhập nhằng dựa ontology làm giàu; chương 5-Phân giải nhập nhằng dựa Wikipedia; chương 6-Kết luận Luận án có 25 bảng, 17 hình, giải thuật sử dụng 151 tài liệu tham khảo với báo khoa học công bố tác giả -3- Chương 2: NỀN TẢNG KIẾN THỨC Trong chương này, chúng tơi trình bày kiến thức sử dụng luận án Những kiến thức bao gồm ontology, Wikipedia, nhận dạng thực thể có tên, phân giải đồng tham chiếu tên riêng, phân giải nhập nhằng thực thể có tên đến thời điểm Một ontology định nghĩa khung tổng quát để mô tả thực thể, thuộc tính mối quan hệ cụ thể chúng (gọi chung tính chất) Khung tổng quát bao gồm khái niệm (các lớp tính chất), tiên đề thiết lập ràng biểu diễn mối quan hệ các niệm Theo cách tiếp cận truyền thống, ontology xây dựng từ xuống chuyên gia Các khái niệm định nghĩa từ từ vựng có kiểm soát với ràng buộc khái niệm xác định rõ ràng Một hệ thống thứ bậc khái niệm xây dựng dựa mối quan hệ chuyên biệt hóa (specialization) tổng quát hóa (generalization) khái niệm Khi có thực thể cần mô tả, khái niệm sử dụng Chúng gọi ontology xây dựng theo cách tiếp cận ontology “đóng”, theo nghĩa người dùng không phép can thiệp để thay đổi từ vựng, lớp tính chất định nghĩa ontology Những năm gần đây, trào lưu Web xã hội (Social Web) hình thành “ontology” chung cộng đồng người sử dụng Các ontology không thỏa số ràng buộc chặt chẽ ontology nêu trên, trào lưu Web 2.0 củng cố cho khái niệm ontology chung mang tính cộng đồng Các ontology mang tính cộng đồng xây dựng theo cách tiếp cận từ lên Nghĩa cần định nghĩa phân loại thực thể mới, khái niệm ontology không đủ để mơ tả thực thể, người dùng định nghĩa khái niệm Ý nghĩa khái niệm điều chỉnh sau dựa thoả thuận cộng đồng người dùng Ontology xây dựng có tính cộng đồng có tính “mở”, với từ vựng phát -4- triển tự Chúng gọi ontology ontology “mở”, hiểu theo nghĩa người sử dụng dễ dàng thêm vào khái niệm cần Ngữ nghĩa khái niệm hình thành từ thoả thuận mang tính cộng đồng định nghĩa nhóm chuyên gia Wikipedia từ điển bách khoa trực tuyến nội dung mở, đóng góp hàng trăm nghìn tình nguyện viên Wikipedia xem ontology mở Thành phần Wikipedia trang Có nhiều loại trang Wikipedia trang thực thể, trang đổi hướng, trang phân giải nhập nhằng, trang thể loại Mỗi trang thực thể định nghĩa thực thể khái niệm, xác định nhan đề (title) Thơng thường, nhan đề tên thường dùng thực thể mô tả Trong trường hợp nhan đề tên nhập nhằng, chứa thêm thơng tin dấu ngoặc đơn; ví dụ, “John McCarthy (computer scientist)” sau dấu phẩy, ví dụ, “Columbia, South Carolina”, để phân biệt thực thể mô tả với thực thể khác tên Chúng gọi thông tin thêm computer scientist South Carolina phần văn phân giải nhập nhằng (disambiguation text) thực thể tương ứng Mỗi trang thực thể có nhiều liên kết vào nhiều liên kết Mỗi liên kết trỏ đến trang khác Wikipedia, nhãn liên kết nhan đề trang Mỗi trang thực thể thuộc nhiều thể loại, có trang đổi hướng tương ứng Các trang thể loại tạo cho thể loại hệ thống phân loại Wikipedia Mỗi trang đổi hướng chứa liên kết đến trang thực thể tương ứng nhan đề chứa tên khác thực thể Trang phân giải nhập nhằng tạo cho tên nhập nhằng Từ trang xác định thực thể có tên Wikipedia Nhận dạng thực thể có tên (Named Entity Recognition- NER) xác định từ cụm từ văn tên thực thể thuộc thể loại (hoặc lớp) cho trước người, tổ chức, nơi -5- chốn, Phân giải đồng tham chiếu tên riêng xác định liệu hai tên tài liệu có đề cập đến thực thể hay không, gom cụm tên thành chuỗi đồng tham chiếu, chuỗi chứa tên đề cập đến thực thể Các phương pháp đề xuất luận án sử dụng nhận dạng thực thể có tên phân giải đồng tham chiếu tên riêng phần tiền xử lý Phân giải nhập nhằng thực thể có tên nhằm ánh xạ tên xuất văn vào thực thể (đối tượng tham chiếu) nguồn tri thức (bên ngồi) với định danh Các nghiên cứu NED thời kì đầu tập trung chủ yếu vào phân giải nhập nhằng vùng địa lý Từ năm 2006 bắt đầu xuất nghiên cứu phân giải nhập nhằng thực thể có tên, khơng tập trung vào thực thể vùng địa lý mà tập trung vào thực thể khác với vùng địa lý, người tổ chức Chúng bắt đầu công việc nghiên cứu NED từ năm 2006, đến cuối năm 2006 đề xuất ý tưởng khai thác mối quan hệ ngữ nghĩa ứng viên với thực thể xác định tài liệu để phân giải nhập nhằng thực thể có tên theo q trình lặp cải thiện dần ([8]) Ý tưởng tiếp tục phát triển [7] [6] Với việc đề xuất ý tưởng phân giải nhập nhằng theo trình lặp cải thiện dần, xác lập hướng riêng kể từ đầu năm 2007 Ý tưởng tiếp tục phát triển phương pháp phân giải nhập nhằng dựa thống kê ([1], [2]), phương pháp lai – kết hợp mơ hình thống kê heuristic ([4]) -6- Chương 3: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY 3.1 Giới thiệu Trong chương giới thiệu phương pháp phân giải nhập nhằng dựa ontology, đặt tên OntoNEON (Ontology-based Named Entity DisambiguatiON) Ý tưởng chủ đạo phương pháp khai thác thực thể xác định văn để phân giải nhập nhằng cho thực thể khác, trình lặp cải thiện dần Giả thuyết mà phương pháp OntoNEON dựa để thực phân giải nhập nhằng văn tồn số thực thể dễ dàng xác định, tức tên chúng không nhập nhằng Tập kết hợp thực thể với tên tương ứng văn xem tập hạt giống, khởi đầu từ đó, q trình lặp cải thiện dần, thực thể khác đề cập đến văn xác định 3.2 Phân hạng ứng viên dựa ontology Phần trình bày phương pháp phân hạng ứng viên dựa mối quan hệ ngữ nghĩa chúng với ngữ cảnh xung quanh Với tên nhập nhằng, áp dụng heuristic sau để phân hạng thực thể ứng viên, chọn ứng viên phù hợp H1 Phân hạng dựa ontology Nếu ứng viên có nhiều mối quan hệ ngữ nghĩa với thực thể xác định tồn văn bản, ứng viên xem thực thể mà tên xét đề cập đến Heuristic sử dụng hàm cho điểm để phân hạng ứng viên, dựa vào số thực thể xác định mà có quan hệ ngữ nghĩa với ứng viên xét Tập ứng viên có hạng cao chọn Trường hợp có ứng viên có hạng cao nhất, ứng viên xem thực thể đúng, việc phân giải nhập nhằng cho tên xem xét coi kết thúc; ngược lại, -7- mà có từ hai ứng viên trở lên có hạng nhau, heuristic H2 sau áp dụng H2 Ưu tiên mối quan hệ với thực thể gần Nếu hai thực thể ứng viên có hạng, mối quan hệ ngữ nghĩa ứng viên với thực thể xác định phạm vị hẹp xét, thay tồn văn Phạm vi hẹp hiểu câu, đoạn, cửa sổ ngữ cảnh chứa tên nhập nhằng xét H3 Quan hệ đồng tham chiếu Gọi r tên văn phân giải nhập nhằng u tên xem xét Nếu r u đồng tham chiếu u xác định đề cập đến thực thể r đề cập Ý tưởng heuristic dựa vào tên phân giải nhập nhằng chuỗi đồng tham chiếu văn để phân giải nhập nhằng cho tên khác chuỗi Ví dụ, giả sử “George W Bush” “Bush” xuất văn xác định đồng tham chiếu, “George W Bush” xác định đề cập đến tổng thống thứ 43 nước Mỹ, phương pháp kết luận “Bush” đề cập đến vị tổng thống Lưu ý heuristic H3 áp dụng để xác định tên có đề cập đến thực thể nằm nguồn tri thức sử dụng hay không H4 Phân hạng dựa lớp thực thể Sau áp dụng heuristic H1 H2, H3,với hai thực thể ứng viên có hạng nhau, ứng viên chọn lớp gán trọng số cao trọng số gán cho lớp ứng viên lại 3.3 Các độ đo hiệu phân giải nhập nhằng Phần trình bày độ đo mà luận án đề xuất Gọi Tall số ánh xạ chuẩn vàng, TC số ánh xạ thực hoàn toàn, TP số ánh xạ thực phần TI -8- số ánh xạ thực không phương pháp phân giải nhập nhằng Ánh xạ phần ánh xạ tên ánh xạ nhận bán phần Mỗi ánh xạ hồn tồn tính điểm, ánh xạ phần tính nửa điểm Các độ đo độ xác ánh xạ (MappingPrecision), độ đầy đủ ánh xạ (Mapping-Recall), độ F ánh xạ (Mapping-F-Measure) định nghĩa sau: Định nghĩa 3.1: Độ xác ánh xạ (MP) TC  TP MP  TC  TP  TI Định nghĩa 3.2: Độ đầy đủ ánh xạ (MR) TC  TP MR  Tall Định nghĩa 3.3: Độ Fβ ánh xạ (MFβ) MF   β  1 MP * MR  β MP   MR Định nghĩa 3.4: Độ F ánh xạ (MF) MF  MF 1  MP * MR MP  MR 3.4 Thí nghiệm đánh giá Để đánh giá phương pháp OntoNEON, xây dựng tập liệu chuẩn vàng; dành cho tài liệu tiếng Anh, đặt tên De1, sử dụng ontology KIM, dành cho tiếng Việt, đặt tên Dv, sử dụng ontology VN-KIM Trong tập liệu chuẩn vàng, thực thể có tên thuộc lớp lớp ba lớp mức cao Con người, Tổ chức, Nơi chốn ánh xạ thủ công sử dụng ontology cụ thể Chúng gọi ánh xạ thủ cơng ánh xạ chuẩn vàng Trong chương -9- này, quan tâm đánh giá hiệu phân giải nhập nhằng cho trường hợp mà tên đề cập đến thực thể tồn sở tri thức Các kết thí nghiệm trình bày bên Phân giải nhập nhằng sử dụng ontology KIM Chúng thu thập tài liệu trang tin CNN, BBC, NewYork Times, Washington Post, Business Week để xây dựng tập liệu De1, cặp tên-lớp chọn lựa để thực thí nghiệm đánh giá (“Georgia”, Location) (“Smith”, Person) Bảng 3.1: Số lần xuất (“Georgia”, Location) De1 Lớp “Georgia” Province Country Tổng số: # văn 30 17 47 # lần xuất 116 213 329 Bảng 3.1 trình bày số thông tin liên quan đến số lần xuất “Georgia” tập liệu Bảng 3.2 trình bày số thơng tin liên quan đến số lần xuất “Smith” tập liệu Bảng 3.3 bảng 3.4 tổng hợp kết Bảng 3.2: Số lần xuất (“Smith”, Person) De1 Người có tên “Smith” Jason Smith Richard A Smith Rick Smith Jason Smith Richard J Smith Tổng cộng: Chức vụ # văn COO Chairman CEO Finance Director CFO 2 12 -10- # lần xuất 27 15 49 − Nhan đề trang đổi hướng (Title of Redirect page - RT): Mỗi thực thể Wikipedia có nhiều trang đổi hướng mà nhan đề chứa tên khác (bí danh khác), cách viết khác tên xuất ET, thực thể − Nhãn thể loại (Category Label - CL): Mỗi thực thể Wikipedia thuộc nhiều thể loại Chúng tơi trích nhãn tất thể loại − Nhãn liên kết (OL): Trong trang thực thể có nhiều liên kết trỏ đến thực thể khác Wkipedia Chúng xem nhãn liên kết đặc trưng thực thể tương ứng − Nhãn liên kết vào (IL): Mỗi thực thể Wikipedia có số liên kết từ thực thể khác trỏ đến Chúng tơi xem nhãn liên kết đặc trưng thực thể Chuẩn hóa Sau trích đặc trưng văn để biểu diễn tên nhập nhằng đặc trưng từ Wikipedia để biểu diễn thực thể đó, chúng tơi chuyển tập đặc trưng trích thực thể thành túi từ Sau túi từ chuẩn hóa sau: (i) loại bỏ kí tự đặc biệt số từ, ví dụ chuẩn hóa “U.S.” thành “US”, “D.C” (như “Washington D.C”) thành “DC”; (ii) loại bỏ kí hiệu đặc biệt dấu chấm, dấu phẩy, chấm phẩy, @, ; (iii) loại bỏ liên từ từ khơng có ý nghĩa, ví dụ “và”, “hoặc”, “nhưng” tiếng Việt hay “a”, “an”, “the” tiếng Anh; (iv) tiếng Anh từ đưa dạng gốc “reading” biến đổi thành “read” Gán trọng số từ tính toán độ tương tự véctơ Với tên văn bản, giả sử tồn N ứng viên Wikipedia mà tên đề cập đến Phương pháp tf.idf sử dụng để gán trọng số cho từ túi từ sau chuẩn hóa Trong đó, túi từ xem tài liệu, -15- chuyển thành véctơ đặc trưng Các ứng viên sau phân hạng dựa độ tương tự cặp véctơ Các thí nghiệm kết Mục tiêu phần thử nghiệm mơ hình phân hạng thực thể dựa thống kê khai phá đặc trưng nhằm xác định đặc trưng có tác động đến hiệu phân giải nhập nhằng Do thí nghiệm hướng đến hai mục tiêu sau: − Đánh giá hiệu phân giải nhập nhằng mơ hình phân hạng thực thể dựa thống kê − Khai phá đặc trưng văn Wikipedia, cách kết hợp đặc trưng theo nhiều cách khác nhau, nhằm thẩm định xem kết hợp cho kết phân giải nhập nhằng tốt nhất, đánh giá tác động đặc trưng vào hiệu phân giải nhập nhằng Bảng 4.1: Thông tin số lần xuất tên đề cập đến thực thể có bốn tên nêu số lượng ánh xạ thực phương pháp Tên # ứng viên John McCarthy John Williams 41 Georgia 17 Columbia 78 Tổng số # lần xuất 172 239 468 207 1.086 # ánh xạ 170 242 453 203 1.068 Chúng quan tâm thu thập tài liệu có chứa tên dùng để đề cập đến hai thực thể Wikipedia Cụ thể thu thập tài liệu có xuất bốn tên sau: “John McCarthy”, “John Williams”, “Georgia”, “Columbia” để tạo tập liệu thí nghiệm, đặt tên De2 Có tổng cộng 270 tài liệu tập liệu, có 1.086 lần xuất tên vừa nêu Các thông tin thống kê thể Bảng 4.1 -16- Bảng 4.2 cho thấy kết hợp tốt EN+LW+CW với đặc trưng trích từ văn bản, ET+RT+CL+OL với đặc trưng trích từ Wikipedia Để đánh giá đặc trưng định danh thực thể có tác động vào việc phân giải nhập nhằng, chúng tơi thực thí nghiệm kết hợp đặc trưng văn EN+LW+ CW+ID, kết hợp tốt đặc trưng trích từ Wikipedia ET+RT+CL+OL Kết cho thấy định danh thực thể xác định góp phần làm giảm khoảng 10% lỗi Qua thí nghiệm, chọn đặc trưng văn EN+LW+ CW+ID, đặc trưng rút trích từ Wikipedia ET+RT+CL+OL cho tất thí nghiệm cịn lại luận án này, chúng tơi triển khai mơ hình phân hạng ứng viên dựa thống kê để phân giải nhập nhằng Bảng 4.2: Độ xác độ đầy đủ ánh xạ tính trung bình cho tên nêu Đặc trưng trích từ văn EN EN + LW EN + LW + CW 4.3 Đặc trưng trích từ Wikipedia ET + RT ET + RT + CL ET + RT + CL + OL ET + RT + CL + OL + IL ET + RT ET + RT + CL ET + RT + CL + OL ET + RT + CL + OL + IL ET + RT ET + RT + CL ET + RT + CL + OL ET + RT + CL + OL + IL # ánh xạ 281 365 809 763 399 547 881 818 632 722 966 908 MP (%) MR (%) 26,31 34,18 75,75 71,44 37,36 51,22 82,49 76,59 59,18 67,60 90,45 85,02 25,87 33,61 74,49 70,26 36,74 50,37 81,12 75,32 58,20 66,48 88,95 83,61 Làm giàu ontology Chúng đề xuất phương pháp khai thác Wikipedia để làm giàu thông tin thực thể ontology Cho trước -17- ontology, trình làm giàu chúng tơi bao gồm hai giai đoạn Giai đoạn thứ dựa thuộc tính mối quan hệ thực thể ontology để xây dựng tập liệu, thực thể biểu diễn túi từ, túi từ xem tài liệu tập tài liệu Giai đoạn thứ hai làm giàu thông tin mô tả thực thể cách khai thác đặc trưng thực thể từ Wikipedia Bước thứ hai xem bước sinh tự động đặc trưng cho thực thể ontology Các đặc trưng từ Wikipedia cung cấp tập khái niệm ontology Tập khái niệm sử dụng để bổ sung vào thơng tin mơ tả thực thể, hay nói cách khác làm giàu thuộc tính mối quan hệ thực thể ontology, ví dụ bổ sung nơi người làm việc, cộng người Hai giai đoạn trình bày chi tiết bên Xây dựng tập liệu từ ontology Với thực thể ontology , chúng tơi rút trích đặc trưng thuộc loại sau: − Lớp thực thể (Class) Mỗi thực thể thuộc nhiều lớp khác nhau, lớp có nhiều lớp tổng quát Với thực thể rút trích lớp trực tiếp, với tất lớp tổng quát lớp − Giá trị thuộc tính tên thực thể có quan hệ với thực thể xét (Property) Tất tên thực thể có mối quan hệ với thực thể xét rút trích khơng riêng tên thức − Định danh thực thể có mối quan hệ với thực thể xét (ID) Mỗi thực thể ontology có định danh xác định thực thể Khi thực thể ontology có quan hệ với thực thể xét, chúng tơi rút trích định danh đặc trưng thực thể Làm giàu thơng tin mơ tả thực thể ontology Để khai thác đặc trưng từ Wikipedia làm giàu thông tin mô tả thực thể ontology , sử dụng đặc trưng -18- Class Property thực thể ontology Các đặc trưng chuyển thành túi từ Đối với thực thể Wikipedia, quan tâm đến bốn loại đặc trưng nhan đề trang thực thể (ET), nhan đề trang đổi hướng (RT), nhãn thể loại (CL), nhãn liên kết (OL) trình bày Phần 4.2 Chúng tơi trình bày kết hợp khác đặc trưng phần thí nghiệm Tập đặc trưng thực thể Wikipedia chuyển thành túi từ Chúng tơi thực chuẩn hóa gán trọng số từ túi từ biểu diễn thực thể ontology , thực thể Wikipedia trình bày Phần 4.2 Quá trình làm giàu thông tin mô tả thực thể i  I ontology thực sau: − Bước Tên dài i, gọi n, sử dụng truy vấn để truy hồi thực thể ứng viên Wikipedia − Bước Nếu nhận nhiều ứng viên chuyển sang Bước 5, ngược lại chuyển sang Bước − Bước Nếu nhận ứng viên, ứng viên kiểm tra để bảo đảm thực thể i ontology , cách xem xét tên thực thể ontology có mối quan hệ với i có trùng với nhãn liên kết ứng viên hay khơng Nếu tồn xem ứng viên i thực làm giàu thông tin i đặc trưng trích từ Wikipedia; ngược lại, chuyển sang Bước − Bước Nếu khơng có ứng viên trả về, chúng tơi thực loại bỏ token tiền tố hậu tố n thu n’ Sau n’ sử dụng truy vấn để truy hồi thực thể ứng viên Wikipedia Chuyển sang Bước − Bước Nếu có nhiều ứng viên, phân hạng ứng viên dựa thống kê Ứng viên có hạng cao chọn để trích đặc trưng làm giàu thông tin cho thực thể i ontology 4.4 Thí nghiệm đánh giá Tập liệu dùng cho thí nghiệm trình bày Phần 4.2 Trong ontology KIM (phiên miễn phí) khơng có thực -19- thể có tên “John McCarthy” “John Williams” Do vậy, thực thí nghiệm thực thể có tên “Georgia” “Columbia” Bảng 4.3 trình bày thông tin số ứng viên tương ứng với tên “Georgia” “Columbia”, số lần xuất thực thể có tên “Georgia” “Columbia” đề cập đến tập tài liệu thí nghiệm, số ánh xạ thực NOW tập tài liệu Bảng 4.3: Thông tin số lần xuất tên đề cập đến thực thể có hai tên “Georgia”, “Columbia” số lượng ánh xạ thực phương pháp NOW Tên Georgia Columbia # ứng viên 10 Tổng số # lần xuất 468 207 675 # ánh xạ 463 205 668 Với đặc trưng trích từ văn bản, chúng tơi chọn kết hợp tốt EN+LW+CW+ID thí nghiệm Phần 4.2 Trong ID bao gồm định danh thực thể xác định theo trình lặp cải thiện dần Mỗi thực thể xác định bước lặp, định danh sử dụng để mở rộng ngữ cảnh cho việc xác định thực thể lại Bảng 4.4: Kết thực phân giải nhập nhằng NOW tập liệu với “Georgia” “Columbia” Tên Georgia Columbia Trung bình Đặc trưng trích từ ontology làm giàu OF OF + ET + RT + CL + OL OF OF + ET + RT + CL + OL OF OF + ET + RT + CL + OL -20- # ánh xạ 310 436 171 183 481 619 MP (%) MR (%) 66,95 94,16 83,41 89,26 72,00 92,66 66,23 93,16 82,60 88,40 71,25 91,70 Chúng tơi xem đặc trưng trích từ ontology đặc trưng bản, gọi OF Các đặc trưng trích từ Wikipedia để làm giàu thơng tin thực thể ontology ET+RT+CL+OL Bảng 4.4 trình bày độ xác độ đầy đủ ánh xạ cho thực thể có tên “Georgia” “Columbia”, triển khai NOW tập liệu De2 sử dụng ontology KIM làm giàu Wikipedia Kết cho thấy việc làm giàu ontology đặc trưng có chọn lọc từ Wikipedia cải thiện đáng kể hiệu phân giải nhập nhằng thực thể có tên -21- Chương 5: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN WIKIPEDIA 5.1 Giới thiệu Trong Chương Chương 4, chúng tơi trình bày phương pháp OntoNEON, NOW Cả hai phương pháp khai thác nguồn tri thức ontology “đóng”, xây dựng chuyên gia, đích đến ánh xạ Trong chương khai thác Wikipedia để phân giải nhập nhằng Phương pháp phân giải nhập nhằng thứ ba luận án này, đặt tên WIN (WIkipedia-based Named entity disambiguation) Đây phương pháp lai, kết hợp việc sử dụng số heuristic mơ hình thống kê Phương pháp có điểm so với phương pháp đề xuất trước sau: − Kết hợp số heuristic mơ hình thống kê thể hai giai đoạn Một giai đoạn áp dụng số heuristic để thu giảm ứng viên cho tên chọn ứng viên phù hợp Giai đoạn thứ hai triển khai mơ hình thống kê cho trường hợp lại để phân giải nhập nhằng Cả hai giai đoạn thực việc phân giải nhập nhằng theo trình lặp cải thiện dần − WIN kế thừa từ OntoNEON NOW nên khai thác đặc trưng mà phương pháp đề xuất trước chưa khai thác, từ xuất xung quanh tên đồng tham chiếu với tên xét, định danh thực thể, trình lặp cải thiện dần Vị trí xuất hiện, chiều dài tên, tên thường dùng thực thể khai thác 5.2 Phương pháp lai WIN thực ánh xạ tên xuất văn vào Wikipedia Mặc dù vậy, phương pháp áp dụng cho sở tri thức ontology khác Quá trình phân giải nhập nhằng WIN lặp cải thiện dần, bao gồm hai giai -22- đoạn Giai đoạn thứ sử dụng heuristic để thực thu giảm ứng viên thực ánh xạ Giai đoạn thứ hai áp dụng mơ hình phân hạng dựa thống kê để chọn ứng viên tốt Một khía cạnh đáng ý phương pháp phân giải nhập nhằng cho thực thể tìm thấy Wikipedia, mà cho thực thể nằm Wikipedia H5 Văn phân giải nhập nhằng thực thể xuất cửa sổ ngữ cảnh chứa tên thực thể Gọi n tên thực thể cần phân giải nhập nhằng Ứng viên có phần văn phân giải nhập nhằng xuất cửa sổ ngữ cảnh n tên đồng tham chiếu với n chọn H6 Tên xem xét n phần văn phân giải nhập nhằng thực thể xuất cửa sổ ngữ cảnh Gọi e thực thể xuất cửa sổ ngữ cảnh n tên đồng tham chiếu với n, n tên đồng tham chiếu với n phần văn phân giải nhập nhằng e Các ứng viên chọn ứng viên có liên kết trỏ đến e, e có liên kết trỏ đến ứng viên chọn H7 Thực thể mặc định Sau áp dụng tất heuristic, tên vùng địa lý nơi chốn chưa phân giải nhập nhằng, chọn thực thể mặc định thực thể Sau giai đoạn tiền xử lý, tên văn nhận tên đề cập đến thực thể gom thành cụm, với cụm gọi chuỗi đồng tham chiếu Sau tiến hành bước sau: − Bước Truy hồi thực thể ứng viên cho tất tên nhận bước tiền xử lý − Bước Áp dụng heuristic H5, H6, H3 theo thứ tự liệt kê, để thu giảm ứng viên cho tên xuất văn bản, thực ánh xạ vào thực thể Wikipedia Đây q trình lặp cải thiện dần, thể chỗ thực thể sau xác định, định danh -23- − − − khai thác để phân giải nhập nhằng cho trường hợp khác Quá trình lặp dừng tất thực thể đề cập đến văn xác định hai lần lặp khơng có thêm trường hợp phân giải nhập nhằng Bước Áp dụng H7 cho tên vùng địa lý nơi chốn mà chưa ánh xạ vào thực thể Wikipedia sau Bước Bước Mở rộng văn định danh thực thể xác định Bước Đối với trường hợp cịn lại, chúng tơi triển khai phương pháp phân giải nhập nhằng dựa thống kê trình bày Phần 4.2 5.3 Thí nghiệm đánh giá Để đánh giá phương pháp phân giải nhập nhằng WIN vừa trình bày, chúng tơi trích hai ba tin thuộc mục tin Top Stories, Politics, Entertainment, Tech, Travel, Africa, World, World Sport, World Business, Middle East, Americas CNN News ngày 22 tháng 07 năm 2008, 10 tin từ mục tin Top Stories từ CNN News ngày 17 tháng 10 năm 2008 để xây dựng tập liệu gồm 40 tin tiếng Anh Tên thực thể thuộc lớp ba lớp mức cao Con người, Tổ chức, Nơi chốn ánh xạ thủ công vào thực thể mà đề cập đến Wikipedia để tạo tập liệu chuẩn vàng Tập liệu thu gọi De3, có 1.861 lần xuất 664 tên khác Số lần xuất nhiều số tên tên xuất nhiều lần văn Các lần xuất đề cập đến 526 thực thể khác giới thực Có 1.713 lần xuất tên đề cập đến thực thể tồn Wikipedia, có 967 lần xuất có số ứng viên từ Wikipedia nhiều Có tổng cộng 6.885 ứng viên, tính cho tất lần xuất Tính trung bình cho 664 tên khác tên có 10,36 ứng viên Các thơng tin De3 trình bày Bảng 5.1 -24- Bảng 5.1 Thông tin xuất tên tập liệu De3 Kiểu # lần xuất Con người Nơi chốn Tổ chức Tổng số: 866 665 330 1.861 # lần xuất # lần xuất đề cập đề cập thực thể thực thể Wikipedia Wikipedia 739 127 654 11 320 10 1.713 148 # lần xuất có nhiều ứng viên 409 (trong số 739) 402 (trong số 654) 156 (trong số 320) 967 (trong số 1.713) Bảng 5.2 Thông tin xuất tên tập liệu De31 Kiểu # lần xuất Con người Nơi chốn Tổ chức Tổng số: 794 625 297 1.716 # lần xuất # lần xuất đề cập đề cập # lần xuất có thực thể thực thể nhiều ứng viên Wikipedia Wikipedia 613 180 403 (trong số 613) 597 28 373 (trong số 597) 253 44 140 (trong số 253) 1.463 252 916 (trong số 1.463) Chúng thực thi môđun ANNIE GATE phiên 3.0 tập liệu De3 để nhận tên thực thể phân loại thực thể mà chúng đề cập vào ba lớp mức cao Con người, Tổ chức, Nơi chốn, kết thu tập liệu De31 Sau chúng tơi sửa lỗi De31 cách thủ công, đạt tập liệu De32 khơng cịn lỗi nêu Bảng 5.2 trình bày thông tin tên nhận GATE tập liệu De31 Số liệu Bảng 5.2 không giống với số liệu Bảng 5.1 lỗi GATE Thông tin xuất tên tập liệu De32 khớp với thơng tin tương ứng De3 trình bày Bảng 5.1 Độ F ánh xạ đạt thực thi WIN hai tập liệu De31 De32 77,17% 93,01% -25- Chương 6: TỔNG KẾT Mục tiêu luận án giải toán phân giải nhập nhằng thực thể có tên, nhằm xác định thực thể nguồn tri thức mà tên văn đề cập đến Thách thức toán thực tế tên dùng để đề cập đến nhiều thực thể khác ngữ cảnh khác nhau, thực thể gọi ứng viên, thực thể có nhiều tên gọi khác Điểm bật luận án đề xuất phương pháp luận phân giải nhập nhằng lặp cải thiện dần Ý tưởng chủ đạo phương pháp luận dựa vào định danh thực thể xác định để xác định thực thể cịn lại q trình lặp cải thiện dần, bao gồm số bước lặp Thực thể xác định bước lặp sử dụng để phân giải nhập nhằng thực thể lại bước lặp Dựa phương pháp luận đó, luận án đề xuất ba phương pháp phân giải nhập nhằng Các thí nghiệm thực để đánh giá chứng tỏ tính hiệu phương pháp đề xuất Luận án nghiên cứu xử lý trường hợp mà tên văn nhận bán phần thực thể đề cập đến văn nằm nguồn tri thức sử dụng, đồng thời đề xuất độ đo hiệu phân giải nhập nhằng tương ứng Từ nghiên cứu kết đạt luận án này, đề nghị số hướng nghiên cứu sau: − Thứ nhất, từ kết phương pháp OntoNEON, mơ hình phân hạng ứng viên dựa mối quan hệ ngữ nghĩa ứng viên với thực thể xác định văn áp dụng cho Wikipedia Trong mối quan hệ ngữ nghĩa thực thể tính tốn dựa vào thơng tin trích từ infobox trang thực thể Wikipedia, với -26- tập infobox trang thực thể xem tương đồng với ontology đóng − Thứ hai, kết thí nghiệm Chương Chương cho thấy số heuristic đạt độ xác cao Do đó, heuristic sử dụng để tự động xây dựng tập huấn luyện Nghĩa khởi nguồn từ tập văn thô, heuristic sử dụng để xác định thực thể dựa nguồn tri thức để tạo tập liệu huấn luyện Sau đó, mơ hình học có giám sát triển khai để học ngữ cảnh xuất tên áp dụng mơ hình học cho văn − Thứ ba, kết Chương Chương cho thấy việc mở rộng ngữ cảnh thực thể đề cập đến văn định danh thực thể xác định có ý nghĩa Tuy nhiên thơng tin thực thể xác định khơng có định danh, mà cịn có nhiều thơng tin khác tên khác nhau, tính chất Các thơng tin sử dụng để mở rộng ngữ cảnh phục vụ việc phân giải nhập nhằng -27- CÁC CƠNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [1] Nguyen, H.T and Cao, T.H (2010) Enriching ontologies for named entity disambiguation In Proc of The Fourth International Conference on Advances in Semantic Processing (SEMAPRO 2010), ISBN: 978-1-61208-000-0, IARIA, pp 3742 (Best Paper Award) [2] Nguyễn Thanh Hiên Cao Hoàng Trụ (2010) Một phương pháp dựa Wikipedia để phân giải nhập nhằng thực thể có tên Chun san cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT, Tạp chí cơng nghệ thơng tin truyền thông, ISSN 0866-7093, Tập V-1, Số 3(23):16-28 [3] Nguyen, H.T and Cao, T.H (2010) Exploring Wikipedia and text features for named entity disambiguation In Proc of the 2nd Asian Conference on Intelligent Information and Database Systems (ACIIDS 2010); Lecture Notes in Computer Science (LNCS), Lecture Notes in Computer Science (LNCS), vol 5991, ISBN 978-3-642-12100-5, Springer-Verlag, pp 11-20 [4] Nguyen, H.T and Cao, T.H (2008) Named entity disambiguation: A hybrid statistical and rule-based incremental approach In Proc of 3rd Asian Semantic Web Conference (ASWC 2008); LNCS, vol 5367, ISBN 978-3-54089703-3, Springer-Verlag, pp 420-433 [5] Nguyen, H.T and Cao, T.H (2008) Named entity disambiguation on an ontology enriched by Wikipedia In Proc of the 6th IEEE International Conference on Research, Innovation and Vision for the Future (RIVF 2008), ISBN 9781-4244-2379-8, IEEE Xplore, pp 247-254 -28- [6] Nguyễn Thanh Hiên Cao Hoàng Trụ (2008) Một tiếp cận phân giải đồng tham chiếu nhập nhằng thực thể văn tiếng Việt Chun san cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT, Tạp chí cơng nghệ thông tin truyền thông, ISSN 0866-7093, Số 19:74-83 [7] Nguyen, H.T and Cao, T.H (2007) A knowledge-based approach to named entity disambiguation in news articles In Proc of 20th Australian Joint Conference on Artificial Intelligence (AI 2007); LNCS (LNAI), vol 4830, ISBN 978-3540-76926-2, Springer-Verlag, pp 619–624 [8] Nguyen, H.T and Cao, T.H (2007) A knowledge-based method to resolve name ambiguity in Vietnamese texts In Addendum Contributions of the 5th International Conference on Research, Innovation and Vision for the Future (RIVF 2007), ISBN 2-912590-4-0, Studia Informatica Universalis, pp 83-88 NGHIÊN CỨU KHOA HỌC [1] Tham gia đề tài cấp nhà nước KC01.21: “Nghiên cứu kỹ thuật xây dựng khai thác thơng tin Web có ngữ nghĩa”, 2004-2006 (đã hoàn tất) [2] Tham gia đề tài trọng điểm cấp Đại học Quốc Gia Tp HCM: “Rút trích tích hợp thơng tin Web có ngữ nghĩa” (B2007-20-11TĐ), 2007-2009 (đã hoàn tất) [3] Đồng chủ nhiệm đề tài cấp sở: “Phân giải nhập nhằng thực thể có tên văn dựa Wikipedia” (TKH&KHMT-2008-03), 2008-2009 (đã hoàn tất) -29- ... mà cho thực thể nằm Wikipedia H5 Văn phân giải nhập nhằng thực thể xuất cửa sổ ngữ cảnh chứa tên thực thể Gọi n tên thực thể cần phân giải nhập nhằng Ứng viên có phần văn phân giải nhập nhằng. .. luận án sử dụng nhận dạng thực thể có tên phân giải đồng tham chiếu tên riêng phần tiền xử lý Phân giải nhập nhằng thực thể có tên nhằm ánh xạ tên xuất văn vào thực thể (đối tượng tham chiếu)... thuộc tính tên thực thể có quan hệ với thực thể xét (Property) Tất tên thực thể có mối quan hệ với thực thể xét rút trích khơng riêng tên thức − Định danh thực thể có mối quan hệ với thực thể xét