Nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt

61 341 0
Nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Nguyễn Việt Hùng NGHIÊN CỨU XÁC ĐỊNH ĐỒNG SỞ CHỈ ỨNG DỤNG CHO TIẾNG VIỆT Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương Hà Nội - 2015 LỜI CẢM ƠN Trong trình học tập nghiên cứu, em nhận hướng dẫn tận tình thầy Lê Hồng Phương cô Nguyễn Thị Minh Huyền Em xin chân thành cảm ơn thầy, cô giúp đỡ em nhiều học tập công việc Em xin gửi lời cảm ơn tới thầy, cô giáo nhiệt tình giảng dạy chuyên đề Cao học cho chúng em Em xin cảm ơn gia đình, bạn bè, đồng nghiệp, người quan tâm, động viên em trình học tập làm luận văn Hà Nội, ngày 29 tháng 11 năm 2015 Học viên Nguyễn Việt Hùng i Mục lục Danh sách bảng v Danh sách hình vẽ vi Giới thiệu 1 Tổng quan xác định đồng sở 1.1 Bài toán xác định đồng sở 1.2 Cách giải toán xác định đồng sở 1.2.1 Xác định đề cập 1.2.2 Xác định quan hệ đồng sở Phương pháp xác định đồng sở 11 1.3.1 Phương pháp phân loại 11 1.3.2 Phương pháp phân cụm 12 1.3.3 Phương pháp lai 13 Đánh giá kết xác định đồng sở 14 1.4.1 Ngữ liệu 14 1.4.2 Độ đo đánh giá 14 1.3 1.4 Phương pháp xác định đồng sở sàng nhiều lượt 22 2.1 Kiến trúc hệ thống 22 2.2 Một số trình xử lý hệ thống 25 2.2.1 Xác định đề cập 25 2.2.2 Xử lý cụm đơn 26 2.2.3 Đầu vào đầu bước sàng 26 ii 2.3 2.4 2.2.4 Chia sẻ đặc trưng đề cập cụm 26 2.2.5 Xác định đại diện cụm 27 2.2.6 Việc gộp cụm 27 Các lượt sàng 27 2.3.1 Xác định người nói 28 2.3.2 So khớp chuỗi chặt 29 2.3.3 So khớp chuỗi nới lỏng 29 2.3.4 Một số trường hợp xác cao 29 2.3.5 So khớp từ chặt 30 2.3.6 So khớp từ biến thể 30 2.3.7 So khớp từ danh từ riêng 30 2.3.8 So khớp từ nới lỏng 30 2.3.9 Xác định đồng sở cho đại từ 31 Kết cho tiếng Anh 31 2.4.1 Ngữ liệu 31 2.4.2 Kết 31 Ứng dụng cho tiếng Việt 3.1 3.2 3.3 33 Các công cụ có cho xử lý tiếng Việt 33 3.1.1 Công cụ tách từ, gán nhãn từ loại 33 3.1.2 Kho ngữ liệu có gán nhãn cú pháp thành phần 34 3.1.3 Kho ngữ liệu có gán nhãn cú pháp phụ thuộc 34 3.1.4 Kho ngữ liệu có gán nhãn vai nghĩa 34 Phương pháp sàng nhiều lượt cho tiếng Việt 35 3.2.1 Các lượt sàng 35 3.2.2 Xác định đặc trưng đề cập cho tiếng Việt 41 Thực nghiệm 41 3.3.1 Ngữ liệu 41 3.3.2 Kết thực nghiệm 42 Kết luận 43 Tài liệu tham khảo 45 iii Phụ lục 49 VietTreebank 49 Một số quan hệ phụ thuộc cho tiếng Việt 49 Phân tích vai nghĩa 53 iv Danh sách bảng 1.1 Các đặc trưng mô hình xác định đồng sở học máy 1.2 Các liệu 15 2.1 Các lượt sàng tiếng Anh 28 2.2 Các liệu thử nghiệm 32 2.3 Kết hệ thống hệ thống Stanford với số liệu 32 2.4 Kết hệ thống Stanford thi năm 2013 32 3.1 Các lượt sàng áp dụng cho tiếng Việt 35 3.2 Kết thực nghiệm 42 3.3 Tập nhãn từ loại VietTreeBank 49 3.4 Tập nhãn cụm từ VietTreeBank 50 3.5 Các nhãn chức cú pháp VietTreebank 50 v Danh sách hình vẽ 1.1 Phân tích cú pháp thành phần câu tiếng Việt 2.1 Kiến trúc hệ thống xác định đồng sở Stanford [17] 23 3.1 Phân tích cú pháp câu "Tôi mua sách mà thầy giáo giới thiệu." 37 3.2 Phân tích cú pháp câu "Quyển sách hay." 38 3.3 Phân tích cú pháp câu "Hà Nội, thủ đô Việt Nam, bị ô nhiễm." 39 3.4 Phân tích cú pháp câu "Hà Nội thủ đô Việt Nam." 40 3.5 Câu tiếng Anh gán nhãn vai nghĩa vi 54 Giới thiệu Trong ngôn ngữ học, thuật ngữ đồng sở dùng để nói quan hệ cụm từ tới thực thể Xác định đồng sở trình tìm cụm từ văn tham chiếu tới thực thể Xác định đồng sở vấn đề ngôn ngữ tự nhiên Đây bước quan trọng việc phân tích hiểu ngữ nghĩa văn Ví dụ: John nhạc sĩ Anh chơi ca khúc Một cô gái chăm lắng nghe ca khúc "Đây hát yêu thích tôi", John nói với cô Để hiểu đoạn văn trên, trước tiên cần phải xác định đối tượng nói tới (đề cập) văn Có 11 (sự) đề cập đoạn văn là: [John]1 [một nhạc sĩ]2 [Anh ấy]3 chơi [một ca khúc mới]4 [Một cô gái]5 chăm lắng nghe [ca khúc]6 "[Nó]7 [bài hát yêu thích [tôi]9 ]8 ", [John]1 nói với [cô ấy]1 Các đề cập nói tới đối tượng: • Một người nhạc sĩ tên John: [John]1 , [một nhạc sĩ]2 , [Anh ấy]3 , [tôi]9 , [John]1 • Một cô gái nghe nhạc John: [Một cô gái]5 , [cô ấy]1 • Một hát John: [một ca khúc mới]4 , [ca khúc]6 , [Nó]7 , [bài hát yêu thích tôi]8 Bài toán xác định đồng sở nghiên cứu nhiều cho tiếng Anh vấn đề thời Các phương pháp luận áp dụng cho tiếng Anh phát triển rộng rãi cho ngôn ngữ khác [5] Bài toán xác định đồng sở giải thông qua hai bước: • Bước 1: Xác định đề cập văn bản; • Bước 2: Xác định quan hệ đồng sở đề cập Bước giải cách xác định cụm danh từ văn bản, thường đề cập văn Bước trọng tâm để giải toán Trong đa số trường hợp, nói tới việc xác định đồng sở cho văn bản, người ta tập trung vào giải bước Bài toán xác định đồng sở mô hình hóa theo hai cách: • Xác định cặp đề cập có quan hệ đồng sở hay không • Phân cụm đề cập cho đề cập cụm tham chiếu đến thực thể Theo mô hình thứ nhất, toán đưa toán phân lớp Còn theo mô hình thứ hai, ta có toán phân cụm Một số hệ thống sử dụng hai mô hình Tiêu biểu hệ thống xác định đồng sở với kiến trúc sàng nhiều lượt nhóm xử lý ngôn ngữ trường Đại học Stanford cho kết tốt với tiếng Anh áp dụng cho ngôn ngữ khác với kết khả quan [17] Với tiếng Việt, nghiên cứu đồng sở chưa nhiều, tập trung vào số toán riêng xác định thực thể định danh [23] [15] [22] [20], xác định hồi số đại từ đặc biệt Do vậy, mục tiêu luận văn nghiên cứu xây dựng hệ thống xác định đồng sở văn tiếng Việt Yêu cầu cho hệ thống xác định đồng sở xác định đặc trưng cho xác đề cập (hoặc cụm đề cập) Trong luận văn này, đặc trưng tiếng Anh sử dụng làm sở để xây dựng đặc trưng cho tiếng Việt với số thay đổi cho phù hợp với đặc điểm ngôn ngữ Quá trình xác định đặc trưng đề cập (hoặc cặp đề cập) cần nhiều thông tin, nhiều thông tin xác định, kết xác định đồng sở xác Trong tiếng Anh, có nhiều công cụ hỗ trợ để xác định đặc trưng Với tiếng Việt, có nhiều hạn chế công cụ xử lý ngôn ngữ bản: chưa có WordNet cho tiếng Việt, chưa có công cụ có độ xác cao chia sẻ để thực công việc xác định thực thể định danh (NER), chưa có từ điển thống để xác định thông tin hình thái giống đực/cái, người/chỉ vật, Một công việc cần thiết để xác định đồng sở cho tiếng Việt cần xây dựng công cụ để hỗ trợ xác định quan hệ đặc trưng đề cập Trong trình ứng dụng cho tiếng Việt, thực nghiệm tiến hành kho ngữ liệu Viettreebank [16] thuộc đề tài VLSP gồm 10000 câu phân tích cú pháp Kho ngữ liệu bổ sung thông tin cú pháp phụ thuộc [8] thông tin vai nghĩa [6] để xác định đặc trưng cho mô hình Luận văn có cấu trúc gồm phần chính: • Chương trình bày tổng quan toán xác định đồng sở chỉ, cách tiếp cận giải toán xác định đồng sở • Chương trình bày hệ thống xác định đồng sở theo kiến trúc sàng nhiều lượt • Chương trình bày việc ứng dụng sàng nhiều lượt để xác định đồng sở cho tiếng Việt thực nghiệm http://vlsp.vietlp.org:8080 Hình 3.4: Phân tích cú pháp câu "Hà Nội thủ đô Việt Nam." • incompatibilityf hàm số tính khoảng cách hai đề cập theo đặc trưng f, hàm trả giá trị Các đặc trưng sử dụng cho bảng: Danh sách từ 10 tất từ thuộc đề cập thuộc đề cập kia, ngược lại Từ 1 khác từ chính, từ Khoảng cách câu (khoảng cách số câu)/(tổng số câu) Khoảng cách đoạn (khoảng cách đoạn)/(tổng số đoạn) Là chuỗi -∞ đề cập chuỗi đề cập lại Số ít, số nhiều ∞ loại, ngược lại Tên riêng ∞ tên riêng, ngược lại 40 3.2.2 Xác định đặc trưng đề cập cho tiếng Việt Vấn đề quan trọng hệ thống xác định đồng sở cho tiếng Việt xác định thông tin đặc trưng cho đề cập Các đặc trưng đặc trưng để so khớp cặp đề cập để phân cụm đề cập Với tiếng Việt, sẵn công cụ bổ trợ công cụ xác định phân lớp theo thực thể định danh (NER), từ điển riêng (mỗi công cụ nhóm nghiên cứu có từ điển riêng như: từ điển tên gọi khác nhau, danh sách từ đặc biệt để xác định người người nói, ), WordNet, việc xác định đặc trưng đề cập toán khó Phương pháp đề xuất báo cáo để giải vấn đề phân tích cú pháp phân tích vai nghĩa Quá trình phân tích cú pháp cho thông tin ngữ pháp văn bản, giúp xác định cụm danh từ, từ cụm danh từ, nhãn từ loại, Phân tích vai nghĩa giúp làm rõ quan hệ cụm từ câu thông qua động từ [6] Thông tin giúp xác định quan hệ đặc biệt đề cập dễ dàng xác định người nói 3.3 Thực nghiệm Các thực nghiệm tiến hành để đánh giá khả ứng dụng kiến trúc sàng nhiều lượt cho tiếng Việt 3.3.1 Ngữ liệu Thực nghiệm tiến hành 3000 câu 50 văn lấy từ kho ngữ liệu VietTreebank gồm 10000 câu phân tích cú pháp thành phần 3000 câu bổ sung thông tin cú pháp phụ thuộc [8] thông tin vai nghĩa [6] xác định đồng sở thủ công 41 3.3.2 Kết thực nghiệm Quán trình thực nghiệm tiến hành kiểm chứng chéo liệu với tỷ lệ 80% liệu huấn luyên, 20% liệu kiểm tra, kết thu sau: Score P R1 F1 PairWise MUC-6 B3 CAEF BLANC CoNNL-F1 61.4 60.3 55.6 30.7 62.5 83.2 85.1 84.4 35.8 77.6 70.66 70.59 67.04 33.05 69.24 59.98 Bảng 3.2: Kết thực nghiệm So sánh kết với kết cho tiếng Anh (74.5%), ta thấy kết thu chưa thực tốt Điều tương đối dễ hiều áp dụng với tiếng Việt bỏ số lượt sàng đặc trưng đề cập tiếng Việt không đầy đủ cho tiếng Anh Kết hoàn toàn cải tiến bổ sung thêm số đặc trưng ngữ nghĩa, nhãn thực thể định danh, 42 Kết luận Luận văn nghiên cứu toán xác định đồng sở Đây toán có nhiều ứng dụng xử lý ngôn ngữ tự nhiên Luận văn giới thiệu toán xác định đồng sở chỉ, cách tiếp cận phương pháp xác định đồng sở Trong phương pháp đó, phương pháp xác định đồng sở hệ thống sàng nhiều lượt, dựa luật thực thể trung tâm xếp hạng độ xác tập trung trình bày chi tiết Đây phương pháp cho kết tốt với tiếng Anh thi xác định đồng sở năm 2011, 2013 tiếp tục nghiên cứu cải tiến Phương pháp có tính độc lập ngôn ngữ cao nên có khả áp dụng tốt cho tiếng Việt Trong trình áp dụng xác định đồng sở cho tiếng Việt, vấn đề khó xác định đặc trưng đề cập Các đặc trưng xác định dựa vào thông tin cú pháp thành phần, cú pháp phụ thuộc vai nghĩa Quá trình thực nghiệm với tiếng Việt thực liệu gồm 50 văn với 3000 câu phân tích cú pháp gán nhãn vai nghĩa có kết với độ xác CoNNL-F1 59.98% Đây kết khả quan hoàn toàn cải thiện Trong tương lai, tác giả tiếp tục xây dựng lượt sàng phù hợp công cụ để xác định đặc trưng ngữ nghĩa, nhãn thực thể định danh để nâng cao độ xác hệ thống 43 Các công trình công bố liên quan đến luận văn [1] N T Luong, H M Linh, N V Hung, N T M Huyen, and L H Phuong Building a treebank for vietnamese dependency parsing In Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2013 [2] H M Linh, N T Luong, N V Hung, N T M Huyen, L H Phuong, and P T Hue Xây dựng kho ngữ liệu mẫu có gán nhãn vai nghĩa cho tiếng Việt Tại Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2014 44 Tài liệu tham khảo [1] S Azzam, K Humphreys, and R Gaizauskas Using coreference chains for text summarization In Proceedings of the Workshop on Coreference and Its Applications, CorefApp ’99, pages 77–84, Stroudsburg, PA, USA, 1999 Association for Computational Linguistics [2] A Culotta, M Wick, R Hall, and A Mccallum First-order probabilistic models for coreference resolution In In Proceedings of HLT-NAACL 2007, 2007 [3] H Daumé, III and D Marcu A large-scale exploration of effective global features for a joint entity detection and tracking model In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, HLT ’05, pages 97–104, Stroudsburg, PA, USA, 2005 Association for Computational Linguistics [4] P Denis and J Baldridge A ranking approach to pronoun resolution In Proceedings of the 20th International Joint Conference on Artifical Intelligence, IJCAI’07, pages 1588–1593, San Francisco, CA, USA, 2007 Morgan Kaufmann Publishers Inc [5] H Lee, A Chang, Y Peirsman, N Chambers, M Surdeanu, and D Jurafsky Deterministic coreference resolution based on entity-centric, precisionranked rules Comput Linguist., 39(4):885–916, Dec 2013 [6] H M Linh, N T Luong, N V Hung, N T M Huyen, L H Phuong, and P T Hue Xây dựng kho ngữ liệu mẫu có gán nhãn vai nghĩa cho tiếng việt In Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2014 45 [7] X Luo, A Ittycheriah, H Jing, N Kambhatla, and S Roukos A mentionsynchronous coreference resolution algorithm based on the bell tree In Proceedings of the 42Nd Annual Meeting on Association for Computational Linguistics, ACL ’04, Stroudsburg, PA, USA, 2004 Association for Computational Linguistics [8] N T Luong, H M Linh, N V Hung, N T M Huyen, and L H Phuong Building a treebank for vietnamese dependency parsing In Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2013 [9] A McCallum, B Wellner, and A M Ý Toward conditional models of identity uncertainty with application to proper noun coreference, 2003 [10] A Mccallum and B Wellner Conditional models of identity uncertainty with application to noun coreference In NIPS 2004, 2004 [11] R Mitkov Towards a more consistent and comprehensive evaluation of anaphora resolution algorithms and systems Applied Artificial Intelligence, 15(3):253–276, 2001 [12] T S Morton Using coreference for question answering In Proceedings of the Workshop on Coreference and Its Applications, CorefApp ’99, pages 85–89, Stroudsburg, PA, USA, 1999 Association for Computational Linguistics [13] V Ng Machine learning for coreference resolution: From local classification to global ranking In In ACL-05, pages 157–164, Ann Arbor, MI, page 2005, 2005 [14] V Ng and C Cardie Improving machine learning approaches to coreference resolution In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, ACL ’02, pages 104–111, Stroudsburg, PA, USA, 2002 Association for Computational Linguistics [15] D B Nguyen, S H Hoang, S B Pham, and T P Nguyen Named entity recognition for vietnamese In Proceedings of the Second International 46 Conference on Intelligent Information and Database Systems: Part II, ACIIDS’10, pages 205–214, Berlin, Heidelberg, 2010 Springer-Verlag [16] P T Nguyen, L V Xuan, T M H Nguyen, V H Nguyen, and P Le-Hong Building a large syntactically-annotated corpus of Vietnamese In Proceedings of the 3rd Linguistic Annotation Workshop, ACL-IJCNLP, Singapore, 2009 [17] K Raghunathan, H Lee, S Rangarajan, N Chambers, M Surdeanu, D Jurafsky, and C Manning A multi-pass sieve for coreference resolution In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 492–501, Stroudsburg, PA, USA, 2010 Association for Computational Linguistics [18] M Recasens, M.-C de Marneffe, and C Potts The life and death of discourse entities: Identifying singleton mentions In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 627–633 Association for Computational Linguistics, 2013 [19] M Recasens, T Martí, M Taulé, L Màrquez, and E Sapena Semeval-2010 task 1: Coreference resolution in multiple languages In Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions, DEW ’09, pages 70–75, Stroudsburg, PA, USA, 2009 Association for Computational Linguistics [20] R C Sam, H T Le, T T Nguyen, and T H Nguyen Combining proper name-coreference with conditional random fields for semi-supervised named entity recognition in vietnamese text In Proceedings of the 15th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining - Volume Part I, PAKDD’11, pages 512–524, Berlin, Heidelberg, 2011 SpringerVerlag [21] W M Soon, H T Ng, and D C Y Lim A machine learning approach to coreference resolution of noun phrases Comput Linguist., 27(4):521–544, Dec 2001 47 [22] P T X Thao, T Q Tri, D Dien, and N Collier Named entity recognition in vietnamese using classifier voting 6(4):3:1–3:18, Dec 2007 [23] D.-T Vo and C.-Y Ock A hybrid approach of pattern extraction and semisupervised learning for vietnamese named entity recognition In Proceedings of the 4th International Conference on Computational Collective Intelligence: Technologies and Applications - Volume Part I, ICCCI’12, pages 83–93, Berlin, Heidelberg, 2012 Springer-Verlag [24] X Yang, J Su, and C L Tan Kernel-based pronoun resolution with structured syntactic knowledge In Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics, ACL-44, pages 41–48, Stroudsburg, PA, USA, 2006 Association for Computational Linguistics [25] X Yang, G Zhou, J Su, and C L Tan Coreference resolution using competition learning approach In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1, ACL ’03, pages 176–183, Stroudsburg, PA, USA, 2003 Association for Computational Linguistics 48 Phụ lục VietTreebank VietTreebank kho liệu tiếng Việt xây dựng từ đề tài nhà nước "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt", mã số KC01.01/06-10 VietTreebank có 10.000 câu tiếng Việt tách từ, gán nhãn từ loại, gán nhãn cú pháp định dạng cấu trúc đặt ngoặc Ví dụ câu VietTreebank: (S (NP-SUB (N-H Dịch_vụ) (PP (EH của) (NP (P-H họ)))) (VP (T chính) (V-H là) (NP-DOB (N-H khâu) (A trung_gian) (VP (V-H đảm_bảo) (PP (E-H cho) (NP (L những) (N-H niềm) (A vui) (P ấy)) (VP (V-H được) (AP (A-H trọn_vẹn))))))) ( .)) Bảng 3.3 liệt kê nhãn từ loại VietTreeBank STT Tên Chú thích STT Tên Chú thích N Danh từ 10 R Phụ từ Np Danh từ riêng 11 E Giới từ Nc Danh từ loại 12 C Liên từ Nu Danh từ đơn vị 13 I Thán từ V Động từ 14 T Trợ từ, tiểu từ, từ tình thái A Tính từ 15 U Từ đơn lẻ P Đại từ 16 Y Từ viết tắt L Định từ 17 X Các từ không phân loại M Số từ Bảng 3.3: Tập nhãn từ loại VietTreeBank Bảng 3.4 liệt kê tập nhãn cụm từ Bảng 3.4 liệt kê nhãn chức cú pháp 49 STT Tên Tên NP Cụm từ VP Cụm từ AP Cụm từ RP Cụm từ PP Cụm từ QP Cụm số lượng MDP WHNP Cụm từ nghi vấn (ai, gì, gì, v.v.) WHAP Cụm từ nghi vấn (lạnh nào, đẹp sao, v.v.) 10 WHRP Cụm nghi vấn dùng hỏi thời gian, nơi chốn, v.v 11 WHPP Cụm từ nghi vấn (với ai, cách nào, v.v.) Cụm tình thái Bảng 3.4: Tập nhãn cụm từ VietTreeBank STT Tên Chú thích SUB Nhãn chức chủ ngữ DOB Nhãn chức tân ngữ trực tiếp IOB Nhãn chức tân ngữ gián tiếp TPC Nhãn chức chủ đề PRD Nhãn chức vị ngữ cụm động từ LGS Nhãn chức chủ ngữ logic câu thể bị động EXT Nhãn chức bổ ngữ phạm vi hay tần suất hành động H 9-12 TC, EXC, CMD, SPL 13 TTL Tít báo hay tiêu đề 14 VOC Thành phần than gọi Nhãn phần tử trung tâm (của cụm từ mệnh đề) Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt Bảng 3.5: Các nhãn chức cú pháp VietTreebank 50 Một số quan hệ phụ thuộc cho tiếng Việt acomp: bổ ngữ tính từ Bổ ngữ tính từ động từ (V) tính từ (A) hay cụm tính từ (AP) có chức bổ ngữ bắt buộc, tương tự bổ ngữ động từ • Cô nhìn đẹp root punct acomp advmodb nsubj pmod Cô nhìn đẹp Chú ý tính từ làm bổ ngữ không bắt buộc dùng quan hệ amod Ví dụ: “Nó chạy nhanh” có phụ thuộc amod(chạy, nhanh) bổ nghĩa tính từ danh từ Bổ nghĩa tính từ tính từ cụm tính từ bổ nghĩa cho danh từ • Nam ăn cá sống → amod(cá, sống) root nsubj Nam punct dobj ăn amod cá sống • FPT công ty uy tín → amod(công ty, uy tín) punct root dobj nsubj FPT amod advmodb num công_ty uy_tín apredmod: bổ nghĩa tính từ vị từ Bổ nghĩa tính từ tính từ cụm tính từ bổ nghĩa cho vị từ Vị từ tiếng Việt thường động từ tính từ 51 • Nam nhanh → apredmod(đi, nhanh) root punct apredmod nsubj Nam nhanh advmoda: bổ nghĩa phó từ đứng sau Bổ ngữ phó từ phó từ (R) hay cụm phó từ (RP) có chức thay đổi nghĩa từ Từ bổ trợ thường tính từ, cụm tính từ động từ, cụm động từ Bổ ngữ đứng sau cụm mà bổ trợ • Cô đẹp → advmoda(đẹp, quá) root nsubj pmod Cô punct advmoda đẹp advmodb: bổ nghĩa phó từ đứng trước Bổ ngữ phó từ phó từ (R) hay cụm phó từ (RP) có chức thay đổi nghĩa từ Từ bổ trợ thường tính từ, cụm tính từ động từ, cụm động từ Bổ ngữ đứng trước cụm mà bổ trợ • Cô đẹp → advmodb(đẹp, rất) root nsubj pmod Cô advmodb punct đẹp advmodt: bổ nghĩa phó từ thời gian Bổ ngữ phó từ phó từ (R) hay cụm phó từ (RP) có chức bổ nghĩa thời giạn cho động từ Các từ thường gặp như: “đã”, “sẽ”, “đang” Từ bổ trợ thường động từ cụm động từ 52 • Nó → advmodt(đi, đã) root psubj advmodt punct Nó Quan hệ phủ định Mô tả mối quan hệ phủ định từ (động từ tính từ) từ diễn đạt ý nghĩa phủ định Trong tiếng Việt, hai từ hay dùng để diễn đạt ý phủ định "không" "chẳng" • Anh không tới → neg(tới, không) root nsubj neg Anh không punct tới • Hoa không chăm → neg(chăm chỉ, không) • Nó chẳng thiết → neg(thiết, chẳng) Phân tích vai nghĩa Phân tích vai nghĩa trình làm rõ vai trò cụm từ câu theo khung danh từ, động từ, tính từ, trạng từ Ví dụ: Xét câu tiếng Anh: “Analysis have been expecting a GM-Jaguar pact that T would give the US car marker an eventual 30% stake in the British company” Hình 3.5 Những vai nghĩa có câu là: Analysis(Arg0), a GM-Jaguar pact(Arg1), Kết phân tích vai nghĩa cụm gán nhãn vai nghĩa với số nhãn sau: 53 have been expecting Arg0 Arg1 Analysis a GM - Jaguar pact that would give Arg0 Arg2 Arg1 T-1 the US car maker an eventual 30% stake in the British company Hình 3.5: Câu tiếng Anh gán nhãn vai nghĩa • REL = quan hệ • Arg0 = Tác thể • Arg1 = Bị thể • Arg2 = Công cụ/ Kẻ hưởng lợi/ Thuộc tính • Arg3 = Điểm bắt đầu/ Kẻ hưởng lợi/ Thuộc tính • Arg4 = Điểm kết thúc • ArgM = Bổ ngữ Với việc có vai trò thành phần câu, ta dễ dàng xác định quan hệ đề cập (là cụm danh từ) Ví dụ: An nói với Bình: "Tôi đây!" Trong ví dụ trên, xét theo khung động từ ta có quan hệ nói thành phần ARG0 (chủ thể hành động) An, ARG1 (bị thể) Bình, ARG-M (bổ ngữ cách thức) "Tôi đây!" Từ đây, ta xác định An người nói, Bình người nghe áp dụng lượt sàng số 1, ta thu cặp đồng sở [An] [tôi] Trong số lượt sàng khác, ta sử dụng thông tin phân tích vai nghĩa Ví dụ: An học sinh giỏi Với khung động từ và, ta có ARG0 An, ARG1 học sinh giỏi, áp dụng lượt sàng số trường hợp có độ xác cao, ta thu cặp đồng sở [An], [một học sinh giỏi] 54 ... vật, việc, ) gọi đồng sở Xác định đồng sở bước để phân tích hiểu ngữ nghĩa văn Chương trình bày tổng quan toán xác định đồng sở cho văn 1.1 Bài toán xác định đồng sở Xác định đồng sở trình tìm tất... hệ thống xác định đồng sở văn tiếng Việt Yêu cầu cho hệ thống xác định đồng sở xác định đặc trưng cho xác đề cập (hoặc cụm đề cập) Trong luận văn này, đặc trưng tiếng Anh sử dụng làm sở để xây... quan xác định đồng sở 1.1 Bài toán xác định đồng sở 1.2 Cách giải toán xác định đồng sở 1.2.1 Xác định đề cập 1.2.2 Xác định quan hệ đồng sở

Ngày đăng: 20/06/2017, 22:07

Từ khóa liên quan

Mục lục

  • Danh sách bang

  • Danh sách hình vẽ

  • Giới thiệu

  • Tổng quan về xác định đồng sở chỉ

    • Bài toán xác định đồng sở chỉ

    • Cách giải quyết bài toán xác định đồng sở chỉ

      • Xác định các đề cập

      • Xác định quan hệ đồng sở chỉ

      • Phương pháp xác định đồng sở chỉ

        • Phương pháp phân loại

        • Phương pháp phân cụm

        • Phương pháp lai

        • Đánh giá kết quả xác định đồng sở chỉ

          • Ngữ liệu

          • Độ đo đánh giá

          • Phương pháp xác định đồng sở chỉ bằng sàng nhiều lượt

            • Kiến trúc hệ thống

            • Một số quá trình xử lý của hệ thống

              • Xác định các đề cập

              • Xử lý các cụm đơn

              • Đầu vào và đầu ra của mỗi bước sàng

              • Chia sẻ đặc trưng giữa các đề cập trong một cụm

              • Xác định đại diện của các cụm

              • Việc gộp các cụm

              • Các lượt sàng

                • Xác định người nói

                • So khớp chuỗi chặt

Tài liệu cùng người dùng

Tài liệu liên quan