8 lexicalsemantics

11 13 0
  • Loading ...
1/11 trang

Thông tin tài liệu

Ngày đăng: 31/12/2018, 14:51

Từ đồng âm Nghĩa từ vựng phân giải nhập nhằng từ  Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt@soict.hust.edu.vn Từ đồng âm (Homonymy): từ trùng hình thức ngữ âm khác nghĩa  Từ đồng âm, đồng tự (Homograph) : từ với cách viết có nghĩa khác Ví dụ:    dove - dive into water, white bird saw Từ đồng âm, không đồng tự (Homophone): từ có cách viết khác có âm Ví dụ:  see, sea; meat, meet Phân loại từ đồng âm tiếng Việt   Đồng âm từ vựng: Tất từ thuộc từ loại Ví dụ:      Từ đa nghĩa (Polysemy): từ nhiều nghĩa, biểu thị đặc điểm, thuộc tính khác đối tượng, biểu thị đối tượng khác thực Ví dụ  chỉ1 (cuộn chỉ) - chỉ2 (chỉ tay năm ngón) - chỉ3 (chỉ có dăm đồng) câu1 (nói vài câu) - câu2 (rau câu) - câu3 (chim câu) - câu4 (câu cá)  Đồng âm từ với tiếng: đơn vị khác cấp độ; kích thước ngữ âm chúng không vượt tiếng Ví dụ:   đường1 (đắp đường) - đường2 (đường phèn) đường kính1 (đường để ăn) - đường kính2 (…của đường tròn) cất1 (cất vó) - cất2 (cất tiền vào tủ) - cất3 (cất hàng) - cất4 (cất rượu) Đồng âm từ vựng-ngữ pháp: Các từ nhóm đồng âm với khác từ loại Ví dụ:   Từ đa nghĩa, đồng nghĩa Đồng âm từ với từ, gồm:  Con trai Văn Cốc lên dốc bắn cò, đứng lăm le cười khanh khách Con gái Bát Tràng bán hàng thịt ếch ngồi châu chẫu nói ương ương : việc dịch chuyển hai chi đi: người chết Đồng nghĩa (Synonymy): từ tương đồng với nghĩa, khác âm Ví dụ   cố, gắng car, automobile Nghĩa từ vựng   Các ứng dụng Ngữ nghĩa nghiên cứu ý nghĩa phát biểu dạng ngôn ngữ Nghĩa từ vựng (Lexical semantics) nghiên cứu:         phân loại phân rã nghĩa từ giống khác cấu trúc từ vựng – ngữ nghĩa ngôn ngữ quan hệ nghĩa từ với cú pháp ngữ nghĩa câu Ràng buộc lựa chọn: Mã hóa ngữ nghĩa văn phạm           read (human subject, textual object) eat (animate subject) kill (animate object)  Sử dụng vị từ để phân giải nhập nhằng Ví dụ "dish":   Tóm tắt văn Phân loại văn Phân tích quan điểm Quảng cáo hướng ngữ cảnh Đối sánh văn Máy tìm kiếm Hệ thống hội thoại (dialogue system) Hệ thống hỏi đáp (question answering) … Ví dụ từ “dish” Vị từ biểu diễn ràng buộc qua tham số    quan hệ từ vựng: liên hệ mặt ngữ nghĩa từ ràng buộc lựa chọn: cấu trúc liên hệ ngữ nghĩa bên từ bao gồm lý thuyết về:   đĩa để ăn ăn phương tiện liên lạc  Not unexpectedly, wives, whether working or nonworking, did by far the most - about 80% of the shopping, laundry and cooking, and about two-thirds of housecleaning, washing dishes, child care, and family paper work In her tiny kitchen at home, Ms Chen works efficiently, stir-frying several simple dishes, including braised pig‘s ears and chicken livers with green peppers Installation of satellite dishes, TVs and videocassette equipment will cost the company about $20,000 per school, Mr Whittle said Ràng buộc lựa chọn  VPPNC đưa vào ràng buộc lựa chọn    tạo ontology (ví dụ, người, động vật) ràng buộc luật   vd VP → VgiếtNPđộng vật     không đủ thông tin không sử dụng với trường hợp không liệt kê văn phạm gồm từ đồng nghĩa (Synonyms) trái nghĩa (Antonyms) Wordnet:  vd ăn([sinh vật sống], [thức ăn]) Nhược điểm: Cách viết không tổng quát  Từ điển đồng nghĩa:  ràng buộc dịch nghĩa   Khai thác quan hệ từ vựng Từ đồng nghĩa trái nghĩa Từ lớp cha từ lớp … 10 Nhập nhằng ràng buộc lựa chọn  Nhập nhằng:  Các vị từ khác ứng với nghĩa khác      wash the dishes (theme : washable-thing) Tham số giải nhập nhằng cho vị từ  serve vegetarian dishes (theme : food-type) Phân tích ngữ nghĩa:      Luật có gắn thơng tin ngữ nghĩa sử dụng với câu phân tích cú pháp  Vấn đề: Đôi ràng buộc lựa chọn khơng đủ chặt (khi từ có nhiều nghĩa) Đôi ràng buộc chặt – vị từ sử dụng phép ẩn dụ Vd, I’ll eat my hat! “I wanna eat somewhere close to CSSE” Ngoại động từ: V  eat {theme:food-type} (VP > V NP) Nội động từ: V  eat (VP > V) Xung đột ràng buộc lựa chọn: loại trừ cú pháp 11 12 WordNet: Giới thiệu WordNet: Giới thiệu   CSDL từ vựng   Xây dựng mạng khổng lồ từ vựng quan hệ từ vựng Wordnet tiếng Anh    CSDL từ vựng Wordnet cho ngôn ngữ khác [www.globalwordnet.org]  lớp: danh từ, động từ, tính từ, trạng từ Danh từ: 120,000; Động từ: 22,000; Tính từ: 30,000; Trạng từ: 6,000  Có wordnet cho ngơn ngữ: Tây Ban Nha, Tiệp, Hà Lan, Pháp, Đức, Ý, Bồ Đào Nha, Thụy Điển, Basque, Estonian Wordnets làm cho tiếng: Bulgary, Đan mạch, Hy lạp, Hebrew, Hindi, Cannada, Latvian, Moldavy, Romany, Nga, Slovenian, Tamil, Thái lan, Thổ Nhĩ Kỳ, Ireland, Nauy, Ba tư, Iran 13 Tập từ đồng nghĩa Synonym Sets - Synsets 14 Các quan hệ khác WordNet    Từ có nhập nhằng Các nút Wordnet biểu diễn tập từ đồng nghĩa “synonym sets”, synsets Ví dụ:     Các từ nối theo chiều dọc biểu diễn quan hệ rộng (holonymy) - hẹp (hypernymy), theo chiều ngang biểu diễn quan hệ phận meronymy (part_of) holonymy (has_part) Mỗi nghĩa từ biểu diễn số synset Fool: người dễ bị lợi dụng {chump, fish, fool, gull, mark, patsy, fall guy, sucker, schlemiel, shlemiel, soft touch, mug} Synset = tập khái niệm 15 16 Phân giải nhập nhằng sử dụng quan hệ từ vựng 17 Đo quan hệ từ vựng  Cặp từ gần hơn? Đếm số cạnh/đỉnh đồ thị:    khoảng cách từ tỉ lệ nghịch với quan hệ ngữ nghĩa chúng Nếu từ có nhiều đường đi, chọn đường ngắn  cá heo cá? cá cá hồi? WordNet Similarity Metrics: http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi 19 20 Phân giải nhập nhằng đếm cạnh  whale#n#1   người lớn (về kích thước phẩm chất) fish#n#3  (thiên văn học) người sinh mặt trời Pisces 24 Nhược điểm WordNet tính quan hệ ngữ nghĩa Phân giải nhập nhằng đếm cạnh  Độ đo quan hệ ngữ nghĩa WordNet dựa giả thiết sau:     Mọi cạnh đồ thị có độ dài Các nhánh đồ thị có độ đậm đặc Tồn tất quan hệ ngoại động từ không đáng tin cậy 25 Cách tiếp cận dựa từ điển     Cách tiếp cận học máy Các từ điển điện tử (Lesk ‘86)  26  Cho biết ý nghĩa từ ngữ cảnh cụ thể nội dung (vd., I’ve often caught bass while out at sea) So sánh chồng chéo định nghĩa nghĩa từ (bass2: a type of fish that lives in the sea) Chọn nghĩa trùng nhiều Học việc phân loại để gán từ với nghĩa    Vào: vectơ đặc trưng   Hạn chế: đường dẫn đến từ ngắn  mở rộng cho từ liên quan  27 Tích lũy tri thức từ tập ngữ liệu có không gán nhãn Con người can thiệp vào tập ngữ liệu gán nhãn lựa chọn tập đặc trưng sử dụng việc huấn luyện đích (từ cần phân giải nhập nhằng) nội dung (các đặc trưng dùng để tiên đoán nghĩa đúng) Ra: luật phân loại cho văn 28 Ví dụ Các đặc trưng sử dụng WSD         Các thẻ POS từ từ lân cận Các từ lân cận (có thể lấy gốc từ không) Dấu chấm, viết hoa, định dạng PTCP phận để xác định vai trò ngữ pháp quan hệ chúng Các thông tin đồng xuất hiện:     Từ từ lân cận có thường đồng xuất không    DT TT TT ĐgT DT PT (C (CN (DT Em bé)) (VN (TN (TN (TT chỉ) (TN (TT thích) (ĐgN (ĐgT ăn) (DT kẹo)))) (PT thơi)))) Nó ăn nhiều hoa hồng q  Ví dụ: sea có thường xun xuất với bass khơng DT ĐgT DT GT DT (C (CN (ĐaT Tôi)) (VN (ĐgN (ĐgN (ĐgT ăn) (DT cơm)) (GN (GT với) (DT cá))))) Em bé thích ăn kẹo thơi  Đồng xuất từ láng giềng  Tôi ăn cơm với cá ĐaT ĐgT TT DT TT (C (CN (ĐaT Nó)) (VN (ĐgN (ĐgN (ĐgT ăn) (TT nhiều) (DT hoa hồng)) (TT quá)))) Tôi tên Hoa 29 Các kiểu phân loại Các kiểu phân loại  Naïve Bayes: Nghĩa tốt nghĩa có khả xảy với đầu vào cho trước     30 s nghĩa V vector đầu vào đặc trưng Chỉ có liệu có thơng tin vector kết hợp với nghĩa Giả sử đặc trưng độc lập, p(V|s) tích xác suất đặc trưng  Nạve Bayes: : Nghĩa tốt nghĩa có khả xảy với đầu vào cho trước  Khi   P(s) xác suất tiền nghiệm nghĩa = xác suất nghĩa tập liệu gán nhãn P(v,s) = đếm số lần xuất bass với sea p(V) giống với ŝ (không ảnh hưởng đến xếp hạng cuối cùng) 31 32 Học máy xác định tập từ đồng nghĩa  Học máy xác định tập từ đồng nghĩa Phương pháp phân tích ngữ nghĩa tiềm ẩn:   Phương pháp phân tích ngữ nghĩa tiềm ẩn:  SVD (Singular Value Decomposition) LSA (Latent Semantic Analysis) 33 Học máy xác định từ đồng nghĩa Học máy xác định tập từ đồng nghĩa  34  Phương pháp phân tích ngữ nghĩa tiềm ẩn:  LDA (Latent Dirichlet Allocation)  35 Word embedding: kỹ thuật học mơ hình ngôn ngữ học đặc trưng với từ/cụm từ biểu diễn vector số thực không gian từ vựng Gensim, Fasttext: word2vec, doc2vec 36 ứng dụng WSD IR WSD IR   IR (Information Retrieval) : tìm kiếm thơng tin Motivation       Đồng âm = Bank (ngân hàng, sông) Đa nghĩa = Bat ((câu lạc chơi cricket), (cây vợt nhỏ có tay cầm dài để chơi bóng )) Đồng nghĩa = doctor, doc, physician, MD, medico   Những vấn đề ảnh hưởng đến IR nào?   Tìm kiếm dựa câu truy vấn (Voorhees, 1998):  Đánh số khái niệm  Đồng âm đa nghĩa có xu hướng giảm độ xác Đồng nghĩa: giảm độ phủ        Không khả quan Nhưng, phân giải nhập nhằng mở rộng truy vấn thủ công đem lại kết tốt  38 Tập liệu đánh giá WSD: SensEval SemCor Cách khác để tạo liệu gán nhãn: Pseudowords  Ví dụ:  thu thập văn bản, câu query ngắn thiếu nội dung Độ xác WSD IR Mở rộng query  Trong thí nghiệm, vector dựa nghĩa thực vector dựa từ gốc Lý do: lỗi phân giải nhập nhằng  37 ứng dụng WSD IR Sử dụng WSD để mở rộng câu truy vấn: phân giải nhập nhằng câu query bổ sung vào từ có nghĩa rộng Sử dụng WSD để đánh số khái niệm: phân giải nhập nhằng tập tài liệu xây dựng số cho tập synset thay cho tập từ gốc Mơ hình khơng gian vector: tìm độ tương đồng cosin câu truy vấn vector tài liệu  furniture: table, chair, board, refectory(specialisations) “Chỉ có vài từ vựng liên quan có ích việc mở rộng câu truy vấn, đường dẫn lớp cha từ WordNet lúc đem lại mở rộng truy vấn cách hữu ích” 39  Lấy từ (ngẫu nhiên) có từ loại, thay từ nhân tạo Ví dụ, 'door' 'banana' thay tập ngữ liệu từ 'donana' Độ xác WSD: xác định trường hợp donana cụ thể 'door‘ hay 'banana' (Yarowsky, 1993) (Sanderson, 1997) công bố: thêm nhập nhằng vào query kết có ảnh hưởng đến độ xác việc tìm kiếm so với ảnh hưởng lỗi phân giải nhập nhằng tập kết  có lỗi phân giải nhập nhằng mức thấp ( < 10%) tốt phiên IR đơn giản dựa từ gốc 40 10 Độ xác WSD IR Độ xác WSD IR   Tại đa nghĩa/đồng âm vấn đề lớn ta nghĩ:   Tác động đồng xuất từ truy vấn: từ câu truy vấn tự phân giải nhập nhằng Sự phân bố ngữ nghĩa: áp dụng cho miền ứng dụng cụ thể Từ đồng nghĩa có ảnh hưởng lớn hơn:  Gonzalo et al (1998; 1999): sử dụng SemCor (tập ngữ liệu Brown với thẻ nghĩa WordNet) cho thấy phân giải nhập nhằng có độ cx = 100%     41 Đánh số nghĩa (vd synset number) có độ cx IR = 62% Đánh số nghĩa từ (vd canine1) có độ cx IR = 53.2% Đánh số từ gốc có độ cx IR = 48% Gonzalo et al cho thấy độ cx tối thiểu 90% với WSD cho IR cao Gần 60% từ giả không hoạt động giơng từ có nhập nhằng thật 42 11
- Xem thêm -

Xem thêm: 8 lexicalsemantics , 8 lexicalsemantics

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay