4 phân tích cú pháp xác suất

Làm cách chọn đúng? Phân tích cú pháp xác suất z Ví dụ: z Khi số luật tăng, khả nhập nhằng tăng Tập p luật NYU: PTCP Apple pp p pie : 20,000-30,000 luật cho tiếng Anh Lựa chọn luật AD: V DT NN PP (1) VP → V NP PP NP → DT NN (2) VP → V NP NP → DT NN PP I saw a man with a telescope Lê Thanh Hương g Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn z z Kết hợp từ (bigrams pr) Kết hợp từ (bigrams pr) Ví dụ: Eat ice-cream (high freq) Eat John (low, except on Survivor) z ⇒ Verb-with-obj, verb-without-obj z Nhược điểm: P(John decided to bake a) có xác suất cao z Xét: P(w3) = P(w3|w2w1))=P(w P(w3|w2)P(w2|w1)P(w1) Giả thiết mạnh: chủ ngữ định bổ ngữ câu Clinton admires honesty ¾ sử dụng cấu trúc ngữ pháp để dừng việc lan truyền z Xét Fred watered his mother’s small garden Từ garden có ảnh hưởng nào? z z z Pr(garden|mother’s small) thấp ⇒ mô hình trigram không tốt Pr(garden | X thành phần bổ ngữ cho động từ to water) cao ¾ sử dụng bigram + quan hệ ngữ pháp Ví dụ Nhược điểm: • Kích thước tập ngữ pháp tăng z Các báo tạp chí Wall Street Journal năm: 47,219 câu, độ dài trung bình 23 từ, gán nhãn tay: có 4.7% hay 2,232 câu có cấu trúc ngữ pháp ¾ Không thể dựa việc tìm cấu trúc cú pháp cho câu Phải xây dựng tập mẫu ngữ pháp nhỏ Luật Luật VP VP VP ADJ NP DT NN Sự tương thích chủ ngữ bổ ngữ: John admires honesty Honesty admires John ??? S Luật V có số loại bổ ngữ định z VP Luật z NP→DT NN NN NP→DT JJ NN S→NP VBX JJ CC VBX NP Nhóm (NNS, NN) thành NX; (NNP, NNPs)=NPX; (VBP, VBZ, VBD) VBD)=VBX; VBX; Chọn luật theo tần suất NP NN VBX JJ CC VBX DT JJ NN This apple pie looks good and is a real treat Tính Pr Tính xác suất Pr(X →Y) X S NP VP NP DT JJ NN VBX NP The big guy ate DT JJ NN the apple pie 1470 Y DT JJ NN NP = S → NP VP; 0.35 NP → DT JJ NN; 0.1532 VP → VBX NP; 0.302 = 0.1532 Luật áp dụng 9711 S →NP VP NP → DT JJ NN VP → VBX NP NP → DT JJ NN Pr = 0.0025 Chuỗi Pr 0.35 0.1532 x 0.35 = 0.0536 0.302 x 0.0536= 0.0162 0.1532 x 0.0162=0.0025 Các giả thiết Văn phạm phi ngữ cảnh xác suất z z z z z z z văn phạm phi ngữ cảnh xác suất (Probabilistic Context Free Grammar) gồm phần thông thường CFG Tập ký hiệu kết thúc {wk}, k = 1, ,V Tập ký hiệu không kết thúc {Ni}, i = 1, ,n Ký hiệu khởi đầu N1 Tập luật {Ni → ζj}, ζj chuỗi ký hiệu kết thúc không kết thúc Tập xác suất luật là: ∀i ∑j P(Ni → ζj) = Xác suất cú pháp: P(T) = Πi=1 n p(r(i)) z Độc lập vị trí: Xác suất không phụ thuộc vào vị trí từ câu ∀k, P(Njk(k+c) →ζ) giống z Độc ộ lập ập ngữ g cảnh: Xác suất câyy không gp phụ ụ thuộc ộ vào từ P(Njkl→ζ| từ khoảng k đến l) = P(Njkl→ζ) z Độc lập tổ tiên: Xác suất không phụ thuộc vào nút cay P(Njkl→ζ| nút Njkl ) = 10 CKY kết hợp xác suất Các thuật toán z z z z z P(Njkl→ζ) Cấu trúc liệu: z Mảng lập trình động π[i,j,a] lưu xác suất lớn ký hiệu không kết thúc a triển khai thành chuỗi i…j z Backptrs lưu liên kết ế đến ế thành phần ầ CKY Beam search Agenda/chart based search Agenda/chart-based … z 11 Ra: Xác suất lớn 12 Tính Pr dựa suy diễn z Trường hợp bản: có từ đầu vào z Trường hợp đệ qui: Đầu vào xâu từ * ij if ∃k: A→ ΒC, B ⇒w * ik ,C ⇒w * kj ,i≤k ≤j A⇒w p[i,j] = max(p(A→ ΒC) x p[i,k] x p[k,j]) Pr(tree) = pr(A→ wi) A B i C k wij j 13 TÍnh xác suất Viterbi (thuật toán CKY) 14 Ví dụ z z z z S Æ NP VP NP Æ Det N VP Æ V NP V Æ includes 0.80 0.30 0.20 05 0.05 z z z z Det Æ the Det Æ a N Æ meal N Æ flight 0.50 0.40 0.01 02 0.02 Dùng thuật toán CYK phân tích câu vào: “The flight includes a meal” 0.0504 15 Xác suất Forward Backward Tính Pr 10 11 S → NP VP VP → V NP PP VP → V NP NP → N NP → N PP PP → PREP N N → a_dog N → a_cat N → a_telescop V → saw PREP → with 1.0 0.4 0.6 0.7 0.3 1.0 0.3 0.5 0.2 1.0 1.0 VP 0.6 NP S 1.0 NP 07 0.7 VP 0.4 NP 07 0.7 0.3 PP V N 1.0 N V N PREP N 0.3 1.0 0.5 1.0 0.2 t-1… t …T The big brown fox NP PP 1.0 PREP N big Forward Probability = ai(t)=P(w1(t-1), Xt=i) N’’ N brown i bi(t) • Forward= xác suất phần tử bao gồm nút cụ thể N fox • Backward= xác suất phần tử nút cụ thể Backward Probability = bi(t)=P(wtT |Xt=i) a_dog saw a_cat with a_telescope Pl = 1×.7×.4×.3×.7×1×.5×1×1×.2 = 00588 Pr = 1×.7×.6×.3×.3×1×.5×1×1×.2 = 00378 ¾ Pl is chosen ai(t) Xt N’ The 17 18 Xác suất Xác suất N1= Start α Nj w1 wp-1 N1= Start Outside αj(p,q) Inside βj(p,q) β wp wq wq+1 Outside αj(p,q) α Nj wm w1 wp-1 Inside βj(p,q) β wp wq wq+1 Npq = ký hiệu không kết thúc Nj trải từ vị trí p đến q xâu αj(p,q)=P(w1(p-1) , Npqj,w(q+1)m|G) z αj = xác suất (outside) βj(p,q)=P(wpq|Npqj, G) z βj = xác suất (inside) z Nj phủ từ wp … wq, Nj ⇒∗ wp … wq z 19 αj(p,q) βj(p,q) = P(N1⇒∗ w1m , Nj ⇒∗ wpq | G) = P(N1⇒∗ w1m |G)• P(Nj ⇒∗ wpq | N1⇒∗ w1m, G) Tính xác suất xâu Sử dụng thuật toán Inside, thuật toán lập trình động dựa xác suất inside P(w1m|G) = P(N1 ⇒* w1m|G) = P(w1m|N1m1, G) = β1(1,m) z Tính βj(p,q) với p < q – tính tất điểm j – thực từ lên Nj Trường hợp bản: βj(k,k) = P(wk|Nkkj, G)=P(Nj → wk|G) Suy diễn: βj(p,q) = Σr,sΣd∈(p,q-1) P(Nj → NrNs) βr(p,d) βs(d+1,q) P(Nj → NrNs) Ns Nr wp wdwd+1 βr(p,d) x wq βs(d+1,q) -nhân thành phần, tính tổng theo j, r,s 21 S → NP VP VP → V NP PP VP → V NP NP → N NP → N PP PP → PREP N N → a_dog N → a_cat N → a_telescope V → saw PREP → with 22 Tìm kiếm kiểu chùm Ví dụ 10 11 20 Suy diễn z z wm 1.0 0.4 0.6 0.7 0.3 1.0 0.3 0.5 0.2 1.0 1.0 z NP 1.0 NP 0.7 z VP 0.6 S VP 0.4 NP 0.7 0.3 PP V z Tại thời điểm, giữ thành phần có điểm cao PP N 1.0 PREP N 1.0 N V N PREP 0.3 1.0 0.5 1.0 Tìm kiếm không gian trạng thái Mỗi trạng thái cú pháp với xác suất định N 0.2 P(a_dog saw a_cat with a_telescope) = 1×.7×.4×.3×.7×1×.5×1×1×.2 + ×.6 ×.3 = 00588 + 00378 = 00966 23 24 Làm giàu PCFG Làm giàu PCFG z z z PCFG đơn giản hoạt động không tốt giả thiết độc lập Giải quyết: Đưa thêm thông tin z z Phụ th Ph thuộc ộ cấu ấ ttrúc ú z Việc triển khai nút phụ thuộc vào vị trí ( độc lập với nội dung từ vựng nó) z Ví dụ: bổ sung thông tin cho nút cách lưu giữ thông tin cha nó: SNP khác với VPNP z PCFG từ vựng hóa : PLCFG (Probabilistic Lexicalized CFG, Collins 1997; Charniak 1997) Gán từ vựng với nút luật Cấu trúc Head z z Mỗi phần tử parsed tree gắn liền với lexical head Để xác định head nút ta phải xác định nút con, nút head (xác định head vế phải luật) 25 Làm giàu PLCFG 26 Tại dùng PLCFG VP(dumped) → VBD(dumped) NP(sacks) PP(into) 3*10-10 VP(dumped) → VBD(dumped) NP(cats) PP(into) 8*10-11 z z z Tính ngoại lệ (exception) ngôn ngữ Sự phân loại theo cú pháp chưa thể hết đặc tính hoạt động từ vựng vựng Từ vựng hóa luật CFG giúp phân tích cú pháp thực xác 27 Hạn chế PLCFG VP -> VBD NP PP VP(dumped) -> VBD(dumped) NP(sacks) PP(into) Penn Treebank z z z Không có corpus đủ lớn! z Thể hết trường hợp cú pháp, hết trường hợp từ Penn Treebank: tập ngữ liệu có giải ngữ pháp, có triệu từ, nguồn ngữ liệu quan trọng Tính thưa: z z có 965,000 mẫu, có 66 mẫu WHADJP, có mẫu không how much how many Phần lớn phép xử lý thông minh phụ thuộc vào thống kê mối quan hệ từ vựng từ liền nhau: 30 Đánh giá độ xác PTCP A Penn Treebank tree z z z Độ xác parser đo qua việc tính xem có thành phần ngữ pháp giống với chuẩn, gọi gold-standard reference parses Độ xác (Precision) = % trường hợp hệ gán tổng số trường hợp hệ gán (%THợp hệ tính đúng) Độ phủ (Recall) = % số trường hợp hệ gán tổng số trường hợp (%THợp hệ tính so với người) 31 32 Biểu diễn theo thành phần ngữ pháp Đánh giá Ví dụ Độ xác hệ thống PTCP 35 36 ... xác suất luật là: ∀i ∑j P(Ni → ζj) = Xác suất cú pháp: P(T) = Πi=1 n p(r(i)) z Độc lập vị trí: Xác suất không phụ thuộc vào vị trí từ câu ∀k, P(Njk(k+c) →ζ) giống z Độc ộ lập ập ngữ g cảnh: Xác. .. Tính ngoại lệ (exception) ngôn ngữ Sự phân loại theo cú pháp chưa thể hết đặc tính hoạt động từ vựng vựng Từ vựng hóa luật CFG giúp phân tích cú pháp thực xác 27 Hạn chế PLCFG VP -> VBD NP PP... gian trạng thái Mỗi trạng thái cú pháp với xác suất định N 0.2 P(a_dog saw a_cat with a_telescope) = 1×.7× .4 .3×.7×1×.5×1×1×.2 + ×.6 ×.3 = 00588 + 00378 = 00966 23 24 Làm giàu PCFG Làm giàu PCFG

4 phân tích cú pháp xác suất

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan