6 probabilisticparse

11 10 0
  • Loading ...
1/11 trang

Thông tin tài liệu

Ngày đăng: 31/12/2018, 14:51

Làm cách chọn đúng? Phân tích cú pháp xác suất  Ví dụ:  Khi số luật tăng, khả nhập nhằng tăng Tập luật NYU: PTCP Apple pie : 20,000-30,000 luật cho tiếng Anh Lựa chọn luật AD: V DT NN PP (1) VP V NP PP NP DT NN (2) VP  V NP NP  DT NN PP I saw a man with a telescope  Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt@soict.hust.edu.vn  Kết hợp từ (bigrams pr) Kết hợp từ (bigrams pr) Ví dụ: Eat ice-cream (high freq) Eat John (low, except on Survivor)  P(John decided to bake a) có xác suất cao  Xét: P(w3) = P(w3|w2w1)=P(w3|w2)P(w2|w1)P(w1) Giả thiết mạnh: chủ ngữ định bổ ngữ câu Clinton admires honesty  sử dụng cấu trúc ngữ pháp để dừng việc lan truyền  Xét Fred watered his mother’s small garden Từ garden có ảnh hưởng nào?   Pr(garden|mother’s small) thấp  mơ hình trigram khơng tốt Pr(garden | X thành phần bổ ngữ cho động từ to water) cao  sử dụng bigram + quan hệ ngữ pháp V có số loại bổ ngữ định  Verb-with-obj, verb-without-obj  Nhược điểm:  Sự tương thích chủ ngữ bổ ngữ: John admires honesty Honesty admires John ??? Nhược điểm: • Kích thước tập ngữ pháp tăng  Các báo tạp chí Wall Street Journal năm: 47,219 câu, độ dài trung bình 23 từ, gán nhãn tay: có 4.7% hay 2,232 câu có cấu trúc ngữ pháp  Khơng thể dựa việc tìm cấu trúc cú pháp cho câu Phải xây dựng tập mẫu ngữ pháp nhỏ Ví dụ Luật Luật S VP VP VP ADJ Luật Luật NP DT NN  VP  NPDT NN NN NPDT JJ NN SNP VBX JJ CC VBX NP Nhóm (NNS, NN) thành NX; (NNP, NNPs)=NPX; (VBP, VBZ, VBD)=VBX; Chọn luật theo tần suất NP NN VBX JJ CC VBX DT JJ NN This apple pie looks good and is a real treat Tính Pr Tính xác suất Pr(X Y) X S NP VP NP 1470 Y DT JJ NN NP = = 0.1532 9711 DT JJ NN VBX NP The big guy ate DT JJ NN the apple pie Luật áp dụng S NP VP NP DT JJ NN VP VBX NP NP DT JJ NN Pr = 0.0025 S  NP VP; 0.35 NP DT JJ NN; 0.1532 VP VBX NP; 0.302 Chuỗi Pr 0.35 0.1532 x 0.35 = 0.0536 0.302 x 0.0536= 0.0162 0.1532 x 0.0162=0.0025 Các giả thiết Văn phạm phi ngữ cảnh xác suất        văn phạm phi ngữ cảnh xác suất (Probabilistic Context Free Grammar) gồm phần thông thường CFG Tập ký hiệu kết thúc {wk}, k = 1, ,V Tập ký hiệu không kết thúc {Ni}, i = 1, ,n Ký hiệu khởi đầu N1 Tập luật {Ni  j}, j chuỗi ký hiệu kết thúc không kết thúc Tập xác suất luật là: i j P(Ni  j) = Xác suất cú pháp: P(T) = Πi=1 n p(r(i))  Độc lập vị trí: Xác suất khơng phụ thuộc vào vị trí từ câu k, P(Njk(k+c) ) giống  Độc lập ngữ cảnh: Xác suất khơng phụ thuộc vào từ ngồi P(Njklcác từ ngồi khoảng k đến l) = P(Njkl  Độc lập tổ tiên: Xác suất khơng phụ thuộc vào nút ngồi cay P(Njklcác nút Njkl ) = 10 CKY kết hợp xác suất Các thuật toán      P(Njkl Cấu trúc liệu:  Mảng lập trình động π i,j,a] [ lưu xác suất lớn ký hiệu không kết thúc a triển khai thành chuỗi i…j  Backptrs lưu liên kết đến thành phần CKY Beam search Agenda/chart-based search …  11 Ra: Xác suất lớn 12 Tính Pr dựa suy diễn  Trường hợp bản: có từ đầu vào  Trường hợp đệ qui: Đầu vào xâu từ * ij if k: AC, B w * ik ,C w * kj ,ik j Aw p[i,j] = max(p(AC) x p[i,k] x p[k,j]) Pr(tree) = pr(Awi) A B i C k wij j 13 TÍnh xác suất Viterbi (thuật tốn CKY) 14 Ví dụ     S  NP VP NP  Det N VP  V NP V  includes 0.80 0.30 0.20 0.05     Det  the Det  a N  meal N  flight Dùng thuật tốn CYK phân tích câu vào: “The flight includes a meal” 0.0504 15 0.50 0.40 0.01 0.02 Tìm kiếm kiểu chùm Tính Pr 10 11 S  NP VP VP V NP PP VP V NP NP N NP N PP PP PREP N N a_dog N a_cat N a_telescop V saw PREP with 1.0 0.4 0.6 0.7 0.3 1.0 0.3 0.5 0.2 1.0 1.0 VP 0.6 NP S 1.0 VP 0.4 NP 0.7 NP 0.7 0.3 PP V  Tìm kiếm khơng gian trạng thái Mỗi trạng thái cú pháp với xác suất định  PP Tại thời điểm, giữ thành phần có điểm cao N 1.0 PREP N 1.0 N V N PREP 0.3 1.0 0.5 1.0  N 0.2 a_dog saw a_cat with a_telescope Pl = 1.7.4.3.71.511.2 = 00588 Pr = 1.7.6.3.31.511.2 = 00378  Pl is chosen 17 Xác suất 18 Xác suất N1= Start  Nj w1  wp-1  Nj Inside j(p,q)  wp wq wq+1 Npq = ký hiệu không kết thúc xâu N1= Start Outside j(p,q) Nj wm w1 wp-1  wp wq wq+1 Outside j(p,q) Inside j(p,q) wm trải từ vị trí p đến q  αj = xác suất (outside)  βj = xác suất (inside)  Nj phủ từ wp … wq, Nj  wp … wq j(p,q)=P(w1(p-1) , Npqj,w(q+1)m|G) j(p,q)=P(wpq|Npqj, G) 19 j(p,q) j(p,q) = P(N1w1m , Nj wpq | G) = P(N1w1m |G) P(Nj wpq | N1w1m, G) 20 Tính xác suất xâu Suy diễn Sử dụng thuật toán Inside, thuật tốn lập trình động dựa xác suất inside P(w1m|G) = P(N1 * w1m|G) = P(w1m|N1m1, G) = 1(1,m)    Tính j(p,q) với p < q – tính tất điểm j – thực từ lên Nj Trường hợp bản: j(k,k) = P(wk|Nkkj, G)=P(Nj  wk|G) Suy diễn: j(p,q) = r,sd(p,q-1) P(Nj  NrNs) r(p,d) s(d+1,q) P(Nj  NrNs) Ns Nr wp wdwd+1 r(p,d) x wq s(d+1,q) -nhân thành phần, tính tổng theo j, r,s 21 Nhập nhằng PTCP tiếng Việt Ví dụ 10 11 S  NP VP VP V NP PP VP V NP NP N NP N PP PP PREP N N a_dog N a_cat N a_telescope V saw PREP with 22 1.0 0.4 0.6 0.7 0.3 1.0 0.3 0.5 0.2 1.0 1.0 VP 0.6 NP S 1.0 NP 0.7 VP 0.4 NP 0.7 0.3 PP V loại nhập nhằng cú pháp:  PP N 1.0 PREP N 1.0 N V N PREP 0.3 1.0 0.5 1.0  N 0.2 P(a_dog saw a_cat with a_telescope) = 1.7.4.3.71.511.2 + .6 .3 = 00588 + 00378 = 00966 23  Câu hiểu theo nhiều nghĩa khác dẫn đến cú pháp khác  Ví dụ, câu “Tơi nhìn thấy anh Hải tầng hai” Câu có nghĩa PTCP tạo nhiều cú pháp, có  Ví dụ, câu “Hơm trời mưa” Nhập nhằng PTCP tiếng Việt Câu Câu Chủ ngữ Trạng ngữ Chủ ngữ Vị ngữ Phó từ Danh từ Động từ Hôm trời mưa (a) Danh ngữ Vị ngữ Danh từ Danh từ Động từ Hôm trời mưa (b) Nhập nhằng PTCP tiếng Việt Hướng giải quyết: Cách 2: đưa xác suất vào tập luật cú pháp CFG  chưa giải nhập nhằng liên quan đến tính chất từ cụ thể  Ví dụ, danh ngữ “vấn đề phần trước phần này” Nhập nhằng PTCP tiếng Việt Hướng giải quyết: Cách 1: Phân loại chi tiết nhãn từ loại/ngữ loại: Thay luật  ta đưa luật  Nhược điểm:    Chưa thống việc đặt tên nhãn từ loại/ngữ loại Kích thước tập luật cú pháp tăng lên đáng kể Phải xây dựng cách thủ công tập luật cú pháp ứng với tập nhãn từ loại  khó thực Nhập nhằng PTCP tiếng Việt danh ngữ giới ngữ danh từ vấn đề danh ngữ giới từ danh ngữ danh từ phần danh từ vị trí trước liên từ danh ngữ danh ngữ phần đại từ định Nhập nhằng PTCP tiếng Việt Các từ cụ thể ảnh hưởng đến việc PTCP danh ngữ danh ngữ danh từ liên từ Để giải nhập nhằng PTCP, đơi cần thơng tin từ cụ thể Ví dụ  danh ngữ   giới ngữ vấn đề giới từ danh ngữ danh từ đại từ định phần Phải dựa tính chất cụ thể từ giữ vai trò câu Nhập nhằng lược bỏ quan hệ từ Ví dụ • • danh từ danh từ vị trí phần trước Làm giàu PCFG    đưa thông tin từ vựng vào văn phạm (làm giàu PCFG) Làm giàu PLCFG VP(dumped)  VBD(dumped) NP(sacks) PP(into) 3*10-10 VP(dumped)  VBD(dumped) NP(cats) PP(into) 8*10-11 PCFG từ vựng hóa : PLCFG (Probabilistic Lexicalized CFG, Collins 1997; Charniak 1997) Gán từ vựng với nút luật Cấu trúc Head  nói bạn tơi, tơi; khơng nói chó tơi, mèo tơi  Từ có vai trò quan trọng việc PTCP   “Tơi ăn” chấp nhận câu hoàn chỉnh mang lượng thông tin nhỏ “Tôi ăn” dễ chấp nhận câu hoàn chỉnh Mỗi phần tử parsed tree gắn liền với lexical head Để xác định head nút ta phải xác định nút con, nút head (xác định head vế phải luật) 31 32 Hạn chế PLCFG Penn Treebank VP -> VBD NP PP VP(dumped) -> VBD(dumped) NP(sacks) PP(into)    Không có corpus đủ lớn!  Thể hết trường hợp cú pháp, hết trường hợp từ Penn Treebank: tập ngữ liệu có giải ngữ pháp, có triệu từ, nguồn ngữ liệu quan trọng Tính thưa:   có 965,000 mẫu, có 66 mẫu WHADJP, có mẫu không how much how many Phần lớn phép xử lý thông minh phụ thuộc vào thống kê mối quan hệ từ vựng từ liền nhau: 34 Đánh giá độ xác PTCP A Penn Treebank tree    35 Độ xác parser đo qua việc tính xem có thành phần ngữ pháp giống với chuẩn, gọi gold-standard reference parses Độ xác (Precision) = % trường hợp hệ gán tổng số trường hợp hệ gán (%THợp hệ tính đúng) Độ phủ (Recall) = % số trường hợp hệ gán tổng số trường hợp (%THợp hệ tính so với người) 36 Biểu diễn theo thành phần ngữ pháp Đánh giá Bài tập - tính P, R Ví dụ Cho kết PTCP chuẩn:   (S (NP (N Cơn)(N lũ)) (VP(V cuốn)(V qua) (NP (L những)(N phận)(N người))) ( .)) (S(NP(N Phận)(N người) (PP(E ở) (NP(Np Bình Sơn))))( .)) Kết chương trình PTCP: 39 40 Độ xác hệ thống PTCP 41
- Xem thêm -

Xem thêm: 6 probabilisticparse , 6 probabilisticparse

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay