dịch máy bài báo khoa học về dịch máy

35 393 0
dịch máy bài báo khoa học về dịch máy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TheMathematicsofStatistical Machine Translation: ParameterEstimation PeterEBrown,VincentJ.DellaPietra, StephenA.DellaPietra,RobertL.Mercer ComputationalLinguistics,Vol 19‐2,1993, ACL,pp.263‐311 (Jun.,23,2009 揚石担当) 目的 • 背景 – 統計機械翻訳に注目 • 利用可能なパラレルコーパスが増大 • 過去の研究により、有用性確認 • 統計モデルの提案 – 文対からのパラメタ推定 • 単語アラインメント 5つのmodelを提案 アラインメントの種類 英単語が独立 フランス単語が独立 一般的 統計翻訳 • フランス語Fから英語Eへの翻訳 – P(e|f) が最大となるようなe ^ が最尤な翻訳 • – ベイズの定理より • – P(f)は無視⇒入力に対し、一定値 – P(e) :languagemodel – P(f|e) :translationmodel ⇒これに注目 翻訳モデル • アラインメントを導入 – – • 英文: • 仏文: • アラインメント: それぞれ 0からlの間の値を持つ – a 1 =2 Model1 • – 様々な仮定を適用 • Pr(m|e) =仏文の長さ(単語数)がmである確率 =ある定数ε • =j番目の仏単語がつながるのが a j 番目の英単語の確率 =どの場所にも同確率 =(l+1) ‐1 • =j番目の仏単語がf j の確率 =f j とe aj のみで決まる = • Model1 • • aについて和をとる – (j:1~m、a j :0~l) – 上式で推定すべきパラメタはt()のみ – 制約条件: より ラグランジュの未定乗数法を用いて極値を求める – • t(f|e)で偏微分 – – これを0として • • 両辺にt()が出現 – EMアルゴリズムによりt()を求める eとfがaで繋がっている回数 • 簡単化 – よりt(f|e)は – – 期待値を定義 • • Pr(a|e,f)=Pr(f,a|e)/Pr(f|e)を用いλ e Pr(f|e)をλ e とすると – S個のデータセットでは – λ e :正規化項 計算量の問題 • • を導入 – 計算量:(l+1) m ⇒m(l+1) – m=3,l=1として • 左辺:t 10 t 20 t 30 +t 10 t 20 t 31 +…+t 11 t 21 t 30 +t 11 t 21 t 31 • 右辺:(t 10 +t 11 )(t 20 +t 21 )(t 30 +t 31 ) – また、Pr(f|e)は • (l+1) m 回の計算が必要

Ngày đăng: 22/10/2014, 11:06

Từ khóa liên quan

Mục lục

  • The Mathematics of Statistical Machine Translation: Parameter Estimation

  • 目的

  • アラインメントの種類

  • 統計翻訳

  • 翻訳モデル

  • Model1

  • Model1

  • スライド番号 8

  • スライド番号 9

  • 計算量の問題

  • 偏微分の再計算

  • パラメタ推定アルゴリズム

  • 実行例

  • Model2

  • Model2

  • Model2

  • Model3

  • Model3のパラメタ

  • Model3のパラメタ

  • Model3

Tài liệu cùng người dùng

Tài liệu liên quan