0

improving ibm word alignment model 1

Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Word Alignment with Synonym Regularization" doc

Báo cáo khoa học

... 0 .14 5Proposed 0.947 0.824 0.8 81 0 .11 2(b) 10 0k Precision Recall F-measure AERGIZA++ standard 0.925 0.7 91 0.853 0 .13 6with SRH 0.934 0.803 0.864 0 .12 6HM-BiTAM standard 0.898 0.8 51 0.874 0 .12 4with ... representative word. For instance,the words ‘sick’ and ‘ill’ in the bilingual sentences# vocabularies 10 k 50k 10 0kEnglish standard 8578 16 924 22 817 with SRH 5435 7235 13 978French standard 10 7 91 218 72 ... of the ACL 2 010 Conference Short Papers, pages 13 7 14 1,Uppsala, Sweden, 11 -16 July 2 010 .c2 010 Association for Computational Linguistics Word Alignment with Synonym RegularizationHiroyuki...
  • 5
  • 470
  • 2
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Smoothing a Tera-word Language Model" doc

Báo cáo khoa học

... order model is taken to be the word frequenciesin the Web 1T corpus. The Brown corpus was re-tokenized to match the tokenization style of the Web1T dataset resulting in 1, 186,262 tokens in 52 ,10 8sentences. ... 52 ,10 8sentences. The Web 1T dataset has a 13 million word vocabulary consisting of words that appear 10 0times or more in its corpus. 769 sentences in Brownthat contained words outside this vocabulary ... and Linda C. Bauman Peto. 19 95. Ahierarchical Dirichlet language model. Natural Lan-guage Engineering, 1( 3) :1 19 .Y.W. Teh. 2006. A hierarchical Bayesian language model based on Pitman-Yor...
  • 4
  • 425
  • 1
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Yet Another Word Alignment Tool" docx

Báo cáo khoa học

... the term word alignment 1 Yawat was first presented at the 2007 Linguistic Annota-tion Workshop (Germann, 2007).to refer to any form of alignment that identifies wordsor groups of words as ... sub-sentential alignments of paral-lel text.” Linguistic Annotation Workshop (LAW’07), 12 1 12 4. Prague, Czech Republic.Hwa, Rebecca and Nitin Madnani. 2004.“The umiacs word alignment interface.”http://www.umiacs.umd.edu/∼nmadnani/ alignment/ forclip.htm.Lambert, ... translationsby word alignment but also becaus e of such interfaceissues that aligning words manually has the reputa-tion of being a very tedious task.3 YawatYawat (Yet Another Word Alignment Tool)...
  • 4
  • 416
  • 1
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Discriminative Word Alignment with Conditional Random Fields" ppt

Báo cáo khoa học

... 7.73–dictionary 27.72 7. 21 –sentence position 28.30 8. 01 –POS – 8 .19 Model 1 28.62 8.45 alignment word pair 32. 41 7.20–Markov 32.75 12 .44–Dice & Model 1 35.43 14 .10 Table 3. The resulting ... f-score AER Model 4 refined 87.4 95 .1 91. 1 9. 81 Model 4 intersection 97.9 86.0 91. 6 7.42French → English 96.7 85.0 90.5 9. 21 English → French 97.3 83.0 89.6 10 . 01 intersection 98.7 78.6 87.5 12 .02refined ... implementa-tion of the IBM alignment models (Brown et al., 19 93). These models treat word alignment as ahidden process, and maximise the probability ofthe observed (e, f ) sentence pairs 1 using the ex-pectation...
  • 8
  • 460
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Using Word Support Model to Improve Chinese Input System" ppt

Báo cáo khoa học

... usually 2, i.e. bigram model (Lin and Tsai, 19 87; Gu et al., 19 91; Fu et al., 19 96; Ho et al., 19 97; Sproat, 19 90; Gao et al., 2002; Lee 2003). From the studies (Hsu 19 94; Tsai and Hsu, 2002; ... 量刑/事實 /1, 關於/兩性 /1, 關與/實施 /1, 生殖/實施 /1, 關於/事實 /1, 關於/史實 /1 WSM Set 關於(guan yu)/7, 實施(shi shi)/4, 兩性(liang xing)/3, 量刑(liang xing)/2, 知識(zhi shi)/2, 事實(shi shi)/2, 失事(shi shi) /1, 關與(guan yu) /1, ... are (18 .9%, 10 .1% ) and (25.6%, 16 .6%), respectively. From Table 3b, the tonal and toneless STW improvements of the BiGram by using the WP identifier and the WSM are (8.6%, 11 .9%) and (17 .1% ,...
  • 8
  • 358
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Finding Synonyms Using Automatic Word Alignment and Measures of Distributional Similarity" pdf

Báo cáo khoa học

... from the Europarl corpus4 #word- transl. pairs #word- transl. pairsDA 10 4K FR 90KDE 13 3K IT 96KEL 60K PT 86KEN 11 9K SV 97KES 11 9K ALL 994KFI 89KTable 3: Number of word- translation pairs for ... automatic word alignment. Context vec-tors are built from the alignments found in a paral-lel corpus. Each aligned word type is a feature inthe vector of the target word under consideration.The alignment ... introduced above.For the word alignment, we apply standard tech-niques derived from statistical machine transla-tion using the well-known IBM alignment mod-els (Brown et al., 19 93) implemented in...
  • 8
  • 516
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Word Alignment for Languages with Scarce Resources Using Bilingual Corpora of Other Language Pairs" pptx

Báo cáo khoa học

... ∑Δ=−Δ=−−−−−−−−−=−−=ΔΔ'':,':, 1& apos;1EJ 1& apos;1EJEJ 1& apos ;1& apos; 11 ),'|,(Pr)'|(Pr)'|(Prjjjjjjiiiiiiiijjjjjj⊙⊙⊙⊙⊙⊙⊙⊙ (12 )The English word in position is aligned to the Japanese word ... build a word alignment model for L1 and L2 based on the above two models. Here, we call this model an induced model. With this induced model, we per-form word alignment between languages L1 and ... given English word using all other words as context in Set 1 and Set 2, respectively. CEVEJV>=< ),(, ),,(),,( 11 2 211 1CE nnctectecteV >=< ),(, ),,(),,(2222 211 EJ nnctectecteV...
  • 8
  • 359
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Guiding Statistical Word Alignment Models With Prior Knowledge" pdf

Báo cáo khoa học

... Constrained Word Alignment ModelsThe framework that we propose to incorporate sta-tistical constraints into word alignment models isgeneric. It can be applied to complicated modelssuch IBM Model- 4 ... sophis-ticated Model- 4 when proper constraints are activein guiding word alignment model training. We alsotry to put constraints in Model- 4. As the Equation 1 implies, when a word- to -word generative ... in guiding word alignment training, we compare statistics of different word alignment models. We find that our baseline HMM6 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0 .1 0.2 0.3...
  • 8
  • 495
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A Discriminative Syntactic Word Order Model for Machine Translation" pdf

Báo cáo khoa học

... BLEU 1 best 30 bestLang Model (Permutations) 58.8 71. 2Lang Model (TargetProjective) 83.9 95.0Local Tree Order Model 75.8 87.3Local Tree Order Model + Lang Model 92.6 98.0Re-ranking ModelsFeatures ... vocab avg. len vocabMT-train 500K 15 .8 77K 18 .7 79KMT-test 1K 17 .5 – 20.9 –Ref-test 1K 17 .5 – 21. 2 –Table 3: Main data sets used in experiments.target words and/or will not be projective ... first-passmodels in the top part, and the performance of our 15 First-pass models Model BLEU 1 best 30 bestBaseline MT System 33.0 –Lang Model (Permutations) 26.3 28.7Lang Model (TargetCohesive) 31. 7...
  • 8
  • 404
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Dealing with Spurious Ambiguity in Learning ITG-based Word Alignment" pdf

Báo cáo khoa học

... get3 81 % 0 5 10 15 20 25LG 1 42.2 19 20.8 9 914 .1+ 10 000+ 10 000+HaG 1 3.5 10 .9 34 .1 89.2 219 .9Table 1: Average #derivations per alignment for LG andHaG v.s. Percentage of unaligned words. ... Haghighi et al. (2009). We useda log-linear model, with features like IBM model1 020. 21 017 0 .18 0 .19 0.2AER0 .15 0 .16 0. 17 16 111 6AHaG-20best LFG-1bestLFG-20bestNumber of iterationsFigure ... CCe 1 / e2e3e4f 1 f2f3(a)BAAC CCCe 1 / e2e3e4f 1 f2f3(b)BACC 01 CtC 01 CCe 1 / e2e3e4f 1 f2f3(c)Figure 4: Null -word attachment for the same alignment. ((a)...
  • 5
  • 499
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Data Cleaning for Word Alignment" pdf

Báo cáo khoa học

... 0.297 0 .17 1 0 .14 670 0 .17 9 0.2 51 0.298 0 .17 0 0 .14 680 0 .18 1 0.252 0.3 01 0 .16 9 0 .14 790 0 .18 0 0.252 0.297 0 .17 1 0 .14 7 10 0 0 .18 0 0.2 51 0.302 0 .16 9 0 .14 6# 51k 51k 51k 60k 60kave 21. 0/23.8(EN/FR) ... 0 .16 9 99 .10 % 0 .18 0 91. 81% Ours 0.2 21 96.42% 0 .19 2 96.38% 1 0.2 01 40.49% 0 .18 7 49.37%2 0.205 48.53% 0 .18 8 55.03%3 0.208 58.07% 0 .18 7 61. 22%4 0. 215 83 .10 % 0 .19 0 81. 57%5 0 .19 2 29.03% 0 .18 0 31. 52%6 ... ENDE 10 0 .16 7 0.088 0 .14 3 0.097 0.07920 0.087 0 .19 5 0.246 0 .13 8 0 .12 730 0 .14 5 0.229 0.279 0 .15 7 0 .13 740 0 .17 5 0.242 0.295 0 .16 8 0 .14 250 0.229 0.250 0.297 0 .17 0 0 .14 560 0 .17 8 0.253 0.297 0 .17 1...
  • 9
  • 487
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "A DOM Tree Alignment Model for Mining Parallel Data from the Web" doc

Báo cáo khoa học

... Church 19 91; Brown et al. 19 91; Wu 19 94) used sentence length as the ba-sic feature for alignment. (Kay & Roscheisen 19 93; and Chen 19 93) used lexical information for sentence alignment. Models ... techniques, the DOM tree alignment model, sen-tence alignment model, and candidate web page pair verification model are introduced. 4 DOM Tree Alignment Model The Document Object Model (DOM) is an ... 4 .1 DOM Tree Alignment Similar to STSG, our DOM tree alignment model supports node deletion, insertion and substitution. Besides, both STSG and our DOM tree align-ment model define the alignment...
  • 8
  • 435
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Improved Discriminative Bilingual Word Alignment" pdf

Báo cáo khoa học

... training his stage 1 and stage 2 models. For thestage 2 model, we used a single learning rate of0. 01. For the stage 1 model, we used a sequenceof learning rates: 10 00, 10 0, 10 , and 1. 0. At eachtransition ... words being linked with the estimated condi-tional odds of a cluster of words being linked:LO(w 1 , . . . , wk) =links 1 (w 1 , . . . , wk) + 1 (cooc(w 1 , . . . , wk) − links 1 (w 1 , ... between our stage 1 and stage 2 models is that the stage 1 model con-siders each word- to -word link separately, but al-lows multiple links per word, as long as they leadto an alignment consisting...
  • 8
  • 217
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Soft Syntactic Constraints for Word Alignment through Discriminative Training" pot

Báo cáo khoa học

... of EMNLP, pages 304– 311 .W. A. Gale and K. W. Church. 19 91. Identifying word cor-respondences in parallel texts. In 4th Speech and NaturalLanguage Workshop, pages 15 2 15 7. DARPA.D. Gildea. ... im-proved alignments.2 Constrained Alignment Let an alignment be the complete structure thatconnects two parallel sentences, and a link beone of the word- to -word connections that makeup an alignment. ... modelsin (Brown et al., 19 93), word alignment has be-come the first step in training moststatistical trans-lation systems, and alignments are useful to a hostof other tasks. The dominant IBM...
  • 8
  • 325
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Boosting Statistical Word Alignment Using Labeled and Unlabeled Data" ppt

Báo cáo khoa học

... 0.75 31 0.2469 Interpolated 0.7555 0.7084 0.7 312 0.2688 Method 1 0.7986 0. 719 7 0.75 71 0.2429 Method 2 0.8060 0.7388 0.7709 0.22 91 Combination 0. 817 5 0.7858 0.8 013 0 .19 87 Table 2. Word Alignment ... 6. 2 Statistical Word Alignment Model According to the IBM models (Brown et al., 19 93), the statistical word alignment model can be generally represented as in equation (1) . ∑=a'e|f,a'e|fa,e|fa,)Pr()Pr()Pr( ... simplified version does not take into account word classes as described in Brown et al. (19 93). ))))(()](([ ))()](([( )|( )|( )Pr(0 ,1 10 ,1 1 11 1 200000∏∏∏∏≠=>≠===−−⋅≠+−⋅=⋅⋅⋅⎟⎟⎠⎞⎜⎜⎝⎛−=majjmajjmjajliiimjjjajjpjdahjcjdahjeftenppmρφφφφφe|fa,(2)ml,...
  • 8
  • 451
  • 1

Xem thêm

Tìm thêm: hệ việt nam nhật bản và sức hấp dẫn của tiếng nhật tại việt nam xác định các mục tiêu của chương trình khảo sát các chuẩn giảng dạy tiếng nhật từ góc độ lí thuyết và thực tiễn khảo sát chương trình đào tạo của các đơn vị đào tạo tại nhật bản xác định thời lượng học về mặt lí thuyết và thực tế tiến hành xây dựng chương trình đào tạo dành cho đối tượng không chuyên ngữ tại việt nam khảo sát các chương trình đào tạo theo những bộ giáo trình tiêu biểu xác định mức độ đáp ứng về văn hoá và chuyên môn trong ct phát huy những thành tựu công nghệ mới nhất được áp dụng vào công tác dạy và học ngoại ngữ mở máy động cơ lồng sóc mở máy động cơ rôto dây quấn các đặc tính của động cơ điện không đồng bộ hệ số công suất cosp fi p2 đặc tuyến tốc độ rôto n fi p2 đặc tuyến dòng điện stato i1 fi p2 động cơ điện không đồng bộ một pha thông tin liên lạc và các dịch vụ phần 3 giới thiệu nguyên liệu từ bảng 3 1 ta thấy ngoài hai thành phần chủ yếu và chiếm tỷ lệ cao nhất là tinh bột và cacbonhydrat trong hạt gạo tẻ còn chứa đường cellulose hemicellulose chỉ tiêu chất lượng theo chất lượng phẩm chất sản phẩm khô từ gạo của bộ y tế năm 2008