0
  1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Báo cáo khoa học >

Báo cáo khoa học: "Boosting Statistical Word Alignment Using Labeled and Unlabeled Data" ppt

Báo cáo khoa học:

Báo cáo khoa học: "Boosting Statistical Word Alignment Using Labeled and Unlabeled Data" ppt

... incor-porating the unlabeled data. In this algo-rithm, we build a word aligner by using both the labeled data and the unlabeled data. Then we build a pseudo reference set for the unlabeled data, and calculate ... is the word alignment model, which is taken as a learner in the boosting algorithm. The word alignment model is built using both the labeled data and the unlabeled data. With the labeled ... for Word Alignment ∑='),'(),()|(φφφφiiiiiecountecounten (4)Figure 1 shows the semi-supervised AdaBoost algorithm for word alignment by using labeled and unlabeled...
  • 8
  • 451
  • 1
Báo cáo khoa học:

Báo cáo khoa học: "Boosting Statistical Machine Translation by Lemmatization and Linear Interpolation" ppt

... without is the alignment factor.The former uses Chinese surface words and Englishlemmas as the alignment factor, but the latter usesChinese surface words and English surface words.Therefore, ... sparsedata, and retains word meanings unchanged. It isnot impossible to improve word alignment by using English lemmatization.We determined what effect lemmatization had inexperiments using data ... use the alignment error rate(AER) to measure the alignment performance, and the two popular automatic metric, BLEU1 and ME-TEOR2to evaluate the translations. To measure the word alignment, ...
  • 4
  • 293
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Guiding Statistical Word Alignment Models With Prior Knowledge" pdf

... results of IBMModel-4 word alignments implemented in GIZA++toolkit (Och and Ney, 2003).We study and compare two types of constraint and see how they affect word alignments and translationoutput. ... re-quires training the baseline word alignment modelin another direction by taking fs as source words and es as target words, which is often done forsymmetric alignments, and then dumping out thesoft ... Arabic and from Iraqi Arabic to English, and derive two setsof Viterbi alignments. By combining word align-ments in two directions using heuristics (Och and Ney, 2003), a single set of static word...
  • 8
  • 495
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Yet Another Word Alignment Tool" docx

... Another Word Alignment ToolUlrich GermannUniversity of Torontogermann@cs.toronto.eduAbstractYawat1is a tool for the visualization and ma-nipulation of word- and phrase-level alignmentsof ... into devising and improving automatic word alignment algorithms, and into evaluating their per-formance (e.g., Och and Ney, 2003; Taskar et al.,2005; Moore et al., 2006; Fraser and Mar c u, ... visualization and creation of word alignments have b e e n devel-oped (e.g., Melamed, 1998; Smith and Jahr, 2000;Ahrenberg et al., 2002; Rassier and Pedersen, 2003 ;Daum´e; Tiedema nn; Hwa and Madnani,...
  • 4
  • 416
  • 1
Báo cáo khoa học:

Báo cáo khoa học: "Improving IBM Word-Alignment Model " pdf

... onlyone iteration of EM in using Model 1 to initializetheir Model 2, and Och and Ney (2003) stop af-ter five iterations in using Model 1 to initialize theHMM word- alignment model. Both of these ... 1, trained using English as the source lan-guage and French as the target language:• The standard model is initialized using uniform distributions, and trained withoutsmoothing using EM, for ... heuristic model, and appliesEM using optimized values of the null -word weight and add-n parameters. The null -word weight used during EM is optimized separatelyfrom the null -word weight used...
  • 8
  • 260
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "A DOM Tree Alignment Model for Mining Parallel Data from the Web" doc

... 1999), STRAND (Resnik and Smith, 2003), BITS (Ma and Liberman, 1999), and PTI (Chen, Chau and Yeh, 2004). Given a bilingual website, these systems identify candidate parallel docu-ments using ... best alignments among [ ]iKFiTCT,1. and [ ]jKEjTCT,1., and then com-pute the best alignment between FiN and EjN. where ||FT and ||ETare number of nodes in FT and ... feature for alignment. (Kay & Roscheisen 1993; and Chen 1993) used lexical information for sentence alignment. Models combining length and lexicon information were proposed in (Zhao and Vogel,...
  • 8
  • 435
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Parsing Free Word Order Languages in the Paninian Framework" pptx

... Each word group is uniquely identifiable before the core parser ex- ecutes, (b) Each demand word has only one karaka chart, and (c) There are no ambiguities between source word and demand word. ... relations among word groups, and 2. To identify senses of words. The first task requires karaka charts and transfor- mation rules. The second task requires lakshan charts for nouns and verbs (explained ... local information certain words are grouped together yielding noun groups and verb groups. These are the word groups at the vibhakti level (i.e., typically each word group is a noun or verb...
  • 7
  • 353
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Fully Unsupervised Word Segmentation with BVE and MDL" pdf

... using the first 100,000words of the Chinese Gigaword corpus (Huang,2007), written in Chinese characters. The word boundaries specified in the Chinese Gigaword Cor-pus were used as a gold standard. ... (Miller and Stoytchev, 2008) and MarkovExperts (Cheng and Mitzenmacher, 2005). Table 2shows the results for candidate algorithms as well asthe two other VE-derived algorithms, HVE-3E and ME.Algorithm ... pages 540–545,Portland, Oregon, June 19-24, 2011.c2011 Association for Computational LinguisticsFully Unsupervised Word Segmentation with BVE and MDLDaniel Hewlett and Paul CohenDepartment...
  • 6
  • 373
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "A Stochastic Language Model using Dependency and Its Improvement by Word Clustering" ppt

... a bunsetsu, the content word sequence and the function word se- quence are independently predicted by word n-gram models equipped with unknown word models (Mori and Yamaji, 1997). The above ... called bunsetsu composed of one or more con- tent words and function words. Let Cont be a set of content words, Func a set of function words and Sign a set of punctuation symbols. Then bunsetsu ... of word sequence m or NULL if the sequence has no word. Given the attribute, the content word sequence and the function word sequence of the bunsetsu axe inde- pendently generated by word- based...
  • 7
  • 352
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Guiding an HPSG Parser using Semantic and Pragmatic Expectations" pdf

... by The Ohio State Center for Cognitive Science and The Ohio State Departments of Computer and Information Science and Linguistics grammar (using compiled knowledge) which is then used to realize ... language generation has been successfully demonstrated using highly compiled knowledge about speech acts and their related social actions. A design and prototype implementation of a parser which utilizes ... Halliday's systemic networks, and on Geis' theory of the pragmatics of conversation. A model of conversation using principled compilation of pragmatic knowledge and other linguistic knowledge...
  • 3
  • 379
  • 0

Xem thêm

Từ khóa: báo cáo khoa họcbáo cáo khoa học mẫubáo cáo khoa học y họcbáo cáo khoa học sinh họcbáo cáo khoa học nông nghiệpBáo cáo quy trình mua hàng CT CP Công Nghệ NPVchuyên đề điện xoay chiều theo dạngMột số giải pháp nâng cao chất lượng streaming thích ứng video trên nền giao thức HTTPBiện pháp quản lý hoạt động dạy hát xoan trong trường trung học cơ sở huyện lâm thao, phú thọGiáo án Sinh học 11 bài 13: Thực hành phát hiện diệp lục và carôtenôitGiáo án Sinh học 11 bài 13: Thực hành phát hiện diệp lục và carôtenôitPhát triển mạng lưới kinh doanh nước sạch tại công ty TNHH một thành viên kinh doanh nước sạch quảng ninhNghiên cứu, xây dựng phần mềm smartscan và ứng dụng trong bảo vệ mạng máy tính chuyên dùngNghiên cứu về mô hình thống kê học sâu và ứng dụng trong nhận dạng chữ viết tay hạn chếĐịnh tội danh từ thực tiễn huyện Cần Giuộc, tỉnh Long An (Luận văn thạc sĩ)Thiết kế và chế tạo mô hình biến tần (inverter) cho máy điều hòa không khíKiểm sát việc giải quyết tố giác, tin báo về tội phạm và kiến nghị khởi tố theo pháp luật tố tụng hình sự Việt Nam từ thực tiễn tỉnh Bình Định (Luận văn thạc sĩ)Quản lý nợ xấu tại Agribank chi nhánh huyện Phù Yên, tỉnh Sơn La (Luận văn thạc sĩ)Tăng trưởng tín dụng hộ sản xuất nông nghiệp tại Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam chi nhánh tỉnh Bắc Giang (Luận văn thạc sĩ)chuong 1 tong quan quan tri rui roGiáo án Sinh học 11 bài 14: Thực hành phát hiện hô hấp ở thực vậtChiến lược marketing tại ngân hàng Agribank chi nhánh Sài Gòn từ 2013-2015HIỆU QUẢ CỦA MÔ HÌNH XỬ LÝ BÙN HOẠT TÍNH BẰNG KIỀMMÔN TRUYỀN THÔNG MARKETING TÍCH HỢPTÁI CHẾ NHỰA VÀ QUẢN LÝ CHẤT THẢI Ở HOA KỲ