0

unsupervised language model adaptation incorporating named entity information

Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Translation Model Adaptation for Statistical Machine Translation with Monolingual Topic Information" doc

Báo cáo khoa học

... transferred across languages, to cross-lingual language modeling and translation lexicon adaptation. Recently, Gong and Zhou (2010) alsoapplied topic modeling into domain adaptation inSMT. ... weblog.According to adaptation emphases, domain adap-tation in SMT can be classified into translation mod-el adaptation and language model adaptation. Herewe focus on how to adapt a translation model, whichis ... Vogel.2006. Distributed Language Modeling for N-best ListRe-ranking. In Proc. of EMNLP 2006, pages 216-223.Bing Zhao, Matthias Eck and Stephan Vogel. 2004. Language Model Adaptation for Statistical...
  • 10
  • 533
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Topic Models for Dynamic Translation Model Adaptation" pptx

Báo cáo khoa học

... 2003). Topicmodeling has received some use in SMT, for in-stance Bilingual LSA adaptation (Tam et al., 2007),and the BiTAM model (Zhao and Xing, 2006),which uses a bilingual topic model for ... Korea, 8-14 July 2012.c2012 Association for Computational LinguisticsTopic Models for Dynamic Translation Model Adaptation Vladimir EidelmanComputer Scienceand UMIACSUniversity of MarylandCollege ... topic-specific contexts, wheretopics are induced in an unsupervised wayusing topic models; this can be thought ofas inducing subcorpora for adaptation with-out any human annotation. We use these...
  • 5
  • 532
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A Large Scale Distributed Syntactic, Semantic and Lexical Language Model for Machine Translation" doc

Báo cáo khoa học

... 5-gram/2-SLM+2-gram/4-SLM+5-gram/PLSA language model improves both signif-icantly. Bear in mind that Charniak et al. (2003) in-tegrated Charniak’s language model with the syntax-based translation model Yamada and ... Large language models in ma-chine translation. The 2007 Conference on EmpiricalMethods in Natural Language Processing (EMNLP),858-867.E. Charniak. 2001. Immediate-head parsing for language models. ... Dis-tributed language modeling for N-best list re-ranking.The 2006 Conference on Empirical Methods in Natu-ral Language Processing (EMNLP), 216-223.Y. Zhang, 2008. Structured language models for...
  • 10
  • 567
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Mining Wiki Resources for Multilingual Named Entity Recognition" pdf

Báo cáo khoa học

... to determine the named entity type of a proposed entity. We further describe the methods by which English language data can be used to bootstrap the NER process in other languages. We demonstrate ... 1 Introduction Named Entity Recognition (NER) has long been a major task of natural language processing. Most of the research in the field has been restricted to a few languages and almost ... that the derived models are continually improved and that increasingly many languages can be usefully modeled by this method. In order to make sure that the process is as language- independent...
  • 9
  • 429
  • 1
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Inducing Gazetteers for Named Entity Recognition by Large-scale Clustering of Dependency Relations" ppt

Báo cáo khoa học

... 2006. Unsupervised named- entity recognition: Generatinggazetteers and resolving ambiguity. In 19th CanadianConference on Artificial Intelligence.K. Nakano and Y. Hirai. 2004. Japanese named entity extraction ... external knowledge for named entity recognition.In EMNLP-CoNLL 2007.J. Kazama, Y. Miyao, and J. Tsujii. 2001. A maxi-mum entropy tagger with unsupervised hidden Markovmodels. In NLPRS 2001.T. ... Cafarella, D. Downey, A. M. Popescu,T. Shaked, S. Soderland, D. S. Weld, and A. Yates.2005. Unsupervised named- entity extraction from theWeb – an experimental study. Artificial IntelligenceJournal.M....
  • 9
  • 428
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Robust Extraction of Named Entity Including Unfamiliar Word" doc

Báo cáo khoa học

... LinguisticsRobust Extraction of Named Entity Including Unfamiliar WordMasatoshi Tsuchiya†Shinya Hida‡Seiichi Nakagawa‡† Information and Media Center /‡Department of Information and Computer ... ofextracting Japanese named entities from IREXcorpus and NHK corpus show the effective-ness of the proposed method.1 IntroductionIt is widely agreed that extraction of named entity (henceforth, ... corpus andNHK corpus show the effectiveness of the proposedmethod.2 Extraction of Japanese Named Entity 2.1 Task of the IREX WorkshopThe task of NE extraction of the IREX workshop(Sekine and...
  • 4
  • 384
  • 1
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Smoothing a Tera-word Language Model" doc

Báo cáo khoa học

... Goodman. 2001. A bit of progress in language modeling. Computer Speech and Language. R. Kneser and H. Ney. 1995. Improved backing-off form-gram language modeling. In International Confer-ence ... Bauman Peto. 1995. Ahierarchical Dirichlet language model. Natural Lan-guage Engineering, 1(3):1–19.Y.W. Teh. 2006. A hierarchical Bayesian language model based on Pitman-Yor processes. In Proceed-ings ... sure the probabilities are normalized. Theinterpolated models always incorporate the lower or-der distribution Pr(c|b) whereas the back-off modelsconsider it only when the n-gram abc has not beenobserved...
  • 4
  • 425
  • 1
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A Succinct N-gram Language Model" ppt

Báo cáo khoa học

... -gram language models are com-pressed into 10 GB, which is comparable to a lossyrepresentation (Talbot and Brants, 2008).2 N -gram Language Model We assume a back-off N-gram language model ... language model structure and word iden-tifiers. In Proc. of ICASSP 2003, volume 1.A. Stolcke. 1998. Entropy-based pruning of backoff language models. In Proc. of the ARPA Workshopon Human Language ... representation withblock compression. N-gram language models of42.65GB were compressed to 18.37GB. Finally,the 8-bit quantized N -gram language models arerepresented by 9.83GB of space.Table...
  • 4
  • 457
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Improving the Scalability of Semi-Markov Conditional Random Fields for Named Entity Recognition" pdf

Báo cáo khoa học

... necessar-ily provide useful information because, in manycases, the previous label of a named entity is “O”,which indicates a non -named entity. For 98.0% ofthe named entities in the training ... and prev -entity label are packed. model, which was originally proposed for disam-biguation models for parsing (Miyao and Tsujii,2002). A feature forest model is a maximum en-tropy model defined ... use partial information on the preceding states. Consider the task of tag-ging entity and O -entity, where the latter tag is ac-tually O tags that distinguish the preceding named entity tags....
  • 8
  • 527
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Weakly Supervised Named Entity Transliteration and Discovery from Multilingual Comparable Corpora" ppt

Báo cáo khoa học

... However,many languages lack such resources. Thispaper presents an (almost) unsupervised learning algorithm for automatic discov-ery of Named Entities (NEs) in a resourcefree language, given ... similarity with a linear transliteration model. We first train a transliteration model on single-word NEs. During training, for a given NE in one language, the current model chooses a list of topranked ... language. Identification of the entity sequivalence class of transliterations is importantfor obtaining its accurate time sequence.In order to keep to our objective of requiring aslittle language...
  • 8
  • 391
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A Phonotactic Language Model for Spoken Language Identification" pptx

Báo cáo khoa học

... statistical language modeling, and language identification. A typical LID system is illustrated in Figure 1 (Zissman, 1996), where language dependent voice tokenizers (VT) and lan-guage models ... called tokens; 2) A statistical language model which captures language dependent phonetic and phonotactic information from the sequences of tokens; 3) A language classifier which identifies ... semantic information in statistical language modeling, In Proc. of the IEEE, 88(8):1279-1296. M. W. Berry, S.T. Dumais and G.W. O’Brien. 1995. Using Linear Algebra for intelligent information...
  • 8
  • 436
  • 0

Xem thêm

Tìm thêm: xác định các mục tiêu của chương trình xác định các nguyên tắc biên soạn khảo sát các chuẩn giảng dạy tiếng nhật từ góc độ lí thuyết và thực tiễn khảo sát chương trình đào tạo của các đơn vị đào tạo tại nhật bản tiến hành xây dựng chương trình đào tạo dành cho đối tượng không chuyên ngữ tại việt nam điều tra đối với đối tượng giảng viên và đối tượng quản lí điều tra với đối tượng sinh viên học tiếng nhật không chuyên ngữ1 khảo sát thực tế giảng dạy tiếng nhật không chuyên ngữ tại việt nam nội dung cụ thể cho từng kĩ năng ở từng cấp độ xác định mức độ đáp ứng về văn hoá và chuyên môn trong ct phát huy những thành tựu công nghệ mới nhất được áp dụng vào công tác dạy và học ngoại ngữ mở máy động cơ lồng sóc mở máy động cơ rôto dây quấn hệ số công suất cosp fi p2 đặc tuyến hiệu suất h fi p2 động cơ điện không đồng bộ một pha thông tin liên lạc và các dịch vụ từ bảng 3 1 ta thấy ngoài hai thành phần chủ yếu và chiếm tỷ lệ cao nhất là tinh bột và cacbonhydrat trong hạt gạo tẻ còn chứa đường cellulose hemicellulose chỉ tiêu chất lượng theo chất lượng phẩm chất sản phẩm khô từ gạo của bộ y tế năm 2008 chỉ tiêu chất lượng 9 tr 25