0
  1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Báo cáo khoa học >

Báo cáo khoa học: "Feature-based Method for Document Alignment in Comparable News Corpora" ppt

Báo cáo khoa học:

Báo cáo khoa học: "Feature-based Method for Document Alignment in Comparable News Corpora" ppt

... http://www.straitstimes.com/ an English news agency in Singapore. Source © Singapore Press Holdings Ltd. 3 http://www.zaobao.com/ a Chinese news agency in Singa-pore. Source © Singapore Press Holdings Ltd. 4 http://cyberita.asia1.com.sg/ ... LinguisticsFeature-based Method for Document Alignment in Comparable News Corpora Thuy Vu, Ai Ti Aw, Min Zhang Department of Human Language Technology, Institute for Infocomm Research 1 Fusionopolis ... Malay news agency in Sin-gapore. Source © Singapore Press Holdings Ltd. Related Common Word: we also investigate the similarity in frequency distribution for related common single words in the...
  • 9
  • 352
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A Method for Correcting Errors in Speech Recognition Using the Statistical Features of Character Co-occurrence" pptx

... the string including errors from the String- Database (the former string is referred to as the Similar-String, and the latter as the Error-String). Finally, the correction is made using the ... K (2 in the experiment) characters before and after an error-block in the Error-String, am found in the Similar- String, take out the string (denoted C) between A and B in 1 For detecting errors ... (B) No lacking in meaning, but with slightly awkward expression. (C) Slightly lacking in meaning. (D) Considerably lacking in meaning. (E) Unable to understand, and unable to imagine the actual...
  • 5
  • 588
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Distributional Representations for Handling Sparsity in Supervised Sequence-Labeling" pptx

... gasolines on newer engines.” In a common dataset for NP chunking, the word “re-formulated” never appears in the training data, butappears four times in the test set as part of theNP “reformulated ... the increased performance by the HMM-smoothed model on the rare-word subset con-tributes in part to an increase in performance onthe overall dataset of 1% for tagging and 3% for chunking. In ... Domain Adaptation For our experiment on domain adaptation, we fo-cus on NP chunking and POS tagging, and weuse the labeled training data from the CoNLL2000 shared task as before. For NP chunking,...
  • 9
  • 353
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Pivot Approach for Extracting Paraphrase Patterns from Bilingual Corpora" ppt

... phrasal paraphrases from bilingual corpora.Our method involves three steps: (1) corpus prepro-cessing, including English monolingual dependency780parsing and English-foreign language word align-ment, ... patterns extracted using their method. How-ever, the performance of their method is dependenton the hand-crafted queries for web mining.Shinyama et al. (2002) presented a method thatextracted ... but not in P STE(e) (denoted asSTE(e)/P STE(e)) are also useful for inducing pat-terns, since they can constrain the pattern slots. In the example in Figure 2, the word “demand” indi-cates...
  • 9
  • 264
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A Method for Measuring Machine Translation Confidence" docx

... threenovel feature sets including source side information, alignment context, and dependency structures. Experi-mental results show that by combining the source sideinformation, alignment context, ... derived froma window of four words.Combining alignment context with POS tags: In- stead of using lexical context we have features to lookat source and target POS alignment context. For in- stance, ... consistently obtainedwhen combining the proposed features with baselinefeatures. Experimental results also indicate that source-side information, alignment context and dependency215Predicting Good/Bad...
  • 9
  • 543
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "A Method for Relating Multiple Newspaper Articles by Using Graphs, and Its Application to Webcasting" pptx

... new information in each article. The thread- ing technique is suitable for Webcasting (push) ap- plications. A threading server determines relation- ships among articles from various news ... have links, or else must be manually linked at a high cost in terms of time and effort. This paper describes methods for relating news- paper articles automatically, and its application for ... is adjacent to Y). An article contains both known and unknown (new) information. Known information consists of words shared by the beginning and ending points of an arc. When node X is adjacent...
  • 7
  • 419
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "A Method for Word Sense Disambiguation of Unrestricted Text" potx

... adverbs and adjectives in a text, using the senses pro- vided in WordNet. The senses are ranked us- ing two sources of information: (1) the Inter- net for gathering statistics for word-word co- ... words in the similarity lists of the noun report are: (investigate-report, investigate-study) (investigate-report, investigate -news report, investigate- story, investigate-account, investigate-write ... Search the Internet and rank the senses W~ (s). A search performed on the Internet for each set of pairs as defined above, results in a value indicating the frequency of occurrences for Wl and...
  • 7
  • 378
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "a Method for Automatic Evaluation of Machine Translation" pot

... the baseline metric in detail. In Section 3, we evaluate the performance ofBLEU. In Section 4, we describe a human evaluationexperiment. In Section 5, we compare our baselinemetric performance ... ample signal in any single n-gramprecision, it is more robust to combine all these sig-nals into a single number metric.2.1.3 Combining the modified n-gramprecisionsHow should we combine the modified ... (poor) machine translation systemusing 4 reference translations for each of 127 sourcesentences. The average precision results are shown in Figure 1.Figure 1: Distinguishing Human from Machine...
  • 8
  • 336
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "A Method for Effective and Scalable Mining of Named Entity Transliterations from Large Comparable Corpora" doc

... scala-ble mining method, called MINT (MIning Named-entity Transliteration equivalents), for mining of NETEs from large comparable corpo-ra. MINT addresses several challenges in mining NETEs ... the world. The MINT method pro-posed in this paper addresses all the above is-sues. 8003 The MINT Mining Method MINT has two stages. In the first stage, for every document in the source ... results in the IDEAL environment – both for MINT and the Co-Ranking baseline: MINT outperformed Co-Ranking on all the language pairs, despite not using time series similarity in the mining process....
  • 9
  • 358
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "A PROGRAM FOR ALIGNING SENTENCES IN BILINGUAL CORPORA" docx

... constructing a probabilistic dictionary (Table 3) for use in aligning words in machine translation (Brown et al., 1990), or for constructing a bilingual concordance (Table 4) for use in lexicography ... Crossing dependencies are possible in the latter, but not in the former. Table 1: Input to Alignment Program English According to our survey, 1988 sales of mineral water and soft drinks ... French According to our survey, 1988 sales of mineral water and soft drinks were much higher than in 1987, reflecting the growing popularity of these products. Cola drink manufacturers in particular...
  • 8
  • 494
  • 0

Xem thêm

Từ khóa: Nghiên cứu sự hình thành lớp bảo vệ và khả năng chống ăn mòn của thép bền thời tiết trong điều kiện khí hậu nhiệt đới việt namNghiên cứu tổ hợp chất chỉ điểm sinh học vWF, VCAM 1, MCP 1, d dimer trong chẩn đoán và tiên lượng nhồi máu não cấpMột số giải pháp nâng cao chất lượng streaming thích ứng video trên nền giao thức HTTPNghiên cứu tổ chức chạy tàu hàng cố định theo thời gian trên đường sắt việt namGiáo án Sinh học 11 bài 13: Thực hành phát hiện diệp lục và carôtenôitGiáo án Sinh học 11 bài 13: Thực hành phát hiện diệp lục và carôtenôitGiáo án Sinh học 11 bài 13: Thực hành phát hiện diệp lục và carôtenôitĐỒ ÁN NGHIÊN CỨU CÔNG NGHỆ KẾT NỐI VÔ TUYẾN CỰ LY XA, CÔNG SUẤT THẤP LPWANPhối hợp giữa phòng văn hóa và thông tin với phòng giáo dục và đào tạo trong việc tuyên truyền, giáo dục, vận động xây dựng nông thôn mới huyện thanh thủy, tỉnh phú thọPhát hiện xâm nhập dựa trên thuật toán k meansNghiên cứu về mô hình thống kê học sâu và ứng dụng trong nhận dạng chữ viết tay hạn chếNghiên cứu tổng hợp các oxit hỗn hợp kích thƣớc nanomet ce 0 75 zr0 25o2 , ce 0 5 zr0 5o2 và khảo sát hoạt tính quang xúc tác của chúngNghiên cứu khả năng đo năng lượng điện bằng hệ thu thập dữ liệu 16 kênh DEWE 5000Thơ nôm tứ tuyệt trào phúng hồ xuân hươngNguyên tắc phân hóa trách nhiệm hình sự đối với người dưới 18 tuổi phạm tội trong pháp luật hình sự Việt Nam (Luận văn thạc sĩ)Giáo án Sinh học 11 bài 14: Thực hành phát hiện hô hấp ở thực vậtBÀI HOÀN CHỈNH TỔNG QUAN VỀ MẠNG XÃ HỘIChiến lược marketing tại ngân hàng Agribank chi nhánh Sài Gòn từ 2013-2015MÔN TRUYỀN THÔNG MARKETING TÍCH HỢPTÁI CHẾ NHỰA VÀ QUẢN LÝ CHẤT THẢI Ở HOA KỲ