0
  1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Báo cáo khoa học >

Báo cáo khoa học: "Detecting Highly Confident Word Translations from Comparable Corpora without Any Prior Knowledge" doc

Báo cáo khoa học:

Báo cáo khoa học: "Detecting Highly Confident Word Translations from Comparable Corpora without Any Prior Knowledge" doc

... 2012.c2012 Association for Computational LinguisticsDetecting Highly Confident Word Translations from Comparable Corpora without Any Prior KnowledgeIvan Vuli´c and Marie-Francine MoensDepartment ... topic model ondocument-aligned comparable corpora and intro-duce different methods for identifying word trans-lations across languages, underpinned by per-topic word distributions from the trained ... because it is sharedby each of the paired bilingual comparable doc- uments. Topics for each document are sampled from θ, from which the words are then sampledin conjugation with the vocabulary...
  • 11
  • 290
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Detecting Compositionality in Multi-Word Expressions" doc

... evaluationset is derived from WordNet in a semi-supervised way. Graph connectivity mea-sures are employed for unsupervised pa-rameter tuning.1 Introduction and related workMulti -word expressions ... sequences ofwords that tend to cooccur more frequently thanchance and are either idiosyncratic or decompos-able into multiple simple words (Baldwin, 2006).Deciding idiomaticity of MWEs is highly ... accuracythat is comparable to the best manually selectedcombination of parameters. Thirdly, we proposea semi-supervised approach for extracting non-compositional MWEs from WordNet, to decreaseannotation...
  • 4
  • 278
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Power-Law Distributions for Paraphrases Extracted from Bilingual Corpora" pdf

... same with any other phrase vertex in G, then the paraphrases willbe captured.The transition probability from any vertex u to any other vertex v in G, i.e., the probability of6hopping from u ... identifying similar words on the graph ofWordNet (Rao et al., 2008) and a related measure,the hitting time is known to perform well in har-vesting paraphrases on a graph constructed from multiple ... from additional monolingual data.The initial problem in harvesting paraphrases from a phrase-table is the identification of thesearch space. Previous work has relied on breadthfirst search from...
  • 10
  • 370
  • 0
Báo cáo khoa học: Nautilin-63, a novel acidic glycoprotein from the shell nacre of Nautilus macromphalus doc

Báo cáo khoa học: Nautilin-63, a novel acidic glycoprotein from the shell nacre of Nautilus macromphalus doc

... extracted from the nacre of the cephalo-pod N. macromphalus [34]. In particular, we obtainedapproximately 40 short sequences of different shellproteins, both extracted from the acid-soluble and from ... determined bymonitoring the pH decrease (Fig. 3). In the blankexperiment (without sample), the pH decreased with-out any time lag (approximately 120 s), correspondingto the rapid precipitation ... weregently dried by capillarity and then by rapid incubation at50 °C. Blank controls were performed without any sample.Samples were subsequently carbon-sputtered and observed at15 keV by SEM (JEOL 6400;...
  • 14
  • 383
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Diversify and Combine: Improving Word Alignment for Machine Translation on Low-Resource Languages" docx

... endings from words in English. For Pashto, we utilizea morphological decompostion algorithm that hasbeen shown to be effective for Arabic speechrecognition (Xiang et al., 2006). We start from ... suffixes are stripped off from the Pashto words under the two constraints:(1)Longest matched affixes first; (2) Remaining stemmust be at least two characters long.2.3 Partial Word For low-resource ... English and Pashto word togenerate one more alternative for the word align-ment.3 Confidence-Based AlignmentCombinationNow we describe the algorithm to combine mul-tiple sets of word alignments...
  • 5
  • 274
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Simultaneous Tokenization and Part-of-Speech Tagging for Arabic without a Morphological Analyzer" doc

... regexes. If it text-matches any closed-class expression, we pick a random choice from among those regexes and otherwise from theopen-class regexes that it text-matches. Any POSambiguities for a ... testing, we run each word through all the open and closed regexes. Text-matches for an open-class regex give rise to fea-tures as just described. Also, if the word matches any closed-class regex, ... Table 4 lists the matching regularexpression for three words. The first, yjry, text-matches the generic regular expressions for any string/NOA, any string/IV, etc. These are sum-marized in one listing,...
  • 6
  • 419
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Pivot Approach for Extracting Paraphrase Patterns from Bilingual Corpora" ppt

... that word alignmenterror is the major factor that influences the perfor-mance of the methods learning paraphrases from bilingual corpora. The LW based features validatethe quality of word alignment ... induced from SE, we extract the pivot patternPCaligning to PE(e) as in Algorithm 2. Note thatthe Chinese patterns are not extracted from parsetrees. They are only sequences of Chinese wordsand ... j) ∈ a}|∀(i,j)∈aw(ci|ej)) (5)where a denotes the word alignment between c ande. n is the number of words in c. ciand ejare wordsof c and e. w(ci|ej) is computed as follows:w(ci|ej)...
  • 9
  • 264
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Bilingual Terminology Mining – Using Brain, not brawn comparable corpora" ppt

... features of theharvested comparable corpora: the number of doc- uments, and the number of words for each languageand each type of discourse.French Japanese doc. words doc. wordsScientific 65 425,781 ... 538 807,287Table 2: Comparable corpora statistics From these documents, we created two compara-ble corpora: scientific corpora , composed only of scientificdocuments;mixed corpora , composed ... style or discourse.For lexical alignment from comparable corpora, good results on single words can be obtained from large corpora — several millions words — the accu-racy of proposed translation...
  • 8
  • 281
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Detecting Semantic Equivalence and Information Disparity in Cross-lingual Documents" doc

... exploits dictionaries andphrase tables extracted from bilingual parallel cor-pora to determine the number of word sequences inH that can be mapped to word sequences in T. Inthis way a semantic ... loss in precision.Like lexical phrase tables, SPTs are extracted from parallel corpora. As a first step we annotatethe parallel corpora with named-entity taggers forthe source and target languages, ... Ney, 2000) to align the resulting semanticallyaugmented corpora. Finally, we extract the seman-tic phrase table from the augmented aligned corpora using the Moses toolkit (Koehn et al., 2007)....
  • 5
  • 528
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Collecting Highly Parallel Data for Paraphrase Evaluation" doc

... Linguistics(COLING-2008).Chris Callison-Burch. 2008. Syntactic constraints onparaphrases extracted from parallel corpora. In Pro-ceedings of the 2008 Conference on Empirical Meth-ods in Natural Language ... 7(1):1–29.Ali Ibrahim, Boris Katz, and Jimmy Lin. 2003. Extract-ing structural paraphrases from aligned monolingual corpora. In Proceedings of the 41st Annual Meeting ofthe Association for Computational ... presenting a novel data collectionframework that produces highly parallel textdata relatively inexpensively and on a largescale. The highly parallel nature of this dataallows us to use simple...
  • 11
  • 418
  • 0

Xem thêm

Từ khóa: báo cáo khoa học khả năng sinh trưởng và cho thịt của thỏ newzealand white nzw và con lai giữa đực nzw và cái nội pptxbáo cáo khoa họcbáo cáo khoa học mẫubáo cáo khoa học y họcbáo cáo khoa học sinh họcbáo cáo khoa học nông nghiệpbáo cáo khoa học lâm nghiệpbáo cáo khoa học thủy sảnbáo cáo khoa học về cá trabáo cáo khoa học nghiên cứu chôm chômtrạng thái hiện sinh báo cáo khoa họcbiểu tượng văn học báo cáo khoa họctài liệu báo cáo khoa họccách trình bày báo cáo khoa họcbáo cáo khoa học toán họcBáo cáo thực tập tại nhà thuốc tại Thành phố Hồ Chí Minh năm 2018Báo cáo quy trình mua hàng CT CP Công Nghệ NPVBiện pháp quản lý hoạt động dạy hát xoan trong trường trung học cơ sở huyện lâm thao, phú thọGiáo án Sinh học 11 bài 13: Thực hành phát hiện diệp lục và carôtenôitGiáo án Sinh học 11 bài 13: Thực hành phát hiện diệp lục và carôtenôitĐỒ ÁN NGHIÊN CỨU CÔNG NGHỆ KẾT NỐI VÔ TUYẾN CỰ LY XA, CÔNG SUẤT THẤP LPWANQuản lý hoạt động học tập của học sinh theo hướng phát triển kỹ năng học tập hợp tác tại các trường phổ thông dân tộc bán trú huyện ba chẽ, tỉnh quảng ninhPhối hợp giữa phòng văn hóa và thông tin với phòng giáo dục và đào tạo trong việc tuyên truyền, giáo dục, vận động xây dựng nông thôn mới huyện thanh thủy, tỉnh phú thọPhát triển du lịch bền vững trên cơ sở bảo vệ môi trường tự nhiên vịnh hạ longNghiên cứu, xây dựng phần mềm smartscan và ứng dụng trong bảo vệ mạng máy tính chuyên dùngTìm hiểu công cụ đánh giá hệ thống đảm bảo an toàn hệ thống thông tinSở hữu ruộng đất và kinh tế nông nghiệp châu ôn (lạng sơn) nửa đầu thế kỷ XIXKiểm sát việc giải quyết tố giác, tin báo về tội phạm và kiến nghị khởi tố theo pháp luật tố tụng hình sự Việt Nam từ thực tiễn tỉnh Bình Định (Luận văn thạc sĩ)Quản lý nợ xấu tại Agribank chi nhánh huyện Phù Yên, tỉnh Sơn La (Luận văn thạc sĩ)Giáo án Sinh học 11 bài 14: Thực hành phát hiện hô hấp ở thực vậtGiáo án Sinh học 11 bài 14: Thực hành phát hiện hô hấp ở thực vậtBÀI HOÀN CHỈNH TỔNG QUAN VỀ MẠNG XÃ HỘIChiến lược marketing tại ngân hàng Agribank chi nhánh Sài Gòn từ 2013-2015Đổi mới quản lý tài chính trong hoạt động khoa học xã hội trường hợp viện hàn lâm khoa học xã hội việt namHIỆU QUẢ CỦA MÔ HÌNH XỬ LÝ BÙN HOẠT TÍNH BẰNG KIỀM