0
  1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Báo cáo khoa học >

Báo cáo khoa học: "Learning Bilingual Lexicons from Monolingual Corpora" pot

Báo cáo khoa học:

Báo cáo khoa học: "Learning Bilingual Lexicons from Monolingual Corpora" pot

... }@cs.berkeley.eduAbstractWe present a method for learning bilingual translation lexicons from monolingual cor-pora. Word types in each language are charac-terized by purely monolingual features, suchas context ... 771–779,Columbus, Ohio, USA, June 2008.c2008 Association for Computational LinguisticsLearning Bilingual Lexicons from Monolingual CorporaAria Haghighi, Percy Liang, Taylor Berg-Kirkpatrick and Dan KleinComputer ... analy-sis, which explains the monolingual lexicons in terms of latent matchings. We show thathigh-precision lexicons can be learned in a va-riety of language pairs and from a range ofcorpus types.1...
  • 9
  • 300
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Learning Transliteration Lexicons from the Web" pptx

... transliteration pairs (EX) from corpora. The TM approach models phoneme-based or grapheme-based mapping rules using a generative model that is trained from a large bilingual lexicon, with the ... from corpora. The EX approach aims to construct a large and up-to-date transliteration lexicon from live corpora. Towards this objective, some have proposed extracting translation pairs from ... similar to that in a hypothesis test under the Bayesian interpretation. We have 0H, which hypothesizes that CW¢and EW form an E-C pair, and 1H, which hypothesizes otherwise. The...
  • 8
  • 341
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Learning Common Grammar from Multilingual Corpus" potx

... languages from non-parallelmultilingual corpora in an unsupervisedfashion. For this purpose, we assume agenerative model for multilingual corpora,where each sentence is generated from alanguage ... borrowing from nearby languages, and 3) theinnate abilities of humans (Chomsky, 1965).We assume hidden commonalities in syntaxacross languages, and try to extract a commongrammar from non-parallel ... commonalities insyntax level from non-parallel and non-annotatedmultilingual corpora.In our scenario, we use probabilistic context-free grammars (PCFGs) as our monolingual gram-mar model....
  • 5
  • 326
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Constructing Transliteration Lexicons from Web Corpora" docx

... Constructing Transliteration Lexicons from Web Corpora Jin-Shea Kuo1, 2 Ying-Kuei Yang2 1Chung-Hwa Telecommunication Laboratories, ... importance of term transliteration can be realized from our analysis of the terms used in 200 qualifying sentences that were randomly selected from English-Chinese mixed news pages. Each qualifying ... 15,822,984 pages, which was collected from the Internet using a web spider and was converted to plain text, was used as a training set. This corpus is called SET1. From SET1, 80,094 qualifying sentences...
  • 4
  • 218
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Building Emotion Lexicon from Weblog Corpora" potx

... collocation model is proposed to learn emotion lexicons from weblog articles. Emotion classification at sentence level is experimented by using the mined lexicons to demonstrate their usefulness. ... Blog from January to July, 2006, spanning a period of 212 days. In total, 336,161 bloggers’ articles were col-lected. Each blogger posts 16 articles on average. We used the articles from ... con-struction and evaluation of emotion lexicons. In phase 1, 1,185,131 sentences containing only one emoticon are extracted to form a training set to build emotion lexicons. In phase 2, sentence-level...
  • 4
  • 302
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Learning Tense Translation from Bilingual Corpora" docx

... Learning Tense Translation from Bilingual Corpora Michael Schiehlen* Institute for Computational Linguistics, University of ... disambigua- tion strategies for the translation of tense be- tween German and English, using a bilingual corpus of appointment scheduling dialogues. It describes a scheme to detect complex ... context relevant for disambiguation must be identified (disambiguation strategy), and every word potentially occurring in this context must be assigned a bias for the translation decision (disambigt,...
  • 5
  • 279
  • 0
Tài liệu Báo cáo khoa học:

Tài liệu Báo cáo khoa học: "Learning Event Durations from Event Descriptions" docx

... approach human per-formance. This research is potentially very important in applications in which the time course of events is to be extracted from news. For example, whether two events overlap ... instances), from the TimeBank corpus annotated in TimeML (Pustejovky et al., 2003). The non-WSJ articles (mainly political and disaster news) include both print and broadcast news that are from ... two peaks in this distribution. One is from 5 to 7 in the natural logarithmic scale, which corresponds to about 1.5 minutes to 30 minutes. The other is from 14 to 17 in the natural logarithmic...
  • 8
  • 381
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Learning Semantic Links from a Corpus of Parallel Temporal and Causal Relations" doc

... null label is NO-REL.train/test split from Table 1 and the feature sets:Syntactic The syntactic features from Section 4.Semantic The semantic features from Section 4.All Both syntactic and ... relations and 77.8% on causal re-lations. We trained machine learning mod-els using features derived from WordNet andthe Google N-gram corpus, and they out-performed a variety of baselines, achievingan ... prior work (Girju, 2003; Girju et al.,2007). Annotators selected the best paraphrase of“and” from the following options:CAUSAL and as a result, and as a consequence,and enabled by thatNO-REL...
  • 4
  • 363
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Learning Semantic Categories from Clickthrough Logs" pdf

... both precision and recall.We cast semantic category acquisition from search logs as the task of learning labeled in-stances from few labeled seeds. To our knowledgethis is the first study that ... different from ours. An-other line of new research is to combine various re-sources such as web documents with search querylogs (Pas¸ca and Durme, 2008; Talukdar et al.,2008). We differ from this ... similar, if not identical,when they have the same clickthrough. Searchclickthrough logs are thus potentially useful forlearnin semantic categories. Clickthrough logshave the additional advantage...
  • 4
  • 316
  • 0
Báo cáo khoa học:

Báo cáo khoa học: "Acquiring a Lexicon from Unsegmented Speech" potx

... phones and semantic symbols with a sequence of words from the dictionary, each word offset a certain distance into the phone sequence, with words potentially overlapping. • It then creates new ... have an empty se- meme set. Indeed, such a word is properly hypothe- sized but a special mechanism prevents semantically empty words from being added to the dictionary. Without this mechanism, ... recognition. 1 Introduction We are interested in how a lexicon of discrete words can be acquired from continuous speech, a prob- lem fundamental both to child language acquisition and to the...
  • 3
  • 315
  • 0

Xem thêm

Từ khóa: báo cáo khoa học mẫubáo cáo khoa học y họcbáo cáo khoa học sinh họcbáo cáo khoa học nông nghiệpbáo cáo khoa học lâm nghiệpbáo cáo khoa học thủy sảnbáo cáo khoa học về cá trabáo cáo khoa học nghiên cứu chôm chômtrạng thái hiện sinh báo cáo khoa họcbiểu tượng văn học báo cáo khoa họctài liệu báo cáo khoa họccách trình bày báo cáo khoa họcbáo cáo khoa học toán họccách làm báo cáo khoa họctrình bày báo cáo khoa họcchuyên đề điện xoay chiều theo dạngNghiên cứu sự hình thành lớp bảo vệ và khả năng chống ăn mòn của thép bền thời tiết trong điều kiện khí hậu nhiệt đới việt namNghiên cứu tổ hợp chất chỉ điểm sinh học vWF, VCAM 1, MCP 1, d dimer trong chẩn đoán và tiên lượng nhồi máu não cấpGiáo án Sinh học 11 bài 13: Thực hành phát hiện diệp lục và carôtenôitNGHIÊN CỨU CÔNG NGHỆ KẾT NỐI VÔ TUYẾN CỰ LY XA, CÔNG SUẤT THẤP LPWAN SLIDEQuản lý hoạt động học tập của học sinh theo hướng phát triển kỹ năng học tập hợp tác tại các trường phổ thông dân tộc bán trú huyện ba chẽ, tỉnh quảng ninhTrả hồ sơ điều tra bổ sung đối với các tội xâm phạm sở hữu có tính chất chiếm đoạt theo pháp luật Tố tụng hình sự Việt Nam từ thực tiễn thành phố Hồ Chí Minh (Luận văn thạc sĩ)Phát hiện xâm nhập dựa trên thuật toán k meansNghiên cứu tổng hợp các oxit hỗn hợp kích thƣớc nanomet ce 0 75 zr0 25o2 , ce 0 5 zr0 5o2 và khảo sát hoạt tính quang xúc tác của chúngTổ chức và hoạt động của Phòng Tư pháp từ thực tiễn tỉnh Phú Thọ (Luận văn thạc sĩ)Kiểm sát việc giải quyết tố giác, tin báo về tội phạm và kiến nghị khởi tố theo pháp luật tố tụng hình sự Việt Nam từ thực tiễn tỉnh Bình Định (Luận văn thạc sĩ)Quản lý nợ xấu tại Agribank chi nhánh huyện Phù Yên, tỉnh Sơn La (Luận văn thạc sĩ)Tăng trưởng tín dụng hộ sản xuất nông nghiệp tại Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam chi nhánh tỉnh Bắc Giang (Luận văn thạc sĩ)Tranh tụng tại phiên tòa hình sự sơ thẩm theo pháp luật tố tụng hình sự Việt Nam từ thực tiễn xét xử của các Tòa án quân sự Quân khu (Luận văn thạc sĩ)Giáo án Sinh học 11 bài 15: Tiêu hóa ở động vậtGiáo án Sinh học 11 bài 14: Thực hành phát hiện hô hấp ở thực vậtTrách nhiệm của người sử dụng lao động đối với lao động nữ theo pháp luật lao động Việt Nam từ thực tiễn các khu công nghiệp tại thành phố Hồ Chí Minh (Luận văn thạc sĩ)BÀI HOÀN CHỈNH TỔNG QUAN VỀ MẠNG XÃ HỘIMÔN TRUYỀN THÔNG MARKETING TÍCH HỢPQUẢN LÝ VÀ TÁI CHẾ NHỰA Ở HOA KỲ