Nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn

13 1.2K 2
Nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu gán nhãn từ loại cho văn tiếng Việt phương pháp học máy khơng có hướng dẫn Trần Thu Trang Trường Đại học Khoa học Tự nhiên Luận văn ThS ngành: Bảo đảm toán học cho máy tính hệ thống tính tốn Mã số: 60 46 35 Người hướng dẫn: TS Nguyễn Thị Minh Huyền Năm bảo vệ: 2012 Abstract Trình bày tổng quan toán gán nhãn từ loại, tiếp cận để giải toán gán nhãn từ loại, so sánh tiếp cận, trình bày trạng phương pháp dùng để giải toán gán nhãn từ loại cho tiếng Việt, khó khăn chưa khắc phục Trình bày kiến thức tốn học, mơ hình học máy sử dụng luận văn Trình bày số phương pháp học máy khơng có hướng dẫn cho toán gán nhãn từ loại, để từ xây dựng quy trình giải toán gán nhãn từ loại tiếng Việt theo cách tiếp cận Keywords Toán tin; Gán nhãn từ loại; Văn tiếng Việt; Máy tính Content MỞ ĐẦU Một vấn đề tảng ngôn ngữ tự nhiên việc phân loại từ thành lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ Mỗi từ loại tương ứng với lớp từ giữ vai trị ngữ pháp định Nói chung, từ ngơn ngữ gắn với nhiều từ loại, việc tự động “hiểu” nghĩa từ phụ thuộc vào việc xác định từ loại hay không Công việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn Các cơng cụ gán nhãn (hay thích) từ loại cho từ văn thay đổi tuỳ theo quan niệm đơn vị từ vựng thông tin ngôn ngữ cần khai thác ứng dụng cụ thể Xác định từ loại xác cho từ văn vấn đề quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên Công cụ gán nhãn từ loại ứng dụng rộng rãi hệ thống tìm kiếm thơng tin, ứng dụng tổng hợp tiếng nói, hệ thống nhận dạng tiếng nói hệ thống dịch máy Công cụ hỗ trợ cho việc phân tích cú pháp văn bản, góp phần giải tính đa nghĩa từ, trợ giúp hệ hống rút trích thơng tin hướng đến ngữ nghĩa, v.v… Vấn đề gán nhãn từ loại nhiều ngôn ngữ giải tốt phương pháp học máy có hướng dẫn, nghĩa phải xây dựng kho ngữ liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại Hiện nay, toán gán nhãn từ loại tiếng Việt số nhóm nghiên cứu giải giải chủ yếu phương pháp học máy có hướng dẫn, việc xây dựng tập huấn luyện gặp nhiều khó khăn thân nhà ngơn ngữ học chưa thống tập từ loại tiếng Việt nên nhóm tự định nghĩa tập nhãn khác nhau, nhóm tự xây dựng kho liệu gán nhãn xây dựng tập luật khác Công việc nhiều thời gian, tiền công sức nhà nghiên cứu Một cách tiếp cận khác cho toán gán nhãn từ loại sử dụng phương pháp học máy khơng có hướng dẫn để mặt giải vấn đề xác định nhãn từ loại, mặt khác tiết kiệm công sức xây dựng tập huấn luyện Đề tài nghiên cứu số phương pháp gán nhãn từ loại hướng dẫn, sở đưa quy trình giải tốn gán nhãn từ loại tiếng Việt cách tiếp cận Cấu trúc luận văn Cấu trúc luận văn chia làm chương: Chƣơng I: Tổng quan Trong chương trình bày tổng quan toán gán nhãn từ loại, tiếp cận để giải toán gán nhãn từ loại, so sánh tiếp cận Chương trình bày trạng phương pháp dùng để giải toán gán nhãn từ loại cho tiếng Việt, khó khăn chưa khắc phục Chƣơng II: Cơ sở tốn học Chương trình bày kiến thức tốn học, mơ hình học máy sử dụng luận văn Chƣơng III: Cách tiếp cận hƣớng dẫn cho tốn gán nhãn từ loại Chương trình bày số phương pháp học máy khơng có hướng dẫn cho tốn gán nhãn từ loại, để từ xây dựng quy trình giải tốn gán nhãn từ loại tiếng Việt theo cách tiếp cận Chƣơng - TỔNG QUAN 1.1 Bài toán gán nhãn từ loại Gán nhãn từ loại việc xác định chức ngữ pháp từ câu trình gán từ đoạn văn với đánh dấu từ loại cấu trúc ngữ pháp Đây bước trước phân tích cú pháp hay vấn đề xử lý ngôn ngữ phức tạp khác Thơng thường, từ có nhiều chức ngữ pháp, ví dụ: câu “con ngựa đá đá ngựa đá”, từ “đá” từ thứ thứ ba giữ chức ngữ pháp danh từ, từ thứ hai lại động từ câu 1.2 Tổng quan cách tiếp cận giải tốn 1.2.1 Q trình gán nhãn từ loại Gán nhãn từ loại trình gồm bước xử lý:  Bước (tiền xử lí): Phân tách xâu kí tự thành chuỗi từ  Bước 2: Gán nhãn tiên nghiệm, tức tìm cho từ tập tất nhãn từ loại mà có  Bước 3: Quyết định kết gán nhãn 1.2.2 Ngữ liệu Để thực gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng là: - Từ điển văn phạm loại bỏ nhập nhằng - Kho văn gán nhãn, kèm theo quy tắc ngữ pháp xây dựng tay - Kho văn chưa gán nhãn, có kèm theo thông tin ngôn ngữ tập từ loại thông tin mô tả quan hệ từ loại hậu tố Kho văn chưa gán nhãn, với tập từ loại xây dựng tự động nhờ tính tốn thống kê 1.2.3 Các tiếp cận giải tốn Chúng ta có hai tiếp cận cho gán nhãn từ loại tự động:[19] - Tiếp cận có hướng dẫn - Tiếp cận khơng hướng dẫn Bộ gán nhãn có hướng dẫn có đặc thù dựa kho ngữ liệu gán nhãn cho việc tạo công cụ sử dụng cho q trình gán nhãn Ví dụ Từ điển gán nhãn, tần suất từ/nhãn, xác suất chuỗi nhãn, tập luật Các mơ hình khơng hướng dẫn không yêu cầu kho ngữ liệu gán nhãn lại sử dụng thuật tốn tính tốn phức tạp để tự động xây dựng nhóm từ (nghĩa xây dựng tập nhãn) dựa nhóm từ để tính tốn thơng tin xác suất cần thiết cho gán nhãn thống kê để xây dựng luật ngữ cảnh cần thiết cho hệ thống dựa luật 1.2.5 Gán nhãn dựa luật Gán nhãn dựa luật sử dụng từ điển để tìm từ loại cho từ, sử dụng luật làm thành nghĩa Các tiếp cận gán nhãn dựa luật sử dụng thông tin ngữ cảnh để gán nhãn cho từ chưa biết từ nhập nhằng 1.2.6 Gán nhãn thống kê Bộ gán nhãn thống kê đơn giản giải nhập nhằng từ đặt sở vào xác suất mà từ xuất với nhãn đặc biệt Nói cách khác, nhãn gặp thường xuyên tập huấn luyện nhãn gán cho thể không rõ ràng từ Vấn đề với tiếp cận mang lại nhãn hợp lệ cho từ đưa ra, lại mang lại chuỗi không hợp lệ nhãn 1.2.7 Các từ chƣa biết Có vài giải pháp tiềm cho vấn đề này: Một giải pháp sử dụng thông tin hình thái Trong trường hợp này, gán nhãn tính tốn xác suất mà hậu tố từ chưa biết xuất với nhãn đặc biệt Nếu mơ hình Markov ẩn sử dụng, xác suất mà từ chứa đựng hậu tố mà xuất với nhãn đặc biệt chuỗi cho tính tốn Một giải pháp khác gán tập nhãn mặc định (các lớp mở đặc đặc biệt: Danh từ, tính từ, trạng từ, động từ ) cho từ chưa biết để giải nhập nhằng sử dụng xác suất mà nhãn xuất cuối n-gram câu hỏi 1.3 Bài toán gán nhãn từ loại tiếng Việt Qua khảo sát nghiên cứu gần tiếng Việt cho tốn gán nhãn từ loại, thấy có hai dạng tập nhãn từ loại thường sử dụng cho công cụ gán nhãn từ loại tiếng Việt:  Dạng thứ nhất, xuất phát từ tập gồm nhãn từ loại tiếng Việt thông dụng nhà nghiên cứu ngôn ngữ học công nhận nhiều (bao gồm: danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn “mịn” cách phân nhỏ từ loại thành tiểu từ loại  Dạng thứ hai, tập nhãn tiếng Việt xây dựng thông qua việc xây dựng kho ngữ liệu song ngữ Anh-Việt mà câu tiếng Việt gán nhãn từ loại xác nhờ kết liên kết từ Anh-Việt phép chiếu từ loại từ Anh sang Việt Như vậy, thấy tốn gán nhãn từ loại cho tiếng Việt ngày quan tâm nghiên cứu Tuy nhiên hướng nghiên cứu đầy tiềm đầy thử thách, với việc nghiên cứu có hầu hết cịn mang tính cá thể, chưa có đối chiếu so sánh khách quan, thống nhãn nhà ngôn ngữ, đồng thời chưa xây dựng nhãn đủ lớn để tốn gán nhãn tiếng Việt đạt độ xác cao Chƣơng - CƠ SỞ TOÁN HỌC 2.1 Định lý Bayes Định lý Bayes cho phép tính xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy Xác suất ký hiệu P(A|B), đọc "xác suất A có B" Đại lượng gọi xác suất có điều kiện hay xác suất hậu nghiệm rút từ giá trị cho B phụ thuộc vào giá trị 2.2 Thuật tốn cực đại hóa kỳ vọng (EM) Thuật tốn EM (Expectation Maximization) nhằm tìm ước lượng khả lớn tham số mơ hình xác suất (các mơ hình phụ thuộc vào biến ẩn chưa quan sát), xem thuật tốn dựa mơ hình 2.3 Mơ hình Markov ẩn Mơ hình Markov ẩn (tiếng Anh Hidden Markov Model - HMM) mơ hình thống kê hệ thống mơ hình hóa cho q trình Markov với tham số trước nhiệm vụ xác định tham số ẩn từ tham số quan sát được, dựa thừa nhận 2.3.1 Ba toán HMM 2.3.1.1 Bài toán Cung cấp cho mơ hình tham số, tính xác suất dãy đầu cụ thể Giải thuật toán tiến-lùi Nghĩa Cho chuỗi quan sát O = {o1,o2, ,oT} mơ hình λ = {A, B}, ta phải tính xác suất có điều kiện P(O|λ) chuỗi quan sát Xác suất P(O/λ) =? 2.3.1.2 Bài toán Cung cấp cho mơ hình tham số, tìm dãy trạng thái (ẩn) có khả lớn mà sinh dãy đầu cung cấp Nghĩa cho chuỗi quan sát O={o1,o2, ,oT} mơ hình λ = {A, B} ta phải tìm chuỗi trạng thái ẩn Q={q1, q2 ,qT} cho xác suất có điểu kiện P(O|λ) cực đại Q  arg max P(Q' | O,  ) Q' 2.3.1.3 Bài toán Cung cấp dãy đầu ra, tìm tập hợp có khả chuyển tiếp trạng thái xác suất đầu Nghĩa cho chuỗi quan sát O = {o1,o2, ,oT} mơ hình λ = {A, B}, ta phải đánh giá lại thông số mơ hình cho xác suất có điểu kiện P(O|λ) cực đại tức tìm  '  arg max P(O |  )  2.2.2 Mơ hình n-gram Mơ hình n-gram mơ hình sử dụng n-1 từ đằng trước để dự đốn từ 2.4 Phân cụm 2.4.1 Khái niệm phân cụm Phân cụm (clustering) làm việc phân chia đối tượng vào nhóm, cho đối tượng thuộc nhóm có độ tương tự cao đối tượng thuộc nhóm khác 2.4.2 Các yêu cầu phân cụm 2.4.3 Các phƣơng pháp phân cụm 2.4.3.1 Phƣơng pháp phân hoạch 2.4.3.2 Phƣơng pháp phân cấp 2.4.3.3 Phƣơng pháp dựa mật độ 2.4.3.4 Phƣơng pháp dựa mô hình 2.4.4 Độ đo khoảng cách Một bước quan trọng kỹ thuật phân cụm lựa chọn độ đo khoảng cách để xác định tương tự hai phần tử Độ đo ảnh hưởng đến hình thái cụm, phần tử gần với phần tử khác theo độ đo khoảng cách xa theo độ đo khác 2.5 Phân tích giá trị kỳ dị Phân tích giá trị kì dị (Singular value decomposition - SVD) nhìn vào từ ba quan điểm sau [34]: - Thứ nhất, coi phương pháp để biến đổi biến có tương quan thành tập hợp biến không tương quan, biểu đạt tốt mối quan hệ khác phần tử liệu gốc - Thứ hai, SVD phương pháp để xác định xếp chiều véc tơ mà theo liệu có chênh lệch nhiều Điều liên quan đến góc nhìn thứ ba SVD - Thứ ba, xác định chênh lệch lớn đâu, SVD tìm thấy xấp xỉ tốt điểm liệu ban đầu cách sử dụng kích thước Do đó, SVD xem phương pháp để giảm số chiều liệu Chƣơng - MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN KHƠNG CĨ HƢỚNG DẪN CHO GÁN NHÃN TỪ LOẠI 3.1 Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng Bài tốn gán nhãn từ loại mơ hình hóa sử dụng mơ hình Markov ẩn (HMM) sau: Các nhãn từ loại coi trạng thái ẩn từ văn đầu (trạng thái quan sát được) 3.1.1 Huấn luyện mơ hình Trigram Chúng ta xem xét hai loại huấn luyện khác nhau: - Huấn luyện tần số quan hệ (Relative Frequency RF) - Huấn luyện khả cực đại (Maximum Likelihood ML) thuật toán tiến-lùi 3.1.1.1 Huấn luyện tần số quan hệ Nếu có lượng văn gán nhãn có sẵn, tính tốn số lần N(w,t) từ w đưa xuất với nhãn t số lần N(t1,t2,t3) chuỗi (t1,t2,t3) xuất văn Chúng ta ước lượng xác suất h k cách tính tốn tần số quan hệ kiện tương ứng liệu này: hrf (t3 / t1 , t )  f (t3 / t1 , t )  N (t1 , t , t3 ) N (t1 , t ) N ( w, t ) N (t ) k rf ( w / t )  f ( w / t )  3.1.1.2 Huấn luyện khả cực đại (ML) Sử dụng mơ hình trigram M, tính tốn xác suất chuỗi từ W theo mơ hình này: p M (W )   p M (W , T ) T Trong đó, tổng lấy tất liên kết Huấn luyện ML tìm thấy mơ hình M mà cực đại hố xác suất văn huấn luyện: max  pM (W ) M W Trong đó, tích lấy tất câu W văn huấn luyện Đây vấn đề huấn luyện mơ hình Markov ẩn 3.1.2 Kết thử nghiệm với tiếng Anh 3.1.2.1 Dữ liệu văn sử dụng liệu Penn treebank gồm có 42186 gán nhãn cách thủ công (khoảng triệu từ) Sử dụng 159 nhãn khác để gán nhãn cho Penn treebank Xây dựng từ điển cách đưa tất từ xuất văn với tất nhãn gán văn 3.1.3 Các thí nghiệm 3.2 Gán nhãn từ loại kỹ thuật phân cụm Trong tiếp cận [[21], [22]], thuộc tính phân phối từ tương tự xuất ngữ cảnh tương tự sử dụng cho việc tính toán véc tơ ngữ cảnh từ để gom cụm từ với nhóm Các nhóm mà gán nhãn từ loại lớp từ nhóm Sử dụng kỹ thuật phân cụm để xây dựng nhãn từ loại liệu chưa gán nhãn đặc trưng phân biệt phương pháp gán nhãn từ loại phân phối Các đặc điểm quan trọng xem xét véc tơ ngữ cảnh định nghĩa nào, kích thước véc tơ ngữ cảnh (số chiều), thước đo sử dụng để tính tốn độ tương tự véc tơ (nghĩa tạo cụm), cách nhãn lớp từ xây dựng vào nhóm 3.2.1 Suy luận gán nhãn Giả thuyết cho thuật toán hành vi cú pháp từ phản ánh từ đồng xuất thể ngữ cảnh trái ngữ cảnh phải từ Láng giềng trái ↔ ↓ Véc tơ ngữ cảnh trái TỪ ↔ Láng giềng phải ↓ Véc tơ ngữ cảnh phải Các véc tơ ngữ cảnh chứa số lần xuất từ 250 từ xuất nhiều kho văn 3.2.2 Suy luận dựa từ loại Hai véctơ ngữ cảnh từ mô tả phân phối từ láng giềng bên trái bên phải từ Sự ghép nối hai véc tơ ngữ cảnh trái phải đại diện cho phân phối từ 3.2.3 Suy luận dựa loại từ ngữ cảnh Vai trò cú pháp từ phụ thuộc vào thuộc tính cú pháp láng giềng mối quan hệ có khả với láng giềng Vì ta xẽ xem xét xuất từ w thể ghép nối véc tơ ngữ cảnh: - Véc tơ ngữ cảnh phải từ đứng trước - Véc tơ ngữ cảnh trái từ w - Véc tơ ngữ cảnh phải từ w - Véc tơ ngữ cảnh trái từ theo sau 3.2.4 Suy luận dựa loại từ ngữ cảnh, sử dụng véc tơ ngữ cảnh trái phải tổng quát hoá Một véc tơ ngữ cảnh v phải tổng quát hoá cho từ w hình thành cách đếm mức độ thường xuyên từ 250 lớp xuất bên phải w, hạng tử wi đếm số lần mà từ từ lớp i xuất bên phải w tập văn (trái với số lần mà từ với hạng tần số i xuất bên phải w) 3.2.5 Các kết Kết gãn nhãn đạt sử dụng kỹ thuật phân cụm cho thấy kết gán nhãn phân cụm dựa vào từ loại ngữ cảnh đạt kết tốt dựa vào từ loại phân cụm dựa vào véc tơ ngữ cảnh tổng qt hóa 3.3 Đề xuất phương pháp khơng hướng dẫn cho toán gán nhãn từ loại tiếng Việt Vậy thứ tự để thực gán nhãn sau: Tính tốn tần số xuất từ kho ngữ liệu Loại từ có tần suất xuất nhiều Tìm 250 từ xuất nhiều cịn lại Tính tốn véc tơ ngữ cảnh trái phải từ Xây dựng ma trận ngữ cảnh C sau: Mỗi hàng ma trận gồm véc tơ ngữ cảnh từ w kết nối từ véc tơ ngữ cảnh (véc tơ ngữ cảnh phải từ đứng trước, véc tơ ngữ cảnh trái từ w, véc tơ ngữ cảnh phải từ w, véc tơ ngữ cảnh trái từ theo sau) Sử dụng giải pháp SVD để giảm số chiều ma trận C Tính độ đo tương tự từ dựa ma trận C giảm số chiều sử dụng độ đo cosin Phân cụm dựa vào độ đo tính sử dụng thuật tốn phân cụm mờ Sau thực phân cụm ta xây dựng tập nhãn Sử dụng tập nhãn để xây dựng kho ngữ liệu gán nhãn tay Để thực gán nhãn ta sử dụng mơ hình Markov ẩn, theo nghiên cứu gán nhãn sử dụng mơ hình Markov đạt độ xác cao kho ngữ liệu gán nhãn tay nhỏ sử dụng huấn luyện ML để thực KẾT LUẬN Những kết đạt đƣợc luận văn:  Tổng quan toán gán nhãn từ loại: luận văn trình bày tốn gán nhãn từ loại, trình bày so sánh hướng tiếp cận khơng có hướng dẫn có hướng dẫn để giải tốn gán nhãn từ loại, để làm sở nghiên cứu tiếp cận sử dụng để giải toán gán nhãn từ loại tiếng Anh, tiếng Việt thời gian vừa qua  Tìm hiểu sở tốn học sử dụng phƣơng pháp mà luận văn nghiên cứu đƣợc trình bày: luận văn trình bày kiến thức xác suất thống kê, mơ mơ hình Markov ẩn tốn mơ hình thuật tốn dùng để giải tốn đó, ngồi luận văn cịn trình bày kiến thức kỹ thuật phân cụm định nghĩa cách đo độ tương tự cho loại đối tượng khác nhau, phương pháp phân tích giá trị kỳ dị sử dụng tiếp cận giải tốn gán nhãn từ loại trình bày Từ kiến thức để hiểu phương pháp sử dụng để giải tốn  Tìm hiểu phƣơng pháp khơng có hƣớng dẫn cho tốn gán nhãn từ loại tiếng Anh: Luận văn trình bày hai phương pháp khơng có hướng dẫn để giải tốn gán nhãn từ loại tiếng Anh Đó phương pháp sử dụng kỹ thuật cực đại hóa kỳ vọng kỹ thuật phân cụm Phân tích ưu nhược điểm phương pháp để từ tìm phương pháp áp dụng cho tốn gán nhãn từ loại tiếng Việt  Tìm hiều tốn gán nhãn từ loại tiếng Việt: trình bày phương pháp sử dụng việc giải tốn gán nhãn từ loại tiếng Việt, tìm hiểu ưu điểm hạn chế chưa giải toán gán nhãn từ loại tiếng Việt, đồng thời sử dụng kiến thức phương pháp sử dụng để đưa đề xuất giải hạn chế toán gán nhãn tiếng Việt Hạn chế hƣớng phát triển luận văn:  Mặc dù luận văn tìm hiểu số phương pháp học máy khơng có hướng dẫn sử dụng cho toán gán nhãn từ loại, tìm hiểu mặt cịn hạn chế toán gán nhãn từ loại tiếng Việt đưa đề xuất để khắc phục hạn chế chưa thực thực nghiệm cụ thể cho đề xuất đó, hạn chế luận văn coi hướng phát triển luận văn thực thực nghiệm dựa vào đề xuất để sử dụng kết đạt góp phần vào việc giải hạn chế toán gán nhãn từ loại tiếng Việt References Tiếng Việt [1] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ Gán nhãn Từ loại cho tiếng Việt dựa văn phong tính tốn xác suất, Tạp chí phát triển KH&CN, Tập 9, số năm 2006 [2] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương 2003 “Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt”, Báo cáo hội thảo ICT.rda [3] Phan Xuân hiếu 2009 Công cụ gán nhãn từ loại tiếng Việt dựa Conditional Random Fields Maximum Entropy [4] Trần Thị Oanh 2008 Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt Luận văn cao học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội [5] Lê Hoàng Quỳnh 2009 So sánh số phương pháp học máy cho toán gán nhãn từ loại tiếng Việt Luận văn đại học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Tiếng Anh [6] Ankit K Srivastava March 19, 2008 Unsupervised Approaches to Part-of-Speech Tagging [7] A Haghighi and D Klein 2006 Prototype-driven learning for sequence Models In Proceedings of HLT-NAACL [8] A Clark 2000 Inducing syntactic categories by context distribution clustering In Proceedings of the Conference on Natural Language Learning (CONLL) [9] E Brill 1995 Unsupervised learning of disambiguation rules for part of speech tagging In Proceedings of the 3rd Workshop on Very Large Corpora, pages 1–13 [10] Cucerzan, S and Yarowsky, D 2002 Bootstrapping a Multilingual Part-of- Speech Tagger in One Person-day In Proceedings of the 6th Conference on Computational Natural Language Learning, CoNLL [11] Dien Dinh and Kiem Hoang, 2003 POS-tagger for English-Vietnamese bilingual corpus HLT-NAACL Workshop on Building and using parallel texts: data driven machine translation and beyond [12] Elworthy, D 1994 Does Baum-Welch Re-estimation Help Taggers? In Proceedings of the 4th ACL Conference on Applied Natural Language Processing, ANLP [13] Goldwater, S and Griffiths, T 2007 A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging In Proceedings of the Association for Computational Linguistics, ACL [14] Merialdo, B 1994.Tagging English Text with a Probabilistic Model Computational Linguistics, 20(2): 155-171 [15] Feldman, A., Hana, J., and Brew, C 2006 Experiments in Cross-Language Morphological Annotation Transfer In Proceedings of the Computational Linguistics and Intelligent Text Processing, CICLing [16] Thi Minh Huyen Nguyen 2003 Tagging of Vietnamese Texts The 10th annual onference TALN [17] Thi Minh Huyen Nguyen Le Hong Phuong 2010 An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts TALN 2010, Montréal [18] Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, and Xuan Luong Vu A lexicon for Vietnam [19] Linda Van Guilder 1995 Automated Part of Speech Tagging: A Brief Overview [20] J Kupiec.1992 Robust part-of-speech tagging using a hidden Markov model Computer Speech and Language [21] Hinrich Schfitze 1993 Part of speech induction from scratch In Proceedings o/ the 31st annual meeting o/ the Association /or Computational Linguistics, pages 251-258 Hinrich Schfitze 1997 Ambiguity [22] H Schutze 1995 Distributional part-of-speech tagging In Proceedings of the European Chapter of the Association or Computational Linguistics (EACL) [23] S Finch and N Chater 1992 Bootstrapping syntactic categories In Proceedings o/ the l~th Annual Meeting of the Cognitive Science Society, pages 820-825 [24] M Banko and R Moore 2004 A study of unsupervised partof- speech tagging In Proceedings of COLING ’04 [25] Silviu Cucerzan and David Yarowsky 2002 Bootstrapping a Multilingual Part-of-speech Tagger in One Person-day Proceedings of the Sixth Conference on Natural Language Learning (CoNLL) [26] T Minka 2003 Estimating a Dirichlet distribution Technical report, Microsoft Research, ambridge [27] Michael Lamar, Yariv Maron SVD and Clustering for Unsupervised POS Tagging [28] R Krishnapuram, A Joshi, L Yi 1999 A Fuzzy Relative of the k-Medoids Algorithm with Application to Web Document and Snippet Clustering Proc IEEE Intl Conf Fuzzy Systems, Korea [29] Ankit K Srivastava March 19, 2008 Unsupervised Approaches to Part-of- Speech Tagging [30] Nghiem Q M., Dinh D & Nguyen T N M 2008 Improving Vietnamese POS-tagging by integrating a rich feature set and support vector machines In Proceedings of the 6th IEEE International Conference in Computer Science : Research, Innovation and Vision of the Future, RIVF, HCMC, Vietnam [31] Morgan Kaufmann Publishers 2001 Data Mining: Concepts and Techniques [32] J Jang, C Sun, E Mizutani 1997 Neuro-Fuzzy and Soft Computing –A Computational Approach to Learning and Machine Intelligence, Prentice Hall [33] Mitchell P Marcus, Mary Ann Marcinkiewicz , Beatrice Santorini June 1993 Building a large annotated corpus of English: the penn treebank [34] http://www.cs.wits.ac.za/~michael/SVDTut.pdf [35] http://nlp.stanford.edu/IR-book/newslides.html [36] http://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf [37] http://langbank.engl.polyu.edu.hk/corpus/brown.html ... khơng có hướng dẫn cho toán gán nhãn từ loại, để từ xây dựng quy trình giải toán gán nhãn từ loại tiếng Việt theo cách tiếp cận Chƣơng - TỔNG QUAN 1.1 Bài toán gán nhãn từ loại Gán nhãn từ loại. .. ngữ Anh -Việt mà câu tiếng Việt gán nhãn từ loại xác nhờ kết liên kết từ Anh -Việt phép chiếu từ loại từ Anh sang Việt Như vậy, thấy toán gán nhãn từ loại cho tiếng Việt ngày quan tâm nghiên cứu Tuy... luận văn:  Tổng quan toán gán nhãn từ loại: luận văn trình bày tốn gán nhãn từ loại, trình bày so sánh hướng tiếp cận khơng có hướng dẫn có hướng dẫn để giải toán gán nhãn từ loại, để làm sở nghiên

Ngày đăng: 10/02/2014, 20:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan