Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại

72 416 0
Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Ngọc Khương KẾT HỢP MÔ HÌNH CỰC ĐẠI ENTROPY VÀ HỌC LUẬT CHUYỂN ĐỔI CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Ngọc Khương KẾT HỢP MÔ HÌNH CỰC ĐẠI ENTROPY VÀ HỌC LUẬT CHUYỂN ĐỔI CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI Ngành : Công nghệ thông tin Chuyên ngành : Khoa học máy tính Mã số : 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Lê Anh Cường HÀ NỘI - 2014 i ii LỜI CAM ĐOAN  ‘Tôi xin cam đoan rằng, công trình này là sản phẩm nghiên cứu của riêng cá nhân tôi. Các kết quả trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào trước đây’. Hanoi 20/10/2014 Signed iii MỤC LỤC Trang TRANG BÌA PHỤ i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC HÌNH vi DANH MỤC BẢNG vii LỜI CẢM ƠN viii TÓM TẮT ix MỞ ĐẦU x CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI 1 1.1. Bài toán gán nhãn từ loại 1 1.2. Các ứng dụng của gán nhãn từ loại 3 1.3. Các nghiên cứu liên quan 5 1.3.1. Phương pháp dựa trên luật 6 1.3.2. Phương pháp dựa trên tiếp cận học máy thống kê 6 1.3.3. Các hướng nghiên cứu khác 7 1.3.3.1. Gán nhãn đa ngôn ngữ 7 1.3.3.2. Kết hợp các thông tin thống kê 8 1.3.3.3. Mở rộng mô hình ngôn ngữ trong hướng tiếp cận thống kê 8 1.3.4. Gán nhãn từ loại tiếng Việt 8 1.3.4.1. Các nghiên cứu dựa trên phương pháp hệ luật 9 1.3.4.2. Các nghiên cứu dựa trên phương pháp học máy 9 1.3.4.3. Các nghiên cứu dựa trên phương pháp lai 10 1.4. Đặt vấn đề 10 1.5. Mục tiêu của đề tài 11 1.6. Đối tượng và phương pháp nghiên cứu 11 1.7. Những đóng góp của luận văn 12 1.8. Bố cục của luận văn 12 CHƯƠNG 2. KIẾN THỨC CƠ SỞ 13 2.1. Ngữ liệu 13 2.1.1. Một số khái niệm cơ sở 13 2.1.2. Ngữ liệu Penn Treebank 14 iv 2.1.2.1. Miêu tả 14 2.1.2.2. Quá trình gán nhãn từ loại 15 2.1.3. Ngữ liệu Viet Treebank 15 2.1.3.1. Miêu tả 15 2.1.3.2 Quá trình gán nhãn từ loại 15 2.2. Một số phương pháp học máy 17 2.2.1. Mô hình cực đại hóa Entropy 17 2.2.1.1. Khái niệm MEM 17 2.2.1.2. Nguyên lý cực đại hóa Entropy 17 2.2.1.3. Mô hình xác suất 18 2.2.1.4. Hạn chế của mô hình MEM 19 2.2.2. Mô học học luật chuyển đổi 20 2.2.2.1. Sơ đồ của giải thuật TBL 20 2.2.2.2. Mô tả các giải thuật trong mô hình 21 2.2.2.3. Trình bày giải thuật 23 2.2.2.4. Giải thuật TBL nguyên thuỷ 23 2.2.2.5. Kết luận 24 CHƯƠNG 3. ĐỀ XUẤT MÔ HÌNH GÁN NHÃN TỪ LOẠI 25 3.1. Đề xuất mô hình 25 3.1.1. Mô hình cơ sở 25 3.1.1.1. Huấn luyện hệ thống 26 3.1.1.2. Quá trình gán nhãn 26 3.1.2. Mô hình kết hợp 27 3.1.3.1. Quá trình huấn luyện mô hình kết hợp 29 3.1.3.2. Quá trình kiểm tra 33 3.2. Mô hình ngôn ngữ 34 3.2.1. Biểu diễn ngữ cảnh 34 3.2.2. Lựa chọn đặc trưng 35 3.2.3. Lựa chọn tập mẫu 38 3.3. Tiếp cận xây dựng bộ gán nhãn từ loại 39 3.3.1. Xử lý dữ liệu 39 3.3.2. Cấu hình để thực hiện 40 3.3.3. Huấn luyện 41 3.3.4. Gãn nhãn từ loại 42 v CHƯƠNG 4. THỰC NGHIỆM 43 4.1. Mô tả thực nghiệm 43 4.1.1. Dữ liệu thực nghiệm 43 4.1.1.1. Peen TreeBank 43 4.1.1.2. Viet TreeBank 46 4.1.2. Phần cứng 48 4.1.3. Phần mềm 48 4.2. Phương pháp thực nghiệm 49 4.3. Kết quả thực nghiệm 50 4.3.1. Các tham số đánh giá thực nghiệm 50 4.3.2. Kết quả 50 4.3.2.1. Phương pháp Holdout 50 4.3.2.2. Phương pháp K-Fold Cross-Validation 51 KẾT LUẬN 53 DANH MỤC CÁC CÔNG TRÌNH LIÊN QUAN ĐẾN LUẬN VĂN 54 TÀI LIỆU THAM KHẢO 55 vi DANH MỤC HÌNH Hình 1-1: Nhập nhằng từ loại trong câu Tiếng Anh với 8 nhãn cơ bản 1 Hình 1-2: Các bước xử lý ngôn ngữ tự nhiên [11] 3 Hình 1-3: Một số phương pháp giải quyết bài toán gán nhãn từ loại [3] 5 Hình 2-1: Sơ đồ quá trình làm ngữ liệu 16 Hình 2-2: Sơ đồ hoạt động của giải thuật TBL 20 Hình 2-3: Sơ đồ quá trình huấn luyện của giải thuật TBL 22 Hình 3-1: Mô hình kết hợp cho gán nhãn từ loại 28 Hình 3-2: Sơ đồ mô tả quá trình huấn luyện ở giai đoạn thứ nhất 30 Hình 3-3: Sơ đồ mô tả quá trình huấn luyện ở giai đoạn thứ hai 32 Hình 3-4: Sơ đồ mô tả quá trình kiểm tra 33 Hình 3-5: Một số mẫu luật chuyển cơ bản 39 Hình 3-6: Các mẫu luật chuyển cho Tiếng Anh 39 Hình 4-1: Các từ không có từ loại 48 Hình 4-2: Câu không phân biệt từ tố 48 vii DANH MỤC BẢNG Bảng 3-1: Một số đặc trưng history h i hiện tại trong tiếng Việt 36 Bảng 3-2: Một số đặc trưng của từ hiếm 36 Bảng 3-3: Dữ liệu mẫu 37 Bảng 3-4: Một số đặc trưng rút ra từ h 4 trong bảng 3-3 37 Bảng 3-5: Một số đặc trưng rút ra từ h 3 trong bảng 3.3 37 Bảng 3-6: Một số thuộc tính cho mô hình cực đại hóa Entropy 41 Bảng 4-1: Tần suất xuất hiện nhãn từ loại trong ngữ liệu Peen Treebank [48] 44 Bảng 4-2: Một số từ có đa nhãn từ loại trong ngữ liệu Penn Treebank 44 Bảng 4-3: Bảng nhãn từ loại trong Penn Treebank 45 Bảng 4-4: Tần suất xuất hiện nhãn từ loại trong ngữ liệu Viet Treebank 46 Bảng 4-5: Một số từ có đa nhãn từ loại 46 Bảng 4-6: Nhãn từ loại trong Viet Treebank 47 viii LỜI CẢM ƠN  Trước tiên em xin bày tỏ lòng biết ơn sâu sắc đến PGS. TS Lê Anh Cường, người thầy đã luôn tận tình hướng dẫn, chỉ bảo và tạo điều kiện để em hoàn thành luận văn này. Em xin gửi lời cảm ơn sâu sắc tới nhóm xây dựng ngữ liệu Viet Treebank, đặc biệt là thầy Nguyễn Phương Thái, người đã hướng dẫn và cung cấp tài liệu, dữ liệu cần thiết cho em trong quá trình hoàn thành luận văn. Em xin chân thành cảm ơn Khoa Công nghệ thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đặc biệt là các Thầy(Cô) trong bộ môn Khoa học máy tính đã tạo điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu và thực hiện luận văn. Tôi cũng xin gửi lời cảm ơn chân thành tới Ban chủ nhiệm Khoa Toán Tin, trường Đại học Hải Phòng đã tạo mọi điều kiện thuận lợi để tôi có điều kiện học tập và nâng cao trình độ chuyên môn. Một phần không thể thiếu trong cuộc sống, tôi xin gửi lời cảm ơn đến các anh chị em, bạn bè đồng nghiệp đã quan tâm, động viên và giúp đỡ tôi. Và cuối cùng nhưng không kém phần quan trọng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện luận văn tốt nghiệp này. Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi năng lực và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong nhận được sự tận tình chỉ bảo của quý Thầy (Cô) và các bạn. Hà Nội, ngày 20 tháng 10 năm 2014 Nguyễn Ngọc Khương [...]... thng c th hin bng cỏch gón cho mi t trong cõu mt nhón trong tp nhón t loi cho trc 2 Bi toỏn cú th c mụ t nh sau: Input: Mt cõu v tp nhón t loi (Vớ d nh chui cỏc t Cụ y cho tụi mt qu Cam. v tp nhón t loi tng ng vi cỏc t trong cõu ú.) Output: Mt nhón tt nht cho tng t trong cõu ó c a ra (Vớ d: i vi cõu Cụ y cho tụi mt qu Cam., thỡ nhón thớch hp tng ng cho tng t s l Cụ/N y/P cho/ E tụi/P mt/M qu/Nc cam/N... hỡnh cc i húa Entropy (Maximum Entropy Model - MEM) v mụ hỡnh hc lut chuyn i (TransformationBased Learning - TBL) gii quyt bi toỏn gỏn nhón t loi cho ng liu Treebank cho ting Vit v ting Anh Kt qu thc nghim gỏn nhón t loi trờn mụ hỡnh kt hp cho thy chớnh xỏc i vi ting Vit l khong 95.50% (tng khong 1.18%) v ting Anh l 97.40% (tng khong 0.12%) so vi phng phỏp da trờn mụ hỡnh cc i húa Entropy Nhng kt... mt s phng phỏp hc mỏy c ỏp dng thnh cụng cho bi toỏn gỏn nhón t loi cho nhiu ngụn ng Lun vn la chn hai trong s nhng phng phỏp hc mỏy in hỡnh ó cho kt qu kh quan nhiu ngụn ng v cú kh nng t kt qu tt i vi ting Vit, ú l mụ hỡnh cc i húa Entropy (Maximum Entropy Model MEM) v hc lut chuyn i (Transformation Based Learning - TBL) C s lý thuyt chng ny s l nn tng cho phn xõy dng mụ hỡnh kt hp v phn thc nghim... u vo cho trc Nh vy, bn cht lý thuyt ca MEM l chn mt phõn b xỏc sut p theo mt tp cỏc c trng rng buc no ú Phõn b c chn l phõn b lm cc i húa hn lon thụng tin trong mt tp cỏc thc th c gỏn nhón 2.2.1.2 Nguyờn lý cc i húa Entropy Cc i húa Entropy l mt nguyờn lý cho phộp ỏnh giỏ cỏc phõn phi xỏc sut t mt tp cỏc d liu hun luyn Entropy l o v tớnh ng u hay tớnh khụng chc chn ca mt phõn phi xỏc sut o Entropy. .. ngụn ng hc in hỡnh cho cỏch tip cn ny l cụng c TAGGIT [ 1 7 ] , c s dng gỏn nhón cho kho ng liu Brown T ú cho n nay ó cú thờm rt nhiu n lc ỏng k nhm nõng cao chớnh xỏc v hiu sut tuy nhiờn cỏc kt qu t c ca cụng c ny cũn khỏ hn ch Gn õy cỏc lut c xõy dng da vo ng cnh cha t ang xột nhm loi b nhp nhng nu t ú cú nhiu nhón t loi kh thi i din tiờu biu cho phng phỏp ny l b gỏn nhón t loi cho ting Anh ENGTWOL... m Bottou a ra l chỳng ta s bt u mụ hỡnh vi mt th y ca cỏc trng thỏi v cho th tc hun luyn t quyt nh mt cu trỳc thớch hp cho mụ 20 hỡnh Tic rng gii phỏp ny s lm mt i tớnh cú th t ca mụ hỡnh, mt tớnh cht rt cú ớch cho cỏc bi toỏn trớch chn thụng tin Mt giỏi phỏp ỳng n hn cho vn ny l xem xột ton b chui trng thỏi nh mt tng th v cho phộp mt s cỏc bc chuyn trong chui trng thỏi ny úng vai trũ quyt nh vi... ó s dng mt s ngun thụng tin cho bi toỏn gỏn nhón t loi Trong cụng trỡnh mỡnh [40], Kazama ó xõy dng mụ hỡnh da trờn s kt hp gi mụ hỡnh Markop n (Hidden Markop Model - HMM) vi mụ hỡnh cc i húa Entropy bng phng phỏp hc khụng giỏm sỏt Quỏ trỡnh hun luyn HMM c thc hin bi thut toỏn Baum-Welch vi ng liu cha gỏn nhón Tham s trong HMM c s dng nh l tp c trng cho mụ hỡnh cc i húa Entropy H thng ch cn s dng kho... [23] Cỏc phng phỏp v cụng c ó c xõy dng gn nh hon thin cho Ting Anh khi em ỏp dng cho cỏc ngụn ng khỏc loi trờn thng a li kt qu thp hoc cha ỏp ng c nhu cu ng dng Nh vy, yờu cu t ra vi tng ngụn ng l phi k tha, tn dng c cỏc phng phỏp sn cú, tin hnh hiu chnh hoc xut ra cỏc hng tip cn mi sao cho phự hp vi c im riờng ca tng ngụn ng Cỏc nghiờn cu ti mc 1.3 cho thy, vn cũn nhng trng hp m mụ hỡnh hc mỏy thng... chỳng tụi chn ti Kt hp mụ hỡnh cc i Entropy v hc lut chuyn i cho bi toỏn gỏn nhón t loi úng gúp ca lun vn l vic tỡm hiu, nghiờn cu v xut mụ hỡnh kt hp phc v nhim v gỏn nhón t loi Trong mụ hỡnh kt hp, MEM úng vai trũ lm mụ hỡnh c s v mụ hỡnh TBL úng vai trũ l thnh phn sa sai cho mụ hỡnh c Thc nghim c tin hnh trờn hai kho ng liu in hỡnh l Penn Treebank v Viet Treebank cho thy mụ hỡnh kt hp em li kt qu... mỏy 2.2.1 Mụ hỡnh cc i húa Entropy Mụ hỡnh cc i húa Entropy (Maximum Entropy Model - MEM) [24] [51] l mt mụ hỡnh hc mỏy da trờn lý thuyt thụng tin, c gii thiu ln u bi Jaynes E.T vo nm 1957 Theo A.Ratnaparkhi [51], MEM gii quyt tt ba yờu cu ch yu ca x lý ngụn ng t nhiờn, ú l: chớnh xỏc, c trng thiu tri thc v kh nng tỏi s dng Ni dung phn ny s gii thiu v bn cht mụ hỡnh thng kờ cho bi toỏn gỏn nhón t loi . hình cực đại Entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại . Đóng góp của luận văn là việc tìm hiểu, nghiên cứu và đề xuất mô hình kết hợp phục vụ nhiệm vụ gán nhãn từ loại. . ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Ngọc Khương KẾT HỢP MÔ HÌNH CỰC ĐẠI ENTROPY VÀ HỌC LUẬT CHUYỂN ĐỔI CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI . học máy điển hình cực đại hóa Entropy và mô hình học luật chuyển đổi, được sử dụng làm mô hình cơ sở khi xây dựng mô hình kết hợp phục vụ nhiệm vụ gán nhãn từ loại. Chương 3: Giới thiệu mô

Ngày đăng: 01/07/2015, 22:56

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan