Gán nhãn từ tiếng việt qua phân tích cú pháp liên kết

54 206 0
Gán nhãn từ tiếng việt qua phân tích cú pháp liên kết

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Nguyễn Chí Cơng GÁN NHÃN TỪ LOẠI TIẾNG VIỆT QUA PHÂN TÍCH CÚ PHÁP LIÊN KẾT Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Thu Hương Hà Nội – 2015 LỜI CAM ĐOAN Tơi xin cam đoan luận văn hồn tồn tơi thực hiện, khơng chép tồn văn cơng trình nghiên cứu khoa học, tài liệu hay luận văn khác Các kết sử dụng luận văn trung thực dẫn nguồn Nếu có điều sai tơi xin hoàn toàn chịu trách nhiệm Tác giả luận văn Nguyễn Chí Cơng LỜI CẢM ƠN Trước hết, em xin chân thành gửi lời cảm ơn sâu sắc tới thầy cô giáo trường Đại học Bách Khoa Hà Nội nói chung thầy viện Cơng nghệ Thơng tin & Truyền Thơng nói riêng tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu kỳ học tập cao học trường Đại học Bách Khoa Hà Nội Em xin gửi lời cảm ơn đến TS Nguyễn Thị Thu Hương - Bộ môn Khoa học máy tính, viện Cơng nghệ Thơng tin & Truyền thơng, trường Đại học Bách Khoa Hà Nội hết lòng giúp đỡ, hướng dẫn dạy tận tình trình em làm luận văn Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hoàn thành đồ án tốt nghiệp Hà Nội, ngày 20 tháng năm 2015 Nguyễn Chí Cơng Lớp cao học CNTT2 – Khóa 2013B Viện CNTT & TT – ĐH Bách Khoa HN MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN Danh mục hình vẽ Danh mục bảng Danh mục từ viết tắt thuật ngữ CHƯƠNG I: GIỚI THIỆU TỔNG QUAN ĐỀ TÀI Giới thiệu Gán nhãn từ loại Phương pháp nghiên cứu CHƯƠNG II: MỘT SỐ PHƯƠNG PHÁP GÁN NHÃN TỪ LOẠI TIẾNG VIỆT Phương pháp học máy thống kê Phương pháp dựa mơ hình xác suất Phương pháp dựa văn phong 10 CHƯƠNG III: VĂN PHẠM LIÊN KẾT 13 Các khái niệm Văn phạm liên kết .13 Phân tích cú pháp dựa Văn phạm liên kết .19 Văn phạm liên kết cho Tiếng Việt 30 CHƯƠNG IV: GÁN NHÃN TỪ DỰA TRÊN VĂN PHẠM LIÊN KẾT 44 Tiền xử lý 44 Gán nhãn từ dựa phân tích cú pháp liên kết 44 Thử nghiệm ngữ liệu VietTreebank 45 CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 Kết luận 50 Hướng phát triển 52 TÀI LIỆU THAM KHẢO 53 Danh mục hình vẽ Hình Mơ hình phương pháp gán nhãn từ loại dựa văn phong 11 Hình 2: Các yêu cầu liên kết 13 Hình 3: Câu ngữ pháp 14 Hình 4: Câu sai ngữ pháp 15 Hình 5: Liên kết cho câu "the cat chased a snake" 15 Hình 6: Liên kết cho câu "the big snake the black cat chased bit Mary" 16 Hình 7: Thuật tốn phân tích 20 Hình 8: Lời giải cục 21 Hình 9: Lời giải sinh hai lần 24 Hình 10 Thử nghiệm gán nhãn từ dựa văn phạm liên kết 45 Hình 11 Quan hệ số kết phân tích trung bình số từ câu 48 Hình 12 Quan hệ thời gian phân tích trung bình với số từ câu 48 Danh mục bảng Bảng 1: Ví dụ từ điển 15 Bảng 2: Từ điển phức tạp 16 Bảng 3: Số lượng dạng tuyển sau lần lược tỉa 27 Bảng Số lượng dạng tỉa sau lược tỉa lược tỉa mạnh 29 Danh mục từ viết tắt thuật ngữ Từ viết tắt VPLK CRFs HMM VLSP Treebank Mô tả Văn phạm liên kết lý thuyết cú pháp Davy Temperley Daniel Sleator mà xây dựng mối quan hệ cặp từ thay cấu thành cấu trúc phân cấp dạng [9] Condictional Random Fields Một phương pháp áp dụng để gán nhãn từ loại tiếng Việt Hidden Markov Model - Mơ hình Markov ẩn Là mơ hình thống kê, áp dụng nhiều lĩnh vực, có xử lý ngơn ngữ tự nhiên Một đề tài cấp nhà nước xử lý ngôn ngữ tự nhiên Tiếng Việt Ngân hàng câu có giải cú pháp ngơn ngữ Với ngôn ngữ tiếng Việt gọi VietTreebank CHƯƠNG I: GIỚI THIỆU TỔNG QUAN ĐỀ TÀI Giới thiệu Trong năm gần đây, nhu cầu lớn tìm kiếm, khai phá xử lý thơng tin tiếng Việt, vấn đề xử lý tiếng Việt ngày nhận nhiều quan tâm từ cộng đồng nghiên cứu nước [Socbay, Bamboo, Xalo, VLSP, CocCoc …] Chuỗi trình xử lý văn tiếng Việt chia bước sau:  Phân tích hình thái: tiền xử lý tách câu, tách từ, gán nhãn từ loại,  Phân tích cú pháp  Phân tích ngữ nghĩa  Diễn ngơn  … Gán nhãn từ loại công đoạn quan trọng chuỗi trình xử lý văn Việc gán nhãn xác giúp tăng độ xác pha xử lý văn sau Hiện có nhiều phương pháp gán nhãn từ loại thử nghiệm nghiên cứu như: học máy, mô hình Makov ẩn, mạng nơ-ron … Trong luận văn này, nghiên cứu, thử nghiệm đánh giá phương pháp gán nhãn từ loại mới, sử dụng Văn phạm liên kết (VPLK) Nội dung luận văn sau:  Chương 1: Trình bày giới thiệu luận văn  Chương 2: Trình bày phương pháp gán nhãn từ loại tiếng Việt có  Chương 3: Nói khái niệm VPLK VPLK cho tiếng Việt  Chương 4: Trình bày kết thử nghiệm gán nhãn từ loại cho tiếng Việt qua phân tích cú pháp liên kết với liệu VietTreebank  Chương 5: Kết luận hướng phát triển Gán nhãn từ loại Gán nhãn từ loại việc xác định chức ngữ pháp từ câu Đây bước trước phân tích sâu văn phạm hay vấn đề xử lý ngôn ngữ phức tạp khác Thơng thường, từ có nhiều chức ngữ pháp, ví dụ: câu “con ngựa đá1 đá2 ngựa đá3”, từ “đá” từ thứ thứ ba giữ chức ngữ pháp danh từ, từ thứ hai lại động từ câu Một số hướng tiếp cận gán nhãn từ loại tiếng Anh bao gồm: gán nhãn dựa mơ hình Markov ẩn (HMM); mơ hình dựa nhớ (Daelemans, 1996) ; mơ hình dựa luật (Transformation Based Learning, Brill, 1995); Maximum Entropy; định (Schmid, 1994a); mạng nơ-ron (Schmid, 1994b), học máy v.v Gần có phương pháp xuất dựa vào văn phạm liên kết Trong khuôn khổ thời gian thực luận văn thạc sĩ, trình bày kết nghiên cứu, đánh giá thử nghiệm việc phân tích câu văn tiếng Việt Văn phạm liên kết liệu có sẵn Phương pháp nghiên cứu Tìm hiểu phương pháp gán nhãn từ loại áp dụng cho tiếng Việt:  Phương pháp dựa học máy thống kê: phương pháp Entropy cực đại (Maxent), phương pháp CRFs [6]  Phương pháp dựa văn phong tiếng Việt [3]  Phương pháp dựa tính tốn xác suất [3], [7] Tìm hiểu khái niệm Văn phạm liên kết nói chung Văn phạm liên kết cho tiếng Việt nói riêng Cài đặt gán nhãn từ loại cho tiếng Việt thử nghiệm với ngữ liệu VietTreebank CHƯƠNG II: MỘT SỐ PHƯƠNG PHÁP GÁN NHÃN TỪ LOẠI TIẾNG VIỆT Phần luận văn tập trung giới thiệu số phương pháp gán nhãn từ loại điển hình nghiên cứu áp dụng cho tiếng Việt đạt kết khả quan Đó phương pháp: học máy thống kê [6], phương pháp dựa tính tốn xác suất [3][7] phương pháp dựa văn phong [3] Phương pháp học máy thống kê Trong phương pháp gán nhãn dựa học máy thống kê, có phương pháp áp dụng cho tiếng Việt là: phương pháp cực đại hóa Entropy (Maximum Entropy), Condictional Random Fields (CRFs) [6] 1.1 Phương pháp cực đại hóa Entropy (Maximum Entropy) Tư tưởng Maximum Entropy "ngồi việc thỏa mãn số ràng buộc mơ hình đồng tốt" Để rõ vấn đề này, ta xem xét toán phân lớp gồm có lớp Ràng buộc mà biết trung bình 40% tài liệu chứa từ "professor" nằm lớp faculty Trực quan cho thấy có tài liệu chứa từ "professor" nói có 40% khả tài liệu thuộc lớp faculty, 20% khả cho khả lại (thuộc lớp lại) Mặc dù maximum entropy dùng để ước lượng phân phối xác suất nào, xem xét khả maximum entropy cho việc gán nhãn liệu chuỗi Nói cách khác, ta tập trung vào việc học phân phối điều kiện chuỗi nhãn tương ứng với chuỗi (xâu) đầu vào cho trước Các Ràng buộc Đặc trưng Trong maximum entropy, người ta dùng liệu huấn luyện để xác định ràng buộc phân phối điều kiện Mỗi ràng buộc thể đặc trưng liệu huấn luyện Mọi hàm thực chuỗi đầu vào chuỗi nhãn xem đặc trưng fi(o,s) Maximum Entropy cho phép giới hạn phân phối mơ hình lý thuyết gần giống giá trị kì vọng cho đặc trưng liệu huấn luyện D Vì người ta mơ hình hóa xác suất P(o | s) sau (ở đây, o chuỗi đầu vào s chuỗi nhãn đầu ra) 𝑃(𝑜|𝑠) = exp(∑ λi fi (o, s)) 𝑍(𝑜) 𝑖 Ở fi(o,s) đặc trưng, λ tham số cần phải ước lượng Z(o) thừa số chuẩn hóa đơn giản nhằm đảm bảo tính đắn định nghĩa xác suất (tổng xác suất tồn khơng gian 1) 𝑍(𝑜) = ∑𝑐 exp ∑𝑐 λ𝑖 fi (o, s) Một số phương pháp huấn luyện mơ hình từ liệu học bao gồm: IIS (improved iterative scaling), GIS, L-BFGS, so forth 1.2 Phương pháp Condictional Random Fields (CRFs) CRFs mơ hình trạng thái tuyến tính vơ hướng (máy trạng thái hữu hạn huấn luyện có điều kiện) tuân theo tính chất Markov thứ CRFs chứng minh thành công cho toán gán nhãn cho chuỗi tách từ, gán nhãn cụm từ, xác định thực thể, gán nhãn cụm danh từ Gọi o = (o1, o2, , oT) chuỗi liệu quan sát cần gán nhãn Gọi S tập trạng thái, trạng thái liên kết với nhãn l∈L Đặt s = (s1, s2, , sT) chuỗi trạng thái đó, CRFs xác định xác suất điều kiện chuỗi trạng thái biết chuỗi quan sát sau: Với: Gọi Z(o) thừa số chuẩn hóa tồn chuỗi nhãn có thể, fk xác định hàm đặc trưng λk trọng số liên kết với đặc trưng fk Mục đích việc học máy với CRFs ước lượng trọng số Ở đây, ta có hai loại đặc trưng fk: đặc trưng trạng thái (per-state) đặc trưng chuyển (transition) Ở δ Kronecker-δ Mỗi đặc trưng trạng thái (2) kết hợp nhãn l trạng thái st vị từ ngữ cảnh - hàm nhị phân xk(o,t) xác định ngữ cảnh quan trọng quan sát o vị trí t Một đặc trưng chuyển (3) biểu diễn phụ thuộc chuỗi cách kết hợp nhãn l’ trạng thái trước st-1 nhãn l trạng thái st Người ta thường huấn luyện CRFs cách làm cực đại hóa hàm likelihood theo liệu huấn luyện sử dụng kĩ thuật tối ưu L-BFGS Việc lập luận (dựa mơ hình học) tìm chuỗi nhãn tương ứng chuỗi quan sát đầu vào Đối với CRFs, người ta thường sử dụng thuật tốn qui hoạch động điển hình Viterbi để thực lập luận với liệu Phương pháp dựa mơ hình xác suất Ý tưởng phương pháp gán nhãn từ loại xác suất xác định phân bố xác suất không gian kết hợp dãy từ Sw dãy nhãn từ loại St Sau có phân bố xác suất này, toán loại bỏ nhập nhằng từ loại cho dãy từ đưa toán lựa chọn dãy từ loại cho xác suất điều kiện P(St | Sw) kết hợp dãy từ loại với dãy từ cho đạt giá trị lớn [3], [7] Theo cơng thức xác suất Bayes ta có: P(St | Sw) = P(Sw | St).P(St)/P(Sw) Ở dãy từ Sw biết, nên thực tế cần cực đại hoá xác suất P(Sw | St).P(St) Với dãy St = t1.t2 tN với dãy Sw = w1w2 wN: P(w1w2 wN | t1t2 tN) = P(w1 | t1t2 tN) P(w2 | w1,t1t2 tN) P(wN | w1 wN-1, t1t2 tN) 3.3 Tính từ cụm tính từ Phần đầu phần sau cụm tính từ giống với phần đầu phần sau cụm động từ Tuy nhiên, tính từ khơng với “đừng”, “chớ” Do đó, thành phần trước sau động từ có thêm kết nối tương ứng đến tính từ cũng, còn, vẫn, cứ: TĐT4+ or TTT4+ đã, đang, sẽ, vừa, mới, sắp, sửa: TĐT3+ or TTT3+ không, chẳng, chưa: TĐT2_1+ or TTT2_1+ rất, hơi, khá: TĐT2_2+ or TTT2_2+ thường, hay: TĐT1+ or TTT1+ lắm, quá: SĐT- or STT- Các kết nối cho tính từ: tốt, đẹp, đỏ, xanh: {TTT1-} & {TTT2_1- or TTT2_2-} & {TTT3-} & {TTT4-} & {STT+} 3.4 Các liên kết cụm danh từ, cụm động từ cụm tính từ Trong phần tìm hiểu việc xây dựng liên kết để kết nối thành phần cụm danh từ, cụm động từ, cụm tính từ lại với để tạo thành câu Để thống nhất, phần này, ta nói danh từ (động từ, tính từ) để đồng thời cụm danh từ (cụm động từ, cụm tính từ)  Liên kết danh từ động từ Trong mẫu câu đơn đơn giản C(N) + V, vị ngữ động từ mô tả hành động danh từ đứng trước Danh từ có thêm kết nối DT_ĐT+ động từ có kết nối DT_ĐTtơi, bạn, bàn, ghế, giường, lò xo: SDT1- or ({TDT3-} & {TDT2- or ST_DT-} & {TDT1} & {SDT1+} & {SDT3+} & {SDT4+} & {SDT6+} & {GT_DT- or DT_ĐT+}) đi, đứng, chạy, làm: (({TĐT1-} & {TĐT2_1- or TĐT2_2-} & {TĐT3-} & {TĐT4-}) or {TĐT5-}) & {DT_ĐT-} 39 Danh từ đứng sau động từ làm đối tượng trực tiếp cho hành động (bổ ngữ) Do động từ có thêm kết nối ĐT_DT+ danh từ có kết nối ĐT_DT- Chỉ có động từ kết hợp với danh từ đứng sau có kết nối Một số động từ khơng địi hỏi phải có bổ ngữ khơng có kết nối (VD: khóc, cười, ngủ,…) tơi, bạn, bàn, ghế, giường, lò xo: SDT1- or ({TDT3-} & {TDT2- or ST_DT-} & {TDT1}& {SDT1+} & {SDT3+} & {SDT4+} & {SDT6+} & {GT_DT- or ĐT_DT- or DT_ĐT+}) học, làm, ăn, đọc, viết, nghe, gặp, thấy: (({TĐT1-} & {TĐT2_1- or TĐT2_2-} & {TĐT3-} & {TĐT4-}) or {TĐT5-}) & {DT_ĐT-} & {ĐT_DT+} Danh từ động từ liên kết với qua giới từ theo dạng: V + giới từ + N Với liên kết này, ta thêm kết nối ĐT_GT+ cho động từ với giới từ ta thêm kết nối ĐT_GT- Giới từ kết nối với danh từ liên kết GT_DT mà ta xây dựng học, làm, ăn, đọc, viết, nghe, gặp, thấy: (({TĐT1-} & {TĐT2_1- or TĐT2_2-} & {TĐT3-} & {TĐT4-}) or {TĐT5-}) & {DT_ĐT-} & {ĐT_DT+} & {ĐT_GT+} bằng, : (SDT3- or ĐT_GT-) & GT_DT+ ở, dưới, trước, sau : (ĐT_GT- or SDT4-) & GT_DT+ từ, vào, theo, bởi, : ĐT_GT- & GT_DT+ 40 Ở động từ, ta để kết nối ĐT_GT+ có quan hệ & với ĐT_DT+ Điều cho phép ta đoán nhận dạng câu: V + N1 + giới từ + N2  Liên kết danh từ tính từ Xét câu đơn dạng C(N) + V(A), tính từ làm vị ngữ bổ nghĩa cho danh từ làm chủ ngữ Vì ta thêm kết nối DT_TT+ cho danh từ DT_TT- cho tính từ: tơi, bạn, bàn, ghế, giường, lị xo: SDT1- or ({TDT3-} & {TDT2- or ST_DT-} & {TDT1}& {SDT1+} & {SDT3+} & {SDT4+} & {SDT6+} & {GT_DT- or ĐT_DT- or DT_ĐT+ or DT_TT+}) tốt, đẹp, đỏ, xanh: {TTT1-} & {TTT2_1- or TTT2_2-} & {TTT3-} & {TTT4-} & {DT_TT-} & {STT+}  Liên kết động từ tính từ Các tính từ sau động từ để bổ nghĩa cho tính từ Chúng biểu thị trạng thái, thể cách động từ Động từ có kết nối ĐT_TT+, tính từ có kết nối ĐT_TT-: 41 học, làm, ăn, đọc, viết, nghe, gặp, thấy: (({TĐT1-} & {TĐT2_1- or TĐT2_2-} & {TĐT3-} & {TĐT4-}) or {TĐT5-}) & {DT_ĐT-} & {ĐT_DT+} & {ĐT_TT+} & {ĐT_GT+} tốt, đẹp, đỏ, xanh: {TTT1-} & {TTT2_1- or TTT2_2-} & {TTT3-} & {TTT4-} & {DT_TT- or ĐT_TT-} & {STT+} Ở động từ, kết nối ĐT_TT+ có quan hệ & đứng “bên phải” kết nối ĐT_DT+ Điều cho phép ta đoán nhận cấu trúc câu: N + V + A  Liên kết động từ động từ Một số động từ động từ tình thái (phải, dám, nên, định,…) địi hỏi phải có động từ trực tiếp đứng sau Với động từ ta thêm kết nối ĐT_ĐT+ Các động từ cịn lại ngồi động từ tình thái ta thêm kết nối ĐT_ĐT- phải, dám, nỡ, nên, có thể, định: (({TĐT1-} & {TĐT2_1- or TĐT2_2-} & {TĐT3-} & {TĐT4-}) or {TĐT5-}) & {DT_ĐT-} & ĐT_ĐT+ & {ĐT_TT+} học, làm, ăn, đọc, viết, nghe, gặp, thấy: (({TĐT1-} & {TĐT2_1- or TĐT2_2-} & {TĐT3-} & {TĐT4-}) or {TĐT5-}) & {DT_ĐT- or ĐT_ĐT-} & {ĐT_DT+} & {ĐT_TT+} & {ĐT_GT+} 42 Các động từ sai khiến có động từ theo sau không bắt buộc VD: Thầy giáo đề nghị (học sinh) giữ trật tự lệnh, bắt, bắt buộc, ép, nài ép, hỏi, đòi hỏi, cấm, cho phép, yêu cầu, đề nghị: (({TĐT1-} & {TĐT2_1- or TĐT2_2-} & {TĐT3-} & {TĐT4-}) or {TĐT5-}) & {DT_ĐT-} & {ĐT_DT+} & {ĐT_ĐT+} Chú ý: động từ tình thái động từ sai khiến có số đặc điểm khác với động từ lại nên luật kết nối chúng khác Chúng ta đề cập đến điều rõ phần sau Các động từ bắt đầu kết thúc địi hỏi động từ theo sau không Những động từ sau động từ khác nên chúng có kết nối ĐT_ĐT- bắt đầu, tiếp tục, thôi, dừng, kết thúc, dừng: (({TĐT1-} & {TĐT2_1-} & {TĐT3-} & {TĐT4-}) or {TĐT5-}) & {DT_ĐT- or ĐT_ĐT-} & {ĐT_DT+ or ĐT_ĐT+} & {ĐT_TT+} & {ĐT_GT+} 43 CHƯƠNG IV: GÁN NHÃN TỪ DỰA TRÊN VĂN PHẠM LIÊN KẾT Tiền xử lý Văn đem gán nhãn từ loại trước hết cần phải tiền xử lý Quá trính tiền xử lý gồm bước tách câu tách từ: Trong trình cài đặt thử nghiệm, sử dụng module tách câu có sẵn SentDetection tách từ VnTokenizer công cụ VLSP Đây công cụ tiếng, có dộ xác cao (đạt khoảng 95%) Gán nhãn từ dựa phân tích cú pháp liên kết Tư tưởng gán nhãn từ dựa kết phân tích cú pháp liên kết dựa vào liên kết từ kết Dưới số câu ví dụ điển hình nhập nhằng từ loại tiếng Việt phân tích cú pháp liên kết Ví dụ 1: Con ngựa đá1 ngựa đá2 + ĐT_DT -+ + -ĐV +-DT_ĐT+ + -ĐV +-SDT1+ | | | con.nDV ngựa.n | đá.v | | con.nDV ngựa.n đá.n Từ đá1 động từ có liên kết DT_ĐT với từ ngựa thứ nhất, từ đá2 lại danh từ có liên kết SDT1 với từ “ngựa” thứ hai Ví dụ 2: Tơi1 tơi2 vơi +-DT_ĐT-+-ĐT_DT-+ | | | tôi.p tôi.v vôi.n Từ tôi1 đại từ cịn từ tơi2 động từ từ có liên kết DT_ĐT 44 Hình 10 Thử nghiệm gán nhãn từ dựa văn phạm liên kết Q trình phân tích VPLK trả nhiều kết quả, có nhiều kết khơng Song chưa có chế xác định kết tốt loại bỏ kết khơng thật xác Đây vấn đề mở cần giải quyết, đòi hỏi tham gia nhiều chuyên gia lĩnh vực xử lý ngôn ngữ tự nhiên Thử nghiệm ngữ liệu VietTreebank 3.1 Giới thiệu VietTreebank Ngân hàng câu giải cú pháp (treebank) kho ngữ liệu quan trọng nghiên cứu xây dựng ứng dụng xử lý ngôn ngữ tự nhiên Tiếng Việt ngôn ngữ cịn thiếu 45 nhiều tài ngun có treebank Tiếng Việt ngơn ngữ đơn lập khơng có ký tự tách từ việc phân tích câu có nhiều nhập nhằng Q trình gán nhãn hỗ trợ công cụ gán nhãn tự động công cụ soạn thảo Nguồn ngữ liệu thô lấy từ báo Tuổi Trẻ điện tử Treebank thường dùng để xây dựng hệ phân tích cú pháp, gán nhãn từ loại, tách từ Các hệ lại dùng cho ứng dụng trích rút thơng tin, dịch tự động, hỏi đáp, tóm tắt văn Ngồi treebank cịn dùng cho nghiên cứu ngôn ngữ học, chẳng hạn khảo sát tượng ngơn ngữ đặc thù Gần với đời phương pháp thống kê liệu lớn treebank kho ngữ liệu khác đóng vai trị quan trọng Với tiếng Việt, có ba mức độ gán nhãn tách từ, gán nhãn từ loại, gán nhãn cú pháp Bước tách từ có nhiệm vụ xác định xem câu có từ Bước gán nhãn từ loại xác định từ loại cho từ câu Bước cuối gán nhãn cú pháp, bao gồm nhãn thành phần nhãn chức Mục tiêu chúng tơi nghiên cứu xây dựng kho ngữ liệu gồm 10 ngàn câu tiếng Việt giải cú pháp Quá trình xây dựng treebank có số bước là: tìm hiểu, thiết kế, xây dựng công cụ, thu thập ngữ liệu thô, gán nhãn liệu Thực chất trình xốy trơn ốc, vừa gán liệu vừa hồn thiện thêm tài liệu hướng dẫn gán nhãn (thiết kế) hay cải tiến cơng cụ Hiện VietTreebank có:  70,000 câu tách từ (khoảng triệu đơn vị từ)  10,000 câu gán nhãn từ loại  10,000 cú pháp;  Khuôn dạng tương tự treebank tiếng Anh (Penn Treebank) 3.2 Kết thử nghiệm gán nhãn với VietTreebank Trong thời gian thực luận văn Tơi xây dựng chương trình thử nghiệm phân tích câu Tiếng Việt văn phạm liên kết, qua xác định từ loại từ câu Chương trình viết ngơn ngữ Java, sử dụng IDE eclipse Tôi sử dụng tập thử nghiệm gán nhãn 46 - Tập thử nghiệm thứ (T1) gồm 100 câu (khoảng 1000 đơn vị từ) chưa tách từ Tập qua tách từ VnTokenizer trước gán nhãn từ loại - Tập thử nghiệm thứ hai (T2) gồm 100 câu tách từ ngữ liệu VietTreebank với khoảng 1000 đơn vị từ Các câu tách từ sẵn để đám bảo thử nghiệm xác Kết gán nhãn từ câu đối chiếu với câu gán nhãn chuẩn Dưới kết thử nghiệm gán nhãn: Tập T1 (khơng tách từ trước) Độ xác tập 100 câu thử gian phân Tập T2 (có tách từ trước) 85% 88% 1.5 s 1.2 s 17 s 15s nghiệm Thời tích trung bình câu 10 đơn vị từ Thời gian phân tích trung bình câu từ 10 – 20 đơn vị từ Bảng sau cho thấy quan hệ số kết phân tích thời gian phân tích VPLK với số từ câu Số từ Số kết phân tích Thời gian phân tích trung bình (s) 0.01 20 0.12 120 0.55 10 674 0.94 15 2256 2.10 47 Số kết 2500 2000 1500 1000 500 10 Số từ 15 Hình 11 Quan hệ số kết phân tích trung bình số từ câu Thời gian phân tích (s) 2.5 1.5 0.5 10 15 Số từ Hình 12 Quan hệ thời gian phân tích trung bình với số từ câu 48 Các câu có kết xác nhanh thường câu đơn, ngắn 10 đơn vị từ Các câu dài thời gian phân tích lâu xảy bùng nổ số kết quả.phân tích Một câu khoảng 10 đơn vị từ có hàng trăm đến hàng nghìn cách phân tích cú pháp liên kết (xét với tập luật VPLK thử nghiệm) Qua kết thử nghiệm cho thấy độ xác phương pháp gán nhãn Tiếng Việt Văn phạm liên kết đạt gần 90 % Đây kết tương đối khả quan từ điển Văn phạm liên kết bước đầu xây dựng, số luật cịn độ xác khơng cao 49 CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Hướng nghiên cứu gán nhãn từ loại tiếng Việt qua phân tích cú pháp liên kết bước đầu thu kết khả quan với độ xác gần 90 % Phương pháp gán nhãn VPLK có số ưu điểm nhược điểm sau 1.1 Ưu điểm Việc phân tích ngơn ngữ tự nhiên VPLK có nhiều ưu điểm so với việc áp dụng văn phạm phi ngữ cảnh Dưới số ưu điểm:  Các luật VPLK hoàn tồn từ vựng hóa nên xây dựng dựa vào ngữ pháp ngơn ngữ nói chung xử lý tượng đặc biệt tiếng Việt nói riêng Ví dụ, động từ xong thường đứng sau động từ nên có luật VPLK là: “xong: ĐT_XONG-“ Kết phân tích: tơi ăn xong + -DT_ĐT -+ | +-TĐT3q+-ĐT_XONG-+ | | tôi.p đã.adv | | ăn.v xong.v  Kết phân tích gọn phân tích cú pháp thể hiện tượng đảo vị trí số phận câu  Khi xây dựng từ điển VPLK mối liên hệ từ tố câu thể rõ ràng dễ dàng tìm Khơng giống văn phạm phi ngữ cảnh ta phải đưa mối quan hệ dựa dẫn suất  VPLK không yêu cầu gán nhãn từ Việc gán nhãn từ thực phân tích cú pháp, dựa liên kết Kết phân tích câu VPLK nhãn từ cách xác so với phương pháp gán nhãn khác Ví dụ từ cổ danh từ tính từ Trong câu cổ anh dài sau phân tích VPLK ta kết 50 Từ kết ta khẳng định từ cổ đóng vai trị danh từ câu có liên kết DT_TT với từ dài Trong tiếng việt văn phạm liên kết có ưu điểm so với văn phạm phi ngữ cảnh việc biểu diễn thể từ số Ví dụ tiếng Anh biểu diễn khứ cần phải chia động từ, tiếng Việt thêm từ trước động từ Trong VPLK để thực biểu diễn khứ ta thêm yêu cầu liên kết từ động từ So với phương pháp gán nhãn tiếng Việt dựa học máy thống kê phương pháp sử dụng văn phạm liên kết khơng địi hỏi phải có ngữ liệu tiếng Việt đủ lớn gồm câu tách từ, gán nhãn hay phân tích cú pháp sẵn Phương pháp đòi hỏi từ điển đầy đủ gồm luật liên kết từ vựng Từ điển dễ dàng bổ sung luật từ tổng quát từ cụ thể, để xử lý tượng đặc biệt ngôn ngữ tiếng Việt 1.2 Tồn Việc phân tích câu tiếng Việt văn phạm liên kết gặp số hạn chế sau Thứ nhất, yếu tố quan trọng nhất, từ điển Văn phạm liên kết cịn sơ khai, số luật cịn độ xác chưa cao Thứ hai, việc phân tích liệt kê kết quả, chưa có chế đánh giá lựa chọn kết tối ưu lọc bỏ kết khơng xác 51 Hướng phát triển Hiện chưa có cơng trình thực xây dựng từ điển Văn phạm liên kết cách có hệ thống chuẩn xác Để việc phân tích đạt kết tốt đạt độ xác cao trước hết cần phải có từ điển văn phạm liên kết hồn chỉnh Điều địi hỏi tương đối nhiều thời gian tham gia nhiều chuyên gia lĩnh vực ngôn ngữ Bên cạnh đó, cải tiến việc cải tiến độ xác pha tiền xử lý tách từ góp phần làm tăng độ xác phân tích Văn phạm liên kết Một hướng khác làm tăng độ xác gán nhãn kết hợp Văn phạm liên kết với phương pháp khác dựa văn phong tiếng Việt Những kết nghiên cứu góp phần định hướng cho việc xây dựng hệ gán nhãn từ loại hiệu cho cộng đồng khai phá thông tin tiếng Việt nói chung xử lý tiếng Việt nói riêng 52 TÀI LIỆU THAM KHẢO Phạm Nguyễn Quang Anh (2009), Văn phạm liên kết, Đồ án tốt nghiệp Đại học Bách Khoa Hà Nội Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt, NXB Đại học quốc gia Hà Nội Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ (2006), “Gán nhãn từ loại cho tiếng Việt dựa văn phong xác suất”, Tạp chí phát triển KH&CN, 9(2), 13-19 Daniel D.K Sleator, Davy Temperley, Parsing English with a Link Grammar, CMU-CS91-96, October 1991 Dennis Grinberg, John Lafferty, Daniel Sleator, A robust parsing algorithm for Link Grammars CMU-CS-95-125, August 1995 Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú, Gán nhãn từ tiếng Việt dựa phương pháp học máy thống kê, ICT08-VLSP-SP83 Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, Sử dụng gán nhãn xác suất QTAG cho văn tiếng Việt – A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts, Vietlex, 9-10 Hoàng Phê - chủ biên (2002), Từ điển tiếng Việt, NXB Đà Nẵng – Trung tâm từ điển học Wikipedia - http://vi.wikipedia.org/wiki/ Văn_phạm_liên_kết 53 ... từ VnTokenizer công cụ VLSP Đây cơng cụ tiếng, có dộ xác cao (đạt khoảng 95%) Gán nhãn từ dựa phân tích cú pháp liên kết Tư tưởng gán nhãn từ dựa kết phân tích cú pháp liên kết dựa vào liên kết. .. mối quan hệ dựa dẫn suất  VPLK không yêu cầu gán nhãn từ Việc gán nhãn từ thực phân tích cú pháp, dựa liên kết Kết phân tích câu VPLK nhãn từ cách xác so với phương pháp gán nhãn khác Ví dụ từ. .. tiếng Việt  Chương 4: Trình bày kết thử nghiệm gán nhãn từ loại cho tiếng Việt qua phân tích cú pháp liên kết với liệu VietTreebank  Chương 5: Kết luận hướng phát triển Gán nhãn từ loại Gán nhãn

Ngày đăng: 26/07/2017, 20:59

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan