Nghiên cứu và phát triển phương pháp rút gọn câu tiếng việt dựa trên phương pháp học không giám sát

56 381 0
Nghiên cứu và phát triển phương pháp rút gọn câu tiếng việt dựa trên phương pháp học không giám sát

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN CẢNH TOÀN NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Nguyễn Thị Thu Hà THÁI NGUYÊN - 2013 i LỜI CẢM ƠN Để hoàn tất luận văn thạc sĩ yêu cầu tập trung, cố gắng độc lập nghiên cứu Bản thân sau năm tháng học tập vất vả nghiên cứu cố gắng để hoàn thành luận văn Tôi ghi nhận đóng góp giúp đỡ nhiệt tình người bên cạnh mình, ủng hộ, hỗ trợ bố mẹ bạn bè giúp có thêm động lực để hoàn thành khóa luận tốt nghiệp, nhân muốn gửi lời cảm ơn tới họ Lời cảm ơn trân trọng muốn dành tới TS Nguyễn Thị Thu Hà, hướng dẫn suốt trình làm luận văn, nhờ định hướng cô giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Tôi xin trân trọng cảm ơn Ban giám hiệu trường đại học công nghệ thông tin, Đại học Thái nguyên, khoa CNTT tạo điều kiện cho học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy cô giáo dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CHK10D-KHMT qua tháng ngày miệt mài học tập, chia sẻ niềm vui nỗi buồn, động viên qua khó khăn, để vững bước vượt qua vất vả, tâm hoàn thành luận văn Tôi xin trân trọng cảm ơn bố mẹ, người mang tới tất niềm tin, định hướng theo dõi suốt chặng đường đời Nâng đỡ đến bên giây phút khó khăn sống Tuy nhiên thời gian có hạn, nỗ lực cố gắng luận văn khó tránh khỏi thiếu sót Rất mong bảo, góp ý tận tình Quý thầy cô bạn ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên iv DANH MỤC HÌNH VẼ Hình 1.2 Hệ thống tóm tắt ngoại tuyến Bảng 2.1 Mô tả tần suất từ .21 Bảng 2.1 Mô tả tần suất từ .21 Bảng 2.2 Câu tương ứng 21 Bảng 2.2 Câu tương ứng 21 Bảng 2.3 Xác suất điều kiện .21 Bảng 2.3 Xác suất điều kiện .21 v DANH MỤC BẢNG BIỂU Bảng 2.1 Mô tả tần suất từ .21 Bảng 2.2 Câu tương ứng 21 Bảng 2.3 Xác suất điều kiện .21 MỞ ĐẦU Thông tin đóng vai trò quan trọng xã hội đại Lượng lớn thông tin tạo đưa lên Internet hàng mang lại cho người tiện ích tra cứu thông tin Các hệ thống tìm kiếm, tra cứu nghiên cứu, đề xuất xây dựng thỏa mãn phần yêu cầu người dùng đặt Tuy nhiên, số lượng thông tin nhiều, kết thường trả hàng triệu tới hàng trăm triệu ghi tương đương với câu truy vấn mà người dùng nhập vào Tóm tắt văn kỹ thuật cho phép máy tính tự động tạo văn tóm tắt từ nhiều văn gốc khác Nhờ tính tóm tắt nội dung tổng hợp nội dung quan trọng từ văn gốc mà tóm tắt văn lĩnh vực nhà nghiên cứu quan tâm từ năm 60 kỷ 20 chủ đề nóng diễn đàn, hội thảo giới Các phương pháp tóm tắt văn truyền thống thường dựa cách tiếp cận trích rút câu Có nghĩa, văn tóm tắt tạo thành từ câu lựa chọn từ văn gốc Do đó, mặt ngữ nghĩa nội dung văn tóm tắt thường rời rạc, dẫn đến văn thiếu độ liền mạch (coherence) súc tích (concise) Một số phương pháp tóm tắt đại thường đề cập tới vấn đề xử lý ngôn ngữ tự nhiên để văn tóm tắt có độ ngôn ngữ (linguistic score) tốt, đồng thời phản ánh liền mạch nội dung văn gốc Một kỹ thuật kỹ thuật rút gọn câu Với kỹ thuật rút gọn câu nay, có sử dụng hai kỹ thuật học giám sát không giám sát Trong cách học giám sát, tác giả thường đề cập tới mô hình học thống kê yêu cầu xây dựng kho liệu dùng cho huấn luyện tương đối tỉ mỉ theo cách thủ công Để xây dựng kho liệu này, cần nhiều thời gian công sức theo cách thủ công Bên cạnh đó, thuật toán phương pháp rút gọn câu chủ yếu tìm kiếm câu rút gọn tương đương kho liệu có sẵn, dẫn tới độ phức tạp thuật toán cao Trong khuôn khổ đề tài luận văn, sử dụng cách tiếp cận rút gọn câu dựa phương pháp học không giám sát để: - Tiết kiệm tối đa chi phí xây dựng kho ngữ liệu thủ công - Giảm độ phức tạp tính toán mặt thời gian Luận văn chia thành chương với nội dung sau: Chương 1: Tổng quan tóm tắt văn dựa cách tiếp cận rút gọn câu Chương 2: Phương pháp rút gọn câu dựa phương pháp học không giám sát Chương 3: Xây dựng ứng dụng rút gọn câu dựa phương pháp học không giám sát Chương 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN RÚT GỌN CÂU Trong chương này, trình bày khái niệm, định nghĩa tóm tắt văn bản, tổng quan phương pháp tóm tắt văn Các cách tiếp cận phương pháp đánh giá tóm tắt 1.1 Tổng quan toán tóm tắt văn 1.1.1 Tổng quan 1.1.1.1 Khái niệm Sự gia tăng nhanh chóng liệu Internet mang lại cho người dùng tiện ích to lớn Tra cứu, tìm kiếm thông tin, ứng dụng bán hàng, giao dịch trao đổi thông tin qua Internet Tóm tắt văn thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Trải qua nửa kỷ phát triển tới ngày nay, tóm tắt văn coi chủ đề quan trọng hội thảo, hội nghị nhiều học giả, chuyên gia, nhà nghiên cứu quan tâm Các hội thảo chủ đề xử lý ngôn ngữ tự nhiên thường niên bao gồm chủ đề (track) liên quan đến tóm tắt văn động (WAS 2000, 2001, 2002), nhiều chủ đề đặc biệt hội thảo ACL, COLING, SIGIR tổ chức Chính phủ nhiều nước giới Nhật, Mỹ, Anh, Trung Quốc, đầu tư nhiều kinh phí cho việc phát triển hệ thống tóm tắt văn tự động trực tuyến (online) ngoại tuyến (offline) Hình 1.1 Hệ thống tóm tắt trực tuyến Text compactor Hình 1.1 hình ảnh hệ thống tóm tắt trực tuyến Text Compactor thao tác cách nhập văn lựa chọn tỉ lệ tóm tắt có văn tóm tắt có chiều dài tương ứng với tỉ lệ Tỉ lệ tóm tắt tính công thức (1-1) đây: R= (chiều dài văn tóm tắt/chiều dài văn gốc)*100% (1-1) Hình 1.2 hình ảnh hệ thống tóm tắt ngoại tuyến Gnome Văn tóm tắt câu lựa chọn có màu vàng Hình 1.2 Hệ thống tóm tắt ngoại tuyến 36 Từ đồ thị lưới trên, tổng kết bước phương pháp sinh câu rút gọn sau: - Bước 1: Tách từ câu thành tập riêng biệt Tập từ chủ đề tập từ khác - Bước 2: Tính trọng số từ chủ đề theo công thức (2-13) - Bước 3: Thể từ lưới hình 2.10 - Bước 4: Sinh câu rút gọn coi toán tìm đường từ nút trái bên tới nút bên phải Câu rút gọn sinh dựa hình chiếu từ tính tổng S={S1,S2,…,Sn} theo nguyên tắc sau: o Đi qua từ chủ đề chọn o Đảm bảo các Si 0 o Chọn câu ngắn o Đảm bảo đường dẫn thuộc Si 0 2.4 Kết luận chương Trong chương 2, trình bày phương pháp rút gọn câu tiếng Việt dựa kỹ thuật học không giám sát Trong phương pháp này, tối ưu hóa tìm câu rút gọn tốt cách sử dụng quy hoạch động tìm đường ngắn mà đảm bảo ngữ pháp câu 37 Chương XÂY DỰNG ỨNG DỤNG RÚT GỌN CÂU DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT Trong chương này, luận văn trình bày phương pháp lựa chọn liệu, lưu trữ xây dựng hệ thống ứng dụng rút gọn câu dựa kỹ thuật học không giám sát, đồng thời luận văn có thử nghiệm, đánh giá phương pháp cài đặt với tập liệu văn tiếng Việt 3.1 Kiến trúc tổng quát hệ thống Hệ thống tóm tắt văn dựa cách tiếp cận rút gọn câu chia thành pha chính: Pha huấn luyện pha rút gọn - Pha huấn luyện: Là pha tách từ chủ đề tính giá trị trọng số từ chủ đề kho ngữ liệu lưu vào sở liệu - Pha rút gọn: Pha thực rút gọn câu Chức hệ thống mô tả hình vẽ 3.1 Hình 3.1 Sơ đồ chức hệ thống rút gọn câu tiếng Việt Hình 3.2 mô tả biểu đồ ca sử dụng tổng quát hệ thống Trong biểu đồ use case tổng quát Các tác nhân bao gồm có người quản trị hệ thống người dùng Người quản trị có quyền thêm liệu, sửa liệu, xóa liệu, huấn luyện, xem thông tin Tác nhân người dùng quyền nhập liệu văn xem thông tin kết hiển thị hệ thống 38 Hình 3.2 Biểu đồ Use case tổng quát 3.2 Xây dựng tập liệu tập từ điển danh từ 3.2.1 Xây dựng tập dữ liệu Tập liệu sử dụng rút gọn câu sử dụng luận văn tập văn tiếng Việt Luận văn xây dựng kho ngữ liệu cách thủ công Nguồn thông tin sử dụng chủ yếu từ trang web: http://thongtincongnghe.com, http://Echip.com, http://vnexpress.net, http://vietnamnet.vn, http://Ngoisao.net, http://Tin247.com,… kho liệu bao gồm 300 văn 3.2.2 Tiền xử lý chuẩn hóa dữ liệu Tập văn đầu vào văn dạng thô, để đơn giản cho việc xử lý liệu, với văn đầu vào, ta thực hiệc qua bước tiền xử lý ký tự để đưa văn dạng xâu chuẩn Ở xâu chuẩn xâu mà không 39 có dấu cách liền nhau, có dấu câu kết thúc xâu, trước dấu câu dấu cách Để có xâu chuẩn, chuẩn bị cho việc tách từ, ta thực qua bước sau: Chuyển hết ký tự chữ hoa thành chữ thường Dùng dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn thành tâp hợp câu Ta tách âm tiết cách dấu câu không thuộc từ Tiến hành chuẩn hoá với câu: Khi có >1 dấu cách đứng kề nhau, loại bớt đi, để lại dấu cách loại bỏ dấu cách đầu cuối câu Hình 3.3 mô tả văn tiền xử lý chuẩn hóa lưu trữ sở liệu hệ thống Hình 3.3 Văn chuẩn hóa 3.2.3 Xây dựng từ điển danh từ Từ tập liệu huấn luyện ban đầu sau trình chuẩn hóa văn ta xây dựng từ điển bao gồm danh từ Để xây dựng từ điển danh từ này, phải xây dựng cách thủ công dựa hệ thống gán nhãn từ loại lưu vào sở liệu hệ thống Hình 3.4 hệ thống gán nhãn từ loại mà luận văn sử dụng trình xây dựng từ điển danh từ thủ công 40 Hình 3.4 Hệ thống vlsp Bảng 3.1 mô tả cấu trúc bảng bao gồm danh từ tách từ tập liệu văn [5] Bảng 3.1 Danh sách từ chủ đề kho ngữ liệu STT 10 11 12 13 14 15 16 17 18 19 20 Từ chủ đề nhớ xử lý cấu hình chat internet Lan Đĩa cứng hệ điều hành Hacker trình duyệt wifi Tín hiệu windows bo mạch chủ vista giao diện Mã nguồn mở Tín hiệu điện thoại hiệu Giá trị thông tin 0.057 0.032 0.077 0.045 0.340 0.114 0.008 0.176 0.045 0.032 0.016 0.036 0.012 0.012 0.053 0.081 0.024 0.036 0.303 0.036 41 3.3 Môi trường cài đặt 3.3.1 Môi trường cài đặt hệ thống Hệ thống xây dựng web để thuận tiện cho việc tra cứu trực tuyến Hệ thống sử dụng ngôn ngữ C# visual studio 2010 3.3.2 Cơ sở dữ liệu hệ thống Cơ sở liệu hệ thống mô tả thông tin lưu trữ hệ thống sở liệu Bao gồm thông tin văn tập liệu (Text_Instructor), bảng từ điển chứa từ (Vocabulary_Smr), bảng từ dừng (Tbl_stopword), Hình 3.5 mô tả sở liệu hệ thống rút gọn câu tiếng Việt Hình 3.5 Cơ sở dữ liệu hệ thống 3.3.3 Một số giao diện hệ thống 3.3.3.1 Giao diện Hệ thống rút gọn câu tiếng Việt có hai pha Giao diện mô tả giao diện pha huấn luyện Các văn học để cập nhật trọng số vào sở liệu hệ thống 42 Hình 3.6 Giao diện huấn luyện hệ thống Hình 3.7 mô tả giao diện người dùng rút gọn câu Hình 3.7 Kết rút gọn câu Hình 3.8 mô tả phần quản lý hệ thống Đây phần lưu sở liệu hệ thống hay gọi kho ngữ liệu gồm nhiều văn khác 43 Hình 3.8 Cửa sổ chọn file 3.3.3.2 Quản lý từ điển Hình 3.9 mô tả chức quản lý từ điển danh từ Các tính quản lý bao gồm: thêm danh từ, sửa danh từ, xóa danh từ, cập nhật danh từ Hình 3.9 Chức quản lý từ điển 44 3.4 Kết thực nghiệm Đối với tóm tắt kiểu trích rút câu, để đánh giá kết thực nghiệm sử dụng độ đo recall precision để đánh giá độ xác hệ thống kết cho người Tuy nhiên, với hệ thống tóm tắt dựa rút gọn câu, ta phải đánh giá dựa phần phương pháp thủ công Có độ đo sử dụng đánh giá rút gọn câu: - Độ đo trùng lặp từ trích rút dùng độ đo precision - Độ đo ngữ pháp câu Dựa độ đo trên, việc thực đánh giá cần lưu trữ bảng liệu với thông số: Độ xác độ ngữ pháp câu Việc thực nghiệm tiến hành 30 văn với 100 câu gốc Đánh giá câu thực độc lập kết hệ thống kết người: - Đánh giá độ xác:  100 câu gốc in phiếu đưa tới nhiều người khác để tiến hành rút gọn thủ công  Tiếp theo sử dụng công thức precision để tính độ trùng lặp từ câu lựa chọn hệ thống người  Đánh giá độ ngữ pháp:  100 câu gốc rút gọn hệ thống đưa nhiều người đánh giá  Độ ngữ pháp câu tính theo điểm trung bình đánh giá  Đánh giá với mức: Tốt, Khá, Trung bình, Kém Bảng 3.2 mô yêu cầu thực nghiệm 100 câu gốc Bảng 3.2 Bảng thực nghiệm STT ID câu Độ xác Độ ngữ pháp 11 0.8 0.8 112 0.73 0.8 314 0.82 0.6 506 0.891 0.8 … … … … Độ ngữ pháp số hóa từ đánh giá theo tiêu chuẩn: Tốt: 0.8-1, 45 Khá: 0.7-0.8, Trung bình: 0.5-0.6, Kém:[...]... nghiên cứu liên quan tới mô hình Markov ẩn của Jing trong rút gọn câu Phương pháp rút gọn câu dựa trên cây cú pháp Phương pháp rút gọn câu dựa trên cây cú pháp được đề xuất bởi Knight và Marcu, Unno và cộng sự Trevor Cohn và Mirella Lapata đã sử dụng phương pháp đồng bộ phi ngữ cảnh để đánh giá tốt hơn các qui tắc xác suất để áp dụng tốt trong rút gọn câu dựa vào phân tích cây cú pháp Phương pháp rút. .. 15 1.2.2 Một số phương pháp rút gọn câu Các hệ thống tóm tắt cũ dựa chủ yếu vào trích rút câu, trong khi đó tóm tắt dựa trên rút gọn câu chỉ mới được nghiên cứu từ những năm 2000 Rút gọn câu được ứng dụng trong nhiều lĩnh vực khác nhau như: phục vụ hiển thị văn bản trên nền màn hình PDA , sinh tiêu đề tự động… Nghiên cứu về rút gọn câu của Knight và Marcu Trong nghiên cứu của Knight và Marcu, họ đã... pháp mới nhằm thay thế các hệ thống cũ có chất lượng tóm tắt kém Chương 1 của luận văn cũng đề cập tới một số các kỹ thuật rút gọn câu cơ bản và đưa ra một số lý thuyết về đánh giá tóm tắt 18 Chương 2: PHƯƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT Trong chương này, tôi trình bày khái niệm về máy học, một số đặc điểm của ngôn ngữ tiếng Việt và đề xuất phương pháp rút gọn câu. .. pháp rút gọn câu tiếng Việt dựa trên kỹ thuật học không giám sát Tôi sử dụng mô hình đồ thị lưới (Grid Model) để sinh câu rút gọn, đồng thời sử dụng quy hoạch động để tính xác suất n-grams tìm ra câu rút gọn tốt nhất Đánh giá của phương pháp dựa trên đánh giá của con người 2.1 Máy học và mô hình n-grams 2.1.1 Khái niệm máy học Từ những năm 90, khi máy học được đưa vào ứng dụng, các nghiên cứu ra đời kết... tắt dựa trên rút gọn câu Tuy nhiên, sử dụng cách tiếp cận tóm tắt văn bản dựa trên trích rút 7 câu thường cho kết quả là những văn bản tóm tắt với thông tin ít liền mạch hơn theo cách tiếp cận tóm tắt dựa trên rút gọn câu Chính vì điều này, hướng nghiên cứu tóm tắt dựa trên rút gọn câu ngày càng thu hút nhiều sự quan tâm của giới chuyên môn 1.1.2 Một số phương pháp tóm tắt văn bản 1.1.2.1 Một số phương. .. language) Vấn đề rút gọn câu được mô tả là có một câu gốc x gồm các từ x = x1, x2, ,xn và câu rút gọn là y đã được loại bỏ tập con các từ trong x Định nghĩa 1.2 [Rút gọn câu] : Rút gọn câu là việc loại bỏ các đoạn, mệnh đề các từ không liên quan tới thông tin của câu ra khỏi câu Câu sau khi rút gọn vẫn giữ nguyên ý chính của câu gốc, có độ dài ngắn hơn và đảm bảo về mặt ngữ pháp Ví dụ 1.1 Câu gốc: Sau khi... qui tắc xác suất để áp dụng tốt trong rút gọn câu dựa vào phân tích cây cú pháp Phương pháp rút gọn câu dựa trên học không giám sát Một số các công bố về rút gọn câu dựa trên học không giám sát Trong công bố của Turner và Charniak đã sử dụng mô hình học không giám sát, trong đó dữ liệu huấn luyện được trích rút tự động từ kho ngữ liệu PennTreebank 16 1.3 Đánh giá tóm tắt 1.3.1 Đánh giá theo cách thủ... chuẩn và đề xuất phương pháp đánh giá cho rút gọn câu Họ sử dụng kho dữ liệu của Ziff – Davis với hơn 4000 tài liệu kỹ thuật và trích rút được 1,067 cặp câu gốc- rút gọn Nhiệm vụ được xác định là cho một câu dài l, nén theo phiên bản c và giữ lại nghĩa của câu, ngữ pháp tốt Họ cũng đề xuất hai kỹ thuật học khác nhau để sinh ra câu rút gọn, một phương pháp sử dụng kênh nhiễu (noisy chanel), phương pháp. .. như câu, mệnh đề, thuật ngữ, Tóm tắt dựa trên trừu tượng (rút gọn câu) tạo ra một văn bản tóm tắt đảm bảo về mặt cú pháp, ngữ nghĩa, câu được xử lý một cách tinh vi Văn bản tóm tắt dựa trên rút gọn câu mang lại hiệu quả cao về mặt ngôn ngữ Các phương pháp tóm tắt văn bản được đề xuất thường sử dụng tiếp cận tóm tắt theo dựa trên trích rút câu Lý do là cách tiếp cận tóm tắt dựa trên trích rút câu dễ... Machines), Học giám sát được ứng dụng nhiều trong các bài toán phân loại, nhận dạng mẫu,… - Học không giám sát: Trong học không giám sát, chỉ có một tập các đặc trưng đầu vào {x1, x2 , xn} nhưng không có nhãn đầu ra tương ứng Vấn đề đặt ra là đưa ra một cách thức, cơ chế tổ chức các đặc trưng đầu vào Điển hình của học không giám sát là phân cụm Ưu điểm của học không giám sát là kho dữ liệu huấn luyện không ... tóm tắt văn dựa cách tiếp cận rút gọn câu Chương 2: Phương pháp rút gọn câu dựa phương pháp học không giám sát Chương 3: Xây dựng ứng dụng rút gọn câu dựa phương pháp học không giám sát Chương... tốt rút gọn câu dựa vào phân tích cú pháp Phương pháp rút gọn câu dựa học không giám sát Một số công bố rút gọn câu dựa học không giám sát Trong công bố Turner Charniak sử dụng mô hình học không. .. TIẾNG VIỆT DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT Trong chương này, trình bày khái niệm máy học, số đặc điểm ngôn ngữ tiếng Việt đề xuất phương pháp rút gọn câu tiếng Việt dựa kỹ thuật học không giám

Ngày đăng: 09/12/2016, 15:34

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan