phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt

ỦY BAN NHÂN DÂN TP HỒ CHÍ MINH SỞ KHOA HỌC – CÔNG NGHỆ - BÁO CÁO KẾT QUẢ Đề tài: PHÁT TRIỂN MỘT SỒ CÔNG CỤ HỖ TRỢ PHÂN TÍCH, TỔNG HỢP VĂN BẢN TIẾNG VIỆT Chủ nhiệm đề tài : PGS TS ĐỖ PHÚC Cơ quan chủ trì: Trường Đại học Cơng nghệ Thơng tin, ĐHQG-HCM Địa chỉ: 34 Trương Định, Quận 3, Tp Hồ Chí Minh Điện thoại: (08) 9301471 == Năm 2007 == DANH SÁCH CÁN BỘ THAM GIA TT Họ tên Học vị Ngành chuyên môn Đơn vị công tác Đỗ Phúc Tiến sĩ Tin học Trường ĐHCNTT Lê Khắc Cường Tiến sĩ Ngữ Văn Báo chí ĐHKHXHNV Hồ Anh Thư Thạc sĩ Tin học Trường ĐHCNTT Thạc sĩ Tin học Trường ĐHCNTT Nguyễn T Kim Phụng Mai Xuân Hùng Thạc sĩ Tin học Trường ĐHCNTT Dương Khai Phong Cử nhân Tin học Trường ĐHCNTT MỤC LỤC CHƯƠNG 1: TỔNG QUAN 1.1 MỞ ĐẦU 1.2 MỤC TIÊU CỦA ĐỀ TÀI 1.2.1.Nghiên cứu đặc trưng văn tiếng Việt 1.2.2 Xây dựng kho ngữ liệu 1.2.3.Nghiên cứu, xây dựng công cụ phân loại, tạo tổng lược văn tiếng Việt lĩnh vực công nghệ thông tin 1.3 CẤU TRÚC CÁC CHƯƠNG MỤC CỦA BÁO CÁO CHƯƠNG 2: RÚT TRÍCH CỤM DANH TỪ ĐỂ ĐẶC TRƯNG VĂN BẢN 2.1 MỞ ĐẦU 2.2.TÁCH CÂU 2.3 TÁCH TỪ 2.4 XÁC ĐỊNH TỪ LOẠI 2.4.1 Thuật toán gán nhãn từ loại 2.4.2 Bộ gán nhãn VNQTAG cho tiếng Việt 2.5 TRÍCH CỤM DANH TỪ 2.6 XÂY DỰNG PHẦN MỀM TRÍCH CỤM DANH TỪ TIẾNG VIỆT 2.7 KẾT CHƯƠNG 5 11 15 17 CHƯƠNG 3: XÂY DỰNG TỪ ĐIỂN TỔNG HỢP VÀ KHO NGỮ 2 2 LIỆU GÁN NHÃN TỪ LOẠI 3.1 XÂY DỰNG TỪ ĐIỂN TỪ ĐỒNG NGHĨA, GẦN NGHĨA 3.1.1.Từ điển LDOCE 3.1.2.Nghiên cứu cấu trúc WORDNET 3.1.3.Khoảng cách ngữ nghĩa 3.1.4 Nguồn liệu để xây dựng từ điển đồng nghĩa, gần nghĩa 3.1.5 Xây dựng từ điển tổng hợp 3.2 XÂY DỰNG CÁC KHO NGỮ LIỆU 3.2.1 Chuẩn hoá dạng ngữ liệu 3.2.2 Xây dựng kho ngữ liệu có gán nhãn từ loại gồm báo tiếng Việt lĩnh vực 3.2.3 Xây dựng kho ngữ liệu phục vụ thuật toán phân loại văn 3.2.4 Xây dựng kho ngữ liệu phục vụ thuật tốn trích lược nội dung 3.2.5 Xây dựng kho ngữ liệu phục vụ kiểm tra thuật toán gom cụm mạng Kohonen 3.3 KẾT CHƯƠNG CHƯƠNG 4: PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP NẠVE BAYES VÀ ỨNG DỤNG ĐỂ PHÂN LỚP THƠNG ĐIỆP TIẾNG VIỆT TRÊN DIỄN ĐÀM THẢO LUẬN QUA MẠNG 4.1 MỞ ĐẦU 4.2 CÁC TIẾP CẤN PHÂN LỚP 4.3 MÔ HÌNH PHÂN LỚP BẰNG PHƯƠNG PHÁP NẠVE BAYES 4.3.1 Đặc trưng văn cho phân lớp Bayes 4.3.2 Mơ hình phân lớp Bayes 4.3.3 Xây dựng phân lớp văn Naive Bayes 4.3.4 Đánh giá 4.4 XÂY DỰNG HỆ THỐNG PHÂN LỚP THÔNG ĐIỆP TRÊN DIỄN ĐÀN THẢO LUẬN THEO TIẾP CẬN BAYES 4.4.1 Diễn đàn thảo luận 4.4.2 Vấn đề cần giải 4.4.3 Xây dựng hệ thống 4.4.4 Quy trình thực 4.4.5 Cơ sở liệu lưu trữ thông điệp 4.4.6 Xây dựng Website diễn đàn thảo luận 4.4.7 Q trình trích chọn đặc trưng thơng điệp 4.4.8 Kết qủa thực 4.5 KẾT CHƯƠNG 18 18 19 22 23 27 28 28 28 28 29 30 30 31 31 32 32 38 40 43 44 44 44 43 46 47 51 52 54 57 CHƯƠNG 5: TĨM TẮT VĂN BẢN THEO CÁCH TRÍCH LƯỢC 5.1 MỞ ĐẦU 5.2 CÁC NGHIÊN CỨU LIÊN QUAN 58 58 5.3 CÁC YÊU CẦU ĐỐI VỚI TÓM TẮT VĂN BẢN 5.4.CÁC PHƯƠNG PHÁP TÓM TẮT VĂN BẢN TỰ ĐỘNG 5.4.1.Hướng phân tích ngơn ngữ “nơng” 5.4.2.Hướng phân tích ngơn ngữ “sâu” 5.5 CẤU TRÚC CỦA CHƯƠNG TRÌNH TẠO TRÍCH LƯỢC VĂN BẢN 5.6.TĨM TẮT THEO HƯỚNG TRÍCH LƯỢC TÀI LIỆU WEB 5.7.TÓM TẮT TRANG WEB DỰA VÀO NGỮ CẢNH CỦA TRANG WEB 5.7.1 Mở đầu 5.7.2.Ngữ cảnh tài liệu Web 5.7.3.Các cơng việc 5.8.VẤN ĐỀ ĐÁNH GIÁ KẾT QUẢ TÓM TẮT 5.8.1 Giới thiệu 5.8.2 Đặc điểm phương pháp đánh giá 5.8.3.Đánh giá bên 5.8.4 Đánh giá bên 5.8.5.So sánh phương pháp đánh giá bên đánh giá- bên 5.9 MỘT SỐ TIÊU CHÍ ĐÁNH GIÁ 5.9.1 Độ đo mức độ xác mức bao phủ 5.9.2 Độ đo dựa nội dung 5.10 CÁC PHƯƠNG PHÁP ĐÁNH GIÁ 5.10.1 Phương pháp đánh giá độ tương tự nội dung 5.10.2 Độ tương quan phù hợp 5.10.3 Phương pháp đánh giá theo độ xác độ hồi tưởng 5.11 KẾT CHƯƠNG 60 61 62 62 63 67 68 68 69 69 72 72 73 73 74 74 74 74 74 75 75 75 76 76 CHƯƠNG 6: XÂY DỰNG CHƯƠNG TRÌNH TRÍCH LƯỢC VĂN BẢN 6.1.MỞ ĐẦU 6.2 QUY TRÌNH XỬ LÝ 6.3 PHƯƠNG PHÁP XỬ LÝ 6.3.1.Trích thông tin trang Web phân vùng tạm thời 6.3.2 Trích thơng tin ngữ cảnh trang Web 6.3.3.Tách câu 6.3.4.Tách từ 6.3.5 Gán nhãn từ loại 6.3.6 Phát cụm từ 6.3.7 Loại bỏ câu không hợp lệ 6.3.8.Biểu diễn câu vào không gian vec-tơ 6.3.9.Xác định vùng văn 6.3.10.Gom cụm câu 6.3.11.Rút câu trội 6.4 XÂY DỰNG HỆ THỐNG 6.4.1 Mô tả chương trình 77 77 79 79 81 83 83 83 83 84 84 85 85 86 88 88 6.4.2 Kết thử nghiệm 6.5.KẾT CHƯƠNG 90 99 CHƯƠNG 7: GOM CỤM VĂN BẢN BẰNG MẠNG KOHONEN VÀ TRÍCH LƯỢC NỘI DUNG CHÍNH CỦA NHIỀU VĂN BẢN 7.1 MỞ ĐẦU 7.2 TẠO VECTƠ ĐẶC TRƯNG 7.2.1 Tìm tập hợp cụm danh từ phổ biến 7.2.2 Điều chỉnh thành phần vector đặc trưng văn đặc trưng câu 7.2.3 Tạo vector đặc trưng câu vector đặc trưng văn 7.3 GOM CỤM VĂN BẢN BẰNG MẠNG KOHONEN 7.3.1 Mạng Kohonen 7.3.2 Gom cụm từ lớp Kohonen 7.3.3 Thuật giải huấn luyện mạng Kohonen 7.3.4 Đặc trưng cụm lớp Kohonen 7.3.5 Cải tiến thuật giải huấn luyện mạng Kohonen 7.4 TRUY VẤN TƯƠNG TỰ THÔNG QUA LỚP RA KOHONEN 7.5 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ GOM CỤM 7.5.1 Các hệ số để đánh giá 7.5.2.Thử nghiệm đánh giá 7.6 TRÍCH RÚT CÂU QUAN TRỌNG 7.6.1 Trích câu quan trọng 7.6.2 Trích câu đặc biệt 7.7 KẾT CHƯƠNG 100 100 100 100 103 104 104 104 105 106 106 108 109 109 112 118 118 118 118 CHƯƠNG 8: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 8.1 CÁC KẾT QUẢ CỦA ĐỀ TÀI 8.2 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ CĨ LIÊN QUAN ĐẾN ĐỀ TÀI 8.3 DANH SÁCH CÁC HỌC VIÊN CAO HỌC ĐÃ BẢO VỆ THÀNH CÔNG LUẬN VĂN THẠC SỸ THEO HƯỚNG ĐỀ TÀI 8.4 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 128 PHỤ LỤC Bộ thích từ lọai mức Chuỗi từ lọai xác định cụm danh từ Danh mục số từ khóa chủ đề Từ điển đồng nghĩa Từ điển CVDIC Computer ontology Tập thuật ngữ tin học có liên quan Hướng dẫn sử dụng phần mềm cài đặt theo đề tài Tuyển tập báo khoa học cơng bố có liên quan đến đề tài 132 133 134 138 139 143 147 158 167 125 126 127 CHƯƠNG TỔNG QUAN 1.1 MỞ ĐẦU Hầu hết thông tin Internet dạng văn khối lượng thông tin lớn ( chiếm khoảng 80% lượng thông tin Internet) Do cần phải có phần mềm tin học hỗ trợ phân tích, tổng hợp thơng tin văn phân loại văn bản, truy vấn văn bản, tóm lược văn nhằm hỗ trợ nhu cầu khai thác, xử lý thơng tin nhanh chóng hiệu Trên giới có nhiều sản phẩm phần mềm hỗ trợ phân tích, tổng hợp thơng tin văn Có thể liệt kê số sản phẩm tiêu biểu theo hướng như: - - - Text Analyst hãng Megaputer: Phần mềm sử dụng mạng Hopfield để phát khái niệm tiềm ẩn văn tạo sơ đồ liên hệ khái niệm Sau truy vấn theo khái niệm, tóm tắt nội dung văn Intelligent Miner for Text hãng IBM: Phần mềm có tính phân tích văn ( gom cụm văn bản, phân loại văn bản, rút trích khái niệm, nhận dạng ngơn ngữ .) Phần mềm phát triển mạng nơron, dàn khái niệm, phân tích thơng tin đa ngữ từ điển tương đồng WEBSOM Đại học Helsinki, Phần Lan: Dự án dựa mạng Kohonen có khả gom cụm thông tin thư viện số thành cụm (tập hợp văn có nội dung gần nhau) Các cụm biểu diễn trực quan thành đồ văn hình Do khái quát nắm bắt nhanh chóng nội dung khối ngữ liệu gồm nhiều văn Chức AutoSummarize phần mềm Microsoft Word với khả tạo trích lược câu quan trọng văn tiếng Anh Bên cạnh đó, phần mềm có có khả thống kê từ, câu, độ khó văn Tuy vậy, hệ thống phần mềm xử lý văn tiếng Anh Hiện nay, số lượng trang Web tiếng Việt ngày phong phú, nguồn liệu văn điện tử tiếng Việt đưa lên Web ngày phát triển Vì cần phải đầu tư nghiên cứu phát triển phần mềm hỗ trợ phân tích, tổng hợp văn tiếng Việt Trong nuớc, số nhà nghiên cứu tập trung vào vấn đề Tại Khoa Hệ thống thông tin (trường Đại học Công nghệ Thông tin); Khoa CNTT (trường Đại học Khoa học Tự nhiên); Khoa tiếng Việt, Khoa Ngữ văn-Báo chí (trường Đại học Khoa học Xã hội Nhân văn) có số đề tài nghiên cứu đặc thù ngữ pháp tiếng Việt, đề xuất phương án biểu diễn văn tiếng Việt, xử lýphân tích văn tiếng Việt máy tính Một số cơng trình tiêu biểu có liên quan đến đề tài nghiên cứu sau: • GS Nguyễn Đức Dân-TS Đặng Thái Minh (1999) nghiên cứu xây dựng từ điển tần số tiếng Việt phục vụ nghiên cứu ngôn ngữ học so sánh Các tác giả sử dụng phương pháp thống kê khối ngữ liệu truyện ký, dùng tần suất từ nhằm phát từ đặc trưng cho văn Xây dựng từ điển tần số dòng truyện ký tiến hành số thao tác so sánh đặc trưng văn theo mơ hình vector • GS Hồng Kiếm- TS Đỗ Phúc (2002) nghiên cứu sử dụng hậu tố mở rộng nhằm rút trích dãy từ phổ biến tập ngữ liệu gồm nhiều văn tiếng Anh Sau dùng dãy từ phổ biến tạo khơng gian vector nhằm đặc trưng văn vector với thành phần có giá trị nhị phân, số thực qua hệ số tf-idf theo dãy từ phổ biến Bên cạnh đó, tác giả cịn nghiên cứu sử dụng từ điển đồng WordNet để xem xét ngữ nghĩa tiếng Anh thành phần vector ứng với từ gần nghĩa đồng nghĩa gom cụm báo hỗ trợ truy vấn tương đồng thư viện số hố • GS Hồng Kiếm-Th Sĩ Huỳnh Ngọc Tín (2003) sử dụng mạng neuron GHSOM kết hợp với kết nghiên cứu tiếng Việt GS Cao Xuân Hạo đề thuyết Nhóm tác giả sử dụng dấu nhận dạng đề thuyết từ “thì”, “là”, “mà” để tách đoạn câu phát thành phần phổ biến đoạn • TS Nguyễn Thị Minh Huyền (2003) cộng nghiên cứu gán nhãn từ loại dựa hệ thống từ loại nhóm đề xuất Nhóm tác giả xây dựng từ điển tiếng Việt có từ loại sử dụng phần mềm gán nhãn từ loại VNQTAG để thực gán nhãn từ loại dựa khối ngữ liệu học • TS Đinh Điền cộng (2004) xây dựng kho ngữ liệu song ngữ Anh Việt phục vụ dịch máy Tác giả phát triển thuật tốn TBL mơ hình BTL…giải số tốn quan trọng tiếng Anh, tiếng Việt tách từ, gán nhãn từ loại, khử nhập nhằng, dịch máy… Các kết sở bước đầu giúp nhóm đề tài triển khai đề tài nghiên cứu xây dựng phát triển số cơng cụ hỗ trợ phân tích, tổng hợp văn tiếng Việt 1.2 MỤC TIÊU CỦA ĐỀ TÀI Đề tài tập trung nghiên cứu nội dung sau: 1.2.1.Nghiên cứu đặc trưng văn tiếng Việt - Một số khía cạnh từ vựng, ngữ pháp, ngữ nghĩa văn tiếng Việt - Các phương pháp đặc trưng văn nói chung văn tiếng Việt nói riêng - Các phương pháp tách từ, gán nhãn từ loại, trích cụm danh từ 1.2.2 Xây dựng kho ngữ liệu - Xây dựng kho ngữ liệu lĩnh vực CNTT - Xây dựng từ điển đồng nghĩa lĩnh vực CNTT 1.2.3.Nghiên cứu, xây dựng công cụ phân loại, tạo tổng lược văn tiếng Việt lĩnh vực công nghệ thông tin a ) Công cụ phân loại văn lĩnh vực CNTT - Nghiên cứu phương pháp phân loại văn có - Phát triển mơ hình phân loại văn tiếng Việt lĩnh vực CNTT có xem xét ngữ nghĩa b) Cơng cụ tạo tóm tắt văn lĩnh vực CNTT − Nghiên cứu phương pháp tạo tóm lược văn − Phát triển mơ hình trích lược văn tiếng Việt lĩnh vực CNTT có xem xét ngữ nghĩa 1.3 CẤU TRÚC CÁC CHƯƠNG MỤC CỦA BÁO CÁO Chương 1: Tổng quan Chương trình bày tổng quan đề tài nghiên cứu, xác định nhiệm vụ nghiên cứu, toán cần giải cấu trúc chương mục báo cáo Chương 2: Rút trích cụm danh từ để đặc trưng văn Chương trình bày nghiên cứu công đoạn tách câu, tách từ, gán nhãn từ loại, rút trích cụm danh từ xây dựng phần mềm rút trích cụm danh từ văn tiếng Việt Chương 3: Xây dựng từ điển tổng hợp kho ngữ liệu Chương trình bày cách xây dựng từ điển đồng nghĩa, gần nghĩa từ lĩnh vực CNTT nhằm giải vấn đề ngữ nghĩa xử lý văn tiếng Việt Chương trình bày cấu trúc từ điển Wordnet, LDOCE, khoảng cách ngữ nghĩa để đo tương đồng nghĩa từ Dựa nguồn liệu như: từ điển Wordnet, từ điển LDOCE, từ điển từ đồng nghĩa, từ liên quan lĩnh vực CNTT, nhóm đề tài xây dựng từ điển đồng nghĩa, gần nghĩa thuật ngữ lĩnh vực CNTT Nhiệm vụ thứ hai nhóm đề tài xây dựng kho ngữ liệu phục vụ cho việc triển khai chức tách từ, gán nhãn từ loại, phân loại văn bản, trích lược nội dung Các chức xây dựng theo tiếp cận học máy, cần tập liệu huấn luyện để huấn luyện mơ hình kiểm tra độ xác mơ hình đề xuất Nhóm đề tài sưu tầm tổ chức kho ngữ liệu tách từ, gán từ loại, ngữ liệu phục vụ toán phân lớp thơng điệp, ngữ liệu để đánh giá kết trích lược nội dung văn Chương : Phát triển hệ thống phân loại văn tiếng Việt phương pháp Naive Bayes ứng dụng để phân lớp thông điệp diễn đàn thảo luận qua mạng Chương trình bày mơ hình phân lớp Naive Bayes để phân lớp văn bản, cách đặc trưng văn cho mô hình Naive Bayes.Cách bổ sung ngữ nghĩa vào tóan phân lọai văn Bên cạnh đó, chương trình bày ứng dụng phân loại thơng điệp tiếng Việt diễn đàn thảo luận qua mạng nhằm mục tiêu hỗ trợ công việc quản lý nôi dung diễn đàn thảo luận Chương 5: Tóm tắt vằn theo hướng trích lược Chương trình bày nghiên cứu tóm tắt văn theo hướng tóm lược theo hướng trích lược Những vấn đề liên quan đến trích lược trang Web tiếng Việt có xem xét ngữ cảnh trang Web Vấn đề đánh giá kết tóm tắt văn Chương 6: Xây dựng chương trình trích lược văn Chương trình bày bước xây dựng chương trình trích lược văn gồm cơng việc trích thơng tin trang Web phân vùng tạm thời, trích thơng tin ngữ cảnh trang Web, tách câu, tách từ, gán nhãn từ loại, phát cụm danh từ, so sánh nghĩa từ, biểu diễn câu không gian vec-tơ cụm danh từ phổ biến, gom cụm câu trích câu trội Bên cạnh đó, chương trình bày thử nghiệm chương trình cài đặt đối sánh kết với chức autosummarize Microsoft Word kết qủa chuyên gia tạo Chương 7: Gom cụm văn mạng Kohonen trích lược nội dung nhiều văn Chương trình bày cách bước xây dựng chương trình trích lược nội dung nhiều văn bao gồm biểu diễn văn cụm danh từ, cách rút gọn chiều vector đặc trưng dựa vào thành phần đồng nghĩa gần nghĩa qua đồ thị đồng hiện, mạng Kohonen tốn gom cụm nhiều văn Qúa trình trích rút câu trội từ cụm văn có nội dung tương tự Chương 8: Tổng kết hướng phát triển Chương tổng kết kết qủa làm định hướng nghiên cứu tương lai Bên cạnh đó, chương cịn liệt kê 07 cơng trình khoa học cơng bố danh sách 05 học viên cao học bảo vệ thành cơng luận văn có liên quan đến đề tài nghiên cứu CHƯƠNG RÚT TRÍCH CỤM DANH TỪ ĐỂ ĐẶC TRƯNG VĂN BẢN 2.1 MỞ ĐẦU Các tiếp cận trước sử dụng dãy từ phổ biến (dãy từ lặp lặp lại nhiều lần văn bản) [5],[6],[9] để đặc trưng văn Do dùng dãy từ nên xử lý ngữ nghĩa từ Trong đề tài này, sử dụng cụm danh từ phổ biến làm yếu tố đặc trưng văn Các danh từ cụm danh từ thường mơ tả khái niệm văn bản, tạo điều kiện đưa ngữ nghĩa vào toán phân lớp văn bản, trích lược nội dung như: vấn đề từ đồng nghĩa, từ gần nhau, từ liên quan nghĩa nhằm nâng cao hiệu phân lớp văn Trong tiếng Việt, đa phần danh từ cụm danh từ thường mang ý nghĩa chuyển tải nội dung câu Để trích cụm danh từ tiếng Việt có nhiều cách tiếp cận khác nhau, từ việc học luật chuyển đổi từ ngữ liệu mà cơng trình E Brill giải pháp tiêu biểu đến tiếp cận sử dụng luật chuyên gia ngôn ngữ tạo nên Trong nghiên cứu này, chọn giải pháp tách từ, gán từ loại, sau dựa cấu trúc cụm danh từ để trích rút cụm danh từ từ từ gán từ loại thiếu nguồn ngữ liệu giải cụm danh từ tiếng Việt Trong tiếng Anh, từ nhận diện dựa vào khoảng trắng dấu chấm câu Đối với tiếng Việt, khoảng trắng dấu hiệu để nhận diện ranh giới từ Do tốn tách từ, gán nhãn từ loại, trích cụm danh từ cơng việc phức tạp q trình xử lý văn tiếng Việt 2.2 TÁCH CÂU Quá trình tách câu nói chung cơng việc khó Hiện có hai tiếp cận để giải toán tách câu Tiếp cận sử dụng ngữ liệu dùng thuật toán để rút luật tạo nhân diện điểm tách câu Tiếp cận sử dụng luật để xác định câu, Trong đề tài này, sử dụng tiếp cận xây dựng số luật tách câu sau: Đoạn văn duyệt cho ngắt câu gặp ký tự ngắt câu “.” (chấm), “!” (chấm than), “?” (chấm hỏi), với điều kiện ký tự (có thể có ký tự “khoảng trắng” giữa) ký tự viết in Cách làm loại bỏ trường hợp ngắt câu như: - Dấu “.” ngắt câu mà dấu chuỗi số Lúc ký tự dấu chấm phải số, ký tự viết in - Dấu “.” loạt “dấu ba chấm” bên câu, chưa phải cuối câu Lấy số ví dụ: 10 + Cụm 4: Gồm văn {th6.txt…th10.txt,ty8.txt} + Cụm 5: Gồm văn {ty2.txt ty4.txt,cntt1.txt} + Cụm 6: Gồm văn {pl1.txt…pl4.txt,ty1.txt} + Cụm 7: Gồm văn {ty6.txt,ty7.txt,ty10.txt} + Cụm 8: Gồm văn {cntt7.txt cntt10.txt,pl6.txt} + Cụm 9: Gồm văn {gd9.txt,gd10.txt,pl5.txt,pl8.txt,pl9.txt} Ta tiến hành tính giá trị độ đo kết phương pháp gom cụm truyền thống phương pháp gom cụm tay o Độ đo Precision Người Cụm Cụm Cụm Cụm Cụm Máy Cụm 5/7 0 2/7 Cụm 2/7 5/7 Cụm 0 8/8 0 Cụm 5/6 1/6 0 Cụm 3/4 1/4 Cụm 1/5 0 4/5 Cụm 3/3 0 Cụm 0 4/5 1/5 Cụm 0 2/5 3/5 o Độ đo Recall Người Cụm Cụm Cụm Cụm Cụm Máy Cụm 5/10 0 2/10 Cụm 2/10 5/10 Cụm 0 8/10 0 Cụm 5/10 1/10 0 Cụm 3/10 1/10 Cụm 1/10 0 4/10 Cụm 3/10 0 Cụm 0 4/10 1/10 Cụm 0 2/10 3/10 Độ đo F-Measure Cụm Cụm Cụm Cụm Máy Cụm 0.588 0 Cụm 0.333 0.588 Cụm 0 0.888 Cụm 0.555 0.125 0 Cụm 0.429 0.143 Cụm 0.133 0 Cụm 0.461 0 Cụm 0 0.533 Cụm 0 0.266 Max 0.588 0.461 0.888 0.588 Tổng Max=0.588+0.461+0.888+0.588+0.533=3.058 • Phương pháp gom cụm có xem xét đến ngữ nghĩa từ: o Người 117 Cụm 0.235 0 0 0.533 0.133 0.4 0.533 Số cụm danh từ phổ biến (ngưỡng phổ biến 2): 771 cụm danh từ phổ biến o Số cụm văn thu được: cụm + Cụm 1: Gồm văn {gd3.txt…gd10.txt} + Cụm 2: Gồm văn {th1.txt th6.txt, ty1.txt,ty2.txt} + Cụm 3: Gồm 10 văn {ty3.txt…ty10.txt, pl2.txt,pl9.txt} + Cụm 4: Gồm văn {th7.txt…th10.txt,gd2.txt,cntt1.txt} + Cụm 5: Gồm văn {cntt2.txt…cntt9.txt} + Cụm 6: Gồm văn {pl1.txt,pl3.txt…pl8.txt,cntt10.txt} + Cụm 7: gồm văn {gd1.txt, pl10.txt} o Ta tiến hành tính giá trị độ đo kết phương pháp gom cụm có xem xét đến ngữ nghĩa từ phương pháp gom cụm tay o Độ đo Precision Người Cụm Cụm Cụm Cụm Cụm Máy Cụm 0 8/8 0 Cụm 6/8 2/8 0 Cụm 8/10 0 2/10 Cụm 4/6 1/6 1/6 Cụm 0 8/8 Cụm 0 1/8 7/8 Cụm 0 1/2 1/2 Độ đo Recall Người Cụm Cụm Cụm Máy Cụm 0 8/10 Cụm 6/10 2/10 Cụm 8/10 Cụm 4/10 1/10 Cụm 0 Cụm 0 Cụm 0 1/10 o Độ đo F-Measure Người Cụm Cụm Cụm Máy Cụm 0 0.889 Cụm 0.666 0.222 Cụm 0.8 Cụm 0.5 0.125 Cụm 0 Cụm 0 Cụm 0 0.167 Max 0.666 0.8 0.889 Tổng Max=0.666+0.8+0.889+0.889+0.778=4.022 o 118 Cụm 0 1/10 8/10 1/10 Cụm 0 2/10 0 7/10 1/10 Cụm 0 0.125 0.889 0.111 0.889 Cụm 0 0.2 0 0.778 0.167 0.778 7.5.2.1.Thử nghiệm Số văn bản: 100 văn thuộc thể loại: Thể thao, tình yêu, giáo dục, công nghệ thông tin, pháp luật Mỗi thể loại gồm 20 văn + Kích thước lớp Kohonen là: 6x6 + Chu kỳ lặp : 1000 + Chu kỳ cập nhật bán kính: 20 Kết quả: • Phương pháp gom cụm tay: cụm + Cụm 1: Gồm 20 văn {th1.txt, th2.txt…th20.txt} + Cụm 2: Gồm 20 văn {ty1.txt, ty2.txt…ty20.txt} + Cụm 3: Gồm 20 văn {gd1.txt, gd2.txt…gd20.txt} + Cụm 4: Gồm 20 văn {cntt1.txt, cntt2.txt…cntt20.txt} + Cụm 5: Gồm 20 văn {pl1.txt, pl2.txt…pl20.txt} • Phương pháp gom cụm truyền thống (không xem xét đến ngữ nghĩa từ): o Số cụm từ phổ biến (ngưỡng phổ biến 2): 2986 cụm từ phổ biến o Số cụm văn thu được: 10 cụm + Cụm 1: Gồm 15 văn {th1.txt…th5.txt, th17.txt…th20, gd18.txt…gd20,cntt1.txt…cntt3.txt} + Cụm 2: Gồm 10 văn {cntt4.txt…cntt11.txt, pl19.txt…pl20.txt} + Cụm 3: Gồm 13 văn {ty17.txt ty20.txt, cntt12.txt…cntt20.txt} + Cụm 4: Gồm văn {pl13.txt…pl18.txt,ty1.txt} + Cụm 5: Gồm 11 văn {ty4.txt ty12.txt,pl1.txt…pl2.txt} + Cụm 6: Gồm văn {pl3.txt…pl9.txt, ty2.txt…ty3.txt} + Cụm 7: Gồm 12 văn {ty6.txt…ty13.txt,gd14.txt…gd17.txt} + Cụm 8: Gồm văn {pl10.txt pl12.txt, ty13…ty16} + Cụm 9: Gồm văn {gd1.txt…gd6.txt,th14.txt…th16.txt} + Cụm 10: Gồm văn {gd7.txt…gd13.txt} Ta tiến hành tính giá trị độ đo kết phương pháp gom cụm truyền thống phương pháp gom cụm tay o Độ đo Precision: Máy Người Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm 10 9/15 0 0 8/12 3/9 Cụm 0 4/13 1/7 9/11 2/9 4/7 0 Cụm 3/15 0 0 4/12 6/9 7/7 119 Cụm 3/15 8/10 9/13 0 0 0 Cụm 2/10 6/7 2/11 7/9 3/7 0 o Máy Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm 10 o Máy Độ đo Recall Người Cụm Người Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm Cụm 10 Max Cụm 3/20 0 0 4/20 6/20 7/20 Cụm 3/20 8/20 9/20 0 0 0 Cụm 2/20 6/20 2/20 7/20 3/20 0 Độ đo F-Measure Cụm Cụm 0.522 0 0 0.242 0.074 0.58 0.138 0.5 0 0.296 0.187 0 Cụm 0.171 0 0 0.25 0.414 0.518 Cụm 0.171 0.533 0.564 0 0 0 Cụm 0.133 0.444 0.031 0.483 0.222 0 0.522 0.518 0.564 0.483 9/20 0 0 8/20 3/20 Cụm 0 4/20 1/20 9/20 2/20 4/20 0 0.58 Tổng Max= 0.522+0.58+0.518+0.564+0.483= 2.667 • Phương pháp gom cụm có xem xét đến ngữ nghĩa từ: o Số cụm danh từ phổ biến (ngưỡng phổ biến 2): 1259 cụm danh từ phổ biến o Số cụm văn thu được: cụm + Cụm 1: Gồm 14 văn {th1.txt th11.txt,ty1.txt…ty3.txt} + Cụm 2: Gồm 12 văn {gd9.txt…gd20.txt, } + Cụm 3: Gồm 17 văn {cntt1.txt…cntt14.txt, pl16.txt…pl18.txt} + Cụm 4: Gồm 15 văn {pl1.txt…pl15.txt} + Cụm 5:Gồm 15 văn {ty7.txt…ty20.txt,pl20.txt} + Cụm 6: Gồm 10 văn {th12.txt…th20.txt,pl19.txt} + Cụm 7: gồm 17 văn {gd1.txt…gd8.txt, cntt15…cntt20, ty4.txt…ty6.txt} Ta tiến hành tính giá trị độ đo kết phương pháp gom cụm có xem xét đến ngữ nghĩa từ phương pháp gom cụm tay 120 Độ đo Precision Cụm Cụm 11/14 3/14 0 0 0 14/15 9/10 0 3/17 Cụm 12/12 0 0 8/17 Cụm 0 14/17 0 6/17 Cụm 0 3/17 15/15 1/15 1/10 Độ đo Recall Cụm Cụm 11/20 3/20 0 0 0 14/20 9/20 0 3/20 Cụm 12/20 0 0 8/20 Cụm 0 14/20 0 6/20 Cụm 0 3/20 15/20 1/20 1/20 Độ đo F-Measure Người Cụm Cụm Cụm Máy Cụm 0.647 0.176 0.75 Cụm 0 Cụm 0 Cụm 0 Cụm 0.8 Cụm 0.6 0 Cụm 0.162 0.432 Max 0.647 0.8 0.75 Tổng Max=0.647+0.8+0.75+0.757+0.857=3.811 Cụm 0 0.757 0 0.324 0.757 Cụm 0 0.162 0.857 0.057 0.067 0.857 o Máy Người Cụm Cụm Cụm Cụm Cụm Cụm Cụm o Máy Người Cụm Cụm Cụm Cụm Cụm Cụm Cụm o 7.5.2.3.Đánh giá kết gom cụm có ngữ nghĩa Từ hai thử nghiệm tính tổng giá trị lớn độ đo F-Measure ta thấy tổng giá trị lớn độ đo F-Measure gom cụm phương pháp có xem xét đến ngữ nghĩa từ lớn nhiều so với phương pháp truyền thống (không xem xét đến ngữ nghĩa từ), kết phương pháp có gom cụm văn có xem xét đến ngữ nghĩa từ tốt phương pháp gom cụm không xem xét đến ngữ nghĩa từ 121 7.6 TRÍCH RÚT CÂU QUAN TRỌNG 7.6.1 Trích câu quan trọng Cho D={d1,d2, ,dm} tập m văn cần gom cụm Sau sử dụng mạng Kohonen, có tập hợp cụm C={c1,c2, ,ck}, với k nhỏ so với m Cho ci ∈ C, gọi w(ci) tập cụm danh từ đặc trưng cho cụm ci Gọi s câu văn D w(s) tập cụm danh từ đặc trưng cho câu s Gọi T ngưỡng số nguyên dương cho trước, T phản ánh số cụm danh từ tối thiểu vừa có mặt w(ci) vừa có mặt w(s) Trong thử nghiệm cho T=2,3,4, Gọi S tập câu quan trọng ( câu có chức nhiều cụm danh từ tập đặc trưng cụm) văn tương đồng cụm Chúng tơi đề xuất thuật tốn sau để tạo tập S chứa câu quan trọng S=∅ For each cụm c ∈ C For each văn d ∈ c For each câu s văn d If |w(s) ∩ w(ci)| ≥ Threshold S=S ∪{s} Endif Endfor && câu s Endfor && văn d Endfor && cụm c 7.6.2 Trích các câu đặc biệt Câu đặc biệt câu nằm phần tiêu đề, câu có chứa từ như: ”nhìn chung”, ”nói tóm lại”,”kết luận”, ”điều quan trọng là”, 7.7.XÂY DỰNG CHƯƠNG TRÌNH 7.7.1 Các khối chức Do phải xử lý khối ngữ liệu văn lớn để giảm thiểu thời gian xử lý hệ thống, chia thành khối chức chạy tách biệt nhau: a) Khối 1: Gồm bước: o Bước 1: Tiền xử lý tài liệu, loại bỏ phần không cần thiết văn o Bước 2: Tách văn thành câu nhằm tạo điều kiện cho việc tách từ gán nhãn từ loại bước o Bước 3: Xử lý ngôn ngữ tự nhiên bao gồm công đoạn tách từ, gán nhãn từ loại, phát cụm danh từ b) Khối 2: Gồm bước: o Bước 1: Tìm cụm danh từ phổ biến tập văn 122 o Bước 2: Đặc trưng văn bản, văn đặc trưng vec-tơ nhị phân o Bước 3: Điều chỉnh thành phần vec-tơ dựa ngữ nghĩa từ o Bước 4: Dùng mạng Konenen để gom cụm tập văn bản, kết ta thu cụm danh từ lớp Kohonen Các văn cụm có độ tương đồng lớn, văn khác cụm có mức độ tương đồng thấp o Bước 5: Cho phép người dùng trực quan hoá nội dung văn lớp Kohonen c) Khối 3: Trích câu quan trọng cụm 7.7.2 Chi tiết khối chức a) Khối chức 1: Hình 7.9 Màn hình trích cụm danh từ Màn hình trích cụm danh từ chia thành cửa sổ chính, cửa sổ bên trái hiển thị thư mục cho phép người dùng chọn văn cần xử lý trường hợp muốn xử lý văn Cửa sổ bên phải chứa cụm danh từ thu Màn hình chức trích cụm danh từ có hai chức chính: • Chức “thực thư mục”: Với chức hệ thống cho phép thực thi tất văn thư mục xét Điều cho phép người dùng chọn xử lý lúc nhiều văn bản, giảm chi phí thao tác điều khiển chương trình • Chức “Thực văn bản”: Chỉ cho phép người dùng xử lý văn mà thơi, điều cho phép người xử dụng kiểm tra dễ dàng kết thu 123 b) Khối chức Trong khối chức có chức với giao diện sau: b.1 Màn hình biểu mẫu Hình 7.10.: Màn hình biểu mẫu Trong hình này, người sử dụng chọn tập tin chứa cụm danh từ theo dạng hậu tố xây dựng từ trước (khối chức 1) tạo tập tin Nhấn nút “Thêm” để chọn vào danh sách cần xử lý Nhất nút “Loại” để loại mà ta không quan tâm khỏi danh sách nhấn nút “Cây rỗng” để hệ thống tạo hoàn tồn rỗng khơng có liệu với tên gọi người sử dụng đặt Tiếp đó, người sử dụng chọn từ danh sách, hệ thống tự động thông báo chọn văn có EditText dưới.Cuối bấm nút “Kế tiếp” để tiến hành thao tác chọn 124 b.2 Màn hình tăng cường Hình 7.11 Màn hình tăng cường vào Màn hình cho phép người dùng điều khiển chương trình thơng qua chức năng: • “Add”: Cho phép người dùng chọn xử lý nhiều văn từ hộp hội thoại (Dialog) chọn file Các file chọn hiển thị List box bên trái hình • “Delete”: Cho phép người xoá file từ List box chứa văn cần tăng cường • “>”: Tăng cường văn chọn từ List bên trái • “>>”: Tăng cường tất văn có List bên trái b.3 Màn hình xem nội dung văn Hình 7.12 Hiển thị nội dung văn 125 Màn hình cho phép người dùng trực quan nội dung của văn bản, người dùng click đôi vào file hình 7.11 b.4 Màn hình xem cụm danh từ văn Hình 7.13 Màn hình trực quan cụm danh từ Màn hình cho phép người dùng theo dõi, trực quan hoá cụm danh từ văn tăng cường người dùng click đôi vào lưới bên phải hình 7.10 b.5 Màn hình xem danh sách cụm danh từ phổ biến Hình 7.14: Màn hình xem cụm danh từ phổ biến Trong hình hiển thị thơng tin cụm danh từ phổ biến, cột đầu cho biết tần xuất xuất cụm danh từ tập văn Cột thứ hai hiển thị nội dung cụm danh từ phổ biến toàn tập văn 126 b.6 Màn hình gom cụm văn lớp Kohonen đặc trưng vector cụm Hình 7.15: Màn hình cụm văn tương đồng đặc trưng chung c) Khối chức Hình 7.16.: Màn hình tơ màu câu trội văn 127 Màn hình trích câu trội thành tập tin Hình 7.17.: Màn hình rút câu trội văn 7.8 KẾT CHƯƠNG Trong chương này, chúng tơi trình bày nghiên cứu xây dựng phần mềm sử dụng mạng Kohonen công cụ xử lý ngôn ngữ tự nhiệm để gom tập văn thành cụm văn có nội dung tương tự nhau, sau rút trích câu quan trọng tập văn tương đồng cụm Các văn đặc trưng vector cụm danh từ phổ biến Các cụm danh từ rút trích cơng cụ tách từ, gán nhãn từ loại, trích cụm danh từ nghiên cứu chương Chương trình bày nghiên cứu để cải tiến tốc độ huấn luyện mạng Kohonen dựa đặc điểm vùng lân cận nơron chiến thắng tính chất thưa vector đặc trưng văn CHƯƠNG TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN Chương tổng kết kết đề tài đề xuất hướng phát triển đề tài tương lai Bên cạnh kết nghiên cứu, triển khai, nhóm đề tài cơng bố 07 cơng trình khoa học có liên quan đến đề tài nghiên cứu có 05 học viên cao học bảo vệ thành công luận văn thạc sĩ theo hướng đề tài 8.1 CÁC KẾT QUẢ CỦA ĐỀ TÀI Nhóm đề tài thực phần việc sau đây: 128 − Thu thập xây dựng từ điển đồng nghĩa, gần nghĩa tiếng Việt thông dụng lĩnh vực CNTT gồm từ điển: từ điển Wordnet gốc, từ điển đồng nghĩa, từ điển phân cấp LLOCE tiếng Việt, từ điển từ có liên quan lĩnh vực CNTT, từ điển thuật ngữ tin học nhằm bổ sung ngữ nghĩa vào tốn phân loại, gom cụm, tạo trích lược nội dung văn − Xây dựng số kho ngữ liệu như: kho ngữ liệu có gán nhãn phục vụ huấn luyện mơ hình tách từ, gán nhãn từ loại Kho ngữ liệu thông điệp văn tiếng Việt phục vụ phân loại đánh giá kết phân loại văn − Phát triển modun trích cụm danh từ văn tiếng Việt phục vụ đặc trưng văn tiếng Việt cụm danh từ − Nghiên cứu đề xuất giải pháp phân lớp, gom cụm có ngữ nghĩa cụm danh từ dựa đồ thị đồng từ điển đồng nghĩa, gần nghĩa − Nghiên cứu xây dựng hệ thống phân loại văn tiếng Việt phương pháp Naive Bayes áp dụng vào phân lớp thông điệp tiếng Việt diễn đàn thảo luận − Nghiên cứu xây dựng hệ thống tạo trích lược văn tiếng Việt lĩnh vực CNTT Web − Nghiên cứu xây dựng hệ thống tạo trích lược nhiều văn tiếng Việt lĩnh vực CNTT dựa việc gom cụm văn mạng Kohonen 8.2 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ CĨ LIÊN QUAN ĐẾN ĐỀ TÀI Dựa kết đề tài, nhóm đề tài cơng bố 07 cơng trình khoa học tạp chí hội thảo chuyên ngành CNTT sau: Đỗ Phúc, Hoàng Kiếm (2004), Rút trích ý từ văn tiếng Việt hỗ trợ tạo tóm tắt nội dung, Tạp chí Bưu Viễn thơng & Cơng nghệ thơng tin; Chun san cơng trình nghiên cứu- triển khai viễn thơng công nghệ thông tin, Số 13, tr 59-65 129 Do Phuc, Hoang Kiem (2005)-Improving learning algorithm of Selforganizing map for document clustering, In proceedings of the 3rd international conference on research Innovation and Vision of the Future, RIVF’05, Vietnam, pp 173-176 Đỗ Phúc, Hồ Anh Thư (2005)–Rút trích tóm tắt nội dung trang Web tiếng Việt, Tạp chí Phát triển Khoa học Cơng nghệ, ĐHQG-HCM, tập 8, số 10, tr 13-22 Do Phuc (2006), Document classification using graph model, frequent subgraphs and Galois lattice, In Proceedings of the 4th IEEE International conference on computer science research, innovation and revision for the future, RIVF’06, VietNam, pp 173-176 Đỗ Phúc (2006), Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn tiếng Việt có xem xét ngữ nghĩa, Tạp chí Phát triển Khoa học Cơng nghệ ĐHQG – HCM, tập 9,số 2, tr 23-32, 2006 Do Phuc, Mai Xuan Hung, Hoang Kiem (2006), Using Kohonen Neural Network and Natural Language Processing for Extracting Salient Sentences in the Corpus of Scientific papers, hội thảo Kỷ niệm 30 năm ngày thành lập viện Công nghệ thông tin, Viện Khoa học Công nghệ Việt Nam 19762006 Do Phuc, Nguyen Thi Kim Phung(2007), Using Naïve Bayes Model and Natural Language Processing for Classifying Messages on Online Forum, In In Proceedings of the IEEE International conference RIVF’07 conference,VietNam, pp 247-252 8.3 DANH SÁCH CÁC HỌC VIÊN CAO HỌC ĐÃ BẢO VỆ THÀNH CÔNG LUẬN VĂN THẠC SỸ CNTT THEO HƯỚNG ĐỀ TÀI STT Họ Tên Đề tài Cơ sở đào tạo Trần Thế Lân Trường ĐHKHTN, 2004 Hồ Anh Thư Nghiên cứu ứng dụng tập thô vào tốn phân loại văn Rút trích nội dung trang web dựa vào ngữ cảnh 130 Trường ĐHKHTN, 2005 trang Web Nguyễn Thị Kim Phụng Phát triển công cụ hỗ trợ quản trị nội dung diễn đàn thảo luận qua mạng Trường ĐHKHTN, 2005 Trịnh Minh Tuấn Trường ĐHCNTT,2006 Mai Xuân Hùng Ưng dụng kỹ thuật khai thác đồ thị vào lĩnh vực phân lớp văn tiếng Việt Gom cụm văn mạng SOM dựa cụm danh từ văn tiếng Việt Trường ĐHCNTT, 2006 8.4 HƯỚNG PHÁT TRIỂN Nhóm đề tài tiếp tục nghiên cứu phát triển nội dung: − Nậng cao độ xác phần mềm trích cụm danh từ tiếng Việt − Hoàn chỉnh từ điển đồng nghĩa, gần nghĩa tiếng Việt − Nâng cao khả giải vấn đề ngữ nghĩa toán phân loại trích lược nội dung văn − Tạo tóm tắt văn theo hướng tóm lược 131 ... xây dựng phát triển số cơng cụ hỗ trợ phân tích, tổng hợp văn tiếng Việt 1.2 MỤC TIÊU CỦA ĐỀ TÀI Đề tài tập trung nghiên cứu nội dung sau: 1.2.1.Nghiên cứu đặc trưng văn tiếng Việt - Một số khía... công cụ phân loại, tạo tổng lược văn tiếng Việt lĩnh vực công nghệ thông tin a ) Công cụ phân loại văn lĩnh vực CNTT - Nghiên cứu phương pháp phân loại văn có - Phát triển mơ hình phân loại văn. .. thơng tin văn phân loại văn bản, truy vấn văn bản, tóm lược văn nhằm hỗ trợ nhu cầu khai thác, xử lý thơng tin nhanh chóng hiệu Trên giới có nhiều sản phẩm phần mềm hỗ trợ phân tích, tổng hợp thơng

phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt

Nguồn dữ liệu từ điển LDOCE

XÂY DỰNG HỆ THỐNG 1 Mơ tả chương trình