phương pháp tóm tắt văn bản tiếng việt bằng textrank

78 1 0
  • Loading ...
1/78 trang

Thông tin tài liệu

Ngày đăng: 07/05/2020, 23:15

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI TẠ HỒNG ĐÔNG LUẬN VĂN THẠC SỸ CÔNG NGHỆ THƠNG TIN PHƢƠNG PHÁP TĨM TẮT VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK TẠ HỒNG ĐÔNG 2015-2017 HÀ NỘI - 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ PHƢƠNG PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK TẠ HỒNG ĐÔNG CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.018 NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN LONG GIANG HÀ NỘI - 2017 i LỜI CAM ĐOAN Tác giả xin cam đoan luận văn đƣợc hoàn thành sở nghiên cứu, tổng hợp phát triển nghiên cứu tóm tắt văn nƣớc giới tác giả thực Luận văn mới, nghiên cứu luận văn tác giả thực hiện, qua q trình nghiên cứu đƣa khơng chép nguyên từ nguồn tài liệu khác TÁC GIẢ LUẬN VĂN Tạ Hồng Đông ii LỜI CẢM ƠN Em xin chân thành cảm ơn thầy cô, cán viên chức Khoa Sau đại học Viện Đại học Mở Hà Nội nhiệt tình quan tâm tạo nhiều điều kiện thuận lợi cho em trình thực luận văn thạc sỹ Em xin chân thành cảm ơn thầy giáo TS Nguyễn Long Giang nhiệt tình hƣớng dẫn, động viên, hỗ trợ em suốt trình thực luận văn, giúp em vƣợt qua hạn chế thân khó khăn q trình nghiên cứu để hồn thành luận văn thành cơng, thời hạn Em xin gửi lời cảm ơn tới thầy cô giảng dạy em 02 năm học tập trƣờng, ngƣời truyền đạt cho em không kiến thức, kinh nghiệm quý báu, mà câu chuyện sống, học làm ngƣời ý nghĩa Những kiến thức, học đã, tiếp tục hành trang, động lực giúp em tự hồn thiện thân, vƣợt qua khó khăn vững bƣớc đƣờng phía trƣớc Em xin cảm ơn thầy Phòng tin học quản lý - Viện Công Nghệ Thông Tin, Viện Hàn Lâm Khoa Học Công Nghệ Việt Nam giúp đỡ, hỗ trợ em nhiều để hoàn thành luận văn Tôi xin chân thành cảm ơn giúp đỡ nhiệt tình bạn bè động viên, giúp đỡ thời gian học tập nghiên cứu Cuối cùng, tơi xin gửi lời cảm ơn đến gia đình, ngƣời thân đồng nghiệp động viên, giúp đỡ khuyến khích tơi vƣợt qua lúc khó khăn sống, học tập công việc Xin chân thành cảm ơn! Hà Nội, tháng 12 năm 2017 Tác giả Tạ Hồng Đông iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC .iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ vi CHƢƠNG TỔNG QUAN TÓM TẮT VĂN BẢN.………………………… ….3 1.1 Giới thiệu chung khai phá liệu 1.1.1 Sự cần thiết khai phá liệu 1.1.2 Khai phá liệu 1.2 Tóm tắt văn tự động 1.2.1 Tóm tắt văn 1.2.2 Ứng dụng tóm tắt văn 10 1.2.3 Phân loại tóm tắt 10 1.2.4 Mô hình tóm tắt văn 14 1.2.5 Đánh giá văn tóm tắt 18 1.2.6 Một số đặc trưng khó khăn tóm tắt văn tiếng việt 21 1.3 Phát biểu toán đơn văn tiếng Việt 23 1.4 Kết luận chƣơng 1…………………………………………………………24 CHƢƠNG 2.TÓM TẮT ĐƠN VĂN BẢN THEO TEXTRANK………………….25 2.1 Thuật toán xếp hạng đồ thị 25 2.1.1 PageRank 25 2.1.2 HITS 28 2.1.3 Đánh giá so sánh PageRank HITS 31 2.2 Mô hình TextRank 31 2.2.1 Đồ thị vô hướng……………………………………………… ……………….31 2.2.2 Đồ thị có trọng số…………………………………………………… ….…32 2.2.3 Đồ thị hố văn bản………………………………………………… …34 2.2.4 Sử dụng TextRank trích xuất từ khố………………………………………34 2.2.5 Sử dụng TextRank trích rút câu……………………………………….…….39 2.3 Giải thuật TextRank .39 2.3.1 Giải thuật TextRank 39 iv 2.3.2 Các phương thức tính độ tương đồng 41 2.3.3 Nhận xét giải thuật TextRank 43 2.4 Kết luận chƣơng 2………………………………………………………… 45 CHƢƠNG XÂY DỰNG ỨNG DỤNG VÀ KẾT QUẢ 45 3.1 Tổng quan ứng dụng tóm tắt văn 45 3.2 Cài đặt ứng dụng tóm tắt văn 46 3.2.1 Mơ hình giải tốn 46 3.2.2 Tiền xử lý văn 47 3.2.3 Xây dựng đồ thị câu 49 3.2.4 Tính hạng câu đồ thị 50 3.2.5 Sinh văn tóm tắt 51 3.3 Thực nghiệm thuật toán 51 3.3.1 Cài đặt chương trình 51 3.3.2 Đánh giá ứng dụng 57 3.4 Kết luận chƣơng 3……………………………………… ………………….62 TÀI LIỆU THAM KHẢO PHỤ LỤC v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt ROUGE Tiếng Anh Recall-Oriented Tiếng Việt Understudy for Phƣơng pháp đánh giá độ tƣơng tự văn Gisting Evaluation HITS Hyperlinked - Induced Topic Search DUC Document Understanding Conference LNP Natural Language Processing TAC Text Analysis Conference Thuật toán tính hạng dựa phân tích liên kết Hội nghị chuyên hiểu văn Phƣơng pháp xử lý ngôn ngữ tự nhiên Hội nghị thƣờng niên phân tích văn vi DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quy trình text mining…………………………………………………… Hình 1.2 Minh hoạ trang báo điện tử sử dụng cơng cụ tóm tắt văn Hình 1.3 Mơ hình tóm tắt văn tự động 15 Hình 2.1 Mơ hình PageRank 26 Hình 2.2 Ý tƣởng PageRank 26 Hình 2.3 Mơ tả khái quát ý tƣởng PageRank 27 Hình 2.4 Trang Authority 29 Hình 2.5 Trang Hub 29 Hình 2.6 Mơ hình trang Authority trang Hub 30 Hình 2.7 Mơ hình trang Authority tốt trang hub tốt 30 Hình 2.8 Hệ thống để thực thuật toán xếp hạng dựa đồ thị………… 32 Hình Đƣờng cong hội tụ phƣơng pháp xếp hạng dựa đồ thị với đồ thị vơ hƣớng, có trọng số ………………………………………………………………….33 Hình 2.10 Đồ thị TextRank .40 Hình 2.11 Đồ thị TextRank với giá trị trọng số độ tƣơng đồng câu 43 Hình 3.1 Các bƣớc thực tóm tắt theo phƣơng pháp TextRank 46 Hình 3.2 Các bƣớc thực JVnTextpro3 ……………………………………….47 Hình 3.3 Bảng PreText đầy đủ .51 Hình 3.4 Cấu trúc chƣơng trình 52 Hình 3.5 Giao diện chƣơng trình 53 Hình 3.6 Thanh chọn hiển thị yêu cầu 53 Hình 3.7 Nút chọn tệp 53 Hình 3.8 Lựa chọn phần trăm độ dài tóm tắt 54 Hình 3.9 Nút tóm tắt .54 Hình 3.10 Nút hiển thị đồ thị 54 Hình 3.11 Chọn số nút hiển thị .54 Hình 3.12 Nút hiển thị tồn 54 vii Hình 3.13 Nút hiển thị TextRank 54 Hình 3.14 Giao diện văn chi tiết 55 Hình 3.15 Giao diện tóm tắt 55 Hình 3.16 Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút 56 Hình 3.17 Giao diện hiển thị 100% số nút 56 Hình 3.18 Giao diện hiển thị TextRank cho câu 57 Hình 3.19 Biểu đồ phân bố điểm đánh giá văn tóm tắt tập mẫu……………59 viii MỞ ĐẦU Tính cấp thiết đề tài Cơng nghệ thông tin, dịch vụ trực tuyến phát triển mạnh mẽ kèm theo với bùng nổ internet mang đến lƣợng thông tin khổng lồ cho ngƣời Rất nhiều ngƣời có nhu cầu tổng hợp tóm tắt lại thơng tin để thuận lợi cho việc tổng hợp thơng tin Tóm tắt liệu tự động lĩnh vực quan trọng, bao gồm học máy khai phá liệu Bài tốn tóm tắt liệu tự động khơng dừng lại tóm tắt văn mà mở rộng loại liệu đa phƣơng tiện nhƣ hình ảnh, âm video Xuất phát từ nhu cầu đó, phƣơng pháp tóm tắt tự động đƣợc nghiên cứu phát triển Hiện giới, nhiều nhà khoa học công ty tỏ quan tâm đến tốn tóm tắt văn tự động Tại hội nghị tiếng nhƣ: DUC 20012007, TAC 2008, ACL 2001-2007…, tóm tắt văn tự động đƣợc đề cập đến nhiều báo Ngồi ra, có nhiều hệ thống tóm tắt văn độc lập tích hợp đƣợc phát triển nhƣ: MEAD, LexRank, chức tự động tóm tắt Microsoft Word Tuy nhiên, kết nghiên cứu chƣa đƣợc đánh giá cụ thể Đồng thời số cơng cụ có sẵn khơng thích hợp cho tiếng Việt nên kết tóm tắt thấp, chƣa đáp ứng đƣợc yêu cầu ngƣời dùng, ví dụ nhƣ cơng cụ AutoSummarizer phần mềm Microsoft Word Vì tác giả lựa chọn nghiên cứu đề tài: “Phƣơng pháp tóm tắt văn tiếng Việt TextRank” thực cần thiết Mục tiêu nghiên cứu Tìm hiểu tổng quan tốn tóm tắt văn bản, thuật tốn xếp hạng đồ thị TextRank ứng dụng thuật toán TextRank xây dựng đồ thị câu, xếp hạng câu đồ thị Trên sở đó, xây dựng ứng dụng thử nghiệm tóm tắt đơn văn tiếng Việt phƣơng pháp TextRank Hệ thống đƣa việc trích chọn văn dựa vào phƣơng pháp textRank với mục tiêu tóm tắt cách chủ động với độ dài tóm tắt theo mong muốn ngƣời sử dụng, giúp ngƣời sử dụng nắm bắt thông tin cách dễ dàng, nhanh chóng xác  Giao diện đọc chi tiết Hình 3.14: Giao diện văn chi tiết  Giao diện tóm tắt báo Hình 3.15: Giao diện tóm tắt 55  Giao diện hiển thị kết đồ thị: Hình 3.16: Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút Hình 3.17: Giao diện hiển thị 100% số nút 56  Giao diện hiển thị kết tiền xử lý độ TextRank cho câu sau tiền xử lý Hình 3.18: Giao diện hiển thị TextRank cho câu Đánh giá ứng dụng giao diện desktop  Ứng dụng gần nhƣ cung cấp đầy đủ tính ứng dụng tóm tắt  Giao diện chƣơng trình thân thiện, dễ sử dụng  Chƣa thu thập đƣợc nhiều liệu từ nhiều trang báo khác 3.3.2 Đánh giá ứng dụng  Trong mục 1.2.6 c, có trình bày số phƣơng pháp để thực đánh giá tóm tắt văn  Trong phần này, Tác giả sử dụng công cụ đánh giá ROUGE [15] để thực đánh giá tóm tắt đơn văn a Cài đặt  Tải công cụ ROUGE 2.0 tại: http://kavita-ganesan.com/content/rouge-2.0  Sau tải công cụ, ta tiến hành cài đặt sử dụng theo hƣớng dẫn: http://kavita-ganesan.com/content/rouge-2.0-documentation 57 b Dữ liệu thực nghiệm Dữ liệu thực nghiệm tác giả sử dụng luận văn đƣợc lấy từ tập liệu đề tài “Nghiên cứu số phƣơng pháp tóm tắt văn tự động máy tính áp dụng cho Tiếng Việt”, TS Lê Thanh Hƣơng làm chủ nhiệm [3] Tập liệu bao gồm 205 văn đƣợc chia thành 06 chủ đề Danh sách chi tiết nhƣ sau: Bảng 3.1: Danh sách chủ đề số lƣợng văn tƣơng ứng STT Chủ đề Số văn Chính trị 31 Khoa học công nghệ 28 Khoa học – giáo dục 22 Kinh tế 53 Văn hóa 34 Xã hội 35 Độ dài văn tóm tắt đƣợc giới hạn 03 câu Độ dài gần tƣơng đƣơng với độ dài văn ngƣời tóm tắt Dữ liệu đƣợc đánh giá phƣơng pháp ROUGE với tham số:  Đánh giá toàn văn liệu  Sử đánh giá dựa vào n-gram độ dài từ  Khoảng tin cậy 95%  Không sử dụng từ gốc  Bao gồm từ dừng đánh giá  Kết đánh giá cuối kết trung bình toàn tập liệu  Điểm đánh giá đƣợc tính theo cơng thức (1.6) kết Precision, F-score đƣợc tính tốn từ điểm đánh giá c Thực nghiệm đánh giá với độ đo TextRank Kết đánh giá với chủ đề: 58 Bảng 3.2: Kết đánh giá hệ thống tóm tắt tự động sử dụng TextRank STT Tên tập liệu Recall Precision F-score Chính trị 0.87758 0.61987 0.71288 Khoa học công nghệ 0.88368 0.62573 0.71409 Khoa học - Giáo dục 0.75484 0.72373 0.72842 Kinh tế 0.72985 0.74748 0.72482 Văn hóa 0.80426 0.66301 0.69521 Xã hội 0.81503 0.74516 0.76178 Từ liệu bảng 3.2, ta có biểu đồ nhƣ hình 3.19 Biểu đồ thể điểm đánh giá (Recall) tập liệu Hình 3.19: Biểu đồ phân bố điểm đánh giá văn tóm tắt tập mẫu Nhận xét: Độ đo tƣơng đồng TextRank cho kết tốt, điểm đánh giá toàn tập liệu 0,7 Tập liệu cho kết tốt “Khoa học công nghệ” với điểm số đạt 0.88368 Tuy nhiên có vài tập liệu có kết thấp so với tập lại nhƣ “Kinh tế”, “Khoa học – Giáo dục” “Văn hóa” Biểu đồ hình 3.19 cho thấy khác biệt rõ điểm đánh giá tập 59 liệu Đó thể mức độ xác, chất lƣợng phƣơng pháp TextRank tập liệu với đặc điểm khác Bảng 3.3: Thời gian tóm tắt đánh giá liệu dùng TextRank STT Tên tập liệu TG tóm tắt Tổng TG Thời gian văn tóm tắt đánh giá Chính trị 0.3759 11.6545 24.4524 Khoa học công nghệ 0.3278 9.1792 31.0360 Khoa học - Giáo dục 0.6095 13.4111 19.0962 Kinh tế 0.5538 29.3524 43.7601 Văn hóa 1.0105 34.3579 20.0343 Xã hội 0.5326 18.6443 19.3999 Nhận xét Từ bảng 3.3 tác giả nhận thấy tốc độ tóm tắt văn phụ thuộc vào độ dài văn độ dài câu Điều phù hợp với thuật tốn TextRank Thuật tốn TextRank tính tốn đệ quy tồn văn bản, vậy, độ dài văn lớn thời gian lâu Đây nhƣợc điểm thuật toán Từ đặc điểm mà thuật tốn khó áp dụng miền ứng dụng mà độ dài liệu lớn Nhƣ vậy, phƣơng pháp tóm tắt phù hợp với loại hình văn dạng tin tức, văn nội dung ngắn gọn Thời gian tóm tắt trung bình văn toàn tập liệu 205 văn thấp, mức xấp xỉ 0,6 giây Đây số ấn tƣợng Nó cho thấy tiềm áp dụng phƣơng pháp TextRank vào thực tế Đặc biệt ứng dụng thời gian thực Đặc biệt, sau cải tiến phƣơng pháp nâng cao chất lƣợng văn tóm tắt tự động phƣơng pháp áp dụng vào việc tóm tắt nội dung tin tức báo điện tử Tiếng Việt Đây mong muốn tác giả thực luận văn thạc sĩ Kết thực nghiệm khảo sát cho thấy mức độ xác chƣơng trình tóm tắt văn dựa phƣơng pháp TextRank so với ngƣời chấp nhận đƣợc, bƣớc đầu tạo tiền đề xây dựng hệ thống tóm tắt văn tiếng Việt hồn chỉnh với độ xác cao 60 3.4 Kết luận chƣơng Trong chƣơng đề cập phƣơng pháp luận văn sử dụng để tóm tắt văn bản.Q trình thực trải qua bốn bƣớc, bƣớc tiền xử lý, xây dựng đồ thị, tính hạng câu sinh văn tóm tắt.Trên sở bƣớc tiền xử lý, xây dựng đồ thị, tính hạng câu sinh văn tóm tắt.Trên sở tốn tóm tắt văn bản, luận văn xây dựng ứng dụng thử nghiệm tóm tắt văn desktop.Luận văn tiến hành đánh giá thực nghiệm tóm tắt văn dựa phƣơng pháp TextRank Bên cạnh ứng dụng áp dụng đầy đủ tính ứng dụng giao diện tóm tắt văn thử nghiệm desktop Ngồi luận văn đánh giá thực nghiệm văn dựa theo độ đo Rouge 2.0 Tuy nhiên cần cải thiện tốc độ 61 KẾT LUẬN Kết đạt đƣợc Luận văn Luận văn tìm hiểu:  Những vấn đề chung khai phá liệu nói chung vận dụng vào tóm tắt văn bản, nắm vững bƣớc thực phƣơng pháp trích rút, tảng thuật toán sử dụng  Triển khai đƣợc chƣơng trình tóm tắt văn theo phƣơng pháp TextRank góp phần xây dựng ứng dụng tóm tắt giao diện java swing, bƣớc đầu tạo tiền đề xây dựng mộ hệ thống tóm tắt văn tiếng Việt hồn chỉnh với độ xác cao Xây dựng đƣợc ứng dụng thử nghiệm làm tiền đề để phát triển thiết bị khác cách xác Hạn chế luận văn  Luận văn chƣa thực việc cải tiến tiền xử lý văn đầu vào  Bộ cơng cụ JvnTextPro với độ xác cao nhƣng bên cạnh có trƣờng hợp chƣa xác Bƣớc tiền xử lý tốt nâng cao chất lƣợng văn tóm tắt  Việc thu thập liệu nhiều thời gian nên kích thƣớc tập mẫu nhỏ Vậy nên chƣơng trình chƣa có nhiều điều kiện thử nghiệm với tập liệu lớn Luận văn tiếp tục thu thập thêm tóm tắt mẫu để đánh giá hơn, khách quan chƣơng trình thực nghiệm Bên cạnh ứng dụng tóm tắt văn bản, chức tóm tắt báo thực thi mang tính chất tƣơng đối, chƣa thu thập đƣợc liệu từ nhiều báo Cũng nhƣ dừng lại mức độ báo, văn chuyển hoá sang thành văn word Định hƣớng tƣơng lai  Phát triển kỹ thuật đo độ tƣơng tự câu văn theo độ liên kết ngữ nghĩa để tăng tính hiệu chƣơng trình  Cải thiện bƣớc tiền xử lý để tăng độ xác nhƣ tốc độ tính tốn chƣơng trình 62  Nghiên cứu phƣơng pháp làm mƣợt kết đầu để thực việc tạo tóm tắt văn theo hƣớng tóm lƣợc (Abstract)  Tiếp tục phát triển đầy đủ chức ứng dụng tóm tắt thơng tin desktop  Cải tiến tốc độ tải tin, tốc độ tóm tắt báo  Chuyển ứng dụng sang thiết bị khác ví dụ nhƣ thiết bị di động, ipad… để tiện việc sử dụng toán  Xây dựng việc phân tích tóm tắt đƣợc văn gồm hình ảnh video mà khơng cần q trình lọc từ trƣớc  Thu thập liệu từ nhiều nguồn báo khác 63 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Diệp Quang Ban (chủ biên), Hoàng Văn Thung (1996), “Ngữ pháp tiếng Việt T1 - T2”, NXB Giáo dục, Hà Nội [2] Mai Ngọc Chừ, Vũ Đức Nghiệu, Hồng Trọng Phiến (1997), “Cơ sở ngơn ngữ học tiếng Việt”, NXB Giáo dục [3] Lê Thanh Hƣơng, Hà Quang Thụy, Trần Mai Vũ, Vũ Đức Thi, Nguyễn Thị Thu Trang, Hoàng Anh Việt Đỗ Bá Lâm (2014), Báo cáo tổng kết đề tài B2012 - 01- 24 “Nghiên cứu số phương pháp tóm tắt văn tự động máy tính áp dụng cho Tiếng Việt”, Trƣờng Đại học Bách Khoa Hà Nội, 2014 [4] Nguyễn Hà Nam, Nguyễn Chí Thành, Hà Quang Thụy (2013), “Giáo trình Khai phá liệu”, NXB ĐHQG Hà Nội [5] Nguyễn Lê Minh Phan Xuân Hiếu (2005), “Sentence extraction and support vector machine ensemble” [6] Đỗ Phúc, Mai Xuân Hùng Nguyễn Thị Kim Phụng (2008), “Ứng dụng vào việc rút trích nội dung khối thơng điệp diễn đàn thảo luận.”, “Tạp chí phát triển khoa học công nghệ, tập 11, số 05-2008” [7] Nguyễn Trọng Phúc and Lê Thanh Hƣơng (2008), “Tóm tắt văn tiếng Việt dựa vào cấu trúc diễn ngôn” [8] Nguyễn Cẩm Tú Phan Xuân Hiếu (2010), “JVnTextPro: A tool to process VietNamese vesion 2” [9] Trần Mai Vũ (2009), “Tóm tắt đa văn dựa vào trích xuất câu” Tiếng Anh [10] Chin-Yew Lin and Eduard Hovy (1997), Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 [11] Chin-Yew Lin and Eduard Hovy (2003), Automatic evaluation of summaries using n-gram co-occurrence statistics, In Human Technology Coference [12] H Luhn (1958) The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 [13] H Edmundson (1969), New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 [14] Inderjeet Mani and Mark T Maybury (eds) (1999), Advances in AutomaticText Summarization, MIT Press, 1999, ISBN 0-262-13359-8 [15] Jan O Pendersen, Kupiec Julian and Francine Chen (1995),A trainable document summarizer, Research and Development in Information Retrieval: 68– 73, 1995 [16] J.Kleinberg (1999), “Authoritative sources in a hyperlinked environment” [17] Kathleen R McKeown and Dragomir R Radev (1995),Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July [18] Lin and Hony (2014), “Rouge: A Package for Automatic Evaluation of summaries” [19] Luhn (1958), “The automatic creation of literature abstract” [20] Lin and Hovy (1998), “Automated text summarization and the SUMMARIST” [21] Mihalcea, P Tarau, and E Figa (2004), PageRank on semantic networks, with application to word sense disambiguation.In Proceedings of the 20st International Conference on Computational Linguistics (COLING 2004), Geneva, Switzerland [22] R.Mihalcea and P.Tarau (2004), TextRank: Bringing order into Texts [23] R.Mihalcea (2004), “Graph-based Ranking Algorithms for sentence Extraction Applied to Text Summarization” [24] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 1999 [24] S.Brin and L.Page (1998), “The Anatomy of a large-scale Hypertextual web search engine” PHỤ LỤC Văn gốc 1: "Ngơi nhà bình n"- Đơng ngƣời tìm đến đâu mừng Số ngƣời tìm đến với Ngơi nhà bình yên Hội Liên hiệp Phụ nữ VN ngày tăng mà phƣơng tiện thông tin đại chúng tun truyền nhiều mơ hình nhƣ việc phòng chống bạo lực gia đình (PCBLGĐ) Tuy nhiên, Ngơi nhà bình yên giải pháp trƣớc mắt tạm thời, để giải đƣợc nguyên, nguồn gốc ngăn chặn trƣớc xảy BLGĐ cần nhiều biện pháp đồng chung tay cấp quyền, cộng đồng, gia tộc thành viên gia đình Năm 2007 có 65 ngƣời tới năm 2012 có tới 813 ngƣời tìm tới để đƣợc tham vấn Đa số phụ nữ (hơn 90%), có 79% ca tham vấn BLGĐ, 14% mua bán ngƣời Nhóm tuổi chiếm tỷ lệ cao 26 đến 35 tuổi (30%) 36 đến 45 tuổi (23%) Hầu hết giai đoạn năm đầu hôn nhân Đây giai đoạn khó khăn đời sống vợ chồng nhiều ngƣời thiếu kỹ gia đình nhƣ giao tiếp ứng xử, quản lý tài chính, chăm sóc Đa phần trình độ văn hóa thấp cấp cấp Những liệu cho thấy BLGĐ khởi nguồn từ gia đình nghèo trình độ văn hóa thấp Bà Lê Phƣơng Thúy, Trƣởng phòng Tƣ vấn hỗ trợ phát triển Trung tâm Phụ nữ & phát triển cho biết: "Có nhiều vấn đề làm tăng số vụ BLGĐ nghiêm trọng, nhiều nạn nhân tìm tới quyền địa phƣơng nhƣng đƣợc can thiệp cách hời hợt, chiếu lệ, khơng có sức ngăn chặn, răn đe, ngƣời gây BLGĐ nhởn nhơ vòng pháp luật Tiếng nói Hội Phụ nữ địa phƣơng chƣa thực có sức mạnh Hơn thế, nhiều nạn nhân bị bạo hành đâu mà địa phƣơng khơng có nhà tạm lánh, trạm y tế theo quy định đƣợc lƣu trú không ngày" Tại hội thảo "Gia đình từ góc nhìn Ngơi nhà bình n", chuyên gia đƣa nhiều giải pháp nhƣ cần có kinh phí phục vụ cơng tác PCBLGĐ xã, phƣờng năm, sách hỗ trợ Nhà nƣớc đƣợc ghi Luật PCBLGĐ cần đƣợc triển khai đồng bộ, thực nghiêm; Đề xuất sinh viên trƣờng Luật năm cuối cần đƣa xã, phƣờng để tiếp cận thực tế, đồng thời có trao đổi tập huấn chuyên đề kiến thức nhƣ giới thiệu Luật PCBLGĐ Thực tế cho thấy mơ hình "Đội can thiệp nhanh" cần thiết nhƣng ngƣời đội cần phải có kiến thức am hiểu PCBLGĐ, nắm vững luật, khơng lại trở thành rào cản chia rẽ tăng thêm mâu thuẫn gia đình Có nhiều trƣờng hợp BLGĐ có can thiệp pháp luật nhiều phụ nữ nạn nhân "đứng chung chiến hào với chồng" sợ khơng có bố, bị mang tiếng có ngƣời bố tù Nhƣ Văn Hố có phản ánh, Bộ Cơng an lấy ý kiến đóng góp Dự thảo nghị định quy định xử phạt vi phạm hành lĩnh vực an ninh, trật tự, an tồn xã hội; phòng chống tệ nạn xã hội; phòng cháy chữa cháy; PCBLGĐ có mức xử phạt cụ thể dành cho đối tƣợng có hành vi BLGĐ, nhiên liệu nạn nhân có lên tiếng hay lại cam chịu lại câu chuyện chƣa thực ngã ngũ Một công cụ hữu hiệu để PCBLGĐ nay, theo đánh giá nhiều chuyên gia, việc tuyên truyền thành lập mơ hình CLB gia đình hạnh phúc nhƣ: CLB Những ngƣời đàn ông yêu vợ, CLB Đầu bếp giỏi, CLB Trao đổi kỹ làm vợ, làm chồng Và đặc biệt thu hút đƣợc ngƣời nhƣ ông chồng gây BLGĐ tham gia khơng đối tƣợng phụ nữ GS.TS Đặng Cảnh Khanh, nguyên Viện trƣởng Viện Nghiên cứu Thanh niên cho mơ hình nhƣ Ngơi nhà bình n khơng chỗ nƣơng náu cho ngƣời phụ nữ mà nơi tiếp nhận ông chồng đánh vợ, hỗ trợ kiến thức để giúp họ giác ngộ thực triệt tiêu đƣợc BLGĐ Ngơi nhà bình n, Nhà tạm lánh phải nơi hàn gắn vết thƣơng cho gia đình, tới đối tƣợng đƣợc hỗ trợ kiến thức, kỹ sống, ứng xử, kỹ xử lý tình gia đình để ngăn chặn BLGĐ chƣa diễn Làm để nƣớc mắt ngƣời phụ nữ đứa trẻ khơng rơi bạo hành ngƣời chồng, ngƣời cha? Rõ ràng mơ hình nhƣ Ngơi nhà bình n, Nhà tạm lánh, CLB phát huy tốt vai trò Tuy nhiên, việc ngăn ngừa PCBLGĐ gia đình phụ thuộc vào nhiều yếu tố nhƣ quyền, tổ chức trị xã hội, đồn thể, cộng đồng, gia tộc PCBLGĐ cần sức mạnh tổng hợp nhƣng rõ ràng yếu tố cần hƣớng tới hạt nhân gia đình Rõ ràng mơ hình nhƣ Ngơi nhà bình n, Nhà tạm lánh, CLB phát huy tốt vai trò Tuy nhiên, việc ngăn ngừa PCBLGĐ gia đình phụ thuộc vào nhiều yếu tố nhƣ chínhquyền, tổ chức trị xã hội, đồn thể, cộng đồng, gia tộc PCBLGĐ cần sức mạnh tổng hợp nhƣng rõ ràng yếu tố cần hƣớng tới hạt nhân gia đình Tóm tắt văn textRank với văn gốc mức 10% Tại hội thảo "Gia đình từ góc nhìn Ngơi nhà bình n", chun gia đƣa nhiều giải pháp nhƣ cần có kinh phí phục vụ cơng tác PCBLGĐ xã, phƣờng năm, sách hỗ trợ Nhà nƣớc đƣợc ghi Luật PCBLGĐ cần đƣợc triển khai đồng bộ, thực nghiêm; Đề xuất sinh viên trƣờng Luật năm cuối cần đƣa xã, phƣờng để tiếp cận thực tế, đồng thời có trao đổi tập huấn chuyên đề kiến thức nhƣ giới thiệu Luật PCBLGĐ Một công cụ hữu hiệu để PCBLGĐ nay, theo đánh giá nhiều chuyên gia, việc tuyên truyền thành lập mơ hình CLB gia đình hạnh phúc nhƣ : CLB Những ngƣời đàn ông yêu vợ, CLB Đầu bếp giỏi, CLB Trao đổi kỹ làm vợ, làm chồng Tóm tắt văn TextRank với văn gốc mức 20% Tuy nhiên, Ngôi nhà bình yên giải pháp trƣớc mắt tạm thời, để giải đƣợc nguyên, nguồn gốc ngăn chặn trƣớc xảy BLGĐ cần nhiều biện pháp đồng chung tay cấp quyền , cộng đồng , gia tộc thành viên gia đình Đa số phụ nữ (hơn 90%), có 79% ca tham vấn BLGĐ, 14 % mua bán ngƣời Tại hội thảo "Gia đình từ góc nhìn Ngơi nhà bình n", chun gia đƣa nhiều giải pháp nhƣ cần có kinh phí phục vụ công tác PCBLGĐ xã, phƣờng năm, sách hỗ trợ Nhà nƣớc đƣợc ghi Luật PCBLGĐ cần đƣợc triển khai đồng bộ, thực nghiêm; Đề xuất sinh viên trƣờng Luật năm cuối cần đƣa xã, phƣờng để tiếp cận thực tế, đồng thời có trao đổi tập huấn chuyên đề kiến thức nhƣ giới thiệu Luật PCBLGĐ Một công cụ hữu hiệu để PCBLGĐ nay, theo đánh giá nhiều chuyên gia, việc tuyên truyền thành lập mơ hình CLB gia đình hạnh phúc nhƣ: CLB Những ngƣời đàn ông yêu vợ, CLB Đầu bếp giỏi, CLB Trao đổi kỹ làm vợ, làm chồng Rõ ràng mơ hình nhƣ Ngơi nhà bình n, Nhà tạm lánh, CLB phát huy tốt vai trò ... loại tóm tắt văn là: 1.2.3.1 Nhân tố đầu vào  Tóm tắt đơn văn Từ văn nguồn cho tóm tắt ngắn gọn văn Bài tốn tóm tắt đơn văn giống nhƣ tốn tóm tắt khác, q trình tóm tắt tự động với đầu vào văn bản, ... tóm tắt phức tạp Các phƣơng pháp nhằm giải toán tóm tắt văn đơn tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất tóm tắt theo tóm lƣợc - Tóm tắt theo trích xuất Đa số phƣơng tóm tắt. .. 1.2 Tóm tắt văn tự động 1.2.1 Tóm tắt văn 1.2.2 Ứng dụng tóm tắt văn 10 1.2.3 Phân loại tóm tắt 10 1.2.4 Mơ hình tóm tắt văn 14 1.2.5 Đánh giá văn
- Xem thêm -

Xem thêm: phương pháp tóm tắt văn bản tiếng việt bằng textrank , phương pháp tóm tắt văn bản tiếng việt bằng textrank

Gợi ý tài liệu liên quan cho bạn