Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động

i LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, PGS TS Nguyễn Trí Thành tận tình bảo, hướng dẫn, động viên giúp đỡ tơi suốt q trình thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – người tận tình giúp đỡ, cổ vũ, góp ý cho tơi suốt thời gian học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới anh chị, bạn học viên học tập nghiên cứu Trường Đại học Công nghệ hỗ trợ nhiều trình học tập thực luận văn Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, quan tâm, động viên suốt trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, tháng 05 năm 2016 Học viên Cấn Mạnh Cường ii LỜI CAM ĐOAN Tôi xin cam đoan giải pháp Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng sinh tóm tắt cho văn hệ thống thu thập tin tức tự động trình bày luận văn thực hướng dẫn PGS TS Nguyễn Trí Thành Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Hà Nội, tháng năm 2016 Tác giả luận văn Cấn Mạnh Cường MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC .1 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH .5 DANH MỤC CÁC BẢNG Chương GIỚI THIỆU ĐỀ TÀI 10 1.1 Tổng quan hệ thống thu thập tin tức tự động 10 1.1.1 Tổng quan Crawler 10 1.1.2 Hệ thống thu thập tin tức tự động 12 1.2 Các tốn khn khổ đề tài 14 1.2.1 Bài toán xử lý trùng lặp tin tức 14 1.2.2 Bài toán phân loại tin tức 14 1.2.3 Bài tốn xác định từ khóa quan trọng chọn tóm tắt 15 1.3 Ý nghĩa toán giải đề tài .16 1.3.1 Ý nghĩa khoa học 16 1.3.2 Ý nghĩa thực tiễn 16 1.4 Kết luận 16 Chương MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN 17 2.1 Các phương pháp tiếp cận toán trùng lặp tin tức 17 2.1.1 Bag of Words .17 2.1.2 Shingling 18 2.1.3 Hashing 20 2.1.4 MinHash 20 2.1.5 SimHash 22 2.2 Các phương pháp tiếp cận toán phân loại tin tức 24 2.2.1 Tiếp cận dựa phương pháp định 25 2.2.2 Phân loại liệu Naïve Bayes 26 2.2.3 Tiếp cận theo phương pháp SVM 29 2.3 Tiếp cận toán xác định từ khóa quan trọng chọn câu tóm tắt 33 2.3.1 Phương pháp TF-IDF 33 2.3.2 Phương pháp Edmundson 34 2.4 Tổng kết 36 Chương ĐỀ XUẤT GIẢI PHÁP VÀ CẢI TIẾN ÁP DỤNG GIẢI QUYẾT CÁC BÀI TOÁN TRONG THỰC TẾ 37 3.1 Hệ thu thập tin tức tự động mở rộng 37 3.2 Giải toán trùng lặp tin tức 39 3.2.1 Yêu cầu thực tế toán xử lý trùng lặp tin tức 39 3.2.2 Mơ hình giải pháp thực tế 39 3.3 Giải toán phân loại tin tức 40 3.3.1 Yêu cầu toán thực tế 40 3.3.2 Mơ hình giải pháp thực tế 41 3.4 Giải tốn xác định từ khóa quan trọng chọn câu tóm tắt .42 3.4.1 u cầu tốn thực tế 42 3.4.2 Mơ hình giải pháp thực tế 43 3.5 Tổng kết 44 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 46 4.1 Môi trường thực nghiệm công cụ sử dụng thực nghiệm 46 4.2 Quá trình thu thập liệu tin tức tiền xử lý 47 4.2.1 Thu thập liệu tin tức .47 4.2.2 Tiền xử lý liệu 47 4.3 Đánh giá phát trùng lặp tin tức 48 4.3.1 Phương pháp đánh giá 48 4.3.2 Kết đánh giá .48 4.4 Đánh giá phân loại tin tức .49 4.4.1 Phương pháp đánh giá 49 4.4.2 Kết đánh giá .51 4.5 Đánh giá kết xác định từ khóa quan trọng chọn câu tóm tắt 52 4.5.1 Phương pháp đánh giá 52 4.5.2 Kết đánh giá .52 4.6 Tổng kết 53 TỔNG KẾT 54 Kết đạt 54 Hạn chế .54 Hướng phát triển 55 TÀI LIỆU THAM KHẢO .56 PHỤ LỤC 57 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Số thứ tự Ký hiệu, viết tắt Chú giải Crawler Trình thu thập nội dung trang web WebBrowser Trình duyệt web HTTP Giao thức truyền tải siêu văn URL Địa liên kết trang web Seed URL Tập hợp URL hạt nhân xuất phát Crawler Frontier Kho chứa URL chưa thăm Finger print Dấu vân, đại diện cho tài liệu độc lập Front End Phần xử lý giao diện tương tác với người dùng ID Định danh tài liệu 10 IP Giao thức kết nối Internet 11 Hashing Băm tài liệu 12 Search Engine Máy tìm kiếm 13 SEO Tối ưu hóa trang web hỗ trợ máy tìm kiếm 14 TF Tần số từ 15 IDF Tần số tài liệu đảo ngược DANH MỤC CÁC HÌNH Hình 1.1 Kiến trúc thành phần Web Crawler 10 Hình 1.2 Biểu đồ trạng thái Web Crawler .12 Hình 1.3 Mơ hình tổng quan hệ tổng hợp tin tự động 13 Hình 2.1 Mơ BagofWords 18 Hình 2.2 Ví dụ hashing .20 Hình 2.3 Mơ minhash 21 Hình 2.3 Ví dụ minhash 21 Hình 2.4 Mơ việc lấy simhash 22 Hình 2.5 Mơ việc tính trùng lặp simhash 23 Hình 2.6 Mơ việc chia simhash theo bucket(khối) 23 Hình 2.7 Ví dụ hốn vị khối với simhash 24 Hình 2.10 H2 mặt phẳng tốt 29 Hình 2.11 Các điểm liệu biểu diễn R+ .30 Hình 2.12 Các vector hỗ trợ (support vector) chọn 30 Hình 2.13: Siêu phẳng biểu diễn R+ 32 Hình 3.1 Mơ hình tổng quan hệ tổng hợp tin tự động 37 Hình 3.2 Mơ hình dịch vụ xử lý phục vụ người dùng thơng qua API 39 Hình 3.3 Minh họa thực tế ứng dụng toán xử lý trùng lặp .39 Hình 3.4 Minh họa thực tế triển khai toán xử lý trùng lặp .40 Hình 3.5 Minh họa thực tế ứng dụng toán phân loại tin tức 40 Hình 3.6 Mơ hình triển khai thực tế triển khai toán phân loại tin tức 41 Hình 3.7 Minh họa thực tế ứng dụng xác định từ khóa quan trọng .42 Hình 3.8 Minh họa thực tế ứng dụng chọn câu tóm tắt 43 Hình 3.9 Mơ hình thực tế tốn xác định từ khóa quan trọng 43 Hình 3.10 Mơ hình thực tế tốn xác định câu tóm tắt 44 Hình 4.1 So sánh tốc độ simhash shingling .49 DANH MỤC CÁC BẢNG Bảng 0.1 Thống kê số lượng tin tức báo tháng đầu 2016 .8 Bảng 4.1 Cấu hình phần cứng thực nghiệm 46 Bảng 4.2 Các công cụ phần mềm sử dụng 46 Bảng 4.3 Thống kê thời gian chạy với simhash shingling 48 Bảng 4.4 Kết phân loại chưa cải tiến .51 Bảng 4.5 Kết phân loại cải tiến .51 Bảng 4.6 Thống kê tỉ lệ tag tóm tắt đạt yêu cầu .52 MỞ ĐẦU Báo điện tử khơng cịn khái niệm xa lạ với chúng ta, dần thay hình thức phát hành báo, tạp chí truyền thống đặc điểm ưu việt như: tính thời - khả cập nhật trực tiếp, khả truyền tải đa phương tiện, khả lưu trữ tìm kiếm thơng tin, khả tương tác với người dùng cao, báo điện tử khắc phục hạn chế loại hình báo chí truyền thống để trở thành loại hình báo chí ưu việt thời điểm Tính đến ngày 25/12/2014, nước có 838 quan báo chí in với 1.111 ấn phẩm báo chí (trong quan Trung ương có 86 báo in 507 tạp chí; địa phương có 113 báo in 132 tạp chí); 90 báo tạp chí điện tử, 215 trang tin điện tử tổng hợp quan báo chí Số báo tạp chí điện tử tăng gấp gần 1.5 lần so với số 62 báo điện tử vào năm 2012 [1] Cũng theo thống kê trang tổng hợp thông tin điện tử lớn Baomoi.com1 tháng từ tháng 12/2015 đến tháng 2/2016, số lượng tin báo, tạp chí điện tử, trang thơng tin điện tử thì: Bảng 0.1 Thống kê số lượng tin tức báo tháng đầu 2016 Tổng số tin 583827 Tổng số tin đăng lại 137823 Tổng số tin gốc bị đăng lại 123805 Tổng số tin gốc không bị đăng lại 446004 Với lượng thông tin khổng lồ từ 300 trang báo tin điện tử việc tổng hợp chọn lọc cách thủ công để mang lại nguồn thông tin hữu ích dường điều không thể, việc thu thập thông tin tự động để xây dựng hệ thống đọc tin tự động thơng minh máy tính khơng cịn chủ đề mới, xong việc cải tiến, ứng dụng công nghệ vào hệ thống để hệ thống vận hành tốt bối cảnh liệu lớn dần tốn khơng đơn giản Để xây dựng hệ thống ta có nhiều bước cần phải sử dụng giải thuật xử lý văn nghiên cứu nhiều khai phá liệu văn bản, liệu web như: Thu thập nội dung tin tức, xử lý trùng lặp tin tức, phân loại tin theo danh mục, xác định từ khóa quan trọng nội dung tin tức sinh tóm tắt cho tin, kiểm lỗi tả tin tức, phát chủ đề nóng, chủ đề nhạy cảm, xu hướng đọc tin thời http://www.baomoi.com/Statistics/Report.aspx 43 Hình 3.8 Minh họa thực tế ứng dụng chọn câu tóm tắt Đối với số nội dung khơng lấy đoạn trích dẫn tóm tắt nội dung, hệ thống tự tóm tắt đoạn trích dẫn nội dung tóm tắt cho viết Hoặc hỗ trợ biên tập viên, phóng viên đề xuất câu dùng làm câu tóm tắt mơ tả tin 3.4.2 Mơ hình giải pháp thực tế Bài tốn xác định từ khóa quan trọng Hình 3.9 Mơ hình thực tế tốn xác định từ khóa quan trọng Các đóng góp quan trọng xác định từ khóa quan trọng: 44 - Tham chiếu vị trí câu, vị trí tiêu đề, phần mô tả nội dung, sử dụng thêm trọng số Tf-idf - Tham chiếu từ từ khóa(Tags) có sẵn thu thập liệu từ internet, từ khóa từ việc phân tích xu hướng thông tin - Tham chiếu kết Google Suggestion Search Volumne để lấy lượng tìm kiếm, lượng tìm kiếm cao có nghĩa từ khóa có mức độ quan trọng cao Bài toán chọn câu tóm tắt Hình 3.10 Mơ hình thực tế tốn xác định câu tóm tắt Bài tốn chọn câu tóm tắt đề tài sử dụng kết hợp phương pháp Tf-idf Edmundson, vừa có điểm trọng số cho từ khóa, câu có nhiều từ khóa quan trọng, vừa xác định độ tương quan vị trí câu, nằm tiêu đề, phần mô tả, nội dung, cuối đoạn đầu đoạn tính tốn hợp lý để đề xuất danh sách câu quan trọng tin Việc chọn tỉ lệ câu đề xuất tổng số câu tin vấn đề định đến độ xác tin Với hệ thống sau kết kiểm nghiệm thực tế câu lấy đại diện câu quan trọng phù hợp với liệu tin tức 3.5 Tổng kết Từ kết nghiên cứu từ chương 2, luận văn phương pháp phù hợp cho toán thực tế chọn lựa để đưa vào thực nghiệm Sau đó, phát biểu, mơ tả mơ hình chi tiết cách giải cho toán, số đóng góp quan trọng cải thiện độ xác kết Phần luận văn tiến hành đánh giá 45 kết thực nghiệm đạt sau áp dụng mơ hình 46 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Ở chương này, luận văn tiến hành trình thực nghiệm đánh giá kết đề xuất dựa toán Với đặc điểm riêng tốn có cách đánh giá, so sánh riêng phù hợp với yêu cầu thực tế, đồng thời đảm bảo ý nghĩa khoa học toán 4.1 Môi trường thực nghiệm công cụ sử dụng thực nghiệm Cấu hình phần cứng, phần mềm gói kèm thực nghiệm sử dụng luận văn mô tả hai bảng sau đây: Công cụ phần cứng sử dụng: Bảng 4.1 Cấu hình phần cứng thực nghiệm Thành phần Stt Chỉ số CPU Intel Core i5 4460 3.4GHZ RAM 8GB Hệ điều hành Ubuntu 14.04 Bộ nhớ 500GB Bảng 4.2 Các công cụ phần mềm sử dụng STT Tên phần mềm Chức Nguồn http://nutch.apache.org/ Apache Nutch 1.11 Tải liệu từ website Elasticsearch Index, lưu trữ liệu https://github.com/elastic/elasticsearch Eclipse Java EE Luna Tạo mơi trường để viết https://eclipse.org/downloads/ chương trình 47 Readability Trích xuất nội dung https://github.com/mozilla/readability vnSentDetector 2.0.0 PhươngLH – Trích xuất câu đoạn văn http://mim.hus.vnu.edu.vn/phuonglh/so ftwares/vnSentDetector vn.hus.nlp.tokenizer4.1.1 PhươngLH - Tách từ http://mim.hus.vnu.edu.vn/phuonglh/so văn ftwares/vnTokenizer LibSVM 3.21 Redis Chih-Chung Chang https://www.csie.ntu.edu.tw/~cjlin/libs and Chih-Jen Lin – vm/ Phục vụ phân loại văn Cache Simhash vào memory, share http://redis.io/ cụm 4.2 Quá trình thu thập liệu tin tức tiền xử lý 4.2.1 Thu thập liệu tin tức Dữ liệu thu thập với phần mềm mã nguồn mở Apache Nutch 1.11 cấu hình chạy phân tán, Nutch tùy biến thêm plugin kế thừa việc trích xuất liệu việc đánh mục liệu lên Elasticsearch ( dạng máy tìm kiếm linh động với mức độ tùy biến tìm kiếm cao ) - - Plugin trích xuất liệu implement từ Readability code, tùy biến để trích xuất hạng mục tin là: tiêu đề, phần mơ tả (tóm tắt), nội dung tin, tên tác giả ngày đăng tin Plugin index tùy biến giúp index thêm trường cần thiết lên ElasticSearch Dữ liệu thu thập chuẩn hóa lại font chữ, lọc tin nội dung ảnh, video, đảm bảo liệu text chuẩn hóa ( normalize–filter) phục vụ cho việc xử lý liệu 4.2.2 Tiền xử lý liệu Với liệu lấy dịch vụ tự động tiến hành xử lý tách từ, tách 48 câu hai công cụ mã nguồn mở vnSentDetector 2.0.0 vnTokenizer 4.1.1, tiếp tin lấy dấu đại diện simhash – simhash lưu trữ riêng dạng đặc biệt để phục vụ việc phát trùng lặp, ngồi tin cịn xử lý lấy từ khóa quan trọng(tags) chọn vài câu đề xuất tóm tắt tin lấy khơng có câu tóm tắt Với từ khóa tách, URL gốc tin phân loại cách tự động Mơ hình giải chi tiết cho toán luận văn nêu chi tiết chương 3, phần nêu lên phương pháp đánh giá kết đánh giá toán 4.3 Đánh giá phát trùng lặp tin tức 4.3.1 Phương pháp đánh giá Trong thực tế có thuật giải kiểm tra trùng lặp cho kết tốt việc sử dụng hàm băm Simhash để tạo đại diện Tuy nhiên khuôn khổ luận văn tác giả đánh giá việc sử dụng Simhash phương diện phục vụ cho Crawler kiểm tra trùng lặp nên tốc độ kiểm tra trùng lặp yếu tố ưu tiên hàng đầu 4.3.2 Kết đánh giá Trong thí nghiệm đánh giá, so sánh tốc độ hai thuật toán Simhash Shingling tập liệu với số lượng liệu tăng dần từ 100 ghi lên đến 1500 ghi, Simhash lấy dạng Simhash 32bit Shingling lấy dạng token sau tách từ, kết thu cho bảng 4.3: Bảng 4.3 Thống kê thời gian chạy với simhash shingling NumRecords Simhash(ms) Shingling(ms) 100 2466 5389 200 2692 12851 300 3052 25841 400 3253 43918 500 3437 66225 600 3664 94262 700 3869 127710 800 4140 166124 900 4419 209418 1000 4697 258469 1100 4985 307823 1200 5261 366019 1300 5575 429911 49 1400 5935 498562 1500 6240 570506 Mơ hình hóa dạng biểu đồ: SIMHASH VS SHINGLING SPEEDS Simhash Shingling 600000 500000 400000 300000 200000 100000 0 200 400 600 800 1000 1200 1400 1600 Hình 4.1 So sánh tốc độ simhash shingling Thuật toán Shingling thể rõ độ phức tạp tính tốn theo thời gian O(n2) áp dụng Simhash cho thấy kết tốt rõ rệt với lý thuyết thời gian chạy logarit Hoàn toàn phù hợp với việc áp dụng vào thực tế 4.4 Đánh giá phân loại tin tức 4.4.1 Phương pháp đánh giá Trước tiên cần nói thêm trình thu thập liệu crawler, danh mục thuộc diện tin văn lấy đánh dấu riêng nằm 12 danh mục bao gồm:{"cong-nghe","giai-tri","giao-duc","kham-pha","kinh-te","phap-luat","quansu","suc-khoe","tam-su","the-gioi","the-thao","xe-360"} Việc đánh giá thuật toán phân loại sử dụng độ đo precision/recall F1 để đánh giá học liệu bao gồm 56400 văn chọn sẵn danh mục để học dựa nguồn VNExpress, 54000 văn thuộc 12 chủ đề ( tương đương với 4500 tin/1 chủ đề) dùng để huấn luyện(train), 2400 văn dùng để kiểm định (test), khuôn khổ luận văn thực đánh giá phương diện việc sử dụng SVM túy với nội dung tin việc cải tiến cho kết thực tế sao, chi tiết nêu phần kết 50 Sau số độ đo sử dụng đánh giá: Ma trận nhầm lẫn (Confusion Matrix) TPi : Số lượng tin thuộc lớp ci phân loại xác vào lớp ci FPi: Số lượng tin không thuộc lớp ci bị phân loại nhầm vào lớp ci TNi: Số lượng tin không thuộc lớp ci phân loại (chính xác) FNi: Số lượng tin thuộc lớp ci bị phân loại nhầm (vào lớp khác ci) Độ đo Precision recall Hay cịn gọi Độ xác Độ bao phủ, Precision việc thể tập tìm (phân loại) Recall việc thể số tồn tại, tìm (phân loại) Đây hai độ đo phổ biến, hay sử dụng để đánh giá hệ thống phân loại văn - Precision lớp ci lớp tập lớp C ={c1, c2, …, cn} 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑡𝑝 𝑡𝑝 + 𝑓𝑝 Tổng số tin thuộc lớp ci phân loại xác chia cho tổng số tin phân loại vào lớp ci - Recall lớp ci 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑡𝑝 𝑡𝑝 + 𝑓𝑛 Tổng số tin thuộc lớp ci phân loại xác chia cho tổng số ví dụ thuộc lớp ci Recall gọi True Positive Rate hay Sensitivity (độ nhạy), precision gọi Positive predictive value (PPV); ngồi ra, ta có độ đo khác True Negative Rate Accuracy True Negative Rate gọi Specificity Độ đo F1 Tiêu chí đánh giá F1 kết hợp hai tiêu chí đánh giá Precision Recall F1 trung chí Precision Recall 𝐹 =2∙ bình 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∙ 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 điều hòa (harmonic mean) tiêu 51 F1 có xu hướng lấy giá trị gần với giá trị nhỏ hai giá trị Precision Recall, F1 có giá trị lớn hai giá trị Precision Recall lớn 4.4.2 Kết đánh giá Kết sau tiến hành phân loại sử dụng SVM kernel linear với liệu văn bao gồm nội dung văn túy chưa có cải tiến Bảng 4.4 Kết phân loại chưa cải tiến CatNo Category Precison Recall F1 cong-nghe 75.5 82.51 78.85 giai-tri 66 75.43 70.4 giao-duc 79 92.4 85.18 kham-pha 65 71.43 68.06 kinh-te 66.5 73.08 69.63 phap-luat 76.5 83.61 79.9 quan-su 46.5 93.94 62.21 suc-khoe 67.5 87.66 76.27 tam-su 89 84.36 86.62 10 the-gioi 88.5 40.69 55.75 11 the-thao 83 91.71 87.14 12 xe-360 81.5 66.8 73.42 Avg 73.71 78.64 74.45 Áp dụng cải tiến vào phân loại xác định chủ đề văn bản, biện pháp nêu chương 3, kết đạt được cho bảng 4.5: Bảng 4.5 Kết phân loại cải tiến CatNo Category Precison Recall F1 cong-nghe 80.9 90.58 85.47 giai-tri 81.7 83.29 82.49 giao-duc 82.1 93.26 87.32 kham-pha 73.5 81.4 77.25 kinh-te 76.9 77.25 77.07 phap-luat 77.6 88.92 82.88 quan-su 73.2 95.97 83.05 52 suc-khoe 84.9 94.04 89.24 tam-su 91.2 93.58 92.37 10 the-gioi 88.7 93.41 90.99 11 the-thao 92.6 92.62 92.61 12 xe-360 73.9 88.24 80.44 Avg 81.43 89.38 85.1 Kết bảng cho thấy, toàn kết phân loại cải thiện độ xác độ hồi tưởng, độ xác Precision trung bình từ 73.71% lên đến 81.43%, độ hồi tưởng Recall tăng từ 78.64% lên tới 89.38%, kéo theo độ đo F1 tăng rõ rệt 4.5 Đánh giá kết xác định từ khóa quan trọng chọn câu tóm tắt 4.5.1 Phương pháp đánh giá Việc đánh giá tốn thực cách thủ cơng phần dựa ý kiến chuyên gia (expert judgment) đặc điểm đặc biệt toán: Để đánh giá tốn xác định từ khóa quan trọng (tags) để phục vụ vấn đề nêu bật chủ đề tin hỗ trợ việc phục vụ tối ưu máy tìm kiếm (SEO) chọn câu tóm tắt cho chủ đề tin tin thiếu phần tóm tắt phức tạp đòi hỏi người đánh giá vừa có kinh nghiệm SEO vừa có kinh nghiệm biên tập tin Luận văn sử dụng việc tổng hợp kết đánh giá từ ba người ban biên tập viên đào tạo kĩ SEO để thực đánh giá với bạn 100 tin Tổng số tin lấy từ khóa quan trọng, chọn câu tóm tắt 300 tin, tỉ lệ chọn (nén câu tóm tắt 5:1)[2] Chi tiết kết thu có phần kết đánh giá 4.5.2 Kết đánh giá Kết đánh giá thủ công ba lần ba biên tập viên có kinh nghiệm SEO đào tạo mảng biên tập lẫn kinh nghiệm đánh giá nội dung cho bảng 4.6 Bảng 4.6 Thống kê tỉ lệ tag tóm tắt đạt yêu cầu Tỉ lệ tags đạt Giải thích: Tỉ lệ tóm tắt đạt Lần (100 tin) 73% 71% Lần (100 tin) 76% 69% Lần (100 tin) 78% 64% Bình Quân 76% 68% 53 Tỉ lệ Tags đạt 76% tức 100 tin lấy Tags tự động có 76 tin đạt u cầu theo ý kiến người đánh giá, có nghĩa phần tags chứa từ khóa thay người sử dụng phần tag nội dung tự động không cần người biên tập phải can thiệp, dùng làm tags phản ánh nội dung tin Tỉ lệ tóm tắt đạt 68% tức 100 tin lấy tổ hợp câu tóm tắt tự động có 68% tổ hợp câu có chứa câu chọn đại diện hỗ trợ biên tập viên đặt làm câu tóm tắt tin Qua đánh giá lấy ý kiến, sau ba lần với kết bình quân cho việc chọn tags tự động 76% việc đề xuất câu tóm tắt tự động 68% đánh giá cao có khả triển khai thực tế, ứng dụng vào hệ thống CMS tin tức tương lai 4.6 Tổng kết Chương tác giả trình bày kết thực nghiệm chứng minh phương pháp đề xuất chương Kết thực nghiệm tập trung vào ba tốn kiểm tra trùng lặp, phân loại tin tức sinh từ khóa nội dung chính, sinh câu đề xuất tóm tắt văn Kết thực nghiệm cho thấy phương pháp đề xuất phù hợp mức chấp nhận có phần kết khả quan sau thi đóng góp cải tiến 54 TỔNG KẾT Kết đạt Luận văn trình bày kiến thức phát trùng lặp, phân loại tin tức, xác định từ khóa quan trọng đề xuất câu tóm tắt cho tin tức miền liệu tiếng Việt Bên cạnh đó, luận văn trình bày chi tiết phương pháp tiếp cận toán, hướng giải kết thực tế Với toán phát trùng lặp tin tức từ phía Crawler luận văn đề cập phân tích ưu nhược điểm số phương pháp phổ biến để phát trùng lặp sau đề xuất mơ hình giải tốn với giải thuật SimHash từ đánh giá so sánh với thuật toán phát trùng lặp phổ biến shingling Với toán phân loại luận văn đưa vài toán phân loại lý sử dụng học máy bán giám sát với SVM, Cuối tốn xác định từ khóa quan trọng, đề xuất câu đại diện chọn tóm tắt cho tin tức giải việc tổng hợp biện pháp Edmundson TF-IDF Các kết cho thấy phương pháp sử dụng Simhash để kiểm tra trùng lặp có tốc độ tính tốn tăng theo hàm loragit cải thiện nhiều so với O(n2) phương pháp shingling, cụ thể tập liệu lên tới 1500 tin tốc độ SimHash nhanh tốc độ Shingling tới 91,4 lần Phương pháp SVM tích hợp vào mơ đun phân loại cho kết tốt sau đóng góp số cải tiến so với sử dụng SVM túy tập liệu, với kết tốt Sử dụng độ đo xác (precision), độ đo hồi tưởng (recall), độ đo F-1 (F-1 measured) để đo lường kết cho thấy: độ đo xác (89.38%), độ đo hồi tưởng (89.3%), độ đo F-1 (85.1%) Với toán tự động đề xuất tags bao gồm từ khóa quan trọng đề xuất câu chọn làm tóm tắt cho kết tích cực sau áp dụng biện pháp cải tiến chương 3, tỉ lệ chấp nhận góc độ đánh giá người đào tạo (expert) lĩnh vực biên tập SEO cho thấy tỉ lệ tags đạt 76% tỉ lệ chọn câu tóm tắt chấp nhận đạt 68% Hạn chế Mặc dù kết đạt khả quan nhiên giải pháp luận văn không tránh khỏi số hạn chế nhược điểm cần khắc phục chẳng hạn như: Việc lấy hàm đại diện Simhash việc ánh xạ từ tập vô hạn sang tập hữu hạn nên xuất tỉ lệ trùng Simhash với hai văn khác nhau, điều khiến kiểm tra trùng lặp thêm thời gian để kiểm định thêm trường hợp kể tốc độ kiểm tra trùng lặp bị giảm xuống phần Việc phân loại phải thiết đặt luật cho Crawler để giới hạn tập danh mục 55 cụ thể tin phục vụ việc phân danh mục có độ xác cao, tin vắn, tin có chất lượng thấp chưa hỗ trợ Việc chọn từ khóa tóm tắt(tags) chọn câu tóm tắt cịn phụ thuộc nhiều vào việc tham chiếu kho từ cũ, kho từ xu hướng có sẵn để tăng cao độ xác, mà chưa tự chủ từ việc dựa vào thân văn Hướng phát triển Trong thời điểm tương lai gần, hướng phát triển trước mắt luận văn khắc phục hạn chế khuyết điểm mô đun nâng cao khả xác thuật toán, cụ thể là: cải thiện tốc độ việc áp dụng Simhash để ứng phó với môi trường liệu lớn hơn, cải thiện độ xác phân loại với nguồn tin tức đa dạng đồng thời nâng cao độ xác việc sinh từ khóa, đề xuất câu tóm tắt 56 TÀI LIỆU THAM KHẢO Tiếng Việt Bộ Thông tin Truyền thơng (2015), Tình hình phát triển lĩnh vực báo chí năm 2015, Hà Nội Trần Mai Vũ (2009), Tóm Tắt Đa Văn Bản Dựa Vào Trích Xuất Câu, Đại Học Quốc Gia Hà Nội, Trường Đại Học Công Nghệ, 2009, tr.4 Tiếng Anh Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze (2009), Introduction to Information Retrieval, Cambridge University Press 2009 Martin Law (2011), A Simple Introduction to Support Vector Machines, Michigan State University, Lecture for CSE 802 T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 Jin Huang, Jingjing Lu, Charles X Ling (2003) Comparing Naive Bayes, Decision Trees, and SVM with AUC and Accuracy The Third IEEE International Conference on Data Mining (ICML2003) Sarini, Sarini, McGree, James, White, Nicole, Mengersen, Kerrie, & Kerr, Graham (2015), Comparison of decision tree, support vector machines, and Bayesian network approaches for classification of falls in Parkinson’s disease International Journal of Applied Mathematics and Statistics, 53(6), pp 145-151 A Sopharak, B Uyyanonvara, S Barman, World Academy of Science, Engineering and Technology International Journal of Computer, Electrical, Automation, Control and Information Engineering Vol:8, No:5, 2014 Ranjeeta Rana, Vaishali Kolhe (2015) Analysis of Students Emotion for Twitter Data using Naïve Bayes and Non Linear Support Vector Machine Approachs International Journal on Recent and Innovation Trends in Computing and Communication ISSN: 2321-8169 10 HP Luhn (1958), The Automatic Creation of Literature Abstracts, IBM JOURNAL, pp 159-161 57 PHỤ LỤC CHỨNG NHẬN PHÁT TRIỂN VÀ TRIỂN KHAI THỰC TẾ ... văn bản, liệu web như: Thu thập nội dung tin tức, xử lý trùng lặp tin tức, phân loại tin theo danh mục, xác định từ khóa quan trọng nội dung tin tức sinh tóm tắt cho tin, kiểm lỗi tả tin tức, ... ĐOAN Tôi xin cam đoan giải pháp Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng sinh tóm tắt cho văn hệ thống thu thập tin tức tự động trình bày luận văn tơi thực hướng dẫn PGS TS Nguyễn... liệu Hệ thống thu thập tin tức tự động thực tế cần nhiều Để đáp ứng nhu cầu tổng hợp tin tức không trùng lặp, phân loại, xác định từ khóa quan trọng câu quan trọng, nội dung tin tức, phần luận văn

Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan