Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

99 884 2
Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ******** BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI : XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC DỰA TRÊN CẤU TRÚC TẠ NGUYỄN Biên Hòa, Tháng 6/2012 MỤC LỤC Trang Mở đầu . 1 1. Tóm lược đề tài . 1 2. Mục tiêu đề tài . 2 3. Nội dung thực hiện đề tài . 2 4. Phạm vi ứng dụng . 3 Chương 1 : Tổng quan về tóm tắt văn bản tự động 4 1.1. Giới thiệu . 4 1.2. Mô hình tóm tắt văn bản . 5 1.3. Phân loại bài toán tóm tắt văn bản 6 1.4. Các phương pháp tóm tắt văn bản . 9 1.5. Tình hình nghiên cứu trong và ngoài nước . 10 1.5.1. Ngoài nước . 10 1.5.2. Trong nước 12 1.6. Một số hệ thống tóm tắt văn bản trên thế giới . 13 Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản tiếng Việt 16 2.1. Một số đặc điểm của ngôn ngữ tiếng Việt . 16 2.1.1. Văn bản, chủ đề văn bảncấu trúc văn bản . 16 2.1.2. Tiêu đề của văn bản 17 2.1.3. Đoạn văn 18 2.1.4. Câucấu trúc câu tiếng Việt . 19 2.1.5. Từ 23 2.2. Bài toán tách câu 24 2.2.1. Giới thiệu bài toán 24 2.2.2. Dấu hiệu đặc trưng nhận dạng câu 25 2.3. Bài toán tách từ tiếng việt . 26 2.3.1. Giới thiệu bài toán 26 2.3.2. Các phương pháp tách từ 28 2.3.2.1. Phương pháp dựa trên otomat 28 2.3.2.2. Dùng mô hình n-gram và phương pháp xác suất thống . 30 2.3.2.3. Sử dụng giải thuật di truyền và thốngtrên Internet . 31 2.4. Các thách thức của quá trình rút trích văn bản khoa học . 32 2.4.1. Văn phong 32 2.4.2. Lỗi văn phạm . 32 Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt 33 3.1. Các phương pháp rút trích 33 3.1.1. Các phương pháp thống kê (Statistical Methods) 33 3.1.1.1. Phương pháp vị trí (Position-Based) . 34 3.1.1.2. Phương pháp cụm từ gợi ý (Cue phrases-Based) . 35 3.1.1.3. Phương pháp thống kê tần suất từ (Word frequency-Based) 36 3.1.2 . Phương pháp mạng ngữ nghĩa . 36 3.1.2.1. Phương pháp quan hệ lẫn nhau . 36 3.1.2.2. Phương pháp liên kết từ vựng ( Lexical Chains ) 36 3.1.2.3. Phương pháp Liên kết tham chiếu ( Word Coreferences ) . 36 3.1.2.4. Phương pháp quan hệ câu ( Discourse-Based ) 37 3.1.3. Kết luận về các phương pháp trong giai đoạn phân tích 37 3.1.4. Hướng tiếp cận của đề tài . 38 3.2. Mô hình rút trích ý chính của văn bản khoa học . 39 3.2.1. Mô hình tổng quát 39 3.2.1.1. Giai đoạn tiền xử lý văn bản . 41 3.2.1.2. Giai đoạn tách và lọc câu 41 3.2.1.3. Giai đoạn rút trích cơ sở 45 3.2.1.4. Giai đoạn phân lớp câu . 55 3.2.1.5. Tính độ quan trọng của câu . 56 3.2.2. Đánh giá kết quả tóm tắt, rút trích 59 3.2.2.1. Phương pháp thủ công 61 3.2.2.2. Các phương pháp đánh giá khác 61 Chương 4 : Thử nghiệm và đánh giá kết quả 65 4.1. Kiến trúccác chức năng chương trình 65 4.1.1. Tiền xử lý . 65 4.1.2. Tách từ toàn văn bản 65 4.1.3. Tách câu . 66 4.1.4. Lọc câu 66 4.1.5. Rút trích cơ sở 67 4.1.6. Phân lớp câu . 68 4.1.7. Đánh giá câu 68 4.1.8. Hiển thị kết quả xử lý . 69 4.2. Thực nghiệm chương trình . 69 4.2.1. Giao diện tiền xử lý, tách từ và huấn luyện văn bản . 70 4.2.2. Giao diện tách câu 71 4.2.3. Giao diện phân lớp câu . 72 4.2.4. Giao diện hiển thị kết quả . 73 4.2.5. Giao diện hiển thị thành phần quan trọng của bài báo khoa học 73 4.3. Đánh giá kết quả . 74 4.3.1. Đánh giá kết quả xử lý tổng quát 74 4.3.2. Đánh giá kết quả thực nghiệm từ hai công thức sử dụng . 76 4.3.3. Đánh giá từ phía người đọc 83 Kết Luận 89 Tài liệu tham khảo 91 DANH MỤC HÌNH ẢNH Hình 1.1 : Mô hình hệ thống tóm tắt văn bản 5 Hình 1.2: Mô hình một hệ thống rút trích văn bản . 6 Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word 14 Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ . 15 Hình 2. 1 Xây dựng ôtômát âm tiết . 28 Hình 2. 2 Xây dựng ôtômát từ vựng . 29 Hình 2. 3 Một tình huống nhập nhằng 29 Hình 3. 1 Quy trình tổng quát rút trích ý chính văn bản khoa học . 40 Hình 4. 1 Mô hình tách từ tiếng Việt và huấn luyện . 65 Hình 4. 2 Mô hình huấn luyện từ ghép 66 Hình 4. 3 Mô hình tách câu 66 Hình 4. 4 Mô hình lọc câu 67 Hình 4. 5 Mô hình Rút trích cơ sở 67 Hình 4. 6 Mô hình phân lớp câu . 68 Hình 4. 7 Mô hình đánh giá câu 69 Hình 4. 8 Giao diện tiền xử lý, tách từ và huấn luyện . 70 Hình 4. 9 Giao diện tách câu 71 Hình 4. 10 Giao diện phân lớp và đánh giá câu 72 Hình 4. 11 Giao diện hiển thị kết quả . 73 Hình 4. 12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học 73 Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara 80 DANH MỤC BẢNG BIỂU Bảng 3.1 Các ký hiệu kết thúc câu . 41 Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu . 42 Bảng 3.3 Thống kê theo độ dài của từ trong từ điển http://dict.vietfun.com 44 Bảng 3.4 Các thành phần trong bài báo khoa học 46 Bảng 3.5 Khảo sát về sự xuất hiện các thành phần bài báo khoa học 50 Bảng 3.6 Ví dụ về độ hồi tưởng . 62 Bảng 4. 1 Lọc kết quả theo tỷ lệ 4.21% 74 Bảng 4. 2 Lọc kết quả theo tỷ lệ 7% . 75 Bảng 4. 3 Kết quả 10 câu điểm cao nhất của ISS 77 Bảng 4. 4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường . 78 Bảng 4. 5 Kết quả khác nhau của ISS . 79 Bảng 4. 6 Kết quả khác nhau của Tf*Idf theo quan niệm thông thường 79 Bảng 4. 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara 81 Bảng 4. 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. Balabantara 82 Bảng 4. 9 Kết quả khác nhau của Tf*Idf theo quan niệm Makoto và R.C. Balabantara . 82 Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara . 83 Bảng 4. 11 Chi tiết kết quả rút trích 84 Bảng 4. 12 Kết quả và tỷ lệ rút trích giữa người và EMIS 87 1 Mở đầu 1. Tóm lược đề tài Hiện nay, với sự phát triển không ngừng của công nghệ, máy tính nói chung hay Word Wide Web (www) nói riêng là một môi trường phổ biến dùng để lưu trữ các thông tin. Với hàng tỷ trang web đang tồn tại, đi kèm với nó là một khối lượng thông tin vô cùng to lớn. Lượng thông tin khổng lồ đó đem lại lợi ích không nhỏ dành cho con người. Chính vì sự khổng lồ của thông tin đó dẫn đến việc tìm kiếm và tổng hợp thông tin không thuận lợi, gây nhiều khó khăn để có được một kết quả tìm kiếm đúng mục đích và ít tốn kém thời gian. Người ta mất quá nhiều thời gian để có thể đọc hết một tài liệu điện tử vài chục trang thậm chí nhiều hơn chỉ để cuối cùng rút ra kết luận là nội dung tài liệu đó không đúng mục đích tìm kiếm của mình. Rút trích các ý chính trong văn bản một cách tự động là một bài toán được đặt ra trước nhu cầu thực tế đó, việc tự động rút trích ý chính các tài liệu sẽ giúp người dùng tiết kiệm thời gian trong việc sàng lọc và tổng hợp tri thức , nâng cao chất lượng và tăng hiệu quả đánh chỉ mục cho máy tìm kiếm. Đồng thời cũng là cơ sở cho các bài toán tóm tắt văn bản, truy hồi thông tin,… Các dạng rút trích văn bản thường do con người xử lý, nghĩa là do những người có hiểu biết tốt về chuyên ngành đọc rồi rút ra các tri thức, nhưng cũng không khỏi mang ý niệm chủ quan của người xử lý văn bản, trong khi đặc điểm của văn bản khoa học là trong mỗi văn bản, tác giả – nhà khoa học – luôn mong muốn trình bày, thậm chí là khẳng định một ý tưởng khoa học, cần được trình bày lại dù là dưới dạng tóm tắt một cách hết sức khách quan[27]. Khác với việc chúng ta đọc rồi tự rút ra cho mình những ý chính trong toàn bộ văn bản như lâu nay mọi người thường làm, ở đây đề tài muốn đề cập đến một quy trình cho phép máy tính có thể tự động rút trích ý chính từ văn bản tương đối chính xác nhất mà cụ thể là các văn bản khoa học trong ngành công nghệ thông tin như bài báo khoa học và toàn văn báo cáo. Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng của nhiều ứng 2 dụng thực tế và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu việc rút trích ý chính của nhiều loại văn bản khác nhau thuộc các lĩnh vực khác nhau. Nên tác giả quyết định chọn đề tài Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc để làm đề tài nghiên cứu. Đề tài tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp rút trích ý chính của văn bản khoa học phù hợp với ngôn ngữ tiếng Việt, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một hệ thống rút trích văn bản khoa học với kết quả đầu ra tốt nhất. 2. Mục tiêu đề tài Đề xuất một quy trình rút trích các câunội dung mang thông tin quan trọng trong văn bản khoa học dựa trên phương pháp thống kê và cấu trúc tài liệu một cách chặt chẽ, đưa ra thuật toán phù hợp từ đó xây dựng ứng dụng phát triển hệ thống rút trích văn bản khoa học trong lĩnh vực công nghệ thông tin. 3. Nội dung thực hiện đề tài - Nghiên cứu hệ thống từ vựng, câu trong tiếng Việt. - Thu thập số lượng lớn các bài báo khoa học, các tin tức và toàn văn báo cáo trong lĩnh vực công nghệ phần mềm ngành công nghệ thông tin. Khảo sát cách viết và cấu trúc các loại tài liệu đó. - Tìm hiểu các công cụ xử lý văn bản của nước ngoài. - Tìm hiểu cách thức tương tác với văn bản. - Tìm hiểu các vấn đề với văn bản tiếng Việt và cách giải quyết. - Xây dựng quy trình rút trích ý chính trong văn bản khoa học : § Xác định, phân loại đối tượng văn bản : bài báo khoa học, toàn văn … § Tiền xử lý, chuẩn hóa văn bản § Xác định thông tin văn bản : tên tác giả, năm phát hành, tên văn bản, số trang, số từ . § Xác định cấu trúc của toàn bộ văn bản : chương, phần, đoạn,… § Xác định các chuỗi từ vựng quan trọng, từ khóa, chủ đề của văn bản. § Xác định những câu chứa các từ có trong tên đề tài. Xác định câu nào hay đoạn nào có cùng lúc các từ thuộc chủ đề xuất hiện nhiều nhất. 3 § Xác định các vị trí quan trọng trong văn bản thường chứa ý chính. § Xây dựng bộ từ điển các cụm từ đặc trưng xác định ý chính (Các cụm từ mà theo sau nó hay đứng trước nó là ý chính) . § Chọn lựa câu chứa ý chính làm kết quả đầu ra tốt nhất. - Xác định các ý chính của các tài liệu thu thập được theo chủ quan bản thân. Khảo sát cách xác định ý chính của những người có kinh nghiệm trong việc viết các tài liệu, các văn bản khoa học, từ đó đưa ra đánh giá, nhận xét về các ý chính trong văn bản khoa học. - Nghiên cứu các thuật toán rút trích văn bản từ đó đưa ra giải pháp phù hợp. - Xây dựng hệ thống rút trích ý chính văn bản khoa học tự động. - Thử nghiệm hệ thống trên dữ liệu thực tế để đánh giá tính hiệu quả cũng như độ chính xác của quy trình đề xuất. 4. Phạm vi ứng dụng Chương trình được xây dựng có thể áp dụng xử lý tất cả các văn bản khoa học tiếng Việt như bài báo khoa học và toàn văn báo cáo thuộc lĩnh vực Công nghệ thông tin. 4 Chương 1 : Tổng quan về tóm tắt văn bản tự động 1.1. Giới thiệu Tóm tắt văn bản tự động là một trong những nội dung quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Qua việc tóm tắt, các ý chính trong tài liệu được sàng lọc và trình bày một cách cô đọng góp phần tạo ra một văn bản ngắn gọn xúc tích nhưng vẫn mang đầy đủ thông tin mà tài liệu muốn đề cập, vì thế nó có giá trị thực tiễn to lớn và được ứng dụng hiệu quả trong các hệ thống tìm kiếm, trích lọc thông tin. Theo Inderjeet Mani tác giả của đề tài Advances in AutomaticText Summarization, mục đích của tóm tắt văn bản tự động là: “Tóm tắt văn bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây cảm xúc đối với người sử dụng hoặc một chương trình cần đến”[12]. Và để thực hiện được công việc tóm tắt đòi hỏi người đọc phải rút ra được những ý chính của văn bản, chính vì thế có thể nói đây là quá trình quan trọng nhất trong công đoạn tóm tắt. Bài toán tóm tắt văn bản là một trong những bài toán mang lại ứng dụng to lớn nhất trong lĩnh vực khai phá văn bản. Một số biến thể của bài toán này như sinh mục lục tự động, sinh ý chính tài liệu, sinh tiêu đề văn bản . Những thuật toán dùng trong tóm tắt văn bản cũng được áp dụng trong các bài toán tương tự như tóm tắt hình ảnh, âm thanh hay nói chung là những dữ liệu đa phương tiện. Điểm cốt lõi của một hệ thống tóm tắt văn bản là tìm ra những thành phần quan trọng trong văn bản cần tóm tắt. Các thành phần này được gọi là các đơn vị văn bản. Đơn vị văn bản ở đây có thể hiểu là đơn vị nhỏ nhất mà ta chọn để trích rút như mệnh đề hoặc câu. Các đơn vị văn bản quan trọng sẽ có xác suất lớn để chứa ý chính hay nội dung quan trọng của cả đoạn văn hay văn bản. Sau khi chọn được các đơn vị văn bản quan trọng, hệ thống có thể trích rút và biến đổi chúng và sau cùng hiển thị ra màn hình, thống kê kết quả hay sinh ra các dữ liệu mới cho các hệ thống khác. . TRƯỜNG ĐẠI HỌC LẠC HỒNG ******** BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI : XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC DỰA TRÊN CẤU TRÚC TẠ. về các ý chính trong văn bản khoa học. - Nghiên cứu các thuật toán rút trích văn bản từ đó đưa ra giải pháp phù hợp. - Xây dựng hệ thống rút trích ý chính

Ngày đăng: 18/12/2013, 14:42

Hình ảnh liên quan

1.2. Mô hình tóm tắt văn bản - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

1.2..

Mô hình tóm tắt văn bản Xem tại trang 11 của tài liệu.
Hình 1.2: Mô hình một hệ thống rút trích văn bản - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 1.2.

Mô hình một hệ thống rút trích văn bản Xem tại trang 12 của tài liệu.
Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word •SUMMARIST[9] - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 1.3.

Giao diện và kết quả trích rút văn bản của Microsoft Word •SUMMARIST[9] Xem tại trang 20 của tài liệu.
Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 1.4.

Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ Xem tại trang 21 của tài liệu.
Hình 3.1 Quy trình tổng quát rút trích ý chính văn bản khoa học - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 3.1.

Quy trình tổng quát rút trích ý chính văn bản khoa học Xem tại trang 46 của tài liệu.
3.2.1.1. Giai đoạn tiền xử lý văn bản (Khối (1) hình 3.1) - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

3.2.1.1..

Giai đoạn tiền xử lý văn bản (Khối (1) hình 3.1) Xem tại trang 47 của tài liệu.
Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 3.2.

Một số trường hợp ngoại lệ trong nhận dạng tách câu Xem tại trang 48 của tài liệu.
Bảng 3.4 Các thành phần trong bài báo khoa học - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 3.4.

Các thành phần trong bài báo khoa học Xem tại trang 52 của tài liệu.
Bảng 3.6 Ví dụ về độ hồi tưởng S ố  câu được  C   ch ọn  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 3.6.

Ví dụ về độ hồi tưởng S ố câu được C ch ọn Xem tại trang 68 của tài liệu.
Dựa trên mô hình tổng quát rút trích ý chính văn bản khoa học (Hình 3.1) hệ - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

a.

trên mô hình tổng quát rút trích ý chính văn bản khoa học (Hình 3.1) hệ Xem tại trang 71 của tài liệu.
Hình 4.2 Mô hình huấn luyện từ ghép - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4.2.

Mô hình huấn luyện từ ghép Xem tại trang 72 của tài liệu.
Hình 4.4 Mô hình lọc câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4.4.

Mô hình lọc câu Xem tại trang 73 của tài liệu.
Hình 4 .6 Mô hình phân lớp câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4.

6 Mô hình phân lớp câu Xem tại trang 74 của tài liệu.
Hình 4 .7 Mô hình đánh giá câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4.

7 Mô hình đánh giá câu Xem tại trang 75 của tài liệu.
Hình 4 .8 Giao diện tiền xử lý, tách từ và huấn luyện - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4.

8 Giao diện tiền xử lý, tách từ và huấn luyện Xem tại trang 76 của tài liệu.
Hình 4.9 Giao diện tách câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4.9.

Giao diện tách câu Xem tại trang 77 của tài liệu.
Hình 4. 10 Giao diện phân lớp và đánh giá câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4..

10 Giao diện phân lớp và đánh giá câu Xem tại trang 78 của tài liệu.
Hình 4.12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4.12.

Giao diện hiển thị thành phần quan trọng của bài báo khoa học Xem tại trang 79 của tài liệu.
Hình 4.11 Giao diện hiển thị kết quả - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4.11.

Giao diện hiển thị kết quả Xem tại trang 79 của tài liệu.
Bảng 4.2 Lọc kết quả theo tỷ lệ 7% - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 4.2.

Lọc kết quả theo tỷ lệ 7% Xem tại trang 81 của tài liệu.
Bảng 4.3 Kết quả 10 câu điểm cao nhất của ISS - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 4.3.

Kết quả 10 câu điểm cao nhất của ISS Xem tại trang 83 của tài liệu.
Bảng 4.4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 4.4.

Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường Xem tại trang 84 của tài liệu.
Bảng 4 .5 Kết quả khác nhau của ISS - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 4.

5 Kết quả khác nhau của ISS Xem tại trang 85 của tài liệu.
Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara Th ấy rõ hơn qua bảng sau :  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Hình 4..

13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara Th ấy rõ hơn qua bảng sau : Xem tại trang 86 của tài liệu.
Bảng 4 .7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 4.

7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara Xem tại trang 87 của tài liệu.
Bảng 4 .8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. Balabantara  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 4.

8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. Balabantara Xem tại trang 88 của tài liệu.
Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 4..

10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara Xem tại trang 89 của tài liệu.
Bảng 4.11 Chi tiết kết quả rút trích - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

Bảng 4.11.

Chi tiết kết quả rút trích Xem tại trang 90 của tài liệu.
Chú thích bảng biểu 4.1 1: - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

h.

ú thích bảng biểu 4.1 1: Xem tại trang 92 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan