Tóm tắt trích xuất đơn văn bản theo phương pháp đồ thị

14 616 2
Tóm tắt trích xuất đơn văn bản theo phương pháp đồ thị

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ……oOo…… BÁO CÁO THỰC TẬP TỐT NGHIỆP Đề tài: Tóm tắt trích xuất đơn văn theo phương pháp đồ thị Sinh viên thực : Nguyễn Đình Hưởng MSSV Lớp Trường Giảng viên hướng dẫn : 20081338 : HTTT – K53 : ĐH Bách Khoa Hà Nội : PGS.TS.Lê Thanh Hương Hà nội, tháng năm 2013 Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương Mục lục SV: Nguyễn Đình Hưởng_20081338 Page Báo cáo thực tập tốt nghiệp I GVHD: PGS.TS.Lê Thanh Hương Giới thiệu toán Hiện nay, với phát triển mạnh mẽ công nghệ thông tin truyền thông đặc biệt internet- Mạng thông tin toàn cầu lượng thông tin khổng lồ bùng nổ toàn giới Thông qua mạng thông tin thông tin quý giá đợi khám phá Nhưng vấn đề đặt kho thông tin khổng lồ tìm kiếm để có thông tin cần thiết cách nhanh chóng dễ dàng Chính lĩnh vực khai phá liệu đời nhắm đáp ứng nhu cầu người Trong khai phá liệu lĩnh vực khai phá văn quan tâm hầu hết liệu tồn dạng văn Trong khai phá văn có lĩnh vự nhỏ quan tâm thời gian gần tóm tắt văn Chính lý mà em định chọn đề tài tìm hiểu lĩnh vực tóm tắt văn cụ thể tóm tắt đơn văn đợt thực tập tốt nghiệp Tóm tắt đơn văn trình tóm tắt với đầu vào văn đơn, đầu đoạn tóm tắt ngắn gòn nội dung văn đầu vào Tóm tắt văn đơn bước đệm cho việc xử lý tóm tắt đa văn toán phức tạp II Đối tượng ứng dụng Bài toán ứng dụng cho đối tượng đơn văn Văn đơn trang Web, báo tài liệu với định dạng xác định ví dụ: doc, txt III Nguồn liệu khai thác IV Tổng kết hướng nghiên cứu SV: Nguyễn Đình Hưởng_20081338 Page Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương Mặc dù có loại tóm tắt tóm tắt trích xuất tóm tắt tóm lược, nhiên để thực tóm tắt tóm lược cần có lượng tri thức đầy đủ lĩnh vực cần tóm tắt ĐIều hạn chế nhiều, hướng tiếp cận đa số tập trung vào dạng tóm tứt trích rút câu Sau số hướng tiếp cận cho toán tóm tắt đơn văn bản: Phương pháp thống kê Hầu hết nghiên cứu cho tóm tắt đơn văn tập trung văn kỹ thuật ( báo khoa học) Các phương pháp cổ điển thường tập trung vào đặc trưng hình thái để tính điểm cho câu trích xuất câu quan trọng để đưa vào tóm tắt Ý tưởng hướng tiếp cận này:     Thu thập liệu Tạo tóm tắt thủ công Thiết kế công thức toán hay logic để tính điểm cho câu Lặp tóm tắt tự động đạt tính tương đương với tóm tắt thủ công: o Tính điểm cho câu để tạo tóm tắt cho văn ngữ liệu dựa vào đặc trưng hình thái o So sánh tóm tắt tạo tự động với tóm tắt tạo thủ công o Cải thiện lại phương thức tính điểm cho câu Các nghiên cứu đại diện cho phương pháp này:   Luhn(1958) o Sử dụng đặc trưng như: word frequency, stop words, word distance o Dùng phương pháp so khớp kí tự để giải stemming Baxendale(1958) o Sử dụng đặc trưng như: sentence position o Thử nghiệm 200 đoạn câu, 85% câu đầu câu 7% câu cuối câu SV: Nguyễn Đình Hưởng_20081338 Page Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương Phương pháp xác chủ quan ngô Phương pháp sử dụng nhiều vào hệ thống học máy sau Edmundson(2969) o Điển hình phương pháp cổ điển o Sử dụng đặc trưng như: word frequency, stop words, position, cue words, title o Sử dụng phương pháp kết nối tuyến tính để kết hợp điểm đặc trưng lại với nhau: Si = w1*Ci + w2*Ki + w3*Ti + w4*Li o Thử nghiệm với 400 văn kỹ thuật kết đạt 44% o  Phương pháp thống kê TF.IDF Phương pháp gọi mô hình túi từ ( bag-of-words), sử dụng mô hình trọng số TF.IDF (term frequency inverse sentence frequency) Ở mô hình này, giá trị IDF tính câu Trong đó, TF số lần xuất term câu Và DF số câu có chứa term Cùng với phương pháp tính độ đo TF.IDF phương pháp biểu diễn văn vector không gian sử dụng Vector Space Model(saton 1975) Tuy nhiên, phương pháp dùng độ đo TF.IDF không dùng độc lập, mà thường kết hợp với phương pháp khác học máy, đồ thị,… để đạt hiệu cao Phương pháp học máy Năm 1990, với phát triển nhiều kỹ thuật học máy xử lý ngôn ngữ, số nhà nghiên cứu ứng dụng kỹ thuật vào tóm tắt văn tự động Một số nghiên cứu điển hình phương pháp nà là: Navie – Bayes, Decision Tree, Hidden Makov Model, Log – Linear, Neural Network, SVM Framework chung cho hệ thống tóm tắt văn phương pháp học máy SV: Nguyễn Đình Hưởng_20081338 Page Báo cáo thực tập tốt nghiệp 3.1 GVHD: PGS.TS.Lê Thanh Hương Phương pháp Navie-Bayes Các hướng tiếp cận theo phương pháp giả định đặc trưng văn độc lập Sử dụng phân lớp Navie – Bayes để xác định câu thuộc tóm tắt ngược lại: Cho s câu cần xác định F1… Fk đặc trưng chọn giả định thuộc tính độc lập với Xác suất câu s thuộc tóm tắt tính sau: Sau tính xác suất câu, n câu có xác suất cao trích rút Các nghiên cứu đại diện cho phương pháp này:   Kupiec(1995) o Các đặc trưng sử dụng: word frequency, location, cue word, title & leading, sentence length, uppercase words o Ngữ liệu: 188 cặp văn khoa học tóm tắt Tổng số câu: 568 câu.Số câu khớp trực tiếp với tóm tắt 451 (79%) Aone(1999) o Kết hợp thêm nhiều đặc trưng phong phú hơn: tf.idf( single word, two-noun word, named-entities), discourse(cohension) (sử dụng Wordnet kỹ thuật xử lý ngôn ngữ tự nhiên để phân tích tham chiếu thực thể) o Ngữ liệu: sử dụng ngữ liệu TREC o Hệ thống: DimSum 3.1.1 Phương pháp OOP( Optimal Position Policy) Lin Hovy (1997) nghiên cứu tính quan trọng đặc trưng cị trí câu(sentence position) cho câu văn tuân theo cấu trúc diễn ngôn ( diễn giải) dự đoán Và cấu trúc tỏng loại văn khác nhau, nên đặc trưng vị trí câu định nghĩa đơn giản phương pháp Navie – Bayes Lin Hovy đề phương pháp Optimal Position Policy cho thể loại văn bản( văn tin tức Zif-Davis máy tính phần cứng) Phương pháp thực hiện: SV: Nguyễn Đình Hưởng_20081338 Page Báo cáo thực tập tốt nghiệp    3.2 GVHD: PGS.TS.Lê Thanh Hương Với văn bản, tính suất vị trí câu với từ khóa chủ đề Xếp hạng vị trí câu với suất trung bình thủ tục OPP Lấy n vị trí câu bảng xếp hạng làm tóm tắt Phương pháp Decision Tree Lin Hovy (1999) đại diện phương pháp giả định rằng, đặc trưng không độc lập Tác giả kiểm tra nhiều đặc trưng ảnh hưởng chúng lên trình trích xuất Hệ thống tóm tắt Lin loại tóm tắt hướng truy vân (Query - based) Các đặc trưng: position (OPP), numeric data, proper name, pronoun & adjective, weekday month Cùng với đặc trưng mới: query signature( số từ truy vấn có câu) IR signature( từ bật, quan trọng ~ tf*idf) Hệ thống Summarist Lin Hovy sử dụng thuật toán C4.5 để huấn luyện định Hệ thống sử dụng tập ngữ liệu TIPSTERSUMMAC 3.3 Phương pháp Hidden Makov Model Những hướng tiếp cận trước không dựa đặc trưng không Conroy O’leary (2001) đưa hướng tiếp cận dựa mô hình HMM với ý tưởng sử dụng chuỗi câu Tác giả đưa khái niệm phụ thuộc cục (local dependencies) câu sử dụng mô hình HMM để xác định phụ thuộc Các đặc trưng sử dụng: position, number of term, likelihood of sentence Mô hình HMM bao gồm 2s + trạng thái, s số trạng thái tóm tắt (câu thuộc tóm tắt) s + câu không thuộc tóm tắt Ví dụ mô hình Hidden Makov Model Mô hình HMM xây dựng ma trận chuyển vị trí M, coi đặc trưng đa biến tính xác suất câu qua trạng thái SV: Nguyễn Đình Hưởng_20081338 Page Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương Sử dụng tập ngữ liệu TREC đánh giá với hệ thống khác DimSum QR, kết cho độ đo Precision cao 3.4 Phương pháp Log – Linear Osborne (2002) đại diện cho mô hình xoi đặc trưng không độc lập với sử dụng mô hình Log-Linear khắc phục giả định Các đặc trưng sử dụng: word pair, sentence length, sentence position discourse features (nằm introduction hay conclusion) Mô hình huấn luyện Log-Linear thực sau: Trong đó, c nhãn muốn gán cho câu s, fi đặc trưng thứ i λi trọng số kết nối đặc trưng Nhãn c có khả năng: thuộc tóm tắt không thuộc tóm tắt Giai đoạn phân lớp câu thực sau: Kết đo độ đo f2 = 2pr/(p+r) Tác giả đánh giá với hướng tiếp cận Bayes kết cho độ đo f2 cao 3.5 Phương pháp mạng Neural đặc trưng hãng thứ ba DUC 2002 đưa baseline mạnh cho tóm tắt đơn văn phương pháp trích xuất n câu báo cáo tin tức dường kết thúc hướng nghiên cứu Nhưng Svore (2007) đưa hướng tiếp cận sử dụng mạng Neural để huấn luyện, kết cho thấy vượt qua baseline DUC 2002 Các đặc trưng sử dụng: position, n-gram frequency Ngoài ra, sử dụng thêm nhật ký truy vấn máy tìm kiếm Miccrosoft Wordnet Tác gải cho rằng, câu có chứa từ khóa câu truy vấn có kết tốt tìm từ khóa Wordnet Mô hình huấn luyện từ đặc trưng nhãn báo Sau xếp hạng hệ thống RankNet Ngữ liệu đuộc lấy từ SV: Nguyễn Đình Hưởng_20081338 Page Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương CNN.com đánh giá độ đo ROUGE-1 ROUGE-2 (ahai độ đo phổ biến cho tóm tắt văn bản) Phương pháp phân tích ngôn ngữ tự nhiên Phương pháp sử dụng kỹ thuật phân tích ngôn ngữ tự nhiên phức tạp Không phải tất phương pháp phân tích ngôn ngữ tự nhiên sử dụng học máy, phương pháp sử dụng số heuristic để tạo trích rút Hầu hết phương pháp dựa cấu trúc diễn ngôn (discourse structure) hay cấu trúc diễn đạt ( thể hiện) văn bản, như: cấu trúc section văn bản, liên kết ngữ pháp ( trùng lặp, tĩnh lược, liên hợp), liên kết từ vựng ( đồng nghĩa Bao hàm, lặp lại), cấu trúc tu từ Các nghiên cứu địa diện cho phương pháp này: • • Ono (1994) o Xây dựng thủ tục để trích rút cấu trúc tu từ (rhetorical structure) từ văn tiếng Nhật xây dựng nhị phân để thể o Các bước để trích rút cấu trúc: phân tích câu, trích rút quan hệ tu từ, phân đoạn, tạo ứng viên đánh giá độ ưu tiên o Sau xây dựng thực tỉa nhánh để giảm bớt câu tạo tóm tắt o Kết đạt 51% câu xác định 74% câu quan trọng xác định Barzilay Elhadad(1997) o Hai tác giả sử dụng lượng đán g kể phân tích ngôn ngữ tóm tắt văn dựa chuỗi từ vựng (lexical chain) Chuỗi từ vựng chuỗi từ liên quan văn o Các bước thực hiên: phân tích đoạn văn bản, xác định chuỗi từ vựng sử dụng từ vựng tốt để xác định câu chèn vào tóm tắt o Để tìm chuỗi từ vựng tác giả sử dụng Wordnet Các từ có liên quan với đưa vào chuỗi Sự liên quan SV: Nguyễn Đình Hưởng_20081338 Page Báo cáo thực tập tốt nghiệp • GVHD: PGS.TS.Lê Thanh Hương tính khoảng cách Wordnet Chuỗi tính điển dựa vào chiều dài đồng o Kết đạt tốt hệ thống tóm tắt Microssoft với độ Precision 61 recall 67 (Microsoft 33 27) o Hạn chế: Không thể kiểm chiều dài mức độ chi tiết tóm tắt số chuỗi Tóm tắt thiếu kết dính chưa chi tiết so chọn câu Marcu (1998) o Sử dụng heuristic dựa cấu trúc diễn đạt với đặc trưng truyền thống Lý thuyết cấu trúc diễn đạt tác giả thể thông qua lý thuyết cấu trúc tu từ(Rhetorical Structure Theory) Lý thuyết cho hai khoảng văn không trùng lặp có mối quan hệ trung tâm (nucleus) vệ tinh (satellite) Trong đó, trung tâm quan trọng vệ tinh độc lập hoàn toàn cấu trúc tu từ Cấu trúc trọng tâm vệ tinh biểu diễn thành nhị phân o Để tính điểm cho cấu trúc tác giả sử dụng nhiều độ đo khác như: clustering- based metric, marker- based metric, rhetorical clustering -based technique, shape- based metric, title- based metric, position-based metric, connectedness-based metric sử dụng phương pháp kết hợp tuyến tính Lấy n câu chứa cấu trúc có điểm cao o Hệ thống đạt hiệu độ đo F 75.42% cao 3.5% so với baseline phương pháp lấy n câu đầu Ngữ liệu sử dụng từ TREC SV: Nguyễn Đình Hưởng_20081338 Page 10 Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương Đề xuất hướng tiếp cận V Phương pháp đồ thị Hướng tiếp cận toán em muốn nghiên cứu tót tắt trích xuất câu theo phương pháp xếp hạng dựa đồ thị từ em hình thành lên đề tài có tên : “Tóm tắt trích xuất đơn văn theo phương pháp đồ thị” Trong toán em thực việc tóm tắt đơn văn cách trích xuất câu theo giải thuật xếp hạng dựa đồ thị Nó kết hợp giải thuật PageRank Google (Brin Page, 1998) đồ thị trọng số biểu diễn cho văn đầu vào Chúng ta xây dựng đồ thị trọng số vô hướng biểu diễn cho văn đầu vào, với đỉnh đồ thị tương ứng với câu văn đầu vào, cạnh liên kết cặp đỉnh đồ thị tương ứng với cặp câu văn Công việc ta cần thực tính toán số điểm hay xếp hạng đỉnh đồ thị tương ứng với câu văn Từ chọn top câu có điểm cao câu quan trọng văn đầu vào để đưa vào tóm tắt Các công việc cần thực hiện: Chúng ta cần tính toán trọng số cạnh tương ứng với liên kết cặp câu văn đầu vào dựa độ tương đồng cặp câu Độ tương đồng tính toán dựa hai tham số : TF: Term frequency IDF: Inverse document frequency Băng việc sử dụng mô hình không gian vector cho việc biểu diễn câu vector xác định, thay tính toán TF*IDF ta thay chúng TF*ISF TF*ISF tính toán cho câu Trong đó, sj biểu diễn câu thứ j ki biểu diễn số thuật ngữ thứ i tfi, j = isfi = log Trong đó, tfi,j ‘term frequency’ term thứ i câu thứ j isfi ‘inverse sentence frequency’ term thứ i SV: Nguyễn Đình Hưởng_20081338 Page 11 Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương N tổng số câu văn đầu vào (bao gồm title) ni số câu chứa ki Từ đó, ta tính trọng số tương ứng term thứ i câu thứ j sau: Wi,j = tfi,j * isfi Trọng số cạnh đỉnh tương ứng độ tương đồng câu Sm Sn tính theo công thức cosine sau: W(sm, sn) = Với giải thuật xếp hạng trang nguyên gốc kết hợp với tác động link vào ta có công thức tính xếp hạng đỉnh đồ thị: PR(Vi) = (1 - d) + d * Trong đó, d tham số nằm khoảng (0;1) Công thức chuyển đổi thành công thức cho khái niệm trọng số cạnh đồ thị sau: PRW(Vi) = (1 - d) + d * Trong đó, PRW(Vi) xếp hạng đỉnh Vi In(Vi) tất đỉnh tới đỉnh Vi Out(Vi) tập đỉnh mà đỉnh Vi tới Do đồ thị xây dựng đồ thị trọng số vô hướng nên ta giả thuyết bán bậc bán bậc vào đỉnh đồ thị nhau.Ngoài ra, nguyên tắt sau đưa cấu trúc đồ thị: • Thứ tự câu không quan trọng mà quan trọng nội dung chúng • Độ tương đồng câu với o i< N: W(si, si) = Các câu xếp theo xếp hạng node tương ứng ‘n’ câu tốt chọn dựa vào mức độ giảm thiểu số từ/ câu tóm tắt Cụ thể hóa toán Trên giới thiệu đề xuất hướng tiếp cận em toán Sau đây, em xin trình bày bước tổng quát cách giải toán Bài toán tóm tắt đơn văn gồm có bước chính: SV: Nguyễn Đình Hưởng_20081338 Page 12 Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương Bước 1: Tiền xử lý • Chuẩn hóa văn đầu vào cách loại bỏ dấu ngắt không đáng có, loại bỏ từ dừng – Những từ thường xuyên xuất văn không mang nhiều ý nghĩa nội dung văn bản.VD: Có thể, nếu, vậy, sau khi,… • Tách thuật ngữ ( term) • Xây dựng biểu diễn có cấu trúc văn đầu vào: Xây dựng đồ thị trọng số vô hướng với đỉnh câu văn đầu vào Bước 2: Xử lý • • • Trong bước áp dụng giải thuật dựa đồ thị để xác định câu quan trọng đại diện cho văn Công việc bước việc áp dụng giải thuật PageRank Summarizer để xếp hạng node đồ thị xây dựng tương ứng với câu văn đầu vào o Giải thuật PageRank: Xếp hạng node đồ thị o Giải thuật Summarizer: Tính trọng số thuật ngữ với câu văn đầu vào Chọn câu quan trọng theo mức độ rút gọn tóm tắt yêu cầu Bước 3: Hiển thị kết SV: Nguyễn Đình Hưởng_20081338 Page 13 Báo cáo thực tập tốt nghiệp • GVHD: PGS.TS.Lê Thanh Hương Trong bước xếp lại câu chọn theo thứ tự ban đầu văn đầu vào SV: Nguyễn Đình Hưởng_20081338 Page 14 [...]... Thanh Hương Đề xuất hướng tiếp cận V 1 Phương pháp đồ thị Hướng tiếp cận bài toán em muốn nghiên cứu là tót tắt trích xuất câu theo phương pháp xếp hạng dựa trên đồ thị từ đó em hình thành lên đề tài có tên : Tóm tắt trích xuất đơn văn bản theo phương pháp đồ thị Trong bài toán này em thực hiện việc tóm tắt đơn văn bản bằng cách trích xuất câu theo giải thuật xếp hạng dựa trên đồ thị Nó là sự kết... Page, 1998) và đồ thị trọng số biểu diễn cho văn bản đầu vào Chúng ta xây dựng một đồ thị trọng số vô hướng biểu diễn cho văn bản đầu vào, với mỗi đỉnh của đồ thị tương ứng với một câu của văn bản đầu vào, mỗi cạnh là liên kết giữa các cặp đỉnh trong đồ thị tương ứng với các cặp câu trong văn bản Công việc ta cần thực hiện là tính toán được số điểm hay xếp hạng của các đỉnh trong đồ thị tương ứng với... văn bản nhưng không mang nhiều ý nghĩa về nội dung văn bản. VD: Có thể, nếu, vì vậy, sau khi,… • Tách thuật ngữ ( term) • Xây dựng một biểu diễn có cấu trúc của văn bản đầu vào: Xây dựng đồ thị trọng số vô hướng với các đỉnh là các câu trong văn bản đầu vào Bước 2: Xử lý • • • Trong bước này chúng ta sẽ áp dụng giải thuật dựa trên đồ thị để xác định được các câu quan trọng nhất có thể đại diện cho văn. .. diện cho văn bản Công việc trong bước này chính là việc áp dụng giải thuật PageRank và Summarizer để xếp hạng các node trên đồ thị đã xây dựng tương ứng với các câu trong văn bản đầu vào o Giải thuật PageRank: Xếp hạng các node trên đồ thị o Giải thuật Summarizer: Tính trọng số của mỗi thuật ngữ với mỗi câu của văn bản đầu vào Chọn ra các câu quan trọng nhất theo mức độ rút gọn của tóm tắt yêu cầu Bước... đỉnh trong đồ thị tương ứng với các câu trong văn bản Từ đó chúng ta sẽ chọn ra top các câu có điểm cao nhất là những câu quan trọng trong văn bản đầu vào để đưa vào tóm tắt Các công việc cần thực hiện: Chúng ta cần tính toán trọng số của các cạnh tương ứng với liên kết giữa các cặp câu trong văn bản đầu vào dựa trên độ tương đồng giữa các cặp câu đó Độ tương đồng được tính toán dựa trên hai tham số chính... của một đỉnh trong đồ thị là bằng nhau.Ngoài ra, các nguyên tắt sau được đưa ra trong cấu trúc đồ thị: • Thứ tự giữa các câu không quan trọng mà quan trọng là nội dung của chúng • Độ tương đồng của một câu với chính nó là bằng 0 o i< N: W(si, si) = 0 Các câu được sắp xếp theo xếp hạng các node tương ứng ‘n’ câu tốt nhất sẽ được chọn dựa vào mức độ giảm thiểu số từ/ câu trong tóm tắt 2 Cụ thể hóa bài... đề xuất hướng tiếp cận của em về bài toán Sau đây, em xin trình bày các bước tổng quát trong cách giải quyết bài toán trên Bài toán tóm tắt đơn văn bản gồm có 3 bước chính: SV: Nguyễn Đình Hưởng_20081338 Page 12 Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương Bước 1: Tiền xử lý • Chuẩn hóa văn bản đầu vào bằng cách loại bỏ các dấu ngắt không đáng có, loại bỏ từ dừng – Những từ thường xuyên xuất. .. xếp hạng của một đỉnh trong đồ thị: PR(Vi) = (1 - d) + d * Trong đó, d là tham số nằm trong khoảng (0;1) Công thức trên được chuyển đổi thành công thức cho khái niệm trọng số cạnh trong đồ thị như sau: PRW(Vi) = (1 - d) + d * Trong đó, PRW(Vi) là xếp hạng của đỉnh Vi In(Vi) là tất cả các đỉnh đi tới đỉnh Vi Out(Vi) là tập các đỉnh mà đỉnh Vi đi tới Do đồ thị xây dựng là đồ thị trọng số vô hướng nên ta... Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương N là tổng số các câu trong văn bản đầu vào (bao gồm cả title) ni là số câu chứa ki Từ đó, ta tính trọng số tương ứng của một term thứ i trong câu thứ j như sau: Wi,j = tfi,j * isfi Trọng số cạnh giữa 2 đỉnh tương ứng độ tương đồng giữa 2 câu Sm và Sn được tính theo công thức cosine như sau: W(sm, sn) = Với giải thuật xếp hạng trang nguyên gốc... của văn bản đầu vào Chọn ra các câu quan trọng nhất theo mức độ rút gọn của tóm tắt yêu cầu Bước 3: Hiển thị kết quả SV: Nguyễn Đình Hưởng_20081338 Page 13 Báo cáo thực tập tốt nghiệp • GVHD: PGS.TS.Lê Thanh Hương Trong bước này chúng ta sắp xếp lại các câu đã được chọn theo thứ tự ban đầu trong văn bản đầu vào SV: Nguyễn Đình Hưởng_20081338 Page 14 ... kết SV: Nguyễn Đình Hưởng_ 20081338 Page 13 Báo cáo thực tập tốt nghiệp • GVHD: PGS.TS.Lê Thanh Hương Trong bước xếp lại câu chọn theo thứ tự ban đầu văn đầu vào SV: Nguyễn Đình Hưởng_ 20081338... dạng xác định ví dụ: doc, txt III Nguồn liệu khai thác IV Tổng kết hướng nghiên cứu SV: Nguyễn Đình Hưởng_ 20081338 Page Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương Mặc dù có loại tóm... như: sentence position o Thử nghiệm 200 đoạn câu, 85% câu đầu câu 7% câu cuối câu SV: Nguyễn Đình Hưởng_ 20081338 Page Báo cáo thực tập tốt nghiệp GVHD: PGS.TS.Lê Thanh Hương Phương pháp xác chủ

Ngày đăng: 30/12/2015, 20:38

Mục lục

  • I. Giới thiệu bài toán

  • II. Đối tượng ứng dụng

  • III. Nguồn dữ liệu khai thác

  • IV. Tổng kết các hướng nghiên cứu

    • 1. Phương pháp thống kê

    • 3. Phương pháp học máy

      • 3.1. Phương pháp Navie-Bayes

        • 3.1.1. Phương pháp OOP( Optimal Position Policy)

        • 3.2. Phương pháp Decision Tree

        • 3.3. Phương pháp Hidden Makov Model

        • 3.4. Phương pháp Log – Linear

        • 3.5. Phương pháp mạng Neural và đặc trưng của hãng thứ ba

        • 4. Phương pháp phân tích ngôn ngữ tự nhiên

        • V. Đề xuất hướng tiếp cận

          • 1. Phương pháp đồ thị

          • 2. Cụ thể hóa bài toán

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan