Nghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bản (Luận văn thạc sĩ)

57 126 0
Nghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bản (Luận văn thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bảnNghiên cứu áp dụng thuật toán Multinomial bayes vào phân loại văn bản

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN MỸ HẢO NGHIÊN CỨU ÁP DỤNG THUẬT TOÁN MULTINOMIAL BAYES VÀO PHÂN LOẠI VĂN BẢN LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2018 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN MỸ HẢO NGHIÊN CỨU ÁP DỤNG THUẬT TOÁN MULTINOMIAL BAYES VÀO PHÂN LOẠI VĂN BẢN Chuyên ngành : Hệ thống thông tin Mã số : 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC : TS NGUYỄN MẠNH HÙNG HÀ NỘI – 2018 i LỜI CAM ĐOAN Tôi cam đoan luận văn thạc sĩ “Nghiên cứu áp dụng thuật toán Multinomial Bayes vào phân loại văn bản” cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tất tham khảo kế thừa trích dẫn tham chiếu đầy đủ Tác giả luận văn Nguyễn Mỹ Hảo ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC HÌNH VẼ iv MỤC LỤC BẢNG BIỂU v DANH MỤC TỪ VIẾT TẮT vi MỞ ĐẦU .1 CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1.Giới thiệu toán phân loại văn 1.1.1 Mở đầu .4 1.1.2 Bài toán phân loại văn 1.1.3 Ứng dụng toán phân loại văn 1.2.Các phương pháp phân loại văn 10 1.2.1 Phương pháp Navie Bayes .10 1.2.2 Phương pháp K – Nearest Neighbor 12 1.2.3 Phương pháp Multinomial Logistic regression .14 1.3 Kết luận 18 CHƯƠNG 2: PHƯƠNG PHÁP MULTINOMIAL BAYES TRONG BÀI TOÁN PHÂN LOẠI VĂN BẢN 19 2.1 Biểu diễn văn 19 2.1.1 Tiền xử lý văn 20 2.1.2 Kỹ thuật Bag of word .25 2.1.3 Trọng số TF-IDF 26 2.2 Thuật toán Multinomial Bayes 28 2.2.1 Ý tưởng 28 2.2.2 Nội dung thuật toán 28 2.2.3 Ví dụ bước phương pháp Multinomial Bayes 30 2.3.4 Ưu điểm phương pháp Multinomial Bayes phân loại văn 33 iii 2.3 Kết luận 33 CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 34 3.1 Giới thiệu liệu sử dụng 34 3.2 Sơ đồ chương trình phân loại văn .35 3.3 Tiền xử lý liệu .36 3.4 Biểu diễn văn thành vector 37 3.5 Các tiêu chuẩn đánh giá .38 3.6 Phương pháp thực nghiệm 40 3.6.1 Công cụ dùng để phân lớp .40 3.6.2 Xây dựng liệu huấn luyện kiểm tra 40 3.7 Kết thực nghiệm 41 3.8 So sánh với số phương pháp khác .44 3.9 Kết luận 45 KẾT LUẬN .46 DANH MỤC TÀI LIỆU THAM KHẢO 48 iv DANH MỤC HÌNH VẼ Hình 1 Thời gian trung bình sử dụng internet ngày người Việt Nam Hình 1.2 Các hoạt động trực tuyến người dùng mạng sử dụng Hình 1.3 Quy trình tốn phân loại văn Hình 1.4 Mơ hình giai đoạn huấn luyện Hình Mơ hình giai đoạn phân lớp Hình Ví dụ toán phân loại báo điện tử VNExpress Hình 1.7 Đồ thị hàm sigmoid 𝝈(𝒂) 15 Hình 2.1 Hình ảnh mơ tả bước tiền xử lý 21 Hình 2.2 Các bước tiền xử lý văn .21 Hình 2.3 Ví dụ cách biểu diễn Bang of word 25 Hình 3.1 Minh họa văn thư mục “rec.autos” .34 Hình 3.2 Mơ hình phân loại văn áp dụng thuật tốn Multinomial Bayes 36 Hình 3.3 Tập tin “Data” sau thực xử lý 37 v MỤC LỤC BẢNG BIỂU Bảng 1.1 Các toán phân loại ngôn ngữ tự nhiên Bảng 2.1 Các nghiên cứu biểu diễn văn [6] 19 Bảng 2.2 Bảng liệu tài liệu gồm D1 – D5 .30 Bảng 2.3 Bảng liệu để cần phân loại gồm D6 – D7 30 Bảng 2.4 Bảng tính toán khả loại AUTO .32 Bảng 3.1 Danh sách phân bố liệu 20 nhóm 35 Bảng 3.2 Kết lần kiểm tra Fold #1 .42 Bảng 3.3 Kết trung bình lần chạy Fold #1 43 Bảng 3.4 Kết thực nghiệm thuật toán Multinomial Bayes với phần Cross validation 44 Bảng 3.5 Kết thực nghiệm thuật toán Multinomial Logistic Regression với phần cross - validation 45 vi DANH MỤC TỪ VIẾT TẮT Từ viết Ý nghĩa tiếng Anh Ý nghĩa tiếng Việt FN False Positive Số sai âm FP False Positive Số sai dương KNN K – Nearest Neighbor Thuật tốn K – Nearest tắt Neighbor NB Nạve Bayes Thuật tốn Nạve Bayes TN True Negative Số âm TP True Positive Số dương MỞ ĐẦU Trong năm gần đây, với phát triển siêu phương tiện World Wide Web (WWW)…Với số lượng lớn người dùng thông tin liên tục cập nhật từ đến vấn đề đời sống, xã hội, kinh tế, giải trí… Điều tạo thách thức lớn cho việc truy vấn có hiệu hệ thống truy vấn thông tin Một khó khăn mà hệ thống thơng tin thường phải gặp tần suất cập nhật thơng tin lớn Phương thức sử dụng giấy giao dịch dần số hóa, nhiều tính vượt trội mà phương thức mang lại, lưu trữ lâu dài, cập nhật, sửa đổi, tìm kiếm cách nhanh chóng Do số lượng văn số hóa ngày tăng dần theo cấp số nhân, với gia tăng số lượng văn bản, nhu cầu tìm kiếm văn tăng theo, phân loại văn tự động yêu cầu cấp thiết đặt Phân loại văn giúp giúp tìm kiếm thơng tin cách nhanh chóng thay phải tìm văn bản, mà số lượng văn gia tăng cách nhanh chóng thao tác tìm văn nhiều thời gian, công sức công việc nhàm chán không khả thi Chính nhu cầu phân loại văn tự động thực cần thiết Xuất phát từ thực trạng xảy ra, luận văn trình bày phương pháp phân loại văn áp dụng thuật tốn Multinomial Bayes giúp người dùng dễ dàng việc tìm kiếm thơng tin cần thiết, đồng thời lưu trữ thơng tin theo chủ đề mong muốn Luận văn cấu trúc với chương sau: Chương : Giới thiệu toán phân loại văn - Chương giới thiệu toán phân loại văn ứng dụng thực tế tốn mơi trường cơng nghiệp Tiếp theo, trình bày phương pháp sử dụng toán phân loại văn là: Naive Bayes, K - Nearest Neighbor Multinomial Logistic Regression gồm nội dung lịch sử, ý tưởng cách thuật toán thực Chương : Phương pháp Multinomial Bayes toán phân loại văn - Chương luận văn tập trung vào trình bày thuật toán Multinomial Bayes sở lý thuyết áp dụng toán phân loại văn Chương 3: Thực nghiệm đánh giá – Nội dung chương cách thức mô tả liệu chuẩn hóa liệu 20 Newsgroups sử dụng luận văn Các bước tiền xử lý liệu, chạy thuật toán phân loại Multinomial Bayes với tập liệu 18758 văn với công cụ Apache Spark MLLib 35 Bảng 3.1 Danh sách phân bố liệu 20 nhóm STT Tên nhóm Số lượng văn talk.politics.mideast 933 rec.autos 986 comp.sys.mac.hardware 953 alt.atheism 798 rec.sport.baseball 987 comp.os.ms-windows.misc 979 rec.sport.hockey 992 sci.crypt 989 sci.med 977 10 talk.politics.misc 775 11 rec.motorcycles 993 12 comp.windows.x 985 13 comp.graphics 971 14 comp.sys.ibm.pc.hardware 975 15 sci.electronics 983 16 talk.politics.guns 908 17 sci.space 984 18 soc.religion.christian 997 19 misc.forsale 965 20 talk.religion.misc 628 3.2 Sơ đồ chương trình phân loại văn Dưới sơ đồ xây dựng thuật toán phân loại văn áp dụng thuật tốn Multinomial Bayes 36 Hình 3.2 Mơ hình phân loại văn áp dụng thuật tốn Multinomial Bayes Đối với mơ hình trên, việc đánh giá mơ hình huấn luyện quan trọng, dùng làm để hiệu chỉnh lại tham số huấn luyện nhằm tăng độ xác, cải thiện tốc độ tính tốn 3.3 Tiền xử lý liệu Bước tiền xử lý liệu gồm bước sau: Chuyển phần nội dung văn thành 01 dòng tập liệu huấn luyện Loại bỏ email số câu Loại bỏ dấu câu kí tự đặc biệt (!"#$%&'()*+,-./:;?@[\]^_`{|}~) Loại bỏ kí tự trống kí tự tab Tách từ chuyển dạng chữ thường (lowercase) Sau thực bước tiền xử lý, ta thu tập tin “data.txt” có dạng sau: 37 Hình 3.3 Tập tin “Data” sau thực xử lý 3.4 Biểu diễn văn thành vector Bước này, tác giả sử dụng phương pháp biểu diễn Bag of word để biểu diễn văn thành vector với kích thước 100.000 Trong tập liệu có số từ thường được sử dụng nhiều không quan trọng để thể ý nghĩa văn bản, ví dụ tập liệu “20 Newsgroups” có từ xuất nhiều lần số lần xuất sau: from(18162); can(18392); they(21566); was(21678); but(21868); if(22526); or(23943); as(25911); with(28147); are(29629); have(29873); not(29984); be(30539); on(32203); this(32437); for(43923); you(44191); it(54552); ax(62542); that(64759); is(69081); in(79922); and(93570); of(106407); to(120138); the(236995); Vì ta cần giảm mức độ quan trọng từ cách sử dụng kỹ thuật TF-IDF 38 3.5 Các tiêu chuẩn đánh giá Việc đánh giá giải thuật học máy cho liệu quan trọng, cho phép đánh giá độ xác kết phân lớp so sánh giải thuật học máy khác Các tiêu chuẩn đánh giá thường phụ thuộc vào yếu tố sau:  Tập liệu lớn độ xác tốt  Tập kiểm thử cần lớn việc đánh giá xác  Vấn đề khó (ít khi) có tập liệu (rất) lớn Phân loại đa lớp (Multiclass classification) Phân loại đa lớp mô tả vấn đề phân loại nhãn M > ( Trường hợp M = phân loại nhị phân) Đối với phân loại đa lớp, khái niệm lớp âm (negative) lớp dương (positive) định nghĩa khác so với phân loại đơn lớp Dự đốn nhãn lớp dương âm chúng phải xem xét ngữ cảnh lớp cụ thể Mỗi nhãn dự đoán đưa vào giá trị nhiều lớp Do chúng cho lớp dương lớp cụ thể chúng lớp âm cho tất lớp khác Vì vậy, số dương (TP – True positive) xảy dự đoán nhãn phù hợp Trong đó, số âm ( TN – True negative) xảy khơng dự đốn khơng phải nhãn đưa vào giá trị lớp định Theo đó, có nhiều số âm cho mẫu liệu định Việc mở rộng số sai âm (FN – False negative) số sai dương (FP – False positive) từ định nghĩa lớp dương lớp âm đơn giản - Precision: tập tìm (phân loại) Dành cho việc đo lường Độ xác theo nhãn xem xét lớp đo số lần mà nhãn cụ thể dự đoán xác chuẩn hóa theo số lần nhãn xuất đầu ra[19] 39 Các công thức tiêu chuẩn đánh giá [19]: - Định nghĩa cho lớp nhãn là: L = {ℓ0 , ℓ1 , … , ℓ𝑀−1 } - Kết đầu với vecto y bao gồm N thành phần: 𝑦0 , 𝑦1 , … , 𝑦𝑁−1 ∈ L - Vector dự đoán 𝑦̂ gồm N thành phần: 𝑦 ̂, 𝑦1 … 𝑦̂ ̂, 𝑁−1 𝜖 𝐿 - Khi đó, hàm 𝛿̂ (𝑥) xác định: 𝑛ế𝑢 𝑥 = 𝛿̂ (𝑥) = { 𝑣ớ𝑖 𝑥 𝑐ò𝑛 𝑙ạ𝑖 - (3.1) Ma trận: (3.2) - Độ xác (Accuracy) N−1 𝑇𝑃 ACC = = ∑ 𝛿̂ (𝑦̂𝑖 − 𝑦𝑖 ) 𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁 N (3.3) i=0 - Precision by label (3.4) - Recall by labe (3.5) 40 - F-measure by label (3.6) - Weighted precision (3.7) - Weighted recall (3.8) - Weighted F-measure (3.9) 3.6 Phương pháp thực nghiệm 3.6.1 Công cụ dùng để phân lớp Để phân loại văn mơ hình họ máy Multimomial Bayes, tác giả sử dụng công cụ Apache Spark MLLib (Apache Spark's scalable machine learning library) ngôn ngữ lập trình Java Apache Spark MLLib thư viện hỗ trợ xây dựng mơ hình học máy, hỗ trợ ngơn ngữ lập trình [7] : Java, Scala, Python R Thư viện MLLib hỗ trợ nhiều thuật toán Học máy bao gồm: - Phân loại(Logistic, Bayes, SVM, Random forest, Multilayer perceptron, ), hồi quy(Linear, Decision tree, ) - Phân nhóm(K-mean, LDA, GMM, ) - Khuyến nghị(ALS, ) 3.6.2 Xây dựng liệu huấn luyện kiểm tra Từ tập liệu “data.txt” gồm 18758 dòng tương ứng với 18758 văn Ta chia tập thành phần Cross-Validation Một tập giữ lại để làm tập liệu kiểm tra, tập lại sử dụng để huấn luyện Multinomial Bayes, sau dùng model huấn luyện để dự đốn tập liệu kiểm tra 41 Quá trình lặp lặp lại lần cho tất tập chọn làm tập liệu kiểm tra 3.7 Kết thực nghiệm Thực nghiệm phần Cross-Validation ta chạy thuật toán sau: - Lần (Fold #1): Giữ lại phần thứ để làm liệu đánh giá (test), phần 2, 3, ,5 đưa vào mơ hình huấn luyện Multinomial Bayes (train) - Lần (Fold #2): Giữ lại phần thứ để làm liệu đánh giá (test), phần 1, ,4 ,5 đưa vào mơ hình huấn luyện Multinomial Bayes (train) - Lần (Fold #3): Giữ lại phần thứ để làm liệu đánh giá (test), phần 1, ,4 ,5 đưa vào mô hình huấn luyện Multinomial Bayes (train) - Lần 4(Fold #4): Giữ lại phần thứ để làm liệu đánh giá (test), phần 1, 2, 3, đưa vào mô hình huấn luyện Multinomial Bayes (train) - Lần 5(Fold #5): Giữ lại phần thứ để làm liệu đánh giá (test), phần 1, 2, 3, đưa vào mô hình huấn luyện Multinomial Bayes (train) Kết thực nghiệm sau bảng sau: Lần kiểm tra thứ Fold #1: 42 Bảng 3.2 Kết lần kiểm tra Fold #1 Class Train Test Precision Recall F- by label by label measure by label talk.politics.mideast 747 186 0.9459 0.9409 0.9434 rec.autos 789 197 0.9050 0.9188 0.9118 comp.sys.mac.hardware 763 190 0.7689 0.8579 0.8109 alt.atheism 639 159 0.8580 0.9119 0.8841 rec.sport.baseball 789 197 0.9600 0.9746 0.9673 comp.os.ms- 784 195 0.9583 0.3538 0.5169 rec.sport.hockey 794 198 0.9596 0.9596 0.9596 sci.crypt 792 197 0.9192 0.9239 0.9215 sci.med 782 195 0.9531 0.9385 0.9457 talk.politics.misc 620 155 0.8553 0.8774 0.8662 rec.motorcycles 795 198 0.9461 0.9747 0.9602 comp.windows.x 788 197 0.8265 0.9188 0.8702 comp.graphics 777 194 0.7706 0.8660 0.8155 comp.sys.ibm.pc.hardware 780 195 0.6296 0.8718 0.7312 sci.electronics 787 196 0.8486 0.8010 0.8241 talk.politics.guns 727 181 0.8719 0.9779 0.9219 sci.space 788 196 0.9239 0.9286 0.9262 soc.religion.christian 798 199 0.9133 0.8995 0.9063 misc.forsale 772 193 0.8869 0.7720 0.8255 talk.religion.misc 502 125 0.8980 0.7040 0.7892 windows.misc Từ bảng kết trên, ta tính giá trị: 43 - Weighted precision = (0.9459 + 0.9050 + 0.7689 + 0.8580 + 0.9600 + 0.9583 + 0.9596 + 0.9192 + 0.9531 + 0.8553 + 0.9461 + 0.8265 + 0.7706 + 0.6296 + 0.8486 + 0.8719 + 0.9239 + 0.9133 + 0.8869 + 0.8980 ) /20 = 0.8803 - Weighted recall = (0.9409 + 0.9188 + 0.8579 + 0.9119 + 0.9746 + 0.3538 + 0.9596 + 0.9239 + 0.9385 + 0.8774 + 0.9747 + 0.9188 + 0.8660 + 0.8718 + 0.8010 + 0.9779 + 0.9286 + 0.8995 + 0.7720 + 0.7040 ) /20 = 0.8710 - Weighted F1 score = (0.9434 + 0.9118 + 0.8109 + 0.8841 + 0.9673 + 0.5169 + 0.9596 + 0.9215 + 0.9457 + 0.8662 + 0.9602 + 0.8702 + 0.8155 + 0.7312 + 0.8241 + 0.9219 + 0.9262 + 0.9063 + 0.8255 + 0.7892) / 20 = 0.8661 Bảng 3.3 Kết trung bình lần chạy Fold #1 Weighted Weighted recall precision 0.8803 Weighted F1 Accuracy score 0.8710 0.8661 0.8710 Tương tự, ta tính kết trung bình cho lần chạy Fold #2, Fold #3, Fold #4, Fold #5 sau: Tổng kết lần kiểm tra 44 Bảng 3.4 Kết thực nghiệm thuật toán Multinomial Bayes với phần Cross validation K-Fold Weighted Weighted Precision Recall F-Score Accuracy Fold #1 0.8803 0.8710 0.8661 0.8710 Fold #2 0.8622 0.8547 0.8466 0.8547 Fold #3 0.8677 0.8592 0.8537 0.8592 Fold #4 0.8450 0.8389 0.8244 0.8389 Fold #5 0.8522 0.8375 0.8243 0.8375 Trung bình 0.8615 0.8523 0.8430 0.8523 Trung bình sau 5-fold Cross-Validation thuật tốn Multinomial Bayes tập 18758 văn với kích thước vector 100.000 thu kết độ xác (accuracy) xấp xỉ 85.23% 3.8 So sánh với số phương pháp khác Để đánh giá thêm hiệu suất mơ hình dự đốn, luận văn tiến hành huấn luyện tập liệu mơ hình học máy phổ biến khác Multinomial Logistic Regression với 5-fold Cross-Validation tương tự với bước thực nghiệm thuật toán Multinomial Bayes 45 Kết thực nghiệm sau bảng sau: Bảng 3.5 Kết thực nghiệm thuật toán Multinomial Logistic Regression với phần cross - validation K-Fold Precision Recall F-Score Accuracy Fold #1 0.8555 0.8437 0.8462 0.8437 Fold #2 0.8542 0.8373 0.8413 0.8373 Fold #3 0.8625 0.8507 0.8535 0.8507 Fold #4 0.8443 0.8229 0.828 0.8229 Fold #5 0.8411 0.8245 0.8286 0.8245 Trung bình 0.8515 0.8358 0.8395 0.8358 Nhận xét: Từ 02 lần thực nghiệm trên, thuật tốn Multinomial Bayes đạt độ xác 85.22% tốt thuật toán Multinomial Logistic Regression với độ xác xấp xỉ 83.58% So sánh với mơ hình tốt với liệu “20 Newsgroups” nhóm nghiên cứu Đại học Stanford có tên “Stanford Classifier” đạt độ xác xấp xỉ 88.7% (https://nlp.stanford.edu/wiki/Software/Classifier/20_Newsgroups) 3.9 Kết luận Trong chương này, nội dung nêu cách thức mơ tả liệu chuẩn hóa liệu 20 Newsgroups sử dụng luận văn Các bước tiền xử lý liệu, chạy thuật toán phân loại Multinomial Bayes với tập liệu 18758 văn với công cụ Apache Spark MLLib Kết với độ xác 85.23% tốt so với thuật tốn Multinomial Logistic Regression với độ xác 83.58% gần với thuật toán tốt liệu 20 Newsgroups – Stanford Classifier với độ xác 88.7% 46 KẾT LUẬN Kết đạt Luận văn tiến hành nghiên cứu giải toán phân loại văn áp dụng thuật toán Multinomial Bayes Từ việc giải toán giúp cho tiến gần đến thông minh giới ảo, giúp quản lý tốt hệ thống thông tin ngập tràn nội dung Bài toán tảng cho nhiều ứng dụng quan trọng thực tế quảng cáo nhắm mục tiêu, hệ thống cung cấp tiếp thị dịch vụ thương mại tới người dùng… Những kết mà luận văn đạt được:  Nghiên cứu tìm hiểu thuật tốn Multinomial Bayes tập nhiều nhãn, đưa ưu điểm thuật toán Multinomial Bayes so với thuật toán phân loại văn khác  Nghiên cứu làm thực nghiệm áp dụng Multinomial Bayes để đánh giá tập liệu 20 Newsgroups – Stanford Classifier với 18758 văn cơng cụ Apache Spark MLLib có độ xác tốt  So sánh phân tích kết thực nghiệm với mơ hình thuật tốn khác đưa trường hợp cho kết tốt Hạn chế:  Nghiên cứu dựa liệu có sẵn  Kết thực nghiệm đạt chưa thực tốt so với kỳ vọng  Tốc độ xử lý liệu chậm tập liệu lớn Hướng phát triển  Thu thập liệu lớn hoàn chỉnh, phong phú lịch sử truy cập người dùng Internet  Dựa nhiều đặc trưng để góp phần cải thiện khả phân loại áp dụng cho toán thực tiễn  Cải thiện hiệu xuất, tăng tốc độ xử lý liệu 47  Ngoài nghiên cứu thử nghiệm với số mơ hình thuật tốn khác để tìm thuật tốn phù hợp với toán phân loại người dùng 48 DANH MỤC TÀI LIỆU THAM KHẢO [1] Nguyễn Minh Thành (2011) – Xử lý ngôn ngữ tự nhiên – Đồ án mơn học, Đại học Quốc gia Thành phố Hồ Chí Minh (2-6) 2011 [2] Đỗ Thanh Nghị, Phạm Nguyên Khang – Phân loại văn bản: Mơ hình túi từ tập hợp mơ hình máy học tự động - Tạp chí Khoa học trường Đại học Cần Thơ số 28 - (10-11) 2013 [3] Trần, C.Đ Phạm N.K.: Phân loại văn với máy học véc tơ hỗ trợ định Tạp chí Khoa học Trường Đại học Cần Thơ số (21a): 52-63 (2012) [4] Xiaojin Zhu (2008) Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, (9) 2008 [5] Xiaojin Zhu (2005) Semi-Supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005 [6] Dunja Mladenic' Machine Learning on Non-homogeneous, Distributed Text Data PhD Thesis, University of Ljubljana, Slovenia (1988) [7] Xiangrui Meng, Ameet Talwalkar, Evan Sparks, Virginia Smith, Xinghao Pan, Shivaram Venkataraman, Matei Zaharia, Rean Griffith, John Duchi, Joseph Gonzalez, Michael Franklin, Michael I Jordan, Tim Kraska – Mlib: Scalable Machine Learnig on Spark (4-6) https://stanford.edu/~rezab/sparkworkshop/slides/xiangrui.pdf [8] Multiclass classification - https://spark.apache.org/docs/2.2.0/mllib- evaluation-metrics.html#multiclass-classification [9] Mendenhall's studies of word-length distribution in the works of Shakespeare and Bacon Available from: https://academic.oup.com/biomet/article-abstract/62/1/207/220350/Mendenhall-sstudies-of-word-length-distribution [10] Argamon, S., Koppel, M., Fine, J and Shimoni, A (2003) Gender, Genre, and Writing Style in Formal Written Texts, Text 23(3), August [11] Argamon, S., Koppel, M., Pennebaker, J and Schler, J (2008) Automatical- ly Profiling the Author of an Anonymous Text, Communications of the ACM 49 [12] Sebastiani, F.: Machine learning in automated text categorization ACM Computing Surveys 34(1), 1–47 (1999) [13] Breiman, L.: Random forests Machine Learning 45(1), 5–32 (2001) [14] Lewis, D and Gale, W (1994), “A sequential algorithm for training test clas- sifiers” In proc, of SIGIR-94 [15] McCallum, A., Nigam, K,: A comparion of event models for naïve Bayes text classification Technical report, American Association for Artificial Intelligence Workshop on Learning for Text Categorization, (1998) http://www.cs.cmu.edu/~knigam/papers/multinomial-aaaiws98.pdf [16] Ashraf M.Kibriya, Eibe Frank, Bernhard Pfahringer, and Geoffrey, and Geoffrey Holmes “ Multinomial Naïve Bayes for Text Categorization Revisited”, Department of Computer Science University of Waikato – Hamilton, New Zealand (chap 2.3) [17] Naive Bayes Classifier, Feature Engineering – Machine learning https://machinelearningcoban.com/2017/08/08/nbc/ https://machinelearningcoban.com/general/2017/02/06/featureengineering/ [18] Dominhhai - Hồi quy logistic (Logistic Regression) https://dominhhai.github.io/vi/404.html?fbclid=IwAR2SD5krRlkrV3QtRXfahQtUL -Ze4mz1vPjfzwHbJbUo0a6zR2YjxXe3ABA [19] Multiclass classification - Evaluation Metrics - RDD-based API https://spark.apache.org/docs/2.2.0/mllib-evaluation-metrics.html#multiclassclassification [20] Bài giảng khai phá liệu web – Đại học công nghệ - Đại học Quốc Gia Hà Nội uet.vnu.edu.vn/~thuyhq/Courses /KPW_C5_Bieu_dien_K54 ... khơng khả thi, đó, tốn phân loại văn đã, nghiên cứu, cải tiến áp dụng vào thực tế ngày nhiều 1.1.2 Bài toán phân loại văn Phát biểu toán phân loại văn bản: Đầu vào: Cho x văn bản, biết x thuộc nhóm(chủ... phương pháp dùng thuật toán Multinomial Bayes, số thuật toán phân loại văn sau phân tích sâu hơn: 1.2.1 Phương pháp Navie Bayes Naive Bayes thuật toán phân loại dựa định lý Bayes Định lý Bayes thường... chạy thuật toán phân loại Multinomial Bayes với tập liệu 18758 văn với công cụ Apache Spark MLLib 3 CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1.Giới thiệu toán phân loại văn Phân loại văn

Ngày đăng: 14/03/2019, 23:43

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan