Phân loại văn bản bằng thuật toán Naïve Bayes

Thông tin tài liệu

Để giải bài toán này đã có rất nhiều phương pháp được đưa ra như : thuật toán Naïve Bayes, KNN (KNearestNeighbor), Cây quyết định (Decision Tree), Mạng Neuron nhân tạo (Artificial Neural Network) và SVM (Support Vector Machine). Mỗi phương pháp đều cho kết quả khá tốt cho bài toán này, tuy nhiên phương pháp phân loại văn bản bằng thuật toán Bayes được sử dụng phổ biến hơn cả và dễ dàng cài đặt. Trong bài tiểu luận này em xin trình bày về phương pháp “Phân loại văn bản bằng thuật toán Naïve Bayes” . Nội dung bài tiểu luận gồm có ba phần:Chương 1: Giới thiệu chung về phân loại văn bảnChương 2: Trình bảy về thuật toán Naïve BayesChương 3: Ví dụ áp dụng

MỤC LỤC MỤC LỤC i LỜI NÓI ĐẦU ii CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu .1 1.2 Định nghĩa 1.3 Quy trình phân loại văn 1.4 Khái niệm phân loại văn 1.4.1 Tập văn huấn luyện (Training documents set) 1.4.2 Từ khóa 1.4.3 Thuật ngữ 1.4.4 Từ dừng 1.4.5 Trọng số 1.4.6 Tiền xử lý (Preprocessing) 1.4.7 Đánh số (Indexing) 1.4.8 Trích chọn đặc trưng (Feature selection) .4 CHƯƠNG 2: THUẬT TOÁN NAÏVE BAYES 2.1 Định lý Bayes .5 2.2 Mơ hình Nạve Bayes 2.2.1 Giới thiệu 2.2.2 Cơ chế hoạt động 2.2.3 Ưu điểm 2.2.4 Nhược điểm 10 CHƯƠNG 3: VÍ DỤ ÁP DỤNG 11 3.1 Bài toán 11 3.2 Bước huấn luyện 11 3.3 Bước phân lớp 11 3.4 Kết .12 KẾT LUẬN .13 TÀI LIỆU THAM KHẢO 14 Lời nói đầu LỜI NÓI ĐẦU Nhiều năm trở lại đây, loại thông tin phát triển không ngừng số lượng chất lượng Do số lượng văn số hóa ngày tăng dần theo cấp số nhân, với gia tăng số lượng văn bản, nhu cầu tìm kiếm văn tăng theo, phân loại văn tự động yêu cầu cấp thiết đặt Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngơn ngữ Nhiệm vụ tốn gán tài liệu văn vào nhóm chủ đề cho trước Đây toán thường gặp thực tế điển : nhà chun phân tích thị thường chứng khốn, cần phải tổng hợp nhiều tài liệu, viết thị trường chứng khoán để đọc đưa phán đốn Tuy nhiên, khơng thể đọc tất viết, báo hay tài liệu để phân loại chúng đâu tài liệu chứng khốn sau đọc kỹ chúng cho mục đích Lý vấn đề số lượng viết, báo nhiều, đặc biệt Internet, để đọc hết tất tài liệu nhiều thời gian Để giải tốn có nhiều phương pháp đưa : thuật tốn Nạve Bayes, K-NN (K-Nearest-Neighbor), Cây định (Decision Tree), Mạng Neuron nhân tạo (Artificial Neural Network) SVM (Support Vector Machine) Mỗi phương pháp cho kết tốt cho toán này, nhiên phương pháp phân loại văn thuật toán Bayes sử dụng phổ biến dễ dàng cài đặt Trong tiểu luận em xin trình bày phương pháp “Phân loại văn thuật tốn Nạve Bayes” Nội dung tiểu luận gồm có ba phần: Chương 1: Giới thiệu chung phân loại văn Chương 2: Trình bảy thuật tốn Nạve Bayes Chương 3: Ví dụ áp dụng Thái Thị Mỹ Hạnh Chương 1: Giới thiệu chung phân loại văn CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu Nhiều năm trở lại đây, loại thông tin phát triển không ngừng số lượng chất lượng Các nghiên cứu khai phá liệu dạng văn quan tâm thời gian gần số lượng tài liệu điện tử tăng nhanh chóng từ nhiều nguồn khác Khơng kể tới văn có cấu trúc, số lượng văn không cấu trúc cấu trúc tăng lên lớn Phân loại văn giúp giúp tìm kiếm thơng tin cách nhanh chóng thay phải tìm văn bản, mà số lượng văn gia tăng cách nhanh chóng thao tác tìm văn nhiều thời gian, công sức công việc nhàm chán khơng khả thi Chính nhu cầu phân loại văn tự động thực cần thiết Mục đích việc khai phá liệu văn cho phép người dùng trích xuất thơng tin nguồn văn sử dụng chúng thông qua công cụ như: tra cứu, hỏi đáp, phân loại tóm tắt sử dụng ngơn ngữ tự nhiên Có nhiều cơng trình nghiên cứu phân loại văn như: Support Vector Machine, K–Nearest Neighbor, Linear Least Squares Fit, Neural Network, Naïve Bayes, Centroid Base… Điểm chung phương pháp dựa vào xác suất thống kê dựa vào trọng số từ, cụm từ văn Trong phương pháp có cách tính tốn khác nhau, nhiên phương pháp phải thực số bước chung như: phương pháp dựa vào thông tin xuất từ văn (tần số xuất tập văn bản,…) để biểu diễn thành dạng vector, sau tùy tốn cụ thể mà định chọn áp dụng phương pháp nào, cơng thức tính tốn cho phù hợp để phân loại tập văn dựa tập vector xây dựng bước trên, nhằm mục đích đạt kết phân loại tốt 1.2 Định nghĩa Bài toán phân loại văn (text classification) toán lĩnh vực khai phá văn (text mining) Phân loại văn phân loại không cấu trúc tài liệu văn dựa tập hợp hay nhiều loại văn định nghĩa trước Quá trình thường thực thi hệ thống tự động gán cho tài liệu văn loại Phân loại văn tức gán văn vào nhóm văn biết trước Phân loại văn gán nhãn (lớp/chủ đề) cách tự động dựa vào nội dung văn Phân loại văn ứng dụng nhiều lĩnh vực tìm kiếm thơng tin, lọc văn bản, tổng hợp tin tức tự động, thư viện điện tử Bài toán phân loại văn định nghĩa sau Từ tập văn Thái Thị Mỹ Hạnh Chương 1: Giới thiệu chung phân loại văn bản D = {d1, d2, …, dn}, gọi tập huấn luyện, tài liệu d i gán nhãn chủ đề ci với ci thuộc tập chủ đề C = {c 1, c2, …, cn} để xây dựng phân lớp Nhiệm vụ phân lớp gán nhãn chủ đề c k cho tài liệu dk bất kỳ, ck thuộc vào tập chủ đề C Minh họa trực quan cho việc phân loại văn việc xếp tin tức báo vào danh mục tương ứng thể thao, giải trí, xã hội tờ báo điện tử thường làm Việc thực thủ cơng biên tập viên nhiên thời gian cơng sức Thay vào sử dụng số kĩ thuật học máy để tiến hành phân loại tự động tin tức Đặc điểm bật toán đa dạng chủ đề văn tính đa chủ đề văn Tính đa chủ đề văn làm cho phân loại mang tính tương đối có phần chủ quan, người thực hiện, dễ bị nhập nhằng phân loại tự động Rõ ràng viết Giáo dục xếp vào Kinh tế viết bàn tiền nong đầu tư cho giáo dục tác động đầu tư đến kinh tế - xã hội Về chất, văn tập hợp từ ngữ có liên quan với tạo nên nội dung ngữ nghĩa văn Từ ngữ văn đa dạng tính đa dạng ngôn ngữ (đồng nghĩa, đa nghĩa, từ vay mượn nước ngoài,…) số lượng từ cần xét lớn Ở cần lưu ý rằng, văn có số lượng từ ngữ khơng nhiều, số lượng từ ngữ cần xét nhiều phải bao hàm tất từ ngôn ngữ xét 1.3 Quy trình phân loại văn Quy trình phân loại chung cho phương pháp phân loại:  Bước 1: Xây dựng liệu chủ quan dựa vào tài liệu văn phân loại sẵn Tiến hành học cho liệu, xử lí thu thập liệu trình học đặc trưng riêng biệt cho chủ đề  Bước 2: Dữ liệu cần phân loại xử lí, rút đặc trưng kết hợp với đặc trưng học trước để phân loại đưa kết Dữ liệu đầu vào cho trình học máy hay liệu đầu vào để phân loại dạng văn qua công đoạn tiền xử lí Cơng đoạn tiền xử lí quan trọng cần thiết, làm tối ưu hóa liệu việc lưu trữ xử lí Các cơng đoạn q trình tiền xử lí văn bao gồm: tách từ tiếng Việt, loại bỏ từ dừng, từ tầm thường lấy danh từ Sau đó, rút trích đặc trưng biểu diễn văn Thái Thị Mỹ Hạnh Chương 1: Giới thiệu chung phân loại văn 1.4 Khái niệm phân loại văn 1.4.1 Tập văn huấn luyện (Training documents set) Tập văn huấn luyện tập hợp liệu sử dụng trình tìm kiếm quan hệ, luật để dùng cho dự đốn dự báo sau 1.4.2 Từ khóa Từ khóa: từ xuất văn có nghĩa từ điển 1.4.3 Thuật ngữ Thuật ngữ: từ khóa có nghĩa liên quan đến số lĩnh vực ví dụ: "máy tính", "cơng nghệ phần mềm", "tính tốn song song" Các thuật ngữ thuộc lĩnh vực "tin học" 1.4.4 Từ dừng Từ dừng: Nhiều từ dùng để biểu diễn cấu trúc câu, xuất thường xuyên văn bản, không mang ý nghĩa mặt nội dung, chẳng hạn giới từ, liên từ, … từ gọi từ dừng Ví dụ: Có thể, nếu, vậy, sau khi, thì, số, với lại, thật, hầu như, … 1.4.5 Trọng số Trọng số từ độ quan trọng hay hàm lượng thơng tin mà từ mang lại chovăn Trọng số từ đại lượng dùng để đo khác biệt văn chứa với văn khác 1.4.6 Tiền xử lý (Preprocessing) Tiền xử lý bước quan trọng trước nhận diện văn thực việc gán nhãn cho tập văn huấn luyện Đầu tiên cần biểu diễn văn dạng từ (word) rõ ràng Các văn chuẩn bị thực phân loại thường có số chiều đặc trưng lớn Thông thường, bước tiền xử lý bao gồm: Thái Thị Mỹ Hạnh Chương 1: Giới thiệu chung phân loại văn Tokenization: Văn coi chuỗi, cần phân chia thành danh sách tokens (token ký tự, từ, ) Loại bỏ từ dừng: Loại bỏ từ dừng coi bước giúp lọc bỏ nhiễu, giúp hạn chế sai số q trình tính tốn giảm bớt số chiều đặc trưng Các từ dừng “và”, “thôi”, “này” 1.4.7 Đánh số (Indexing) Biểu diễn văn kỹ thuật tiền xử lý, sử dụng để giảm độ phức tạp văn dễ dàng lưu trữ xử lý, văn biến đổi từ dạng chữ đầy đủ thành véc tơ văn Thơng thường sử dụng mơ hình véc tơ không gian Các văn biểu diễn véc tơ từ 1.4.8 Trích chọn đặc trưng (Feature selection) Sau tiền xử lý đánh số, bước quan trọng phân loại văn trích chọn đặc trưng để xây dựng véc tơ không gian, để làm tăng chất lượng, độ xác phân loại văn Ý tưởng trích chọn đặc trưng lựa chọn tập đặc trưng từ văn gốc Trích chọn đặc trưng thực cách giữ lại từ có số cao theo độ đo xác định trước Bởi toán phân loại văn thường tốn có số chiều đặc trưng cao Một số độ đo đánh giá đặc trưng theo độ lợi ích thơng tin (information gain), tần suất từ (term frequency), độ tương hỗ thông tin (mutual information) Đối với toán phân loại đối tượng nói chung tốn phân loại văn nói riêng, giai đoạn trích chọn đặc trưng quan trọng Đại đa số cơng trình vừa nêu sử dụng toàn văn nội dung văn cho giai đoạn trích chọn đặc trưng, điều ngun nhân hạn chế: (1) số lượng đặc trưng lớn dẫn đến độ phức tạp cao, (2) số lượng đặc trưng lớn chứa nhiễu dẫn đến độ xác giai đoạn phân lớp bị hạn chế Thái Thị Mỹ Hạnh Chương 2: Thuật tốn Nạve Bayes CHƯƠNG 2: THUẬT TỐN NẠVE BAYES 2.1 Định lý Bayes 2.1.1.1 Lý thuyết Naive Bayes thuật toán phân loại dựa định lý Bayes Định lý Bayes thường dùng lý thuyết xác suất, cho phép tính xác xuất xảy kiện Y biết kiện liên qua X xảy Đây thuật toán xem đơn giản phương pháp Bộ phân lớp Bayes dự báo xác suất thành viên lớp, chẳng hạn xác suất mẫu cho trước thuộc lớp xác định Chúng giả định thuộc tính độc lập (độc lập điều kiện lớp) Thuật toán Naïve Bayes dựa định lý Bayes phát biểu sau : Trong đó: Y đại diện giả thuyết, giả thuyết suy luận có chứng X P(X) : xác xuất X xảy (Xác suất biên duyên X) P(Y) : xác xuất Y xảy (Điều kiện tiên nghiệm Y) P(X|Y) : xác xuất X xảy Y xảy (xác suất có điều kiện, khả X Y đúng) P(Y|X) : xác suất hậu nghiệm Y biết X Áp dụng toán phân loại, kiện cần có : D: tập liệu huấn luyện vector hoá dạng =( x1, x2, … , xn ) Ci: tập tài liệu D thuộc lớp Ci với i={1,2,3,…} Các thuộc tính x1,x2,…xn độc lập xác suất đôi với Theo định lý Bayes : Theo tính chất độc lập điều kiện : Khi đó, luật phân lớp cho tài liệu Xnew ={x1, x2, … , xn} là: Thái Thị Mỹ Hạnh Chương 2: Thuật tốn Nạve Bayes Trong : P(Ci) : tính dựa tần suất xuất tài liệu tập huấn luyện P(xk|C) : tính từ tập thuộc tính tính q trìn huấn luyện 2.1.1.2 Ví dụ Khi có thông báo dự báo thời tiết, câu hỏi đặt cần phán đoán nội dung để đưa định có nên chơi hay khơng Chúng ta thực phân tích câu thơng báo để tìm từ quan trọng mapping với định dự kiến tổ chức thành bảng liệu bên Từ Quan Trọng Giả thuyết định Nắng Đi Râm Đi Sương mù Không Mưa Không Âm u Không Áp dụng cơng thức nêu trên, tính tốn giá trị sau P(“đi”) = (số từ “đi”) / (tổng số từ giả thuyết) = = 0.4 P(“không đi”) = (số từ “không đi”) / (tổng số từ giả thuyết) = = 0.6 Giả sử đầu vào câu “trời nắng đẹp” Tính xác suất: P(“đi”|“nắng”) = P(“đi”) * (số từ “nắng” mà có giải thuyết “đi”) / (số từ có giả thuyết “đi”) = 0.4 * (1 / 2) = 0.2 P(“không đi” | “nắng”) = P(“khơng đi”) * (số từ “nắng” mà có giả thuyết “không đi”) / (số từ giả thuyết “không đi”) = 0.6 * (0 / 3) = 0.0 Với kết tính tốn trên, nhận thấy rằng: P(“đi” | “nắng”) > P(“không đi”|“nắng” ) => bước dự đoán gợi ý “nên chơi” Thái Thị Mỹ Hạnh Chương 2: Thuật tốn Nạve Bayes 2.2 Mơ hình Nạve Bayes 2.2.1 Giới thiệu Thuật tốn Nạve Bayes dựa định lý Bayes phát biểu sau: Áp dụng toán phân loại, kiện gồm có:  D: tập liệu huấn luyện vector hóa dạng  Ci: phân lớp i, với i = {1,2,…,m}  Các thuộc tính độc lập điều kiện đơi với Theo định lý Bayes: Theo tính chất độc lập điều kiện: Trong đó:  xác suất thuộc phân lớp i biết trước mẫu X  xác suất phân lớp i  xác suất thuộc tính thứ k mang giá trị xk biết X thuộc phân lớp i Các bước thực thuật tốn Nạve Bayes: Bước 1: Huấn luyện Naïve Bayes (dựa vào tập liệu), tính Bước 2: Phân lớp , ta cần tính xác suất thuộc phân lớp biết trước Xnew Xnew gán vào lớp có xác suất lớn theo công thức 2.2.2 Cơ chế hoạt động Ý tưởng cách tiếp cận Naïve Bayes sử dụng xác suất có điều kiện từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Giả định làm cho việc tính tốn Naive Bayes hiệu nhanh chóng phương pháp khác khơng sử dụng việc kết hợp từ để đưa phán đoán chủ đề Kết dự đoán bị ảnh hưởng kích thước tập liệu, chất lượng khơng gian đặc trưng… Một tài liệu văn bao gồm chuỗi câu, câu bao gồm chuỗi từ Tuy nhiên, phức tạp việc mơ hình hóa chuỗi từ mối quan hệ chúng, số giả thiết tạo dẫn xuất trình phân loại Bayes Thái Thị Mỹ Hạnh Chương 2: Thuật tốn Nạve Bayes Cụ thể, phân loại Naive Bayesian xử lý tài liệu “túi” từ Văn đầu vào cho việc huấn luyện phân lớp có cấu trúc plain text Mơ hình túi từ (BoW- Bag of Words) sử dụng để biểu diễn văn Mơ hình quan tâm đến trọng số từ mục văn mà khơng quan tâm đến vị trí xuất từ mục Đối với mơ hình túi từ, hai cơng việc cần phải giải tách từ gán trọng số: Các từ tài liệu tạo độc lập với ngữ cảnh chúng, nghĩa là, độc lập với từ khác tài liệu cho nhãn lớp Đây giả định Naive Bayes quen thuộc sử dụng trước Xác suất từ độc lập với vị trí tài liệu Ví dụ, khả nhìn thấy từ “sinh viên” vị trí tài liệu giống nhìn thấy vị trí khác Độ dài tài liệu độc lập với lớp tài liệu Mô tả vector đặc trưng văn bản: Là vector có số chiều số đặc trưng tồn tập liệu, đặc trưng đôi khác Nếu văn có chứa đặc trưng có giá trị 1, ngược lại Thuật tốn gồm giai đoạn huấn luyện phân lớp: 2.2.2.1 Huấn luyện: tính  Đầu vào:  Các vector đặc trưng văn tập huấn luyện (Ma trận MxN, với M số vector đặc trưng tập huấn luyện, N số đặc trưng vector)  Tập nhãn/lớp cho vector đặc trưng tập huấn luyện  Đầu ra:  Các giá trị xác suất Cơng thức tính làm trơn Laplace Trong đó:  |docsi|: số văn tập huấn luyện thuộc phân lớp i  |total docs|: số văn tập huấn luyện  m số phân lớp Cài đặt:  Khởi tạo mảng A, B có kích thước m  Duyệt qua văn tập liệu, đếm số văn phân lớp lưu vào A Thái Thị Mỹ Hạnh Chương 2: Thuật tốn Nạve Bayes  Tính xác suất cho phân lớp theo công thức lưu vào mảng B Cơng thức tính làm trơn Laplace: Trong đó:  : Số văn trong phân lớp i có đặc trưng thứ k mang giá trị x k (hay số văn lớp i, có xuất hiện/khơng xuất đặc trưng k)  : Số văn tập huấn luyện thuộc phân lớp i  Số giá trị có đặc trưng thứ k Cài đặt:  Với vector đặc trưng mô tả bên trên, d k mang giá trị 2, tương ứng với xuất không xuất Do có giá trị, ta tính nhanh xác suất không xuất theo công thức  Khởi tạo mảng chiều C, chiều có kích thước m (số phân lớp), chiều có kích thước N (số đặc trưng), chiều có kích (dk) để lưu giá trị  Duyệt qua văn tập liệu, tiến hành thống kê số cần thiết để tính xác suất theo công thức lưu vào mảng C 2.2.2.2 Phân lớp  Đầu vào:  Vector đặc trưng văn cần phân lớp  Các giá trị xác suất  Đầu ra:  Nhãn/lớp văn cần phân loại Cơng thức tính xác suất thuộc phân lớp i biết trước mẫu X Dựa vào vector đặc trưng văn cần phân lớp, áp dụng cơng thức tính xác suất thuộc phân lớp cho văn bản, chọn lớp có xác suất cao 2.2.3 Ưu điểm  Dễ dàng nhanh chóng để dự đốn phân lớp liệu thành nhóm khác  Dự đốn đa lớp với độ xác cao  Naive Bayes thực tốt so với mơ hình khác hồi quy cần liệu training Thái Thị Mỹ Hạnh Chương 2: Thuật tốn Nạve Bayes 2.2.4 Nhược điểm  Khi tiến hành dự đoán tập liệu mà khơng có training xác suất xác định  Việc liệu lớp phân loại không đồng dẫn đến dự đoán sai Giả sử câu có hai từ thuộc “khen” “chê” hệ thống dự đốn nghiêng hẵn hướng số lượng tập liệu train hệ thống có lượng từ tích cực (khen, tốt) vượt trội lượng từ khơng tích cực (phê bình, khơng tốt) ngược lại Thái Thị Mỹ Hạnh Chương 3: Ví dụ áp dụng CHƯƠNG 3: VÍ DỤ ÁP DỤNG 3.1 Bài tốn Ta có tập tài liệu để huấn luyện sau vector hoá (sử dụng phương pháp đơn giản đếm sô lần xuất hiện) rút trích đặc trưng sau: - Bộ từ vựng (đặc trưng) : Huy chương, Đại hội, Chiến tranh, Cổ vũ Huy chương Đại hội Doc1 Doc2 Doc3 Doc4 Doc5 Doc6 42 10 11 33 28 Chiến tranh 45 22 30 25 28 25 40 32 22 Cổ vũ Class 56 48 60 Thể thao Chính trị Chính trị Thể thao Thể thao Chính trị Bảng 1.1 Bảng liệu huấn luyện Cho văn có vector đặc trưng sau: Docnew = (23,40,15,50) Xác định lớp cho văn ? 3.2 Bước huấn luyện  Tính xác xuất lớp Ci tập huấn luyện P(C1=” Chính trị”) = 3/6 = 0.5 P(C2=” Thể thao”) = 3/6 = 0.5  Tính xác xuất P(xk|Ci) - Lớp C1 = “Chính trị”: Tổng = 208 P(Huy chương | Chính trị) = (10+11+8)/208 = 29/208 P(Đại hội | Chính trị) = (28+25+22)/208 = 75/208 P(Chiến tranh | Chính trị) = (45+22+30)/208 = 97/208 P(Cổ vũ | Chính trị) = (2+4+1)/208 = 7/208 - Lớp C2 = “Thể thao”: Tổng = 388 P(Huy chương | Thể thao) = (42+33+28)/388 = 103/388 P(Đại hội | Thể thao) = (22+40+32)/388 = 97/388 P(Chiến tranh | Thể thao) = (7+8+9)/388 = 24/388 P(Cổ vũ | Thể thao) = (56+48+60)/388 = 164/388 3.3 Bước phân lớp  Tính xác xuất : 11 Chương 3: Ví dụ áp dụng  Xác suất Docnew thuộc Thể thao: P(Thể thao)*[P(Huy chương | Thể thao)*23*P(Đại hội|Thể thao)*40*P(Chiến tranh | Thể thao)*15*P(Cổ vũ | Thể thao)*50]=598.62  Xác suất Docnew thuộc Chính trị: P(Chính trị)*[P(Huy chương| Chính trị)*23*P(Đại hội | Chính trị)*40*P(Chiến tranh | Chính trị)*15*P(Cổ vũ | Chính trị)*50]=272.22 3.4 Kết Do Xác suất Docnew thuộc Thể thao > Xác suất Docnew thuộc Chính trị nên Văn Docnew thuộc lớp Thể thao max(Pnew )= 598,62 Thái Thị Mỹ Hạnh Kết luận KẾT LUẬN Các hệ thống phân lớp ứng dụng việc phân loại tài liệu thư viện điện tử, phân loại văn báo chí trang tin điện tử,… hệ thống tốt, cho kết khả quan, giúp ích nhiều cho người Hầu hết giả định thực học Naive Bayes không thực tế Ví dụ, từ tài liệu rõ ràng không độc lập với Giả thiết mô hình hỗn hợp tương ứng một-một lớp thành phần hỗn hợp khơng lớp chứa tài liệu từ nhiều chủ đề Mặc dù vi phạm vậy, nhà nghiên cứu học Naive Bayes tạo mơ hình xác Học Naive Bayesian hiệu Nó quét liệu huấn luyện lần để ước tính tất xác suất cần thiết để phân loại Nó sử dụng thuật tốn gia tăng Mơ hình cập nhật dễ dàng liệu xuất xác suất sửa đổi thuận tiện Do đó, việc học Naive Bayesian sử dụng rộng rãi để phân loại văn Các thuật tốn Nạve Bayes tính tốn khả cụ thể kiểu học có giám sát Việc thiết kế hệ thống phân lớp Naïve Bayes thực tế thường dễ dàng so với phương pháp phân lớp khác tính đơn giản thời gian thực nhanh Phương pháp Nạve Bayes tính xác suất rõ ràng cho khả cách đếm tần suất kết hợp liệu khác tập liệu huấn luyện để tính xác xuất Tù theo mẫu văn mà xác xuất thu tăng hay giảm phụ thuộc vào lượng từ tính văn Chính mà uyển chuyển phương pháp khác Phương pháp học theo thuật tốn Nạve Bayes có tính tăng trưởng tùy theo mẫu huấn luyện kết đưa xác suất dự đốn Độ xác thuật tốn phụ thuộc nhiều vào liệu huấn luyện ban đầu Thái Thị Mỹ Hạnh 13 Tài liệu tham khảo TÀI LIỆU THAM KHẢO [1] Bing Liu, Web data Mining: Exploring Hyperlinks, Contents, and Usage Data, Springer, 2007 [2] Hoàng Kiếm, Đỗ Phúc : "Phân loại văn dựa cụm từ phổ biến", kỷ yếu hội nghị khoa học lần 2, Trường Đại Học Khoa Học Tự Nhiên , 2000 [3] H.Nguyễn et al : Internet and Genetics Algorithm-based Text Categorization for Document in Vietnamese , 2005 Thái Thị Mỹ Hạnh 14 ... kết phân loại tốt 1.2 Định nghĩa Bài toán phân loại văn (text classification) toán lĩnh vực khai phá văn (text mining) Phân loại văn phân loại không cấu trúc tài liệu văn dựa tập hợp hay nhiều loại. .. chung phân loại văn Chương 2: Trình bảy thuật tốn Nạve Bayes Chương 3: Ví dụ áp dụng Thái Thị Mỹ Hạnh Chương 1: Giới thiệu chung phân loại văn CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ PHÂN LOẠI VĂN BẢN 1.1... đoạn phân lớp bị hạn chế Thái Thị Mỹ Hạnh Chương 2: Thuật tốn Nạve Bayes CHƯƠNG 2: THUẬT TỐN NẠVE BAYES 2.1 Định lý Bayes 2.1.1.1 Lý thuyết Naive Bayes thuật toán phân loại dựa định lý Bayes

Ngày đăng: 06/12/2019, 13:41

Xem thêm: Phân loại văn bản bằng thuật toán Naïve Bayes

Phân loại văn bản bằng thuật toán Naïve Bayes

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MC LC

LI NểI U

CHNG 1: GII THIU CHUNG V PHN LOI VN BN

1.1. Gii thiu

1.2. nh ngha

1.3. Quy trỡnh phõn loi vn bn

1.4. Khỏi nim c bn trong phõn loi vn bn

1.4.1. Tp vn bn hun luyn (Training documents set)

1.4.2. T khúa

1.4.3. Thut ng

1.4.4. T dng

1.4.5. Trng s

1.4.6. Tin x lý (Preprocessing)

1.4.7. ỏnh ch s (Indexing)

1.4.8. Trớch chn c trng (Feature selection)

CHNG 2: THUT TON NAẽVE BAYES

2.1. nh lý Bayes

2.1.1.1. Lý thuyt

2.1.1.2. Vớ d

2.2. Mụ hỡnh Naùve Bayes

2.2.1. Gii thiu

2.2.2. C ch hot ng

2.2.2.1. Hun luyn: tớnh v

2.2.2.2. Phõn lp

2.2.3. u im

2.2.4. Nhc im

Tài liệu cùng người dùng

Tài liệu liên quan