Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản

LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản” công trình nghiên cứu riêng hướng dẫn PGS.TS Bùi Thế Hồng Toàn phần mềm lập trình kiểm thử Tôi xin chịu trách nhiệm lời cam đoan Các số liệu thông tin sử dụng luận văn hoàn toàn trung thực Tác giả Trần Thị Thanh MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt KDD VSM VC SVM RBF SMO TF k-NN WFST Nghĩa tiếng anh Knowledge Discovery and Data Mining Vector Space Model Vapnik-Chervonenkis Support Vector Machine Radial Basis Functions Sequential Minimal Optimization term frequency k-Nearest Neighbor Weighted Finite State Transducer SW Stop Words Nghĩa tiếng việt Kỹ thuật phát tri thức khai phá liệu Mô hình không gian vector Kích thước VC Bộ phân loại Vector hỗ trợ Bộ phân loại chức Tối ưu hóa cực tiểu Tần suất từ Thuật toán k-NN Mô hình WFST kết hợp mạng Noron Loại từ dừng DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU Chúng ta sống giới có khoa học phát triển đại Thế kỷ 21 kỷ công nghệ thông tin nói chung tin học nói riêng Đó thành tựu vĩ đại mà người đạt thiên niên kỷ Tin học giữ vai trò đặc biệt quan trọng hoạt động toàn nhân loại Nhân loại ứng dụng tin học vào phục vụ cho nghiên cứu khoa học, cho công nghệ sản xuất, phục vụ cho nghành quản lý kinh tế, sản xuất kinh doanh, du lịch, y tế tạo điều kiện cho sản xuất xã hội ngày phát triển đồng thời giảm bớt đáng kể sức lao động người, đưa mức sống người ngày cao Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới Tại Việt Nam, kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Bước quan trọng trình Khai phá liệu, giúp người sử dụng thu tri thức hữu ích từ sở liệu nguồn liệu khổng lồ khác Lý điều phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày nhiều Theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số lại không khai thác tiếp tục thu thập nên tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, môi trường cạnh tranh, người ta ngày cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng Yêu cầu thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu nêu Có nhiều phương pháp tiếp cận, giải thuật nhằm ứng dụng công nghệ khai phá liệu vào công tác quản lý nguồn tài liệu văn giải thuật di truyền hướng có nhiều ưu điểm kỹ thuật tìm kiếm lời giải tối ưu đáp ứng yêu cầu nhiều toán xử lý văn Luận văn cấu trúc gồm chương: Chương 1: Chương tìm hiểu tổng quan khai phá liệu, trình khai phá liệu, hướng tiếp cận phương pháp khai phá liệu Đặc điểm toán khai phá liệu qui trình khám phá tri thức sở Chương 2: Chương nghiên cứu giải thuật di truyền ứng dụng vào phân loại tài liệu dạng văn Trong chương tìm hiểu phép toán di truyền tham số giải thuật di truyền Quá trình phân loại văn bản, toán phân loại văn bản, phương pháp biểu diễn văn thuật toán phân loại văn Chương 3: Chương cài đặt chương trình thuật toán chương Ứng dụng giải thuật để tối ưu hóa độ thích nghi từ khóa Luận văn hoàn thành hướng dẫn tận tình PGS.TS Bùi Thế Hồng, em xin bày tỏ lòng biết ơn chân thành thầy Em xin chân thành cảm ơn thầy, cô giáo Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tham gia giảng dạy, giúp đỡ em suốt qúa trình học tập nâng cao trình độ kiến thức Tuy nhiên điều kiện thời gian khả có hạn nên luận văn tránh khỏi thiếu sót Em kính mong thầy cô giáo bạn đọc đóng góp ý kiến để đề tài hoàn thiện CHƯƠNG 1: TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung 1.1.1 Giới thiệu Trong năm gần đây, phát triển mạnh mẽ công nghệ thông tin ngành công nghiệp phần cứng làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách chóng mặt Bên cạnh việc tin học hóa nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu CSDL sử dụng hoạt động sản xuất, kinh doanh, quản lý có nhiều CSDL cực lớn Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ kỹ thuật khai phá liệu trở thành lĩnh vực thời công nghệ thông tin giới 1.1.2 Khái niệm Thuật ngữ khai phá liệu đời vào năm cuối thập kỷ 1980 Theo Giáo sư Tom Mitchell “Khai phá liệu việc sử dụng liệu lịch sử để khám phá quy tắc cải thiện định tương lai” Với cách tiếp cận ứng dụng hơn, Tiến sỹ Fayyad phát biểu: “Khai phá liệu, thường xem việc khám phá tri thức sở liệu, trình trích xuất thông tin ẩn trước chưa biết có khả hữu ích, dạng quy luật, ràng buộc, quy tắc sở liệu” Tóm lại, khai phá liệu trình học tri thức từ liệu thu thập Ngoài thuật ngữ khai phá liệu có số thuật ngữ khác sử dụng với nghĩa tương đương như: khai phá tri thức sở liệu (Knowlegde Mining from Databases), trích lọc liệu (Knowlegde Extraction), phân tích liệu/ mẫu (Data/Pattern Analysis), khảo cổ liệu (Data Archaeology), nạo vét liệu (Data Dredging) Thực ra, Khai phá liệu bước trình Khám phá tri thức CSDL (Knowlegde Discovery in Databases - KDD) 10 1.1.3 Đặc điểm toán khai phá liệu * Khai phá liệu giai đoạn chủ yếu trình phát hiện tri thức Nếu phát tri thức toàn trình xuất tri thức từ CSDL khai phá liệu giai đoạn chủ yếu trình Thông thường, trình phát tri thức từ liệu phải trải qua nhiều giai đoạn Có thể kể vài giai đoạn quan trọng là: tìm hiểu lĩnh vực ứng dụng mục đích khai phá, xác định liệu liên quan nhiệm vụ khai phá, tiền xử lý liệu, chọn thuật toán khai phá chuyển liệu dạng phù hợp, thực khai phá sau tinh lọc ứng dụng tri thức tìm Khai phá liệu để tìm mẫu có ý nghĩa tiến hành tập liệu mà ta hy vọng thích hợp với nhiệm vụ khai phá thời Khai phá liệu tìm kiếm từ liệu thời gian đủ dài mẫu không thực có ích việc thống kê làm trước Khai phá liệu thường bao gồm việc thử tìm mô hình phù hợp với tập liệu tìm kiếm mẫu từ tập liệu theo mô hình * Mẫu tìm từ trình khai phá liệu phải có tính mô tả dự đoán Mục đích khai phá liệu chiết xuất tri thức từ liệu Những tri thức sử dụng cho lợi ích cạnh tranh thương trường nghiên cứu khoa học Dự đoán có nghĩa sở điều biết khứ để dự đoán trước xảy tương lai Còn mô tả tập trung vào ý nghĩa hàm chứa mẫu tìm điều có nghĩa lĩnh vực ứng dụng Các mẫu cuối tìm khai phá liệu có hai hai tính chất * Khai phá liệu trình người làm trung tâm Mặc dù khai phá liệu sử dụng nhiều phương pháp khác với hỗ trợ công cụ tin học giai đoạn trình khai phá, người đóng vai trò quan trọng Hệ thống làm việc cách hoàn toàn tự động mà trợ giúp người 66 Một nhược điểm phương pháp kết đưa không mang tính tổng hợp * Gãn nhãn theo số đông Để dễ hiểu, xét ví dụ sau, văn d có văn gần với d1, d2, d3, d4 d5 có nhãn chủ đề độ tương tự sau: 67 d1 d2 d3 d4 d5 Độ tương tự 0.9 0.89 0.89 0.88 0.6 Chủ đề chủ đề chủ đề chủ đề chủ đề chủ đề Về mặt trực quan, nên gán nhãn chủ đề cho văn d có văn thuộc lớp Nếu chọn theo văn gần gặp sai lầm khả có nhiễu tập mẫu chứa sai sót Như vậy, cách đánh giá khắc phục lỗi tập mẫu, nhiên chưa đánh giá cao số tình mà cụ thể ví dụ Độ tương tự d1 0.9 d2 0.8 d3 0.3 d4 0.3 d5 0.2 Chủ đề chủ đề chủ đề chủ đề chủ đề chủ đề Trong trường hợp nên chọn chủ đề để gán nhãn cho văn d * Gán nhãn theo độ phù hợp chủ đề Độ phù hợp văn d chủ đề c tính theo công thức sau: sim(d , c ) = ∑ sim(d , d i ) d i ∈c (23) Phương pháp cần tính độ phù hợp văn d với chủ đề từ k văn lấy ra, sau gán nhãn chủ đề phù hợp cho d 3.5 Giải thuật di truyền phân loại văn 3.5.1 Lựa chọn mô hình biểu diễn văn Phần trình bày nghiên cứu số mô hình biểu diễn văn Các mô hình bao gồm: mô hình không gian vector Boolean, mô hình không gian vector tần suất, mô hình biểu diễn tập mờ, mô hình biểu diễn đồ thị Trong cách biểu diễn mô hình vector Boolean đơn giản nhất, nhiên việc xử lý toán với mô hình cho độ xác không cao Mô hình biểu diễn văn dạng tập mờ cho kết xử lý xác hơn, việc xây dựng mô hình tập mờ lại cần có can thiệp người dùng cần có thuật toán cao cấp để xử lý tập thô (Rough set) sở liệu lớn 68 Từ suy xét trên, tác giả xin chọn mô hình biểu diễn vector thưa dựa mô hình tần suất TF × IDF để biểu diễn văn 3.5.1.1 Biểu diễn vector văn Giả sử ta có tập hợp từ khóa T = {t1, t2,…,tm}, văn dk biểu diễn dạng chuỗi từ khóa d k = {t 1k , t 2k ,…} , t ik ∈ T Phương pháp biểu diễn văn d dạng vector tần suất TF × IDF đưa văn d dạng vector: d = { f log(N/h1 ), f log(N/h2 ),…, f m log(N/hm )} fi tần suất xuất thuật ngữ ti văn d, N số văn có sở liệu, hi tần suất xuất văn chứa thuật ngữ ti Để đơn giản hóa, từ sau tác giả dùng ký hiệu d thay cho vector d 3.5.1.2 Phép tính độ tương tự hai vector Xét hai vector X = {x1, x2,…, xm} Y = {y1, y2,…, ym} biểu diễn dạng vector tần suất TF × IDF Khi đó, độ tương tự hai vector tính theo công thức cosine (24): m X.Y sim( X,Y ) = cosine( X,Y ) = = XY ∑ x y i =1 m ∑ xi2 i =1 i i m ∑y i =1 i (24) 3.5.1.3 Vector trọng tâm nhóm văn Xét nhóm văn c, vector trọng tâm nhóm C tính thông qua vector tổng D (theo công thức (25), (26)): D = ∑d d ∈c C= (25) D c (26) 69 |c| số phần tử thuộc tập văn c Trong toán xử lý văn vector trọng tâm dùng để làm đại diện cho nhóm văn 3.5.1.4 Phép tính độ tương tự hai nhóm văn Giả sử ta có hai nhóm vector c1, c2, độ tương tự hai nhóm văn tính độ gần hai vector trọng tâm C1, C2 sau: sim(c1 , c2 ) = sim(C1 , C ) (27) Ở ta hiểu c1 c2 văn riêng lẻ coi nhóm gồm phần tử 3.5.2 Phương án tách thuật ngữ Vấn đề cần quan tâm toán tách từ Trong phần trước không nhắc tới toán mà coi bước nhỏ toán xử lý văn ngầm định luôn biểu diễn văn thô thành vector Boolean, tần suất, hay tập mờ Nhưng thực tế dễ dàng mà thực toán xử lý văn Phát biểu toán: Cho văn d từ điển T Yêu cầu tách từ khóa có từ điển từ văn nêu Các vần đề cần quan tâm: 3.5.2.1 Đối với ngôn ngữ đơn âm tiết (single-term) Việc tách từ khóa ngôn ngữ đơn âm tiết tương đối đơn giản Trong ngôn ngữ này, từ khóa có ý nghĩa thường biểu diễn dạng dãy ký tự liên tiếp Đối với từ khóa có nhiều âm tiết có âm tiết mang hàm nghĩa, tiếng khác mang tính chất phụ âm Nhưng ngôn ngữ loại thường có biến thể từ khóa Ví dụ tiếng Anh có biến thể từ “do”: “do”, “doing”, “done” Do tách từ cần có biện pháp xử lý biến thể từ khóa 3.5.2.2 Đối với ngôn ngữ đa âm tiết (multi-term) 70 Ví dụ điển hình tiếng Việt việc xử lý tách từ tương đối khó Việc xử lý không khó khăn có nhiều âm tiết mà gặp phải nhiều nhập nhằng ngôn ngữ Một giải pháp tốt đưa để tránh tình trạng xử lý cú pháp, cách xử lý chậm làm cho toán xử lý văn (thường yêu cầu nhanh) chậm nhiều Do người ta thường sử dụng cách tách từ theo độ dài từ khóa chấp nhận có sai số Do nhập nhằng xảy không nhiều thực tế nên cần chấp nhận sai số để có tách từ nhanh Vấn đề cần quan tâm ký hiệu vô nghĩa văn Các văn thông thường có nhiều ký tự vô nghĩa, ví dụ ký tự dấu câu, chữ số, ký tự đặc biệt dùng cho điều khiển Các ký tự không xuất từ khóa ta cần có biện pháp xóa bỏ ký tự để tránh nhiễu xử lý Ở cần quan tâm giải toán tách từ ngôn ngữ tiếng Việt Theo thống kê từ khóa thông dụng tiếng Việt thường dùng khoảng 70,000 từ khóa từ khóa cấu thành từ khoảng 6,500 âm tiết Từ kết nghiên cứu tác giả xin đưa mô hình tách từ hình 3.9 Hình 3.9: Mô hình tách từ khoá từ văn thô 71 Các bước xử lý tách từ khóa: 3.5.2.3 Loại nhiễu Mục đích bước loại bỏ ký tự vô nghĩa từ điển Nhưng ký tự điều khiển dâu chấm câu (“.”), dấu gạch nối (“-”) dùng đến trình xử lý nên cần giữ lại ký tự 3.5.2.4 Mã hóa ký tự Trong tiếng Việt có nhiều loại font chữ khác nhau, cần thống tất loại font chữ mối để dễ dàng trình xử lý Ngoài ra, cần ý chữ viết có ký tự viết hoa, ký tự viết thường, cần phải có biện pháp đồng ký tự để tránh sai xử lý sau 3.5.2.5 Tách từ khóa Từ văn biểu diễn dạng danh sách mã tiếng, tách từ tiến hành ghép tiếng lại thành từ khóa có từ điển từ theo ưu tiên từ khóa có số tiếng dài Do việc xử lý văn có nhiều mục đích khác theo nhiều chuyên ngành khác nên từ điển cần tổ chức thành hai dạng gồm: từ điển chuẩn (dùng nhiều đời sống hàng ngày), từ điển chuyên ngành (dùng cho chuyên ngành riêng) 3.5.2.6 Loại từ dừng (Stop Words) Mục đích bước loại bỏ từ mang ý nghĩa trình xử lý nội dung Quá trình xử lý cần có từ điển StopWords riêng người dùng tự xây dựng Một số từ dừng tiếng Việt Bảng 3.5: Một số từ dừng tiếng Việt Có thể Sau Trước Tất Những Phần lớn Hầu Khi mà Bởi Nếu Thì Vì Cho nên Nhưng Bởi Là Không thể Thay Vì Nếu không Loại trừ Một số Rõ rang Với Với lại Quả thật Tất 72 3.5.2.7 Thống kê từ khóa Sau bước xử lý trên, văn thô ban đầu biểu diễn dạng danh sách từ khóa tách từ từ điển, bước cuối tách từ cần làm thống kê xem từ khóa xuất lần biểu diễn văn vừa phân tích dạng vector tần suất xuất 3.5.3 Sử dụng thuật giải di truyền trích chọn từ khóa 3.5.3.1.Giới thiệu Giải thuật trích chọn từ khóa cách tối ưu hóa độ thích nghi từ khóa (Keyword Extraction by Keyword – Fitness Optimization) đưa phương pháp tách từ khóa tự động từ văn tập văn cho trước dựa hai tiêu chuẩn đánh giá là: độ đo hiệu suất độ bao phủ Độ đo hiệu suất thuật ngữ phụ thuộc vào hiệu việc sử dụng thuật ngữ để tìm tài liệu tập văn Độ bao phủ thuật ngữ phụ thuộc vào khả thuật ngữ sử dụng từ khóa để tìm kiếm tập văn Hai tiêu chuẩn xác định cách thống kê sử dụng phân bố từ văn tập văn Độ thích hợp thuật ngữ xác định dựa độ đo hiệu suất độ bao phủ từ Giải thuật “Trích chọn từ khóa cách tối ưu hóa độ thích nghi” tìm thuật ngữ có độ thích hợp cao văn sử dụng giải thuật di truyền 3.5.3.2 Độ thích hợp từ khóa Độ thích hợp thuật ngữ tiêu chuẩn sử dụng để lựa chọn thuật ngữ đặc trưng cho văn Phần ta xem xét công thức tính độ thích hợp thuật ngữ dãy thuật ngữ văn * Độ thích hợp thuật ngữ văn - Các đại lượng sở Gọi tập văn xét D, n số văn có tập D: n = | D | Số văn tập D chứa từ khóa w h(w) ∈ h(w) = |{d D | w in d }| - Định nghĩa độ đo hiệu suất (28) 73 Độ đo hiệu suất thuật ngữ độ đo đánh giá hiệu việc sử dụng thuật ngữ để tìm tài liệu tập văn Độ đo hiệu suất thuật ngữ w tính theo công thức sau: n e( w) = log( ) h( w) (29) - Định nghĩa độ bao phủ Độ bao phủ thuật ngữ độ đo đánh giá khả thuật ngữ sử dụng từ khóa để tìm kiếm tập văn Độ bao phủ thuật ngữ w tính theo công thức sau:  h( w)  r ( w) = r ( w, a ) =    n  a (30) (Trong a tham số thỏa mãn < a < 1) - Độ thích hợp thuật ngữ w hay độ thích nghi từ khóa Độ thích hợp thuật ngữ w định nghĩa dựa hai độ đo là: độ đo hiệu suất độ đo bao phủ thuật ngữ Công thức: a h( w)  h( w)  f(w, a) = e(w) x r(w, a) = -  )  × log( n  n  (31) Chú ý: ≤ h(w) ≤ n Trong a tham số Theo kinh nghiệm, ta sử dụng a với giá trị sau: 1.0, 0.5, 0.4, 0.2… * Độ thích hợp dãy thuật ngữ Xét dãy gồm k thuật ngữ [w1, w2 …wk], k > Trong trình xử lý tìm kiếm văn bản, ta sử dụng i thuật ngữ dãy k thuật ngữ nói (0 ≤ i ≤ k) Gọi h i số văn chứa thuật ngữ w1, w2, …, wi ∈ hi = |{d D | w1, w2,…, wi in d }|, h0=n Độ thích hợp dãy thuật ngữ [w1, w2 …wk] tính theo công thức sau: 74 a h  h( wi )  f ( w1 , w2 , , wk ; a, b) = −k × ∑   × log( i ) n  hi−1 i =1  b k (32) Trong b tham số thỏa mãn: < b ≤ 3.5.3.3 Ứng dụng giải thuật di truyền để tối ưu hóa độ thích nghi từ khóa Để áp dụng giải thuật di truyền, trước hết ta lựa chọn phương pháp mã hóa cá thể, cách thức tạo hệ ban đầu, phương pháp lựa chọn, lai ghép đột biến Các tác giả giải thuật “Keyword Extraction by Keyword – Fitness Optimization” đưa lựa chọn sau: Cách mã hóa: Các cá thể dãy gồm từ văn bản, bao gồm từ rỗng Tạo quần thể ban đầu: Lựa chọn m cá thể, cá thể bao gồm số thuật ngữ lựa chọn ngẫu nhiên văn Độ thích nghi cá thể tính Keyword – Fitness dãy thuật ngữ cá thể: a h  h( wi )  f ( w1 , w2 , , wk ; a, b) = −k × ∑   × log( i ) n  hi−1 i =1  b k Toán tử chọn lọc: lựa chọn cá thể theo phương pháp đánh giá lại Sau xếp cá thể theo chiều giảm dần độ thích nghi, xóa 10% cá thể có độ thích nghi thấp Toán tử lai ghép: Sử dụng phương pháp lai ghép đơn điểm Toán tử đột biến: Thay ngẫu nhiên từ cá thể từ văn 75 3.6 Cài đặt thử nghiệm chương trình Hình 3.10: Giao diện chương trình Hình 3.11: Thực hiện phân tách văn định dạng txt 76 thành tệp chứa từ tiếng Việt Hình 3.12: Quá trình loại bỏ stop word có văn lưu thành tệp prps 77 Hình 3.13:Thực hiện học phân lớp thể thao pháp luật Hình 3.14: Trích chọn đặc trưng theo giải thuật di truyền 78 Hình 3.15: Thực hiện biểu diễn văn phân lớp theo đặc trưng trích chọn dựa giaỉ thuật di truyền biểu diễn dưới dạng vecto thưa Hình 3.16: Thực hiện phân loại văn theo thể loại KẾT LUẬN Luận văn tập trung nghiên cứu khai phá liệu, giải thuật di truyền ứng dụng giải thuật di truyền vào trích chọn từ khóa để phân loại tài liệu dạng văn * Những kết đạt Để đạt mục tiêu đề ra, luận văn bước nghiên cứu nội dung sau: Tổng quan khai phá liệu: Nghiên cứu khái niệm khám phá tri thức khai phá liệu Tìm hiểu kỹ thuật trình khai phá liệu, tập trung vào hai kỹ thuật thường dùng phân cụm phân lớp 79 Tìm hiểu thuật giải di truyền: Các khái niệm chung giải thuật di truyền như: nhiễm sắc thể, cá thể, quẩn thể, phương pháp mã hóa, hàm thích nghi, toán tử lai ghép, đột biến, tái sinh, chọn lọc, sơ đồ thuật giải di truyền tham số thuật giải Ứng dụng giải thuật di truyền khai phá liệu để trích chọn từ khóa phân loại văn bản: nghiên cứu khái quát phân loại văn bản, mô hình biểu diễn văn bản, số thuật toán phân loại mô hình phân loại văn (đã cài đặt ứng dụng để minh họa) * Hướng phát triển Mục tiêu lâu dài luận văn áp dụng đánh giá phương pháp phân loại văn hiệu nghiên cứu sâu để tìm phương pháp hiệu phù hợp cho việc phân loại tài liệu dạng văn Nghiên cứu cải tiến khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn điều chỉnh giải thuật SVM để nâng cao độ xác phân loại TÀI LIỆU THAM KHẢO Tiếng Việt Bùi Thế Tâm, Trần Vũ Thiệu, Các phương pháp tối ưu hóa, Nxb Giao thông vận tải Hà Nội (1998) Hoàng Kiếm, Lê Hoàng Thái, Giải thuật di truyền – Cách giải toán tự nhiên máy tính, Nxb Giáo dục (2001) Nguyễn Đình Thúc, Trí tuệ nhân tạo - Lập trình tiến hóa, Nxb Giáo dục (2001) Đỗ Phúc, Bài giảng Tổng quan khai phá liệu, Trường Đại học CNTT, ĐHQG Tp Hồ Chí Minh (2007) 5.Đỗ Bích Diệp, “Phân loại văn dựa mô hình đồ thị”, Luận văn cao học Trường Đại học Tổng hợp New South Wales - Australia 2004 Huỳnh Quyết Thắng, Đinh Thị Phương Thu, “Tiếp cận phương pháp học không giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vector”, Kỷ 80 yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 Tiếng Anh Zbigniew Michalewicz, Genetic Algorithm + Data Structure = Evolution Program (1992) T JOACHIMS, “Text categorization with Support Vector Machines: Learning with many relevant features”, Technical Report 23, LS VIII, University of Dortmund, 1997 E OSUNA, R FREUND, F GIROSI, An improved training algorithm for Support Vector Machines, Neural Networks for Signal Processing VII –Proceedings of the 1997 IEEE Workshop, pp 276-285, New York, IEEE, 1997 10 J PLATT, Sequential minimal optimization: A fast algorithm for training Support Vector Machines, Technical Report MSR-TR-98-14, Microsoft Research, 1998 ... nghiên cứu giải thuật di truyền ứng dụng vào phân loại tài liệu dạng văn Trong chương tìm hiểu phép toán di truyền tham số giải thuật di truyền Quá trình phân loại văn bản, toán phân loại văn bản, ... tự nhiên Sau mô hình giải toán dựa giải thuật di truyền 26 Hình 2.1: Giải vấn đề giải thuật di truyền 2.1.2 Các tính chất quan trọng giải thuật di truyền Giải thuật di truyền lập luận mang tính... tiếp cận, giải thuật nhằm ứng dụng công nghệ khai phá liệu vào công tác quản lý nguồn tài liệu văn giải thuật di truyền hướng có nhiều ưu điểm kỹ thuật tìm kiếm lời giải tối ưu đáp ứng yêu cầu

Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

MỞ ĐẦU

CHƯƠNG 1: TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU

1.1 Giới thiệu chung

1.1.1. Giới thiệu

1.1.2. Khái niệm

1.1.3. Đặc điểm của bài toán khai phá dữ liệu

1.2. Quá trình khám phá tri thức trong cơ sở dữ liệu

1.2.1. Gom dữ liệu

1.2.2. Trích lọc dữ liệu

1.2.3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu

1.2.4. Chuyển đổi dữ liệu

1.2.5. Khai phá dữ liệu - Phát hiện và trích mẫu dữ liệu

1.2.6. Đánh giá kết quả mẫu

1.3. Khái quát các kỹ thuật khai phá dữ liệu

1.3.1. Kỹ thuật khai phá dữ liệu dự đoán

1.3.1.1. Phân lớp dữ liệu

1.3.1.2. Hồi quy

1.3.2. Kỹ thuật khai phá dữ liệu mô tả

1.3.2.1 Phân cụm dữ liệu

1.3.2.2. Tóm tắt

1.3.3. So sánh các tiếp cận khai phá dữ liệu: phân cụm - phân lớp

1.3.4. Ứng dụng phân cụm

Tài liệu cùng người dùng

Tài liệu liên quan