Khai phá dữ liệu văn bản bằng lý thuyết tập thô

86 571 3
Khai phá dữ liệu văn bản bằng lý thuyết tập thô

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC Lời cảm ơn ...................................................................................................... i LỜI CAM ĐOAN .......................................................................................... ii MỤC LỤC .................................................................................................... iii DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT ................................... vi DANH MỤC BẢNG .................................................................................... vii DANH MỤC HÌNH .................................................................................... viii MỞ ĐẦU ....................................................................................................... 1 1. Tính cấp thiết của đề tài .............................................................................. 1 2. Mục tiêu của đề tài ..................................................................................... 2 3. Ý nghĩa của đề tài ....................................................................................... 3 PHẦN I: TỔNG QUAN TÀI LIỆU ................................................................ 4 1.1. Tổng quan về ô nhiễm kim loại nặng trong đất ........................................ 4 1.1. Khái niệm ô nhiễm kim loại nặng và ô nhiễm đất .................................... 4 1.2. Các nguồn gây ô nhiễm kim loại nặng trong đất ...................................... 4 1.3. Đặc điểm hoá học của Pb, Zn, Cd và As trong đất ................................... 7 1.2. Hoạt động khai thác khoáng sản và các vấn đề môi trƣờng liên quan ...... 9 1.2.1. Hoạt động khai thác khoáng sản ở Việt Nam ...................................... 11 1.2.2. Ảnh hƣởng của hoạt động khai thác khoáng sản đến môi trƣờng đất ở Việt Nam ...................................................................................................... 17 1.3. Các phƣơng pháp xử lý đất bị ô nhiễm kim loại nặng ............................ 20 1.3.1. Các nguyên tác chính để xử lý đất bị ô nhiễm ..................................... 21 1.3.2. Các phƣơng pháp truyền thống làm sạch đất ô nhiễm ......................... 21 1.4. Tổng quan về xử lý kim loại nặng trong đất bằng thực vật .................... 23 1.4.1. Cơ sở khoa học của công nghệ xử lý ô nhiễm kim loại nặng trong đất bằng thực vật ................................................................................................ 23 1.4.2. Một số kết quả nghiên cứu khả năng hấp thụ một số kim loại nặng bằng thực vật ........................................................................................................ 27 1.4.3. Triển vọng của công nghệ thực vật xử lý kim loại nặng trong đất ....... 28 PHẦN II: ĐỐI TƢỢNG, NỘI DUNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU ..................................................................................................................... 30

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ 0KHOA HỌC MÁY TÍNH Thái Nguyên – 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ Đức Thi. Thái Nguyên – 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn a MỤC LỤC LỜI CẢM ƠN I LỜI CAM ĐOAN II DANH MỤC CÁC HÌNH VẼ III DANH MỤC CÁC BẢNG BIỂU IV DANH MỤC CHỮ VIẾT TẮT V LỜI MỞ ĐẦU 1 CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ 4 1.1 Khai phá dữ liệu văn bản 4 1.1.1 Khai phá dữ liệu 4 1.1.1.1 Khái niệm 4 1.1.1.2 Lịch sử nghiên cứu 5 1.1.1.3 Các khía cạnh khai phá chủ yếu 5 1.1.1.4 Quy trình của DM 7 1.1.1.5 Các phương pháp của DM 7 1.1.2 Khai phá dữ liệu văn bản 11 1.1.2.1 Khái niệm 11 1.1.2.2 Các kỹ thuật khai phá văn bản 13 1.2 Khai phá tri thức ứng dụng lý thuyết tập thô 17 1.2.1 Khai phá tri thức theo cách tiếp cận tập thô 17 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn b 1.2.1.1 Một số khái niệm 17 1.2.1.1.1 Hệ thống thông tin 17 1.2.1.1.2. Khái niêm về bảng quyết định………………………….19 1.2.1.1.3. Khái niệm quan hệ không phân biệt được trong hệ thông tin.20 1.2.1.1.4. Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định 22 1.2.1.2. Tập thô trong không gian xấp xỉ 22 1.2.1.3 Khai phá tri thức theo cách tiếp cận tập thô 25 1.2.2 Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô 27 1.2.3 Lựa chọn thuộc tính dựa trên tập thô 27 1.2.4 Khám phá luật bới bảng phân bố tổng quát dựa trên tập thô 28 1.3 Kết luận chƣơng 1 29 CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU TRONG XỬ LÝ VĂN BẢN 30 2.1. Biểu diễn văn bản 30 2.1.1. Biểu diễn văn bản 30 2.1.2. Các phương pháp biểu diễn văn bản 30 2.1.2.1. Tiền xử lý văn bản 30 2.1.2.2. Mô hình Logic 32 2.1.2.3. Mô hình phân tích cú pháp 34 2.1.2.4. Mô hình không gian vector 35 2.1.2.5. Mô hình Boolean 36 2.1.2.6. Mô hình tần suất 37 2.1.2.7. Mô hình dựa trên tập mờ (Fuzzy Set) 39 2.1.2.8. Mô hình tập thô dung sai (Tolerance Rough Set Model-TRSM) 41 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn c 2.2. Các thuật toán lập nhóm văn bản 43 2.2.1. Thuật toán K – Means 43 2.2.2. Thuật toán lập nhóm theo cây phân cấp 44 2.2.2.1. Thuật toán theo cây phân cấp từ trên xuống ( Top Down Hierachical Clustering) 44 2.2.2.2. Thuật toán theo cây phân cấp từ dưới lên ( Bottom Up Hierachical Clustering) 45 2.2.2.3. Giải thuật lập nhóm Non Hierachical Clustering Overlap 45 2.2.2.4. Giải thuật lập nhóm Non Hierachical Clustering Non Overlap46 2.2.3. Xác định các thuật đại diện cho nhóm 46 2.2.4. Độ tương tự giữa văn bản và nhóm văn bản 47 2.3 Bài toán phân lớp văn bản 47 2.3.1 Bài toán 47 2.3.2 Các nghiên cứu liên quan 48 2.4 Các phƣơng pháp phân lớp 49 2.4.1 Phân lớp dựa trên thuật toán Naive Bayes 49 2.4.2 Phương pháp K – Nearest Neighbor ( K-NN) 51 2.4.3 Phân lớp sử dụng Support Vector Machines (SVM) 52 2.5 Kết luận chƣơng 2 54 CHƢƠNG 3. PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ ÁP DỤNG LÝ THUYẾT TẬP THÔ 55 3.1 Kiến trúc hệ thống phân loại văn bản tiếng Việt tự động 55 3.2. Các chức năng của hệ thống 56 3.2.1 Xây dựng tập văn bản dùng cho huấn luyện 56 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn d 3.2.2 Xây dựng tập từ dừng, từ tầm thường 56 3.2.3 Xây dựng tập thuật ngữ 56 3.2.4 Tiền xử lý văn bản đầu vào 56 3.2.5 Huấn luyện 57 3.2.6 Phân lớp văn bản 61 3.3 Kết luận chƣơng 3 62 CHƢƠNG 4. XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ 63 4.1 Môi trường và nền tảng ứng dụng 63 4.2 Giao diện hệ thống 65 4.3 Kết luận chương 4 67 PHỤ LỤC 1. DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƢỜNG 73 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn I LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn đến trường Đại học Công nghệ, Đại học Thái Nguyên, Viện Công nghệ thông tin và các thầy cô giáo đã trực tiếp giảng dạy, hướng dẫn tôi trong quá trình học tập và định hướng quan trọng trong việc hình thành ý tưởng nghiên cứu. Tôi xin chân thành cảm ơn Chi bộ, BGĐ, BCH Công đoàn, Tổ Tự nhiên và cán bộ giáo viên, công nhân viên Trung tâm GDTX Thiệu Hóa đã động viên, giúp đỡ và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu. Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc GS.TS Vũ Đức Thi, người thầy đã trực tiếp hướng dẫn và giúp đỡ tôi hoàn thành luận văn tốt nghiệp. Xin được cảm ơn bố mẹ, anh chị em gia đình nội ngoại tạo điều kiện về mọi mặt để bản thân hoàn thành tốt chương trình khóa học và bảo vệ luận văn hôm nay. Mặc dù đã có nhiều cố gắng, nhưng do thời gian có hạn và bản thân còn những hạn chế nhất định nên luận văn không tránh khỏi thiếu sót. Mong nhận được các ý kiến phê bình, góp ý của Hội đồng chấm luận văn, các thầy cô giáo và đồng nghiệp để công trình nghiên cứu được hoàn chỉnh hơn. Thái Nguyên, tháng 9 năm 2011 Tác giả La Đức Dũng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn II LỜI CAM ĐOAN Tôi xin cam đoan luận văn này là công trình do tôi tổng hợp và nghiên cứu. Trong luận văn có sử dụng một số tài liệu tham khảo như đã nêu trong phần tài liệu tham khảo. Tác giả Luận văn La Đức Dũng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn III DANH MỤC CÁC HÌNH VẼ Hình 1.1. Quy trình DM. 7 Hình 1.2. Các chức năng chính của khai phá dữ liệu. 12 Hình 2.1. Mô tả tần suất các từ. 32 Hình 2.2. Biểu diễn các vector văn bản trong không gian 2 chiều…… 35 Hình 2.4 : Mô hình SVM. 53 Hình 3.1. Kiến trúc hệ thống phân loại văn bản áp dụng lý thuyết tập thô.55 Hình 3.2. Quy trình tiền xử lý văn bản. 57 Hình 3.3. Thuật toán tiền xử lý văn bản. 57 Hình 3.4 Cập nhật giá trị tần suất thuật ngữ. 58 Hình 3.5. Thuật toán cập nhật trọng số cho các thuật ngữ. 58 Hình 3.6 Tạo lớp dung sai xấp xỉ cho các thuật ngữ. 59 Hình 3.7. Thuật toán tạo lớp dung sai cho các thuật ngữ. 59 Hình 3.8 Sơ đồ tạo tập xấp xỉ. 60 Hình 3.9. Thuật toán tạo xấp xỉ trên và xấp xỉ dưới. 60 Hình 3.10. Phân lớp văn bản. 61 Hình 3.11. Thuật toán phân lớp văn bản. 62 Hình 4.1. Hệ thống phân loại văn bản tiếng Việt tự động. 653 Hình 4.2. Kho lưu trữ các văn bản dành cho huấn luyện 654 Hình 4.3 Mô tả file huấn luyện của hệ thống 664 Hình 4.4. Hệ thống VLSP 665 Hình 4.5 Bảng cơ sở dữ liệu. 675 Hình 4.6 Giao diện chính 66 Hình 4.7. Giao diện huấn luyện 66 Hình 4.8 Giao diện quy trình phân lớp………………………………….67 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn IV DANH MỤC CÁC BẢNG BIỂU Bảng 1.1. Ví dụ về hệ thống thông tin………………………………………….18 Bảng 1.2. Ví dụ về bảng quyết định……………………………………… ….19 Bảng 2.1. Ví dụ về mô hình logic………………………… ………………….33 Bảng 2 .2. Ví dụ về mô hình không gian vector 36 Bảng 2.3. Mô tả giá trị của mô hình Boolean 37 [...]... khai phá dữ liệu dạng văn bản: Khai phá dữ liệu dạng văn bản gồm 6 bước, chia thành 3 chức năng chính [31] LỰA CHỌN TÀI NGUYÊN LỰA CHỌN VĂN BẢN THU THẬP DỮ LIỆU RÚT TRÍCH THÔNG TIN LƢU TRỮ DỮ LIỆU ĐƢA DỮ LIỆU VÀO KHO KHAI PHÁ DỮ LIỆU TRÌNH DIỄN DỮ LIỆU KHAI PHÁ DỮ LIỆU Hình 1.2 Các chức năng chính của khai phá dữ liệu + Lựa chọn tài nguyên: Là tiến trình chọn tài nguyên để khai thác + Lựa chọn văn bản: ... việc nghiên cứu tổ chức khai thác dữ liệu văn bản để khám phá tri thức thông tin là vấn đề cần thiết Xuất phát từ những lý do trên, chúng tôi chọn và nghiên cứu đề tài luận văn: Khai phá dữ liệu văn bản bằng lý thuyết tập thô 2 Mục tiêu của luận văn Mục tiêu của luận văn là nghiên cứu lý thuyết tập thô phân loại văn bản tiếng Việt theo chủ đề 3 Các đóng góp của luận văn Luận văn đã có ba đóng góp chính... cùng, luận văn đưa ra một số kết luận và đề xuất các hướng nghiên cứu trong tương lai Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 CHƢƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ Trong chương này, chúng tôi trình bày tổng quan về khai phá dữ liệu bao gồm khai phá dữ liệu văn bản, các khía cạnh khai phá dữ liệu văn bản, các chu trình khai phá và tổng... tổng quan về khai phá dữ liệu văn bản và lý thuyết tập thô Chương 2 trình bày các phương pháp biểu diễn văn bản, phân nhóm và phân loại văn bản Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 Chương 3 trình bày kiến trúc hệ thống phân loại văn bản tự động và phương pháp phân loại văn bản áp dụng lý thuyết tập thô Chương 4 Xây dựng hệ thống phân loại văn bản tiếng việt... quan về lý thuyết tập thô 1.1 Khai phá dữ liệu văn bản 1.1.1 Khai phá dữ liệu 1.1.1.1 Khái niệm Trước sự phát triển không ngừng của internet dẫn đến những kho dữ liệu đã lưu trữ một lượng dữ liệu khổng lồ, trong lượng dữ liệu khổng lồ đó ẩn chứa rất nhiều những thông tin quan trọng Tuy nhiên, trước đây người ta vẫn thường sử dụng những phương pháp thủ công mà rất khó khăn để khai phá chúng Những thông... liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 tổ chức dữ liệu theo các nhóm và thư mục, mỗi nhóm lại có thể có nhiều nhóm con nằm trong đó Khai phá dữ liệu dạng văn bản (Text Mining) [15]: là khai phá dữ liệu đối với loại dữ liệu text và nó là quá trình phát hiện tri thức mới, có giá trị, tiềm ẩn trong tập hợp văn bản Mang tính đa dạng về phát biểu khái niệm khai phá dữ liệu - Kiến trúc khai. .. liệu Dữ liệu Mục tiêu Dữ liệu qua tiền xử lý Dữ liệu đã chuyển đổi Hình 1.1 Quy trình DM (Fayyad et al., 1996) - Gom (tập hợp) dữ liệu (Gathering): Đây là bước đầu tiên trong quá trình khai phá dữ liệu, nó được khai thác trong một cơ sở dữ liệu, kho dữ liệu - Trích lọc dữ liệu (Selection): Các dữ liệu được lựa chọn và phân chia theoo một số tiêu chuẩn nào đó - Làm sạch, tiền xử lý và chuẩn bị trước dữ. .. Khai phá dữ liệu văn bản 1.1.2.1 Khái niệm Trong các dữ liệu hiện nay thì văn bản là một trong những dữ liệu phổ biến nhất, nó có mặt ở khắp mọi nơi và chúng ta thường xuyên bắt gặp do đó các bài toán về xử lý văn bản đã được đặt ra khá lâu và hiện nay vẫn là một trong những vấn đề trong khai phá dữ liệu Text, trong đó có những bài toán đáng chú ý như tìm kiếm văn bản, phân loại văn bản, phân cụm văn. .. kho dữ liệu, dữ liệu tồn tại những khác biệt, phát hiện những khác biết trong kho dữ liệu là rất quan trọng Độ lệch giữa kết quả quan sát được giữa giá trị trả về theo tính toán và kết quả thực tế 1.1.1.4 Quy trình của DM Quy trình của DM theo sơ đồ như sau Đánh giá kết quả mẫu Tri thức Khai phá dữ liệu Làm sạch tiền xử lý dữ liệu Chuyển đổi dữ liệu Các mẫu Trích lọc dữ liệu Gom dữ liệu Internet Dữ liệu. .. dữ liệu: Là đánh giá lựa chọn mô hình thích hợp, chất lượng của dữ liệu có đáp ứng yêu cầu phân tích hay không và giải thích các kết quả Text mining nhằm phân tích và phát hiện các quan hệ trong khối dữ liệu văn bản lớn như các tập tin văn bản, các bảng tính, e-mail, các trang Web và các kho văn bản khác Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương mại Công cụ khai phá dữ liệu . dữ liệu bao gồm khai phá dữ liệu văn bản, các khía cạnh khai phá dữ liệu văn bản, các chu trình khai phá và tổng quan về lý thuyết tập thô. 1.1. Khai phá dữ liệu văn bản 1.1.1. Khai phá dữ. VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ 4 1.1 Khai phá dữ liệu văn bản 4 1.1.1 Khai phá dữ liệu 4 1.1.1.1 Khái niệm 4 1.1.1.2 Lịch sử nghiên cứu 5 1.1.1.3 Các khía cạnh khai phá. lý dữ liệu Chuyển đổi dữ liệu Khai phá dữ liệu Các mẫu Dữ liệu đã chuyển đổi Dữ liệu qua tiền xử lý Dữ liệu Mục tiêu Internet Gom dữ liệu Dữ liệu Số hóa bởi Trung tâm Học liệu

Ngày đăng: 02/08/2014, 21:08

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan