Các vấn đề tiền xử Lý dữ liệu

58 702 0
Các vấn đề tiền xử Lý dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 2: Các vấn đề tiền xử lý liệu Cao Học Ngành Khoa Học Máy Tính Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu (chauvtn@cse.hcmut.edu.vn) Học kỳ – 2011-2012 1 Tài liệu tham khảo ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009 [6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006 [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010 2 Nội dung ‡ Chương 1: Tổng quan khai phá liệu Chương 2: Các vấn đề tiền xử lý liệu ‡ Chương 3: Hồi qui liệu ‡ Chương 4: Phân loại liệu ‡ Chương 5: Gom cụm liệu ‡ Chương 6: Luật kết hợp ‡ Chương 7: Khai phá liệu công nghệ sở liệu Chương 8: Ứng dụng khai phá liệu ‡ ‡ ‡ ‡ Chương 9: Các đề tài nghiên cứu khai phá liệu Chương 10: Ôn tập 3 Chương 2: Các vấn đề tiền xử lý liệu ‡ 2.1 Tổng quan giai đoạn tiền xử lý liệu ‡ 2.2 Tóm tắt mô tả liệu ‡ 2.3 Làm liệu ‡ 2.4 Tích hợp liệu ‡ 2.5 Biến đổi liệu ‡ 2.6 Thu giảm liệu ‡ 2.7 Rời rạc hóa liệu ‡ 2.8 Tạo phân cấp ý niệm ‡ 2.9 Tóm tắt 4 2.1 Tổng quan giai đoạn tiền xử lý liệu ‡ Giai „ đoạn tiền xử lý liệu Quá trình xử lý liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng liệu (quality of the data) đó, cải thiện chất lượng kết khai phá ‡ Dữ liệu thô/gốc ƒ Có cấu trúc, bán cấu trúc, phi cấu trúc ƒ Được đưa vào từ nguồn liệu hệ thống xử lý tập tin (file processing systems) và/hay hệ thống sở liệu (database systems) ‡ Chất lượng liệu (data quality): tính xác, tính hành, tính toàn vẹn, tính quán 5 2.1 Tổng quan giai đoạn tiền xử lý liệu ‡ Chất lượng liệu (data quality) „ tính xác (accuracy): giá trị ghi nhận với giá trị thực „ tính hành (currency/timeliness): giá trị ghi nhận không bị lỗi thời „ tính toàn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận „ tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp 6 2.1 Tổng quan giai đoạn tiền xử lý liệu Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Data Cleaning Selection/Transformation Data Integration Data Sources 7 2.1 Tổng quan giai đoạn tiền xử lý liệu 8 2.1 Tổng quan giai đoạn tiền xử lý liệu ‡ Các kỹ thuật tiền xử lý liệu „ Làm liệu (data cleaning/cleansing): loại bỏ nhiễu (remove noise), hiệu chỉnh phần liệu không quán (correct data inconsistencies) „ Tích hợp liệu (data integration): trộn liệu (merge data) từ nhiều nguồn khác vào kho liệu „ Biến đổi liệu (data transformation): chuẩn hoá liệu (data normalization) „ Thu giảm liệu (data reduction): thu giảm kích thước liệu (nghĩa giảm số phần tử) kết hợp liệu (data aggregation), loại bỏ đặc điểm dư thừa (redundant features) (nghĩa giảm số chiều/thuộc tính liệu), gom cụm liệu 9 2.1 Tổng quan giai đoạn tiền xử lý liệu ‡ Các kỹ thuật tiền xử lý liệu „ Làm liệu (data cleaning/cleansing) ‡ „ Tóm tắt hoá liệu: nhận diện đặc điểm chung liệu diện nhiễu phần tử kì dị (outliers) ‡ Xử lý liệu bị thiếu (missing data) ‡ Xử lý liệu bị nhiễu (noisy data) Tích hợp liệu (data integration) ‡ ‡ ‡ Tích hợp lược đồ (schema integration) so trùng đối tượng (object matching) Vấn đề dư thừa (redundancy) Phát xử lý mâu thuẫn giá trị liệu (detection and resolution of data value conflicts) 10 10 2.6 Thu giảm liệu ‡ Tập liệu biến đổi đảm bảo toàn vẹn, nhỏ/ít nhiều số lượng so với ban đầu ‡ Các chiến lược thu giảm „ Kết hợp khối liệu (data cube aggregation) „ Chọn số thuộc tính (attribute subset selection) „ Thu giảm chiều (dimensionality reduction) „ Thu giảm lượng (numerosity reduction) „ Rời rạc hóa (discretization) „ Tạo phân cấp ý niệm (concept hierarchy generation) Æ Thu giảm liệu: lossless lossy 44 44 2.6 Thu giảm liệu ‡ Kết hợp khối liệu (data cube aggregation) „ „ Dạng liệu: additive, semi-additive (numerical) Sum() Kết hợp liệu hàm nhóm: average, min, max, sum, count, … Æ Dữ liệu mức trừu tượng khác Æ Mức trừu tượng cao giúp thu giảm lượng liệu nhiều cube: Sale 45 45 2.6 Thu giảm liệu ‡ Chọn số thuộc tính (attribute subset selection) „ Giảm kích thước tập liệu việc loại bỏ thuộc tính/chiều/đặc trưng (attribute/dimension/feature) dư thừa/không thích hợp (redundant/irrelevant) „ Mục tiêu: tập thuộc tính đảm bảo phân bố xác suất (probability distribution) lớp liệu đạt gần với phân bố xác suất ban đầu với tất thuộc tính Æ Bài toán tối ưu hóa: vận dụng heuristics 46 46 2.6 Thu giảm liệu ‡ Chọn số thuộc tính (attribute subset selection) 47 47 2.6 Thu giảm liệu ‡ Thu giảm chiều (dimensionality reduction) „ Biến đổi wavelet (wavelet transforms) „ Phân tích nhân tố (principal component analysis) Æ đặc điểm ứng dụng? 48 48 2.6 Thu giảm liệu ‡ Thu giảm lượng (numerosity reduction) „ Các kỹ thuật giảm lượng liệu dạng biểu diễn liệu thay „ Các phương pháp có thông số (parametric): mô hình ước lượng liệu Æ thông số lưu trữ thay cho liệu thật ‡ Hồi „ quy Các phương pháp phi thông số (nonparametric): lưu trữ biểu diễn thu giảm liệu ‡ Histogram, Clustering, Sampling 49 49 2.7 Rời rạc hóa liệu ‡ Giảm số lượng giá trị thuộc tính liên tục (continuous attribute) chia miền trị thuộc tính thành khoảng (intervals) ‡ Các nhãn (labels) gán cho khoảng (intervals) dùng thay giá trị thực thuộc tính ‡ Các trị thuộc tính phân hoạch theo phân cấp (hierarchical) hay nhiều mức phân giải khác (multiresolution) 50 50 2.7 Rời rạc hóa liệu ‡ Rời rạc hóa liệu cho thuộc tính số (numeric attributes) „ Các phân cấp ý niệm dùng để thu giảm liệu việc thu thập thay ý niệm cấp thấp ý niệm cấp cao „ Các phân cấp ý niệm xây dựng tự động dựa việc phân tích phân bố liệu „ Chi tiết thuộc tính bị „ Dữ liệu đạt có ý nghĩa dễ diễn dịch hơn, đòi hỏi không gian lưu trữ 51 51 2.7 Rời rạc hóa liệu ‡ Các phương pháp rời rạc hóa liệu cho thuộc tính số „ Binning „ Histogram analysis „ Interval merging by χ2 analysis „ Cluster analysis „ Entropy-based discretization „ Discretization by “natural/intuitive partitioning” 52 52 2.8 Tạo phân cấp ý niệm ‡ Dữ liệu phân loại (categorical data) „ Dữ liệu rời rạc (discrete data) „ Miền trị thuộc tính phân loại (categorical attribute) ‡ Số giá trị phân biệt hữu hạn ‡ Không có thứ tự giá trị Æ Tạo phân cấp ý niệm cho liệu rời rạc 53 53 2.8 Tạo phân cấp ý niệm ‡ Các phương pháp tạo phân cấp ý niệm cho liệu rời rạc (categorical/discrete data) „ Đặc tả thứ tự riêng phần (partial ordering)/thứ tự toàn phần (total ordering) thuộc tính tường minh mức lược đồ người sử dụng chuyên gia „ Đặc tả phần phân cấp cách nhóm liệu tường minh 54 54 2.8 Tạo phân cấp ý niệm ‡ Các phương pháp tạo phân cấp ý niệm cho liệu rời rạc (categorical/discrete data) „ Đặc tả tập thuộc tính, không bao gồm thứ tự riêng phần chúng „ Đặc tả tập riêng phần thuộc tính (partial set of attributes) „ Tạo phân cấp ý niệm cách dùng kết nối ngữ nghĩa định trước 55 55 2.9 Tóm tắt ‡ Dữ liệu thực tế: không đầy đủ (incomplete/missing), nhiễu (noisy), không quán (inconsistent) ‡ Quá trình tiền xử lý liệu „ làm liệu: xử lý liệu bị thiếu, làm trơn liệu nhiễu, nhận dạng phần tử biên, hiệu chỉnh liệu không quán „ tích hợp liệu: vấn đề nhận dạng thực thể, vấn đề dư thừa, vấn đề mâu thuẫn giá trị liệu „ biến đổi liệu: làm trơn liệu, kết hợp liệu, tổng quát hóa, chuẩn hóa, xây dựng thuộc tính/đặc tính „ thu giảm liệu: kết hợp khối liệu, chọn số thuộc tính, thu giảm chiều, rời rạc hóa tạo phân cấp ý niệm 56 56 2.9 Tóm tắt ‡ ‡ Rời rạc hóa liệu „ Thu giảm số trị thuộc tính liên tục (continuous attribute) cách chia miền trị thành khoảng (interval) có dán nhãn Các nhãn dùng thay cho giá trị thực „ Tiến hành theo hai cách: xuống (top down) lên (bottom up), có giám sát (supervised) giám sát (unsupervised) „ Tạo phân hoạch phân cấp/đa phân giải (multiresolution) trị thuộc tính Æ phân cấp ý niệm cho thuộc tính số (numerical attribute) Tạo phân cấp ý niệm „ Hỗ trợ khai phá liệu nhiều mức trừu trượng „ Cho thuộc tính số (numerical attributes): binning, histogram analysis, entropy-based discretization, χ2-merging, cluster analysis, discretization by intuitive partitioning „ Cho thuộc tính phân loại/rời rạc (categorical/discrete attributes): định tường minh người sử dụng hay chuyên gia, nhóm liệu tường minh, dựa số lượng trị phân biệt (khác nhau) thuộc tính 57 57 Hỏi & Đáp … 58 58

Ngày đăng: 18/10/2016, 08:12

Tài liệu cùng người dùng

Tài liệu liên quan