Phân tích mô tả trong khai phá dữ liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH CHƯƠNG 3: PHÂN TÍCH MƠ TẢ Nhóm 4, Sinh viên: Nguyễn Tiến Đạt 20173493 Phan Thanh Tùng 20173598 Lê Thị Nhung 20173571 Phạm Thúy Vy 20173604 HÀ NỘI – 03/2020 Mục Lục Chương 3: Phân tích mơ tả 3.1 Dữ liệu chiều 3.1.1 Phân phối biểu đồ phổ 3.1.2 Phân tích vị trí 3.1.3 Phân tích phân tán 3.1.4 Phân tích hình dáng 3.1.5 Hiển thị liệu 3.3 Dữ liệu nhiều chiều 3.3.1 Phân tích tương quan 3.3.2 Phân tích thành phần 3.3.3 Phân tích nhân tố 3.3.4 Hiển thị liệu nhiều chiều 3.4 Phân tích kết hợp 3.4.1 Khái niệm 3.4.2 Thuật toán Apriori 3.4.3 Các phương pháp tăng hiệu 3.4.4 Đánh giá kết 3.4.5 Thuộc tính giá trị số 3.5 Phân tích phân cụm 3.5.1 Khái niệm 3.5.2 Khoảng cách 3.5.3 Phân cụm theo tâm cụm 3.5.4 Phân cụm theo mật độ 3.5.5 Phân cụm theo cấu trúc 3.1 Dữ liệu chiều Dữ liệu chiều tập phần tử đại diện hai đặc trưng: định tính định lượng Khơng có tiêu chuẩn đơn giản tính định tính hay định lượng liệu Tuy nhiên, dựa theo mục đích thực tế, tiêu chuẩn gọi tốt đặc trưng mang tính định lượng trung bình có ý nghĩa 3.1.1 Phân phối biểu đồ phổ Phân phối cách tổng hợp toàn diện gây ấn tượng trực quan Trên mặt phẳng, vẽ trục x đường ranh giới đặc trưng thể giới hạn chúng Chia khoảng cách x dựa theo số cột tương ứng với số đặc trưng (bin) Các cột khơng chồng lên có kích thước Chiều cao cột dựa vào số phần tử thuộc vào cột Người ta gọi biểu đồ histogram Trục x thể đặc trưng liệu trục y biểu diễn số phần tử thuộc vào cột đặc trưng Nhận xét: Tổng số phần tử cột tổng số phần tử liệu Dữ liệu tập phần tử x1, …, xN Kí hiệu X = {x1, …, xN} Trên [a, b], ta có n đặc trưng liệu => Cần tạo n cột đặc trưng Để tạo n cột, ta cần thực phép chia điểm a + k(b−a)/n (k = 1, 2, …, n−1) Công thức áp dụng cho trường hợp k = k = n + a = x0 b = xn+1 Trường hợp biểu đồ có cột Chú ý: Cột k có biên a+(k−1)(b−a)/n a+k(b−a)/n Có thể loại bỏ hai biên để cột không bị chồng chéo lên biên Các biểu đồ coi biểu thức thực nghiệm lý thuyết phân phối xác suất (hay gọi hàm mật độ) 3.1.2 Phân tích vị trí Tên Mean (Giá trị kì vọng) (Giá trị trung bình) Median (Trung vị) Mid-range Giải thích Ghi Giá trị trung bình Giảm tối thiểu lỗi tính tổng bình phần tử phương Ước tính giá trị kì vọng phân phối Nhạy cảm với ngoại lệ hình dạng phân phối Giá trị phần Giảm tối thiểu lỗi tính tổng giá trị tử nằm tuyệt đối liệu Ước tính giá trị kì vọng phân phối Khơng nhạy cảm với ngoại lệ Nhạy cảm với hình dạng phân phối Nằm Giảm tối thiểu lỗi tính tổng giá trị giới hạn tuyệt đối Ước tính giá trị kì vọng phân phối Nhạy cảm với ngoại lệ P-quantile (Percentile) (Phân vị) Mode (Yếu vị) Một giá trị chia toàn phần tử theo tỉ lệ P (1-P) để chúng giá trị cao tạo thành tỉ lệ P (upper Pquantile) 1P (bottom Pquantile) Giá trị phần tử lớn biểu đồ Khơng nhạy cảm với hình dạng phân phối Không nhạy cảm với ngoại lệ Nhạy cảm với hình dạng phân phối Phụ thuộc vào kích thước cột Có thể có nhiều giá trị 3.1.3 Phân tích phân tán Tên Độ lệch chuẩn Độ lệch tuyệt đối Half-range Giải thích Trung bình tồn phương độ lệch từ mean Trung bình độ lệch tuyệt đối từ median Độ lệch tối đa từ midrange Ghi Được tối thiểu hóa mean Ước tính bậc hai phương sai Được tối thiểu hóa median (trung vị) Được tối thiểu hóa nhờ midrange 3.1.4 Phân tích hình dáng Phân bố kiểu lũy thừa Phân bố Gauss 3.1.5 Hiển thị liệu Có nhiều cách để biểu diễn liệu Biểu đồ histogram Pie – chart (Biểu đồ tròn) Bar – chart (Biểu đồ cột) Từ khóa Categorical data: liệu định tính Quantitative data: liệu định lượng 10  Luật kết hợp: mệnh đề kéo theo có dạng XY, X, Y  I, thỏa mãn điều kiện XY=  Các tập hợp X Y gọi tập hợp tính chất (itemset) Tập X gọi nguyên nhân, tập Y gọi hệ  Có độ đo quan trọng luật kết hợp: Độ hỗ trợ (support) Độ tin cậy (confidence)  Độ hỗ trợ:  Định nghĩa 1: Độ hỗ trợ tập hợp X sở liệu D tỷ số ghi T D có chứa tập X tổng số ghi D (hay phần trăm ghi D có chứa tập hợp X), ký hiệu support(X) hay supp(X) (support tự sinh cài thuật toán) |{𝑇 ⊂ 𝐷: 𝑌 ⊃ 𝑋}| 𝑆𝑜 = |𝐷| Ta có: supp(X) 1 với tập hợp X  Định nghĩa 2: : Độ hỗ trợ luật kết hợp XY tỷ lệ số lượng ghi chứa tập hợp X Y, so với tổng số ghi D - Ký hiệu supp(XY) |{𝑇 ⊂ 𝐷: 𝑇 ⊇ 𝑋 ∪ 𝑌}| 𝑆𝑢𝑝𝑝 (𝑋 𝑌 ) = |𝐷| Khi nói độ hỗ trợ luật 50%, có nghĩa có 50% tổng số ghi chứa X Y Như vậy, độ hỗ trợ mang ý nghĩa thống kê luật  Độ tin cậy:  Định nghĩa 1: Độ tin cậy luật kết hợp XY tỷ lệ số lượng ghi D chứa X Y với số ghi D có chứa tập hợp X Ký hiệu độ tin cậy luật conf(r) Ta có conf(r) 1 Nhận xét: Độ hỗ trợ độ tin cậy có xác suất sau: Supp(XY)=P(XY) 32 Conf (XY) = P(Y/X)=supp(XY)/supp(X)  Định nghĩa 2: Độ tin cậy luật kết hợp XY tỷ lệ số lượng ghi tập hợp chứa X  Y, so với tổng số ghi chứa X Chúng ta nhận thấy tri thức đem lại luật kết hợp dạng có khác biệt nhiều so với thông tin thu từ câu lệnh truy vấn liệu thơng thường SQL Đó tri thức, mối liên hệ chưa biết trước mang tính dự báo tiềm ẩn liệu Những tri thức không đơn giản kết phép nhóm, tính tổng hay xếp mà q trình tính tốn phức tạp 3.4.2 Thuật tốn Apriori Thuật tốn Apriori cơng bố R Agrawal R Srikant vào năm 1994 để tìm tập phổ biến liệu lớn Tên thuật tốn Apriori sử dụng kiến thức có từ trước (prior) thuộc tính, vật phẩm thường xuyên xuất sở liệu Để cải thiện hiệu việc lọc mục thường xuyên theo cấp độ, thuộc tính quan trọng sử dụng gọi thuộc tính Apriori giúp giảm phạm vi tìm kiếm thuật tốn Ngun tắc giải thuật Apriori: Loại bỏ dựa độ hỗ trợ:  Nếu tập mục thường xuyên, tất tập (subsets) tập mục thường xuyên  Nếu tập mục khơng thường xun (not frequent) tất tập cha (supersets) tập mục không thường xuyên 33 Nguyên tắc giải thuật Apriori dựa đặc tính khơng đơn điệu (antimonotone) độ hỗ trợ: ∀𝑋, 𝑌: (𝑋 ⊆ 𝑌) ⇒ 𝑠 (𝑋) ≥ 𝑠 (𝑌) Lược đồ biểu diễn tập mục cần xét loại bỏ bớt theo độ hỗ trợ 34 Giải thuật Apriori: Sinh tất tập mục thường xuyên mức 1(frequent 1itemsets) Gán k =1 Lặp lại, khơng có thêm tập mục thường xuyên 3.1 Từ tập mục thường xuyên mức k, sinh tập mục mức (k+1) cần xét 3.2 Loại bỏ tập mục mức k+1 chứa tập tập mục khơng thường xun mức k 3.3 Tính độ hỗ trợ tập mục mức k+1, cách duyệt qua tất giao dịch 3.4 Loại bỏ tập mục không thường xuyên mức k+1 3.5 Thu tập mục thường xuyên mức k+1 35 3.6 Với tập mục thường (I) thu được, sinh tất tập (B) không rỗng Với tập B, sinh luật kết hợp: B (I-B) Với luật kết hợp, duyệt qua tất giao dịch Chọn luật có độ tin cậy(c) ≥ minconf Ví dụ: với I= {A1,A2,A5} Các tập I: {A1}, {A2}, {A5}, {A1,A2}, {A1,A5}, {A2,A5} Có luật kết hợp sau: {A1} => {A2,A5}; {A2} =>{A1,A5}; {A5} =>{A1,A2}; {A1,A2} =>{A5}; {A1,A5} =>{A2}; {A2,A5} => {A1} Với frequent itemsets I ={B,C,E}, min_conf =80% Ta có luật kết hợp là:{B,C} =>{E}; {C,E} =>{B} 36 Đánh giá giải thuật Apriori: Các yếu tố ảnh hưởng:  Lựa chọn giá trị ngưỡng minsup: Giá trị minsup thấp sinh nhiều tập mục thường xuyên Điều làm tăng số lượng tập mục phải xét  Số lượng mục sở liệu (các giao dịch): Cần thêm nhớ để lưu giá trị độ hỗ trợ với mục Nếu số lượng mục(tập mục mức 1) thường xuyên tăng lên chi phí chi phí I/O (duyệt giao dịch) tăng  Kích thước sở liệu (các giao dịch): Giải thuật phải duyệt sở liệu nhiều lần, chi phí tính tốn Apriori tăng lên số lượng giao dịch tăng lên  Kích thước trung bình giao dịch: Khi kích thước (số lượng mục) trung bình giao dịch tăng lên, độ dài tối đa tập mục thường xuyên tăng 3.4.3: Các phương pháp tăng hiệu  Thêm vào đặc trưng mạnh mẽ tạo hiệu suất cao  Cải tiến giải thuật có: - Kỹ thuật dựa bảng băm (hash-based technique): Một kitemset ứng với hashing bucket count nhỏ minimum support threshold không frequent itemset - Giảm giao dịch (transaction reduction): Một giao dịch khơng chứa frequent k-itemset không cần kiểm tra lần sau (cho k+1-itemset) - Phân hoạch (partitioning): Một itemset phải frequent phân hoạch frequent toàn tập liệu 37 - Lấy mẫu (sampling): Khai phá tập liệu cho trước với trị support threshold nhỏ cần phương pháp để xác định tính tồn diện (completeness) - Đếm itemset động (dynamic itemset couting): Chỉ thêm itemset dự tuyển tất tập chúng dự đoán frequent  Đây phần quan trọng dự án khai phá liệu Chúng ta thấy khai phá luật kết hợp giúp giảm tải cho chuyên gia phần thủ công Chúng ta xây dựng hệ thống tự động phát tự động luật kết hợp từ hình ảnh 3.4.4: Đánh giá kết 3.5 Phân Tích Phân Cụm 3.5.1 Khái Niệm Phân cụm nhằm mục đích tìm cấu trúc vốn có liệu chưa gắn nhãn nhóm chúng thành cụm đối tượng [Jain et al., 1999] Một cụm tốt-ing sản xuất cụm chất lượng cao intra-cluster similarity tối đa hóa inter-cluster similarity giảm thiểu Phân cụm sử dụng công cụ khám phá độc lập để hiểu rõ chất liệu sử dụng làm giai đoạn tiền xử lý để tạo điều kiện nhiệm vụ học tập Chính thức, đưa liệu D = {x1, x2, , xm} ví dụ thứ i xi = (xi1, xi2, ,xid)T ∈ Rd chiềutính vector, nhiệm vụ phân cụm nhóm D thành cụm phân biệt k {Cj | j = 1, ,k} với Ukj=1 Cj = D Ոi≠j Cj = ∅ Phân cụm kết trả thuật toán phân cụm L biểu diễn dạng nhãn vectơ N m, với phần tử thứ i λi ∈ {1, , k} biểu thị cụm phân công xi 38 3.5.2 Khoảng cách Xem xét phân vùng S = {S1, S2, , Sk} tập I, với centroid c = {c1, c2, , ck} tiêu chí lỗi bình phương W{S,c} = ∑𝑘𝑘=1 ∑𝑖𝜖𝑆𝑘 𝑑(𝑖, 𝑐𝑘) K-Means Đặt hai số cụm, Sf, Sg, hợp để phân vùng kết S (f, g) trùng với S ngoại trừ cụm sáp nhập Sf ∪ Sg; trung tâm rõ ràng cf∪g = (Nf cf + Ng Cg) / (Nf+ Ng), Nf Ng cardinalities cụm Sf Sg, tương ứng Như chứng minh trước - thực rõ ràng (xem hình 7.3) - giá trị tiêu chí lỗi vng phân vùng S (f, g) lớn W (S, c) Nhưng lớn bao nhiêu? Câu trả lời khoảng cách Euclide bình phương tâm cụm hợp Sf Trọng số nhân tố tỷ lệ thuận với sản phẩm yếu tố hợp cụm (phường 1963) Để chứng minh điều này, làm theo định nghĩa thực số chuyển đổi mations Đầu tiên, nhận thấy khoảng cách cụm không thay đổi không thay đổi phân vùng S (f, g) cho khác biệt giá trị cri-terion W 39 Khoảng cách tiêu chí W (S, c) trước (đường liền nét) sau sáp nhập (đường đứt nét) hai cụm phía bên phải Số lượng đường đứt nét rắn nhau, khoảng cách đường đứt nét tổng thể dài mục bên phải 0, ∑𝑖𝜖𝑆𝑓 (𝑦𝑖𝑣 − 𝐶𝑓𝑣) = Tương tự phân tách giữ cho tổng ∑𝑖𝜖𝑆𝑔 ∑𝑣𝜖𝑉(𝑦𝑖𝑣 − 𝐶𝑓Ȗ𝑔, 𝑣)2 Cả hai kết hợp lại chênh lệch W (S (f, g), c (f, g)) - W (S, c) hồn thành chứng phương trình (6.2) Khoảng cách có trọng số: 40 3.5.3 Phân cụm theo tâm cụm K-means Clustering Trong phân cụm k-mean, nhà phân tích phải định số lượng cụm, k Nếu số lượng cụm, k, không thiết lập rõ ràng bối cảnh vấn đề kinh doanh, phương tiện k thuật tốn phân cụm lặp lại cho số giá trị k Cho giá trị k, phương tiện k thuật toán gán ngẫu nhiên quan sát cho cụm k Sau tất quan sát gán cho cụm, trọng tâm cụm kết tính tốn (các cụm nàycentroid người có nghĩa người Ý cụm k nghĩa) Sử dụng centroid cụm cập nhật, tất quan sát gán lại cho cụm có trọng tâm gần (trong Euclide dis-Tance số liệu tiêu chuẩn) Thuật toán lặp lại trình (tính tốn cụm trung tâm, định quan sát cho cụm với trọng tâm gần nhất) khơng có thay đổi trongđạt cụm số lần lặp tối đa định Là kỹ thuật học tập khơng giám sát, phân tích cụm không hướng dẫn rõ ràng thước đo độ xác, đó, khái niệm cụm phân phối tốt Hoàng tử chủ quan không phụ thuộc vết lõm nhà phân tích hy vọng phân tích cụm phát Bất kể, người ta chắn cường độ cụm cách so sánh khoảng cách trung bình cụm với khoảng cáchgiữa cụm Một nguyên tắc nhỏ tỷ lệ khoảng cách cụm (được đo khoảng cách cụm sao) đến khoảng cách trung bình cụm nên vượt 1.0 cho cụm hữu ích 41 Để minh họa phân cụm k-mean, xem xét phân cụm có nghĩa mẫu nhỏ liệu khách hàng KTC tệp DemoKTC Hình 4.4 cho thấy ba cụm dựa thu nhập khách hang tuổi Trung tâm cụm mô tả theo vịng trịn Hình 4.4 42 Bảng 4.2 4.3 làthể dạngtọa độ chuẩnđể loại bỏ bất kỳméo kết từ khác biệt quy mô biến đầu vào Cụm đặc trưng tương đối trẻ, thấp đến với khách hàng (Cụm Lõi trung bình [33, $ 20,364]) Cụm đặc trưng khách hàng tương đối lớn tuổi, có thu nhập cao (Cụm trung tâm mức [58, $ 47,729]) Cụm đặc trưng khách hàng tương đối lớn tuổi, có thu nhập thấp (Cụm Cen-troid [53, $ 21,416]) Như chứng thực trực quan Hình 4.4, Bảng 4.2 cho thấy Cụm cụm nhỏ nhất, không đồng nhất Chúng quan sát cụm cụm lớn Cụm cụm đồng nhất Bảng 4.3 đóng khoảng cách cặp trọng tâm cụm để chứng minh khác biệt cụm từ Cụm cụm khác biệt so với lẫn Để đánh giá sức mạnh cụm, so sánh khoảng cách trung bình 43 cụm (Bảng 4.2) đến khoảng cách trung bình cụm (Bảng 4.3) Ví dụ: Cụm khơng đồng nhất, với khoảng cách trung bình quan sát 0,739, so sánh khoảng cách với khoảng cách Cụm centroid Cluster (1.964) cho thấy trung bình quan sát Cluster xấp xỉ 2,66 lần gần với centroid Cluster so với centroid Cluster Nói chung, tỷ lệ khoảng cách cặp trọng tâm cụm lớn khoảng cách trung bình cụm, phân cụm khác biệt người obser-vations hai cụm cặp Mặc dù cân nhắc định tính nên dùng ưu tiên việc đánh giá cụm, sử dụng tỷ lệ khoảng cách cụm trung bình tuổi khoảng cách cụm cung cấp số hướng dẫn việc xác định k, số lượng cụm 3.5.4 Phân cụm theo mật độ Một phương thức dựa mật độ xây dựng cụm D dựa khái niệm mật độ, khu vực cao Sity coi cụm phân tách khu vực có độ khử thấp xót xa DBSCAN [Ester et al., 1996] cụm dựa mật độ đại diện Phương thức ing, đặc trưng cho mật độ không gian liệu với cặp tham số (ε, M inP ts) Cho ví dụ x, vùng lân cận bán kính ε gọi vùng lân cận x x gọi đối tượng cốt lõi nếu-vùng lân cận chứa M inP ts số trường hợp Một ví dụ p tiếp cận mật độ trực tiếp đến x p nằm vùng lân cận x x đối tượng cốt lõi Đầu tiên, DBSCAN xác định đối tượng cốt lõi thỏa mãn yêu cầu quẻ áp đặt tham số (ε, M inP ts) Sau đó, tạo thành cụm cách lặp lại kết nối trường hợp tiếp cận mật độ trực tiếp đối tượng cốt lõi 44 Quá trình kết nối chấm dứt khơng có điểm liệu thêm vào cụm 3.5.5 Phân cụm theo cấu trúc Hierarchical Methods: Một phương thức phân cấp tạo hệ thống phân cấp clus-terings D cấp độ hạt khác nhau, cụm cụ thể thu cách đập phân cấp mức độ hạt cụ thể An nỗ lực sớm hướng tới phân cụm theo cấp bậc phương pháp SAHN [Ander-berg, 1973, Day Edelsbrunner, 1984], tạo thành hệ thống phân cấp clus-terings cách từ lên Ban đầu, điểm liệu đặt vào cụm riêng ma trận khác biệt m × m D cụm đặt với phần tử D (i, j) = dis (xi, xj) Sau đó, hai cụm gần Ci Cj xác định dựa D thay cụm kết tụ Ch Các ma trận tương tự D cập nhật để phản ánh việc xóa Ci Cj, khác biệt Ch tất cụm lại Ck (k ≠ i, j): D(h, k) = αi(i, k) + αi(j, k) + βD(i, j) + γ|D(i, k) − D(j, k)|, (7.2) αi, αj, hệ số đặc trưng cho SAHN khác đề cập Quá trình hợp lặp lại tất điểm liệu rơi vào cụm Các triển khai tiêu biểu SAHN đặt tên liên kết đơn (αi = 1/2; αj = 1/2; β = 0; γ = −1/2), complete-linkage (αi = 1/2; αj = 1/2; β = 0; γ = 1/2) and average-linkage (αi = |Ci|/(|Ci|+|Cj |); αj = |Cj |/(|Ci| + |Cj |); β = 0; γ = 0) 45 46 ... 3: Phân tích mơ tả 3.1 Dữ liệu chiều 3.1.1 Phân phối biểu đồ phổ 3.1.2 Phân tích vị trí 3.1.3 Phân tích phân tán 3.1.4 Phân tích hình dáng 3.1.5 Hiển thị liệu 3.3 Dữ liệu nhiều chiều 3.3.1 Phân. .. phân tích nhân tố, phép phân tích sử dụng phổ biến Phân tích nhân tố khám phá, em giới thiệu phương pháp ● Khái niệm Phân tích nhân tố khám phá( EFA) phương pháp phân tích định lượng dùng để rút... tính giá trị số 3.5 Phân tích phân cụm 3.5.1 Khái niệm 3.5.2 Khoảng cách 3.5.3 Phân cụm theo tâm cụm 3.5.4 Phân cụm theo mật độ 3.5.5 Phân cụm theo cấu trúc 3.1 Dữ liệu chiều Dữ liệu chiều tập phần

Phân tích mô tả trong khai phá dữ liệu

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan