HỌC máy, NGUYỄN NHẬT QUANG, ĐHBKHN các PHƯƠNG PHÁP học KHÔNG GIÁM sát PHÂN cụm dựa TRÊN TÍCH tụ PHÂN cấp

16 247 0
HỌC máy, NGUYỄN NHẬT QUANG, ĐHBKHN các PHƯƠNG PHÁP học KHÔNG GIÁM sát PHÂN cụm dựa TRÊN TÍCH tụ PHÂN cấp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@mail.hut.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2011-2012 Nội dung d môn ô học: h „ Giới thiệu chung g „ Đánh giá hiệu hệ thống học máy „ Các phương pháp học dựa xác suất „ Các phương pháp học có giám sát „ Cá phương Các h pháp há học h không khô giám iá sát át „ Phân cụm dựa tích tụ phân cấp: HAC (Hierarchical agglomerative clustering) „ Lọc cộng tác „ Học tăng cường Học Máy (IT 4862) HAC (1) „ Sinh chuỗi lồng cụm, gọi dendrogram g • Cũng gọi phân loại (taxonomy)/phân cấp (hierarchy)/cây (tree) ví dụ [Liu, 2006] Học Máy (IT 4862) HAC (2) „ Phân cụm dựa tích tụ phân cấp (Hierarchical Agglomerative Clustering – HAC) xây dựng dendrogram từ mức đáy (cuối) dần lên (bottom-up) „ Giải thuật HAC • Bắt đầu, ví dụ cụm (là nút dendrogram) • Hợp ợp cụm ụ có mức độ ộ tương g tự ự (g (gần)) ƒ Cặp gồm cụm có khoảng cách nhỏ số cặp cụm • Tiếp tục trình hợp • Giải thuật kết thúc tất ví dụ hợp thành cụm (là nút gốc dendrogram) Học Máy (IT 4862) HAC – Ví dụ ụ (Venn diagram) [Liu, 2006] Học Máy (IT 4862) Khoảng g cách g cụm ụ „ Giải thuật HAC cần định nghĩa việc tính toán khoảng cách cụm • Trước hợp nhất, cần tính khoảng cách cặp cụm „ Có nhiều phương pháp để đánh giá khoảng cách cụm – đưa đến biến thể khác giải thuật HAC • Liên kết đơn (Single link) • Liên kết hoàn toàn (Complete link) • Liên kết trung bình (Average link) • Liên kết trung tâm (Centroid link) • … Học Máy (IT 4862) HAC – Liên kết đơn HAC liên kết đơn (Single link): ƒ Khoảng cách cụm khoảng cách nhỏ ví dụ (các thành viên) cụm C1 + + C2 ƒ Có xu hướng sinh cụm có dạng “chuỗi dài” (long chain) [Liu, 2006] Học Máy (IT 4862) HAC – Liên kết hoàn toàn HAC liên kết hoàn toàn (Complete link): ƒ Khoảng cách cụm khoảng g cách lớn g ví dụ (các thành viên) cụm C1 + + C2 ƒ Nhạy cảm (gặp lỗi ỗ phân cụm) ngoại lai (outliers) ƒ Có xu hướng h sinh i h cụm có dạng “bụi cây” (clumps) [Liu, 2006] Học Máy (IT 4862) HAC – Liên kết trung g bình „ Khoảng cách liên kết trung bình (Average-link) thỏa hiệp khoảng cách liên kết hoàn toàn (Complete-link) liên kết đơn (Single-link) • Để giảm mức độ nhạy cảm (khả lỗi) phương pháp phân cụm dựa d t ê liên liê kết hoàn h toàn t ới ngoạii lai l i (outliers) ( tli ) • Để giảm xu hướng sinh cụm có dạng “chuỗi dài” phương pháp phân cụm dựa liên kết đơn (dạng “chuỗi dài” không phù hợp với khái niệm tự nhiên cụm) „ Khoảng g cách g cụm ụ khoảng g cách trung g bình tất cặp ví dụ (mỗi ví dụ thuộc cụm) Học Máy (IT 4862) HAC – Liên kết trung g tâm HAC liên kết trung tâm (Centroid link): „ Khoảng cách cụm khoảng cách điểm ể trung tâm (centroids) cụm C1 + + C2 Học Máy (IT 4862) 10 Giải thuật ậ HAC – Độ ộp phức tạp ạp „ Tất biến thể giải thuật HAC có độ phức tạp tối thiểu mức O(r2) •r: Tổng số ví dụ (kích thước tập liệu) „ Phương pháp phân cụm HAC liên kết đơn (Single-link) có độ phức tạp mức O(r2) „ Các phương pháp phân cụm HAC liên kết hoàn toàn (Complete-link) liên kết trung bình (Average-link) có độ phức tạp mức O(r2logr) „ Do độ phức tạp cao, giải thuật HAC khó áp dụng tập liệu có kích thước (rất) lớn Học Máy (IT 4862) 11 Các hàm khoảng g cách „ Một thành phần quan trọng phương pháp phân cụm • Cần xác định hàm tính độ khác biệt (dissimilarity/distance functions), hàm tính độ tương tự (similarity functions) „ Các hàm tính khoảng cách khác • Các kiểu liệu khác ƒ Dữ liệu kiểu số (Numeric data) ƒ Dữ liệu kiểu định danh (Nominal data) • Các toán ứng dụng cụ thể Học Máy (IT 4862) 12 Hàm khoảng cách cho thuộc tính số „ Họ hàm khoảng cách hình học (khoảng cách Minkowski) „ Các hàm dùng phổ biến • Khoảng cách Euclid • Khoảng cách Manhattan (khoảng cách City-block) „ Ký hiệu d(xi, xj) khoảng cách ví dụ (2 vectơ) xi xj „ Khoảng cách Minkowski (với p số nguyên dương) d(xi , xj ) = [(xi1 − xj1) p + (xi2 − xj ) p + + (xin − xjn) p ]1/ p Học Máy (IT 4862) 13 Hàm k/c cho thuộc tính nhị phân Sử dụng ma trận để biểu diễn hàm tính khoảng g cách • a: Tổng số thuộc tính có giá trị xi xj • b: Tổng số thuộc tính có giá trị xi có g giá trị g xj • c: Tổng số thuộc tính có giá trị xi có giá trị xj • d: Tổng số thuộc tính có giá trị xi xj „ ví dụ xj ví dụ xi „ 0 a b c d Hệ số phù hợp đơn giản (Simple matching coefficient) coe c e t) Tỷỷ lệ ệ sa sai lệch ệc giá g trịị thuộc tính ví dụ: b+c d (x i , x j ) = a+b+c+d Học Máy (IT 4862) 14 Hàm k/c cho thuộc tính định danh „ Hàm khoảng cách dựa phương pháp đánh giá tỷ lệ khác biệt giá trị thuộc tính ví dụ „ Với ví dụ xi xj, ký hiệu p tổng số thuộc tính (trong tập liệu), liệu) q số thuộc tính mà giá trị xi xj p−q d (x i , x j ) = p Học Máy (IT 4862) 15 Tài liệu tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Học Máy (IT 4862) 16 [...]... thuật HAC khó có thể áp dụng được đối với các tập dữ liệu có kích thước (rất) lớn Học Máy (IT 4862) 11 Các hàm khoảng g cách „ Một thành phần quan trọng của các phương pháp phân cụm • Cần xác định các hàm tính độ khác biệt (dissimilarity/distance functions), hoặc các hàm tính độ tương tự (similarity functions) „ Các hàm tính khoảng cách khác nhau đối với • Các kiểu dữ liệu khác nhau ƒ Dữ liệu kiểu... Dữ liệu kiểu định danh (Nominal data) • Các bài toán ứng dụng cụ thể Học Máy (IT 4862) 12 Hàm khoảng cách cho thuộc tính số „ Họ các hàm khoảng cách hình học (khoảng cách Minkowski) „ Các hàm được dùng phổ biến nhất • Khoảng cách Euclid • Khoảng cách Manhattan (khoảng cách City-block) „ Ký hiệu d(xi, xj) là khoảng cách giữa 2 ví dụ (2 vectơ) xi và xj „ Khoảng cách Minkowski (với p là một số nguyên dương)...Giải thuật ậ HAC – Độ ộp phức tạp ạp „ Tất cả các biến thể của giải thuật HAC đều có độ phức tạp tối thiểu mức O(r2) •r: Tổng số các ví dụ (kích thước của tập dữ liệu) „ Phương pháp phân cụm HAC liên kết đơn (Single-link) có độ phức tạp mức O(r2) „ Các phương pháp phân cụm HAC liên kết hoàn toàn (Complete-link) và liên kết trung bình (Average-link) có độ phức... trịị của các thuộc tính giữa 2 ví dụ: b+c d (x i , x j ) = a+b+c+d Học Máy (IT 4862) 14 Hàm k/c cho thuộc tính định danh „ Hàm khoảng cách cũng dựa trên phương pháp đánh giá tỷ lệ khác biệt giá trị thuộc tính giữa 2 ví dụ „ Với 2 ví dụ xi và xj, ký hiệu p là tổng số các thuộc tính (trong tập dữ liệu), liệu) và q là số các thuộc tính mà giá trị là như nhau trong xi và xj p−q d (x i , x j ) = p Học Máy... ) p + + (xin − xjn) p ]1/ p Học Máy (IT 4862) 13 Hàm k/c cho thuộc tính nhị phân Sử dụng một ma trận để biểu diễn hàm tính khoảng g cách • a: Tổng số thuộc tính có giá trị là 1 trong cả xi và xj • b: Tổng số các thuộc tính có giá trị là 1 trong xi và có g giá trị là 0 trong g xj • c: Tổng số các thuộc tính có giá trị là 0 trong xi và có giá trị là 1 trong xj • d: Tổng số các thuộc tính có giá trị là... thuộc tính mà giá trị là như nhau trong xi và xj p−q d (x i , x j ) = p Học Máy (IT 4862) 15 Tài liệu tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Học Máy (IT 4862) 16 ... ô học: h „ Giới thiệu chung g „ Đánh giá hiệu hệ thống học máy „ Các phương pháp học dựa xác suất „ Các phương pháp học có giám sát „ Cá phương Các h pháp há học h không khô giám iá sát át „ Phân. .. cảm (khả lỗi) phương pháp phân cụm dựa d t ê liên liê kết hoàn h toàn t ới ngoạii lai l i (outliers) ( tli ) • Để giảm xu hướng sinh cụm có dạng “chuỗi dài” phương pháp phân cụm dựa liên kết đơn... dendrogram g • Cũng gọi phân loại (taxonomy) /phân cấp (hierarchy)/cây (tree) ví dụ [Liu, 2006] Học Máy (IT 4862) HAC (2) „ Phân cụm dựa tích tụ phân cấp (Hierarchical Agglomerative Clustering –

Ngày đăng: 13/11/2015, 18:03

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan