TÌM HIỂU AGNES KHAI PHÁ DỮ LIỆU

Thông tin tài liệu

TÌM HIỂU AGNES TRONG KHAI PHÁ DỮ LIỆU PHÂN CỤM DỮ LIỆU là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm tương tự với nhau và các phần tử trong các cụm khác nhau sẽ phi tương tự với nhau.

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN BÀI TIỂU LUẬN ĐỀ TÀI: PHÂN CỤM DỮ LIỆU BẰNG PHƯƠNG PHÁP PHÂN CẤP VÀ THUẬT TOÁN AGNES Giảng viên hướng dẫn: TS Nguyễn Thị Kim Ngân Nhóm học viên: Trần Thị Mai Oanh Phạm Thị Nhan Viladet Phothimath Phân cụm phương pháp phân cấp Phân cụm khai phá liệu Phân cụm phân cấp thuật toán AGNES Phân cụm kpdl Khái niệm: PCDL trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" với phần tử cụm khác "phi tương tự" với Phân cụm kpdl Độ tương tự xác định dựa giá trị thuộc tính mơ tả đối tượng Thơng thường, phép đo khoảng cách thường sử dụng để đánh giá độ tương tự hay phi tương tự Phân cụm kpdl Bài toán phân cụm: Input: Tập liệu D gồm n phần tử không gian m chiều + D = {x1, x2,…,xn} + xi = (x1i, x2i,…, xmi) mơ tả m thuộc tính phần tử thứ i Output: Phân liệu thuộc D thành cụm cho: + Các phần tử cụm có tính chất tương tự (gần nhau) + Các phần tử cụm khác có tính chất khác (xa nhau) Các ứng dụng phân cụm • Thương mại: PCDL giúp thương nhân khám phá nhóm khách hàng quan trọng có đặc trưng tương đồng đặc tả họ từ mẫu mua bán CSDL khách hàng • Sinh học: PCDL sử dụng để xác định loại sinh vật, phân loại Gen với chức tương đồng thu cấu trúc mẫu Các ứng dụng phân cụm • Phân tích liệu khơng gian: Do đồ sộ liệu không gian liệu thu từ hình ảnh chụp từ vệ tinh khiến người dùng khó để kiểm tra liệu khơng gian cách chi tiết • Lập quy hoạch thị: Nhận dạng nhóm nhà theo kiểu vị trí địa lý,…nhằm cung cấp thơng tin cho quy hoạch đô thị Các ứng dụng phân cụm • Nghiên cứu trái đất: Phân cụm để theo dõi tâm động đất nhằm cung cấp thông tin cho nhận dạng vùng nguy hiểm • Địa lý: Phân lớp động vật, thực vật đưa đặc trưng chúng • W W W: Gom nhóm tài liệu liên quan để dễ dàng tìm kiếm, giảm kích thước liệu lớn,… tiêu chuẩn gom nhóm - Một phương pháp phân cụm tốt tạo cụm có chất lượng cao với: * * - Tương tự cao lớp Tương tự thấp lớp Chất lượng kết gom cụm phụ thuộc vào: * Độ đo tương tự sử dụng * Phương pháp cài đặt độ đo tương tự tiêu chuẩn gom nhóm - Độ đo khoảng cách d(x,y): thường dùng để xác định khác hay giống đối tượng Độ đo khoảng cách thỏa mãn điều kiện: • d(x,y) ≥ • d(x,y) =0 x=y • d(x,y) = d(y,x) • d(x,z) ≤ d(x,y) + d(y,z) VÍ DỤ Bước 1: Chuyển sang ma trận khoảng cách A B C D E F 1.5 1.5 4 3.5 X1 X2 Ví dụ Bước 2: Sử dụng Euclide tính khoảng cách tất đối tượng  Ma trận khoảng cách: A B C D E F A 0.71 5.66 3.61 4.24 3.2 B 0.71 4.95 2.92 3.54 2.5 C 5.66 4.95 2.24 1.41 2.5 D 3.61 2.92 2.24 0.5 E 4.24 3.54 1.41 1.12 F 3.2 2.5 2.5 0.5 1.12 Chọn cách gộp cluster Single Linkage  Khoảng cách từ D đến F khoảng cách nhỏ (0.5)  Nhóm cụm D F vào cluster (D,F) Ví dụ Bước 3: Chọn cách gộp cluster Single Linkage  Khoảng cách từ D đến F khoảng cách nhỏ (0.5)  Nhóm cụm D F vào cluster (D,F)  Cập nhật ma trận khoảng cách: A B C (D,F) E A 0.71 5.66 ? 4.24 B 0.71 4.95 ? 3.54 C 5.66 4.95 ? 1.41 (D,F) ? ? ? ? E 4.24 3.54 1.41 ? Ví dụ Bước 3: Tính lại khoảng cách từ cluster (D,F) đến clusters khác - Khoảng cách từ cluster (D, F) cluster A d(D,F)A = min(dDA,dFA) = min(3.61,3.2)=3.2 - Tương tự ta có: d(D,F)B = 2.5, d(D,F)C = 2.24, d(D,F)E =  Cập nhật ma trận khoảng cách: A B C (D,F) E A 0.71 5.66 3.2 4.24 B 0.71 4.95 2.5 3.54 C 5.66 4.95 2.24 1.41 (D,F) 3.2 2.5 2.24 E 4.24 3.54 1.41  Khoảng cách từ A đến B khoảng cách nhỏ (0.71) Ví dụ Chọn cách gộp cluster Single Linkage  Khoảng cách từ A đến B khoảng cách nhỏ (0.71)  Nhóm cụm A B vào cluster (A,B)  Ma trận khoảng cách: (A,B) C (D,F) E (A,B) ? ? ? C ? 2.24 1.41 (D,F) ? 2.24 E ? 1.41 Ví dụ Tính lại khoảng cách clusters - Khoảng cách cluster (A, B) cluster C: d(A,B)C = min(dAC,dBC) = min(5.66,4.95)=4.95 - Khoảng cách cluster (A, B) cluster (D,F): d(A,B)DF = min(dAD,dAF,dBD,dBF) = min(3.61,2.92,3.2,2.5)=2.5 - Khoảng cách cluster (A, B) cluster E: d(A,B)E = min(dAE,dBE) = min(4.24,3.54)=3.54  Cập nhật ma trận khoảng cách: (A,B) C (D,F) E (A,B) 4.95 2.5 3.54 C 4.95 2.24 1.41 (D,F) 2.5 2.24 E 3.54 1.41  Khoảng cách từ (D,F) đến E khoảng cách nhỏ =1 Ví dụ Chọn cách gộp cluster Single Linkage  Khoảng cách từ (D,F) đến E khoảng cách nhỏ =1  Nhóm cụm (D,F) vào cluster (E)  Ma trận khoảng cách: (A,B) C ((D,F),E) (A,B) 4.95 ? C 4.95 ? ((D,F),E) ? ? Ví dụ Tính lại khoảng cách clusters  d((D,F),E)(A,B) = 2.5, d((D,F),E)C = 1.41  Cập nhật ma trận khoảng cách: (A,B) C ((D,F),E) (A,B) 4.95 2.5 C 4.95 1.41 ((D,F),E) 2.5 1.41 Khoảng cách từ cluster((D,F),E) đến C nhỏ = 1.41 Ví dụ Chọn cách gộp cluster Single Linkage  Khoảng cách từ ((D,F),E) đến C khoảng cách nhỏ =1.41  Nhóm cụm ((D,F),E) vào cluster (C)  Ma trận khoảng cách: (A,B) (((D,F),E),C) (A,B) ? (((D,F),E),C) ? Ví dụ Tính lại khoảng cách clusters  d(((D,F),E),C)(A,B) = 2.5  Cập nhật ma trận khoảng cách: (A,B) (((D,F),E),C) (A,B) 2.5 (((D,F),E),C) 2.5  Nhóm lại clusters là: (A,B) (((D, F), E), C) Ví dụ Chọn cách gộp cluster Single Linkage  Nhóm clusters lại (A,B) (((D, F), E), C)  Được cluster gồm toàn đối tượng ((((D,F),E),C),(A,B))  Kết thúc thuật toán 2.5 C 2.0 D 1.5 E F 1.0 0.5 B A D F E Quá trình phân cụm C A B Thứ tự phân cụm Ưu nhược điểm tt agnes Ưu điểm: Khơng cần xác định trước số nhóm K Ưu nhược điểm tt agnes Nhược điểm: + Độ phức tạp O(n ) với n số đối tượng Ví dụ với n = 60: Ưu nhược điểm tt agnes Nhược điểm: + Khơng thể quay lui bước trước + Khó xác định phương pháp tích tụ hay chia nhỏ + Nhạy cảm với nhiễu, cá biệt + Gặp vấn đề nhóm có kích thước khác + Có xu hướng phân chia nhóm liệu lớn THANKS!!! ... Khoảng cách cluster (A, B) cluster C: d(A,B)C = min(dAC,dBC) = min(5.66,4.95)=4.95 - Khoảng cách cluster (A, B) cluster (D,F): d(A,B)DF = min(dAD,dAF,dBD,dBF) = min(3.61,2.92,3.2,2.5)=2.5 - Khoảng... cách từ cluster (D,F) đến clusters khác - Khoảng cách từ cluster (D, F) cluster A d(D,F)A = min(dDA,dFA) = min(3.61,3.2)=3.2 - Tương tự ta có: d(D,F)B = 2.5, d(D,F)C = 2.24, d(D,F)E =  Cập... min(dAD,dAF,dBD,dBF) = min(3.61,2.92,3.2,2.5)=2.5 - Khoảng cách cluster (A, B) cluster E: d(A,B)E = min(dAE,dBE) = min(4.24,3.54)=3.54  Cập nhật ma trận khoảng cách: (A,B) C (D,F) E (A,B) 4.95 2.5 3.54

Ngày đăng: 03/11/2017, 22:16

Xem thêm: