Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu

Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu ĐỀ TÀI: Sinh viên thực hiện: Châu Tra, Thị Hạnh, Thanh Nga, Văn Mẫn, Thành Hưng 1 Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu I. Giới thiệu về Clustering 1. Clustering là gì? Thực hiện gom các đối tượng có cùng tính chất hay có các tính chất gần giống nhau thành nhóm. Nếu nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta vẫn làm và thực hiện hàng ngày ví dụ như phân loại học sinh khá, giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện…. 2. Mục đích của Clustering Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng II. Nội dung: 1. Ứng dụng của Clustering - Kinh doanh: phát hiện ra nhóm khách hàng. Ví dụ Trong tiếp thị mỹ phẩm có thể phân nhóm khách hang ưa chuộng mỹ phẩm Hàn Quốc, nhóm khách hàng ưa chuộng Mỹ phẩm pháp… - Sinh học: phân loại động, thực vật, phân loại gen. - Địa lí: nhận ra các vùng đất giống nhau dựa vào CSDL quan sát trên trái đất, phân nhóm nhà,… - Bảo hiểm: nhận dạng các nhóm công ty có chính sách bảo hiểm mô tô với chi phí đền bù trung bình cao - Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị và vị trí địa lý. - Một công cụ độc lập để xem xét phân bố dữ liệu - Làm bước tiền xử lý cho các thuật toán khác Sinh viên thực hiện: Châu Tra, Thị Hạnh, Thanh Nga, Văn Mẫn, Thành Hưng 2 Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu 2. Một số yêu cầu của Clustering - Các yêu cầu của gom cụm trong khai phá dữ liệu. - Scalability: Có thể thay đổi kích cỡ. - Khả năng làm việc với các loại thuộc tính khác nhau. - Khám phá ra các cụm có hình dạng bất kì. - Khả năng làm việc với dữ liệu có chứa nhiễu ( outliers). 3. Các loại dữ liệu trong Clustering Các biến khoảng tỷ lệ: Biến trị khoảng là các phép đo liên tục của các thang đo tuyến tính, thô. Ví dụ: trọng lượng, chiều cao, chiều ngang, chiều dọc, tuổi, nhiệt độ thời tiết. Các biến nhị phân: Biến nhị phân chỉ có hai trạng thái là 0 hay 1. Có 2 loại biến nhị phân: - Một biến nhị phân đối xứng: nếu đồng thời các trạng thái của nó có tầm quan trọng như nhau và mang cùng một trọng số. Do đó, không có sự ưu tiên khi kết quả đưa ra phải được mã hoá là 0 hoặc 1. - Một biến nhị phân không đối xứng: nếu các kết quả của các trạng thái không có tầm quan trọng như nhau. Chẳng hạn kết quả âm tính và dương tính khi khám bệnh. Các biến định danh: Biến định danh là mở rộng của biến nhị phân với nhiều hơn hai trạng thái. Ví dụ: thuộc tính màu sắc: đỏ, vàng, xanh, lục. Có hai phương pháp để tính toán sự tương tự giữa hai đối tượng: - Phương pháp 1: Đối sánh đơn giản với m là số lần đối sáng, p là tổng số các biến - Phương pháp 2: Dùng một số lượng lớn các biến nhị phân. Sinh viên thực hiện: Châu Tra, Thị Hạnh, Thanh Nga, Văn Mẫn, Thành Hưng 3 Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu Tạo biến nhị phân mới cho từng trạng thái định danh. Các biến thứ tự :có thể là liên tục hay rời rạc Các biến thang đo tỉ lệ: Là các biến có độ đo dương trên thang phi tuyến, xấp xỉ thang đo mũ. Các phương pháp tính độ tương tự: - Xử lý chúng như các biến thang đo khoảng - Áp dụng các biến đổi logarithmic - Xử lý chúng như dữ liệu thứ tự liên tục - Xử lý chúng theo hạng như thang đo khoảng. Các biến có kiểu hỗn hợp: Một cơ sở dữ liệu có thể chứa đồng thời cả sáu loại biến. Khi đó có thể dùng công thức được gán trọng để kết hợp các hiệu quả. Các kiểu dữ liệu phức tạp: Tất cả các đối tượng được xem xét a trong KPDL là không quan hệ => Loại dữ liệu phức tạp. Ví dụ về loại dữ liệu như vậy là dữ liệu không gian, dữ liệu đa phương tiện, dữ liệu di truyền, dữ liệu văn bản, dữ liệu chuỗi thời gian, dữ liệu văn bản và dữ liệu được thu gom từ World-Wide Web. Các độ đo tương tự và bất tương tự thường hoàn toàn khác nhau ứng với các loại dữ liệu trên. Sinh viên thực hiện: Châu Tra, Thị Hạnh, Thanh Nga, Văn Mẫn, Thành Hưng 4 Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu 4. Các phương pháp Clustering chủ yếu: được chia làm 2 loại gồm phương pháp phân cấp và phương pháp dựa trên phân hoạch: a. Phân cấp: Tạo phân cấp cụm chứ không phải phân hoạch các đối tượng. Khác với phân hoạch, phân cấp không cần số cụm k ở đầu vào và dùng ma trận khoảng cách làm tiêu chuẩn gom cụm. Trong phương pháp phân cấp có thể dùng điều kiện dừng. Ví dụ: số cụm Phương pháp phân cấp từ trên xuống: Bắt đầu từ cụm lớn nhất chứa tất cả các đối tượng. Chia cụm phân biệt nhất thành các cụm nhỏ hơn và tiếp diễn cho đến khi có n cụm thoả mãn điều kiện dừng. Phương pháp từ dưới lên: Các bước thực hiện: - B1:Tạo n nhóm, mỗi nhóm gồm một đối tượng và lập ma trận khoảng cách cấp n. - B2:Tìm 2 nhóm u, v có khoảng cách nhỏ nhất (duv) - B3: Gộp nhóm u với nhóm v. Ký hiệu nhóm mới là (uv). Lập ma trận khoảng cách mới bằng cách: + Loại các hàng và cột tương ứng với các nhóm u,v +Thêm một hàng và một cột để lưu khoảng cách của nhóm uv với các nhóm còn lại - B4: Lặp lại các bước 2 và bước 3 cho đến khi chọn được k nhóm thích hợp nhất cho bài toán hoặc chỉ có một nhóm duy nhất. Sinh viên thực hiện: Châu Tra, Thị Hạnh, Thanh Nga, Văn Mẫn, Thành Hưng 5 Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu b. Phương pháp dựa trên phân hoạch: * Mô tả phương pháp Cho một cơ sở dữ liệu D chứa n đối tượng, tạo phân hoạch thành tập có k cụm sao cho: - Mỗi cụm chứa ít nhất một đối tượng - Mỗi đối tượng thuộc về một cụm duy nhất - Cho trị k, tìm phân hoạch có k cụm sao cho tối ưu hoá tiêu chuẩn phân hoạch được chọn. * Các phương pháp Phương pháp gom cụm k-mean - Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng. - Output:k cụm đã được gom. - Thuật giải: gồm 4 bước + Bước1: Phân hoạch đối tượng thành k tập con ( cụm) ngẫu nhiên. + Bước 2: Tính các tâm ( trung bình của các đối tượng trong cụm) cho từng cụm trong phân hoạch hiện hành. + Bước 3: Gán mỗi đối tượng cho cụm tâm gần nhất +Bước 4: Nếu cụm không có sự thay đổi thì dừng, ngược lại quay lại bước 2 Sinh viên thực hiện: Châu Tra, Thị Hạnh, Thanh Nga, Văn Mẫn, Thành Hưng 6 Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu Thuật toán k-medoid - Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng. - Output: k cụm đã được gom. - Thuật toán: + Bước 1: Chọn k đối tượng ngẫu nhiên làm tâm của nhóm. + Bước 2: Gán từng đối tượng còn lại vào cụm có tâm gần nhất. + Bước 3: Chọn ngẫu nhiên 1 đối tượng không là đối tượng tâm, và thay một trong các tâm đó bằng nó nếu nó làm thay đổi đối tượng trong cụm(gán đối tượng cho cụm có tâm gần nhất). + Bước 4: Nếu gán tâm mới thì quay lại bước 2, ngược lại thì dừng. III. Kết luận - Phân tích gom cụm các đối tượng dựa trên sự tương tự - Phân tích gom cụm có phạm vi ứng dụng to lớn - Có thể tính độ đo tương tự cho nhiều loại dữ liệu khác nhau. - Việc lựa chọn độ đo tương tự tùy thuộc vào dữ liệu được dùng và loại tương tự cần tìm. - Các phương pháp gom cụm. + Các phương pháp phân cấp. + Các phương pháp dựa trên phân hoạch. Sinh viên thực hiện: Châu Tra, Thị Hạnh, Thanh Nga, Văn Mẫn, Thành Hưng 7 . => Loại dữ liệu phức tạp. Ví dụ về loại dữ liệu như vậy là dữ liệu không gian, dữ liệu đa phương tiện, dữ liệu di truyền, dữ liệu văn bản, dữ liệu chuỗi thời gian, dữ liệu văn bản và dữ liệu được. Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu ĐỀ TÀI: Sinh viên thực hiện: Châu Tra, Thị Hạnh, Thanh Nga, Văn Mẫn, Thành Hưng 1 Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu I ứng với các loại dữ liệu trên. Sinh viên thực hiện: Châu Tra, Thị Hạnh, Thanh Nga, Văn Mẫn, Thành Hưng 4 Đề tài: Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu 4. Các phương pháp Clustering chủ

Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan