Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu dataset Image Segmentation

Thông tin tài liệu

Họ tên : Trần Xuân An Lớp : CNPM6 DataSet : Image Segmentation Link : http://archive.ics.uci.edu/ml/datasets/Image+Segmentation Bài toán thực hiện : Khai phá dữ liệu trên Weka với bài toán phân cụm Thuật toán: Simple K-Mean Contents I/ Mô tả dataset Image Segmentation1 II/ Mô tả bài toán2 III/ Thuật toán phân cụm K Mean4 V/ Thực hiện7 1/ Preprocess7 2/ Chọn thuật toán8 3/ Config thuật toán9 4/ Kết quả10 V/ Kết luận13 I/ Mô tả dataset Image Segmentation Các mẫu được trích rút ngẫu nhiên từ cơ sở dữ liệu của 7 ảnh ngoài trời bao gồm : 1.Brickface (Bề mặt viên gạch) 2.Sky(Bầu trời) 3. Foliage(Tán lá) 4. Cement(Xi măng) 5. Window(Cửa sổ) 6.Path(Con đường) 7.Grass(Cỏ) Mỗi mẫu (instance) là một vùng kích thước 3×3. Thuộc tính : gồm có 19 thuộc tính : 1.region-centroid-col: chỉ số cột của pixel trung tâm của vùng 2.region-centroid-row: chỉ số hàng của của pixel trung tâm của vùng 3.region-pixel-count: số pixel trong 1 vùng (= 9 vì

BÁO CÁO BÀI TẬP MÔN HỌC Họ tên : Trần Xuân An Lớp : CNPM6 DataSet : Image Segmentation Link : http://archive.ics.uci.edu/ml/datasets/Image+Segmentation Bài toán thực hiện : Khai phá dữ liệu trên Weka với bài toán phân cụm Thuật toán: Simple K-Mean Contents Contents .1 I/ Mô tả dataset Image Segmentation 2 II/ Mô tả bài toán .2 III/ Thuật toán phân cụm K Mean .4 V/ Thực hiện 7 1/ Preprocess .7 2/ Chọn thuật toán 8 3/ Config thuật toán .9 4/ Kết quả .10 V/ Kết luận .13 I/ Mô tả dataset Image Segmentation  Các mẫu được trích rút ngẫu nhiên từ cơ sở dữ liệu của 7 ảnh ngoài trời bao gồm : 1. Brickface (Bề mặt viên gạch) 2. Sky(Bầu trời) 3. Foliage(Tán lá) 4. Cement(Xi măng) 5. Window(Cửa sổ) 6. Path(Con đường) 7. Grass(Cỏ) Mỗi mẫu (instance) là một vùng kích thước 3×3.  Thuộc tính : gồm có 19 thuộc tính : 1. region-centroid-col: chỉ số cột của pixel trung tâm của vùng 2. region-centroid-row: chỉ số hàng của của pixel trung tâm của vùng 3. region-pixel-count: số pixel trong 1 vùng (= 9 vì vùng có kích thước 3×3) 4. short-line-density-5: kết quả của giải thuật trích rút đường ( đếm số đường có chiều dài bằng 5 theo mọi hướng, với độ tương phản thấp, thấp hơn hoặc bằng 5 , duyệt trên cả vùng. 5. short-line-density-2 : giống short-line-density-5 nhưng đếm đếm số đường có độ tương phản cao và lớn hơn 5 6. vedge-mean (vertical edge mean): đo giá trị trung bình của độ tương phản của các pixel gần kề nhau theo chiều dọc trong vùng đó. Thuộc tính này được sử dụng như là bộ phát hiện biên dọc. 7. vegde-sd (vertical egde standard) : giống thuộc tính 6 nhưng là đo độlệch chuẩn. 8. hedge-mean (horizontal edge mean): đo độ tương phản của các pixel gần kề nhau theo chiều ngang, được sử dụng đẻ phát hiện đường kẻ ngang. 9. hedge-sd (horizontal edge standard) : (giống 8) 10. intensity-mean: giá trị trung bình (R + G + B)/3 của mỗi vùng. 11. rawred-mean: giá trị R(red) trung bình của mỗi vùng. 12. rawblue-mean: giá trị B(blue) trung bình của mỗi vùng. 13. rawgreen-mean: giá trị G(green) trung bình của mỗi vùng 14. exred-mean: đo màu đỏ vượt mức : 2R - (G + B) 15. exblue-mean: đo màu xanh vượt mức : 2B – (R + G) 16. exgreen-mean: đo màu xanh vượt mức : 2G – (R + B) 17. value-mean: giá trị trung bình của dịch chuyển phi tuyến 3D của RGB 18. saturatoin-mean: (giống 17) 19. hue-mean : (giống 17)  Training set : gồm 210 mẫu dữ liệu và đối với mỗi ảnh có 30 mẫu.  Testing set : gồm 2100 mẫu dự liệu và mỗi ảnh có 300 mẫu  Missing Atrribute value : không có II/ Mô tả bài toán 1/ Chọn thuật toán  Dataset không thực hiện được với những thuật toán cơ bản trong bài toán phân lớp (Classify) như Bayes, ID3, J48 …  Dataset phù hợp cho bài toán phân cụm vì dữ liệu đã được tiền xử ly (hand segmented) và số lớp cần phân lớp k đã rõ ràng (7) 2/ Bài toán  Chúng ta tiến hành phân cụm tập dữ liệu (Cluster) thành 7 cụm tương ứng với 7 loại ảnh trên cơ sở dữ liệu.  So sánh tương quan kết quả của thuật toán và kết quả thực tế mà dataset cho (30 mẫu cho mỗi màu hay 30 mẫu cho mỗi cụm trong 7 cụm) và rút ra kết luận. III/ Thuật toán phân cụm K Mean 1.Mô tả - Phân cụm theo nghĩa tự nhiên là một việc rất quen thuộc mà chùng ta vẫn hay làm. Ví dụ phân loại học sinh trong lớp, phân loại đất đai , tài sản… - Các đối tượng trong một cụm có đặc điểm tương tự với nhau và không tương tự với các đối tượng trong cụm khác. 2. Mục địch của phân cụm - Mục đích của phân cụm là phân tập dữ liệu thành các các nhóm đối tượng có đặc điểm gần giống nhau. 3. Ứng dụng của phân cụm trong đời sống  Kinh doanh: phát hiện ra nhóm khách hàng. Ví dụ Trong tiếp thị mỹ phẩm có thể phân nhóm khách hang ưa chuộng mỹ phẩm Hàn Quốc, nhóm khách hang ưa chuộng Mỹ phẩm pháp…  Sinh học: phân loại động, thực vật, phân loại gen.  Địa lí: nhận ra các vùng đất giống nhau dựa vào CSDL quan sát trên trái đất, phân nhóm nhà,…  Bảo hiểm: nhận dạng các nhóm công ty có chính sách bảo hiểm mô tô với chi phí đền bù trung bình cao  Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị và vị trí địa lý.  Một công cụ độc lập để xem xét phân bố dữ liệu  Làm bước tiền xử lý cho các thuật toán khác 4. Thế nào là gom cụm tốt − Một phương pháp tốt sẽ tạo ra các cụm có chất lượng cao với: - Tương tự cao cho trong lớp (intra-class) - Tương tự thấp giữa các lớp (inter-class) - Tức là những đối tượng cùng một nhóm có sự giống nhau hoặc gần giống nhau càng nhiều thì chất lượng gom cụm sẽ càng cao − Chất lượng của kết quả gom cụm phụ thuộc vào: - Độ đo tương tự sử dụng - Cài đặt độ đo tương tự 5. Các yêu cầu của gom cụm trong khai phá dữ liệu. - Scalability: Có thể thay đổi kích cỡ. - Khả năng làm việc với các loại thuộc tính khác nhau. - Khám phá ra các cụm có hình dạng bất kì. - Khả năng làm việc với dữ liệu có chứa nhiễu ( outliers) 6.Tương tự và bất tương tự giữa hai đối tượng (1) − Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu − Định nghĩa về tương tự và bất tượng tự giữa các đối tượng tùy thuộc vào • Loại dữ liệu khảo sát • Loại tương tự cần thiết − Tương tự /Bất tượng tự giữa đối tượng thường được biểu diễn qua độ đo khoảng cách d(x,y) − Lý tưởng, mọi độ đo khoảng cách phải là một và phải thỏa các điều kiện sau: 7. Giải thuật Input :Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng. . - (G + B) 15. exblue-mean: đo màu xanh vượt mức : 2B – (R + G) 16. exgreen-mean: đo màu xanh vượt mức : 2G – (R + B) 17. value-mean: giá trị trung bình. đường kẻ ngang. 9. hedge-sd (horizontal edge standard) : (giống 8) 10. intensity-mean: giá trị trung bình (R + G + B)/3 của mỗi vùng. 11. rawred-mean: giá

Ngày đăng: 16/12/2013, 15:12

Xem thêm: Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu dataset Image Segmentation, Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu dataset Image Segmentation

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu dataset Image Segmentation

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan