Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu STATLOG (Vehicle Silhouettes)

16 791 3
Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu STATLOG (Vehicle Silhouettes)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

. Mô tả bài toán-Mục đích là để phân loại một hình bóng xem là loại xe nào trong bốn loại xe, bằng cách sử dụng một tập hợp các các tính năng được chiết xuất từ hình bóng của xe. Chiếc xe có thể được xem từ nhiều góc độ khác nhau. -Giải quyết bài toán :Sử dụng J48 trong Weka dựa vào các thuộc tính để đưa ra cây quyết định xem đó là bóng của loại xe nào2.Xây dựng cơ sở dữ liệu-Dataset sử dụng: STATLOG (Vehicle Silhouettes)-Thông tin dataset: -Các thuộc tính:COMPACTNESS (average perim)**2/area CIRCULARITY (average radius)**2/area DISTANCE CIRCULARITY area/(av.distance from border)**2

Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 BTL KHAI PHÁ DỮ LIỆU Đề bài : STATLOG (Vehicle Silhouettes) Sinh viên thực hiện: Vũ Tuấn Anh Lớp : HTTT6 GVHD :Hồ Nhật Quang 1. Mô tả bài toán -Mục đích là để phân loại một hình bóng xem là loại xe nào trong bốn loại xe, bằng cách sử dụng một tập hợp các các tính năng được chiết xuất từ hình bóng của xe. Chiếc xe có thể được xem từ nhiều góc độ khác nhau. 1 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 -Giải quyết bài toán :Sử dụng J48 trong Weka dựa vào các thuộc tính để đưa ra cây quyết định xem đó là bóng của loại xe nào 2.Xây dựng cơ sở dữ liệu -Dataset sử dụng: STATLOG (Vehicle Silhouettes) -Thông tin dataset: -Các thuộc tính: COMPACTNESS (average perim)**2/area CIRCULARITY (average radius)**2/area 2 Cáclớp Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 DISTANCE CIRCULARITY area/(av.distance from border)**2 RADIUS RATIO (max.rad-min.rad)/av.radius PR.AXIS ASPECT RATIO (minor axis)/(major axis) MAX.LENGTH ASPECT RATIO (length perp. max length)/(max length) SCATTER RATIO (inertia about minor axis)/(inertia about major axis) ELONGATEDNESS area/(shrink width)**2 PR.AXIS RECTANGULARITY area/(pr.axis length*pr.axis width) MAX.LENGTH RECTANGULARITY area/(max.length*length perp. to this) SCALED VARIANCE (2nd order moment about minor axis)/area ALONG MAJOR AXIS SCALED VARIANCE (2nd order moment about major axis)/area ALONG MINOR AXIS SCALED RADIUS OF GYRATION (mavar+mivar)/area SKEWNESS ABOUT (3rd order moment about major axis)/sigma_min**3 MAJOR AXIS 3 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 SKEWNESS ABOUT (3rd order moment about minor axis)/sigma_maj**3 MINOR AXIS KURTOSIS ABOUT (4th order moment about major axis)/sigma_min**4 MINOR AXIS KURTOSIS ABOUT (4th order moment about minor axis)/sigma_maj**4 MAJOR AXIS HOLLOWS RATIO (area of hollows)/(area of bounding polygon) -Training data 4 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 3.Tiến hành trong Weka -Đưa dữ liệu vào Weka -Sử dụng toàn bộ dữ liệu để Training: 5 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 *Nội dung kếtquả === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: Statlog Instances: 94 Attributes: 19 COMPACTNESS 6 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 CIRCULARITY DISTANCE CIRCULARITY RADIUS RATIO PR.AXIS ASPECT RATIO MAX.LENGTH ASPECT RATIO SCATTER RATIO ELONGATEDNESS PR.AXIS RECTANGULARITY MAX.LENGTH RECTANGULARITY SCALED VARIANCE SCALED VARIANCE SCALED RADIUS OF GYRATION SKEWNESS ABOUT SKEWNESS ABOUT KURTOSIS ABOUT KURTOSIS ABOUT HOLLOWS RATIO STATLOG Test mode: evaluate on training data 7 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 === Classifier model (full training set) === J48 pruned tree ------------------ ELONGATEDNESS <= 40 | MAX.LENGTH ASPECT RATIO <= 7: bus (11.0) | MAX.LENGTH ASPECT RATIO > 7 | | COMPACTNESS <= 103 | | | SKEWNESS ABOUT <= 4 | | | | PR.AXIS RECTANGULARITY <= 23 | | | | | KURTOSIS ABOUT <= 18: saab (6.0) | | | | | KURTOSIS ABOUT > 18: opel (2.0) | | | | PR.AXIS RECTANGULARITY > 23: opel (2.0) | | | SKEWNESS ABOUT > 4: opel (9.0) | | COMPACTNESS > 103: saab (8.0/1.0) ELONGATEDNESS > 40 | COMPACTNESS <= 80 | | PR.AXIS RECTANGULARITY <= 18: opel (3.0) | | PR.AXIS RECTANGULARITY > 18: saab (3.0/1.0) 8 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 | COMPACTNESS > 80 | | DISTANCE CIRCULARITY <= 77 | | | ELONGATEDNESS <= 46 | | | | MAX.LENGTH RECTANGULARITY <= 134: saab (3.0/1.0) | | | | MAX.LENGTH RECTANGULARITY > 134: bus (16.0/1.0) | | | ELONGATEDNESS > 46 | | | | SKEWNESS ABOUT <= 4: van (7.0) | | | | SKEWNESS ABOUT > 4 | | | | | SKEWNESS ABOUT <= 6: saab (2.0) | | | | | SKEWNESS ABOUT > 6: van (6.0/1.0) | | DISTANCE CIRCULARITY > 77: van (16.0) Number of Leaves : 14 Size of the tree : 27 Time taken to build model: 0.08 seconds === Evaluation on training set === 9 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 === Summary === Correctly Classified Instances 89 94.6809 % Incorrectly Classified Instances 5 5.3191 % Kappa statistic 0.9284 Mean absolute error 0.0423 Root mean squared error 0.1455 Relative absolute error 11.3724 % Root relative squared error 33.7281 % Total Number of Instances 94 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 1 0.015 0.966 1 0.982 0.999 van 0.95 0.041 0.864 0.95 0.905 0.989 saab 1 0.015 0.963 1 0.981 0.996 bus 0.8 0 1 0.8 0.889 0.98 opel WeiA0.947 0.017 0.95 0.947 0.946 0 .992 === Confusion Matrix === 10 . Tuấn Anh- Khai phá dữ liệu 11/2011 3.Tiến hành trong Weka -Đưa dữ liệu vào Weka -Sử dụng toàn bộ dữ liệu để Training: 5 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011. -95% d liệu ểxâydựng, 5% test 11 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 -90% d liệu ểxâydựng, 10% test 12 Vũ Tuấn Anh- Khai phá dữ liệu 11/2011 -85% d liệu ểxâydựng,

Ngày đăng: 03/12/2013, 16:11

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan