Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho khả năng xuất hiện các loại hoa Iris dựa trên các đặc điểm đài hoa và cánh hoa

26 1.1K 5
Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho khả năng xuất hiện các loại hoa Iris dựa trên các đặc điểm đài hoa và cánh hoa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I. ĐẶT VẤN ĐỀ Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp. Cụ thể đề tài này em tìm hiểu về bài toán phân lớp trong weka và áp dụng trong bài toán khả năng xuất hiện các loại hoa Iris dựa trên các đặc điểm đài hoa, cánh hoa II. XÂY DỰNG CƠ SỞ DỮ LIỆU Đề tài sử dụng dataset IR cung cấp giá trị của 5 thuộc tính phân loại cho mỗi loại hoa Iris Các thuộc tính đó là: - Chiều dài của đài hoa - Chiều rộng của đài hoa - Chiều dài của cánh hoa - Chiều rộng của cánh hoa - Các loại hoa Giải quyết bài toán này để trả lời cho câu hỏi là làm thế nào loại hoa còn liên quan đến các thuộc tính khác. Mô tả các thuộc tính: @relation ''iris'' @attribute ''sepallength'' real @attribute ''sepalwidth'' real @attribute ''petallength'' real @attribute ''petalwidth'' real

Báo cáo môn Khai phá dữ liệu BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬN QUÂN SỰ ************* BÀI TẬP LỚN KHAI PHÁ DỮ LIỆU Đề tài: Sử dụng phần mềm Weka phân lớp cho khả năng xuất hiện các loại hoa Iris dựa trên các đặc điểm đài hoa cánh hoa Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Lê Huy Cường Lớp: Hệ thống thông tin 6 1 Báo cáo môn Khai phá dữ liệu I. ĐẶT VẤN ĐỀ Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, hình dung dữ liệu ra kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, các thuộc tính kết hợp. Cụ thể đề tài này em tìm hiểu về bài toán phân lớp trong weka áp dụng trong bài toán khả năng xuất hiện các loại hoa Iris dựa trên các đặc điểm đài hoa, cánh hoa II. XÂY DỰNG CƠ SỞ DỮ LIỆU Đề tài sử dụng dataset IR cung cấp giá trị của 5 thuộc tính phân loại cho mỗi loại hoa Iris Các thuộc tính đó là: - Chiều dài của đài hoa - Chiều rộng của đài hoa - Chiều dài của cánh hoa - Chiều rộng của cánh hoa 2 Báo cáo môn Khai phá dữ liệu - Các loại hoa Giải quyết bài toán này để trả lời cho câu hỏi là làm thế nào loại hoa còn liên quan đến các thuộc tính khác. Mô tả các thuộc tính: @relation 'iris' @attribute 'sepallength' real @attribute 'sepalwidth' real @attribute 'petallength' real @attribute 'petalwidth' real @attribute 'class' {'Iris-setosa','Iris-versicolor','Iris-virginica'} Bảng dữ liệu Trường dữ liệu Chú giải Sepal Length (Chiều dài của đài hoa ) L:Lớn(6.6 - 7.9) M:Trung bình(5.5 - 6.5) S:Nhỏ(4.3 - 5.4) Sepal Width (Chiều rộng của đài hoa ) L:Lớn(4.0 - 4.4) M:Trung bình(3.0 - 3.9) S:Nhỏ(2.0 - 2.9) Petal Length (Chiều dài của cánh hoa ) L:Lớn(5.0 - 6.9) M:Trung bình(2.5 – 4.9) S:Nhỏ(1.0 - 2.4) Petal Width (Chiều rộng của cánh hoa ) L:Lớn(2.0 - 2.5) M:Trung bình(1.0 – 1.9) S:Nhỏ(0.1 - 0.9) Class (Loại hoa) Setosa Versicolor Virginica III. PHÂN TÍCH YÊU CẦU BÀI TOÁN 3 WEKA Decision Tree Setosa Versicolor Sepal Length Spel Width Petal Lenght Petal Width Báo cáo môn Khai phá dữ liệu Đọc dữ liệu vào sau đó áp dụng bài toán phân lớp dựa vào các thuộc tính chiều dài chiều rộng của đài hoa, cánh hoa để phân lớp khả năng xuất hiện các loại hoa Iris.Tạo ra cây quyết định về khả năng xuất hiện các loại hoa Iris nhằm để hỗ trợ cho việc có thể phân biệt được hoa Iris qua đài hoa & cánh hoa. IV. TIẾN HÀNH THỰC NGHIỆM TRÊN WEKA 1. Tiền xử lý dữ liệu Tiến hành khởi chạy weka.Trong giao diện đồ họa của Weka,chọn Explorer. Trong weka lưu trữ dữ liệu bằng định dạng ARFF. File ARFF bao gồm danh sách các trường, các giá trị thuộc tính cho mỗi trường được phân cách bằng dấu phẩy. Hầu hết các bảng tính các chương trình cơ sở dữ liệu cho phép bạn chuyển dữ liệu thành một tập tin mà các giá trị của thuộc tính đều được tách nhau bằng dấu phẩy như trong định dạng của file arff. Bạn chỉ cần đưa file vào một trình soạn thảo văn bản hoặc từ bộ vi xử lý, thêm tên của tập dữ liệu bằng cách sử dụng các từ @relation, Khai báo tên các thuộc tính bằng từ khóa @attribute, từ khóa @data để bắt đầu đưa dữ liệu vào. Ví dụ như hình dưới đây : 4 Mục đích: Tạo một cây quyết định trong WEKA xem các loại hoa của hoa Iris có theo các thuộc tính khác hay không? Mục đích: Tạo một cây quyết định trong WEKA xem các loại hoa của hoa Iris có theo các thuộc tính khác hay không? Virginica Báo cáo môn Khai phá dữ liệu Sau khi đã tạo xong file arff thì tiến hành đọc dữ liệu vào weka Ta thấy xuất hiện dữ liệu trên cửa số Preprocess của WEKA như sau: 5 Báo cáo môn Khai phá dữ liệu Chuyển kiểu dữ liệu của các attribute từ numeric sang nominal: chọn choose trong cây filter chọnNumericToNominal 6 Báo cáo môn Khai phá dữ liệu Bạn có thể chỉnh sửa dữ liệu bằng cách click vào , lúc đó bảng dữ liệu sẽ xuất hiện để bạn chỉnh sửa. 7 Báo cáo môn Khai phá dữ liệu Thêm các giá trị L,M,S vào thuộc tính class. Trong cây thư mục chọn AddValue. Tiến hành nhập vào các giá trị tương ứng như sau: 8 Báo cáo môn Khai phá dữ liệu Hộp editor xuất hiện nhập các giá trị vào hộp labels nhấn OK Click chuột phải vào cột class chọn Replace Value With… gõ các giá trị tương ứng muốn thay thế vào. 9 Báo cáo môn Khai phá dữ liệu Nhập giá trị cũ Nhập giá trị thay thế 10 . hoa và cánh hoa Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Lê Huy Cường Lớp: Hệ thống thông tin 6 1 Báo cáo môn Khai phá dữ liệu I. ĐẶT VẤN. đổi Tương tự như vậy tiến hành chuyển đổi Sepallength thành L(6.6 - 7.9), M (5.5 - 6.5), S (4.3 - 5.4) Tương tự tiến hành chuyển đổi Sepalwidth thành L(4.0

Ngày đăng: 16/12/2013, 15:04

Hình ảnh liên quan

Bạn có thể chỉnh sửa dữ liệu bằng cách click vào, lúc đó bảng dữ liệu sẽ xuất hiện để bạn chỉnh sửa. - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho khả năng xuất hiện các loại hoa Iris dựa trên các đặc điểm đài hoa và cánh hoa

n.

có thể chỉnh sửa dữ liệu bằng cách click vào, lúc đó bảng dữ liệu sẽ xuất hiện để bạn chỉnh sửa Xem tại trang 7 của tài liệu.
- Để xem kết quả cây dưới dạng hình ảnh tiến hành như sau: - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho khả năng xuất hiện các loại hoa Iris dựa trên các đặc điểm đài hoa và cánh hoa

xem.

kết quả cây dưới dạng hình ảnh tiến hành như sau: Xem tại trang 16 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan