Tiểu luận khai phá dữ liệu: SỬ DỤNG PHẦN MỀM WEKA XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WINE DATASET

Thông tin tài liệu

Contents 1.Tóm lược lý thuyết về phân lớp (Classification)1 2.Qui trình Train và Test một classifier1 3.Giới thiệu dataset3 4.Thực hành phân lớp trên weka4 4.1.Tiền xử lý5 4.2.Phân lớp bằng cây quyết định j4.88 1.Tóm lược lý thuyết về phân lớp (Classification) Trong lĩnh vực máy học (machine Learning) và nhận dạng (pattern recognition), bài toán phân lớp (classification) đề cập đến các thuật toán (algorithms) nhằm xác định lớp (class) của đối tượng đã cho sẽ thuộc về lớp nào trong các lớp đã cho trước (Given Categories). Một điều cần chú ý là khác với bài toán phân cụm (clustering), dữ liệu dùng để xây dựng mô hình (Training Data) trong bài toán phân lớp phải được xác định lớp trước (pre-Labeled). Đối với dataset wine thì có 3 class tương ứng với 3 giống nho, và được gọi là class1, class2, class3. 2.Qui trình Train và Test một classifier - Dữ liệu để xây dựng mô hình: dữ liệu gốc (original dataset), dữ liệu này phải có thuộc tính phân lớp gọi là categorical attribute - Dữ liệu gốc sẽ được chia thành 2 phần là Training Set (để xây dựng model) và Testing Set (để kiểm định Model) - Cuối cùng là tính toán lỗi để đánh giá Model

HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CÔNG NGHỆ THỐNG TIN -------- TIỂU LUẬN Đề tài: SỬ DỤNG PHẦN MỀM WEKA XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WINE DATASET Giáo viên hướng dẫn : HỒ NHẬT QUANG Sinh viên thực hiện : LÊ MINH QUANG Lớp: : Công nghệ phần mềm 6 Hà Nội, 11/2011 Lê Minh Quang_CNPM6 Mục Lục Contents Contents .2 1.Tóm lược lý thuyết về phân lớp (Classification) 3 2.Qui trình Train và Test một classifier 3 3.Giới thiệu dataset 5 4.Thực hành phân lớp trên weka .6 4.1.Tiền xử lý .7 4.2.Phân lớp bằng cây quyết định j4.8 .10 Lê Minh Quang_CNPM6 1. Tóm lược lý thuyết về phân lớp (Classification) Trong lĩnh vực máy học (machine Learning) và nhận dạng (pattern recognition), bài toán phân lớp (classification) đề cập đến các thuật toán (algorithms) nhằm xác định lớp (class) của đối tượng đã cho sẽ thuộc về lớp nào trong các lớp đã cho trước (Given Categories). Một điều cần chú ý là khác với bài toán phân cụm (clustering), dữ liệu dùng để xây dựng mô hình (Training Data) trong bài toán phân lớp phải được xác định lớp trước (pre-Labeled). Đối với dataset wine thì có 3 class tương ứng với 3 giống nho, và được gọi là class1, class2, class3. 2. Qui trình Train và Test một classifier - Dữ liệu để xây dựng mô hình: dữ liệu gốc (original dataset), dữ liệu này phải có thuộc tính phân lớp gọi là categorical attribute - Dữ liệu gốc sẽ được chia thành 2 phần là Training Set (để xây dựng model) và Testing Set (để kiểm định Model) - Cuối cùng là tính toán lỗi để đánh giá Model Lê Minh Quang_CNPM6 Cross Validation (CV) trong Training and Testing Phase Đây là kỹ thuật chủ yếu được sử dụng trong xây dựng predictive Model. Trong đó dữ liệu gốc sẽ được chia thành n phần bằng nhau (n-fold), và quá trình Train/Test Model thực hiện lặp lại n lần. Tại mỗi lần Train/Test Model, 1 phần dữ liệu dùng để Test và (n-1) phần còn lại dùng để Train. Người ta chứng minh được rằng mô hình 10 Fold là tốt nhất Mô hình sau sẽ mô tả mô hình với 3 fold Lê Minh Quang_CNPM6 3. Giới thiệu dataset Wine dataset có chứa kết quả của của 1 cuộc phân tích các chất hóa học có trong rượu vang cùng được trông trên 1 vùng ở Italya nhưng có nguồn gốc từ 3 giống khác nhau. Một cuộc phân tích trên 178 loại rượu vang Ý từ 3 giống khác nhau tiến hành 13 phép đo. Số liệu này thường được sử dụng để kiểm tra và so sánh thực Lê Minh Quang_CNPM6 hiện các thuật toán phân loại khác nhau. Các phân tích xác định ảnh hưởng của 13 thành phần được tìm thấy trong ba loại rượu vang. Gồm có : 1) Alcohol 2) Malic acid 3) Ash 4) Alcalinity of ash 5) Magnesium 6) Total phenols 7) Flavanoids 8) Nonflavanoid phenols 9) Proanthocyanins 10)Color intensity 11)Hue 12)OD280/OD315 of diluted wines 13)Proline 4. Thực hành phân lớp trên weka Đầu tiên ta mở weka Lê Minh Quang_CNPM6 4.1. Tiền xử lý Và mở dataset wine. Bước 1 ta mở tab Preprocess <tiền xử lý> Lê Minh Quang_CNPM6 - ở bước tiền xử lý này ta sẽ tiến hành loại bỏ những dữ liệu lỗi hoặc những thuộc tính có quá nhiều giá trị rời rạc như trường ID, hoặc những giá trị bất thường. Weka cung cấp cho ta chức năng filter những giá trị lỗi đó bao gồm 1 số kỹ thuật sau: - Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình - Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho mô hình Lê Minh Quang_CNPM6 - Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier) Transformation: Chuyển đổi dữ liệu cho phù hợp với các mô hình như chuyển đổi dữ liệu từ numeric qua nomial hay ordinal - Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục nhưng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳn hạn) thì bạn phải thực hiện việc rời rạc hóa dữ liệu. Với dữ liệu trong wine dataset: Ta có thể xem dữ liệu 1 cách trực quan như trên hoặc mở file dữ liệu bằng cách chọn nút Edit Lê Minh Quang_CNPM6 Do dữ liệu không có lỗi nên ta có thể tiến hành phân lớp luôn. 4.2. Phân lớp bằng cây quyết định j4.8 ở đây weka sẽ xây dựng cây quyết định bằng chương trình C4.5 C4.5 là sự kế thừa của của thuật toán học máy bằng cây quyết định dựa trên nền tảng là kết quả nghiên cứu của HUNT và các cộng sự của ông trong nửa cuối thập kỷ 50 và nửa đầu những năm 60 (Hunt 1962). Phiên bản đầu tiên ra đời là ID3 (Quinlan, 1979)- 1 hệ thống đơn giản ban đầu chứa khoảng 600 dòng lệnh Pascal, và tiếp theo là C4 (Quinlan 1987). Năm 1993, J. Ross Quinlan đã kế thừa các kết quả đó phát triển thành C4.5 với 9000 dòng lệnh C chứa trong một đĩa mềm. 4.2.1. Thuật toán C4.5 Với những đặc điểm C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết định hiệu quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích thước Lê Minh Quang_CNPM6 . viên hướng dẫn : HỒ NHẬT QUANG Sinh viên thực hiện : LÊ MINH QUANG Lớp: : Công nghệ phần mềm 6 Hà Nội, 11/2011 Lê Minh Quang_ CNPM6 Mục Lục Contents Contents .2. tiên ta mở weka Lê Minh Quang_ CNPM6 4.1. Tiền xử lý Và mở dataset wine. Bước 1 ta mở tab Preprocess <tiền xử lý> Lê Minh Quang_ CNPM6 - ở bước tiền

Ngày đăng: 16/12/2013, 15:04

Xem thêm: Tiểu luận khai phá dữ liệu: SỬ DỤNG PHẦN MỀM WEKA XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WINE DATASET, Tiểu luận khai phá dữ liệu: SỬ DỤNG PHẦN MỀM WEKA XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WINE DATASET

Tiểu luận khai phá dữ liệu: SỬ DỤNG PHẦN MỀM WEKA XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WINE DATASET

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan