Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu Abalone( bào ngư) với thuật toán phân lớp

15 1.8K 7
Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu Abalone( bào ngư) với thuật toán phân lớp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô tả bài toánDự đoán tuổi của bào ngư từ các phép đo vật lý. Độ tuổi của bào ngư xác định thông qua việc cắt vỏ nón, nhuộm nó, và đếm số vòng qua kính hiển vi , đây một công việc nhàm chán và tốn thời gian. Các phép đo khác, được dễ dàng hơn để có được, được sử dụng để dự đoán tuổi. Thông tin chi tiết, chẳng hạn như mô hình thời tiết và vị trí (do đó thức ăn sẵn có) có thể được yêu cầu để giải quyết vấn đề.II. Các thuộc tínhCó 9 thuộc tínhTên thuộc tínhKiểu dữ liệuĐơn vị đoMô tảSex (Giới tính)nominalCon đực, cái và trứng (M, F, I ((infant))Length (Chiều dài)continuousmmĐộ dài của bào ngưDiameter (Đường kính)continuousmmĐường kínhHeight (Chiều cao)continuousmmChiều cao Whole weight (Trọng lượng toàn cơ thể)continuousgramsTrọng lượng 1 con bào ngưShucked weight continuousgramsViscera weight(trọng lượng nội tạng)continuousgramsTrọng lượng nội tạngShell weight (trọng lượng vỏ)continuousgramsTrọng lượng vỏ bào ngưRingsintegerIII. Thực nghiệm trên Weka1.Tiền xử lý dữ liệu-Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như:oFiltering Attributes: Chọn các thuộc tính phù hợp với mô hìnhoFiltering samples

BÁO CÁO MÔN HỌCKHAI PHÁ DỮ LIỆU Đề tài: Dùng phần mềm Weka khai phá dữ liệu Abalone( bào ngư) với thuật toán phân lớp Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên: Phan Tuấn Linh I.Mô tả bài toán Dự đoán tuổi của bào ngư từ các phép đo vật lý. Độ tuổi của bào ngư xác định thông qua việc cắt vỏ nón, nhuộm nó, và đếm số vòng qua kính hiển vi , đây một công việc nhàm chán và tốn thời gian. Các phép đo khác, được dễ dàng hơn để có được, được sử dụng để dự đoán tuổi. Thông tin chi tiết, chẳng hạn như mô hình thời tiết và vị trí (do đó thức ăn sẵn có) có thể được yêu cầu để giải quyết vấn đề. II. Các thuộc tính Có 9 thuộc tính Tên thuộc tính Kiểu dữ liệu Đơn vị đo Mô tả Sex (Giới tính) nominal Con đực, cái và trứng (M, F, I ((infant)) Length (Chiều dài) continuous mm Độ dài của bào ngư Diameter (Đường kính) continuous mm Đường kính Height (Chiều cao) continuous mm Chiều cao Whole weight (Trọng lượng toàn cơ thể) continuous grams Trọng lượng 1 con bào ngư Shucked weight continuous grams Viscera weight (trọng lượng nội tạng) continuous grams Trọng lượng nội tạng Shell weight (trọng lượng vỏ) continuous grams Trọng lượng vỏ bào ngư Rings integer III. Thực nghiệm trên Weka 1. Tiền xử lý dữ liệu - Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như: o Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình o Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho mô hình o Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier) Transformation: Chuyển đổi dữ liệu cho phù hợp với các mô hình như chuyển đổi dữ liệu từ numeric qua nomial hay ordinal o Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục nhưng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳn hạn) thì bạn phải thực hiện việc rời rạc hóa dữ liệu. _ Khởi động Weka explorer. Open file, chọn kiểu dữ liệu .csv rồi chọn đường dẫn tới file data.csv Ta được tab preprocess, ta có đủ 9 thuộc tính . Sau khi lọc, không có thuộc tính nào bị loại bỏ 2. Phân lớp với Multilayer Perceptron _ Vào tab Classify , Choose chọn functions, và Multilayer Perceptron ta được giao diện như sau, ấn start để bắt đầu Khi kết thúc ta thu được kết quả === Run information === Scheme:weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N 500 -V 0 -S 0 -E 20 -H a Relation: data Instances: 4177 Attributes: 9 Sex Length Diameter Height Whole Shucked Viscera Shell Rings Test mode:10-fold cross-validation === Classifier model (full training set) === Sigmoid Node 0 Inputs Weights Threshold -0.038592357354121996 Node 3 1.2503026495312555 Node 4 -2.4692212997323346 Node 5 -1.7251862888357923 Node 6 -1.0138432786836467 Node 7 0.1161558029627997 Sigmoid Node 1 Inputs Weights . BÁO CÁO MÔN HỌCKHAI PHÁ DỮ LIỆU Đề tài: Dùng phần mềm Weka khai phá dữ liệu Abalone( bào ngư) với thuật toán phân lớp Giáo viên hướng. làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data

Ngày đăng: 03/12/2013, 16:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan