Weka: Tìm hiểu chi tiết và ứng dụng của phần mềm WEKA. Khai phá dữ liệu, Hệ trợ giúp quyết định

53 3.7K 35
Weka: Tìm hiểu chi tiết và ứng dụng của phần mềm WEKA. Khai phá dữ liệu, Hệ trợ giúp quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Báo cáo Hệ trợ giúp quyết định, khai phá dữ liệu chi tiết phần mềm Weka và ứng dụng của Weka, ví dụ thực tế. Weka phục vụ cho việc quản lý, vận hành và lập kế hoạch của một tổ chức, giúp mọi người đưa ra quyết định về các vấn đề có thể thay đổi nhanh chóng và không dễ dàng xác định trước tức là các vấn đề quyết định không có cấu trúc và bán cấu trúc. Cùng với sự ra đời của Hệ trợ giúp quyết định, phần mềm Weka cũng được tạo ra để hỗ trợ đắc lực cho con người trong việc phân tích dữ liệu và lập các mô hình dự đoán, phục vụ tốt nhất cho quá trình tổ chức, ra quyết định

BÁO CÁO HỆ TRỢ GIÚP QUYẾT ĐỊNH ĐỀ TÀI: TÌM HIỂU VỀ PHẦN MỀM WEKA ỨNG DỤNG MỤC LỤC LỜI MỞ ĐẦU…………………………………………………………………… CHƯƠNG I: Tổng quan Weka……………………………………………… I Giới thiệu chung Weka……………………………………………….4 II Cài đặt Weka…………………………………………………………….7 CHƯƠNG II: Tìm hiểu Weka………………………………………… I Menu thành phần Weka…………………………………………………9 II Các môi trường chức Weka…………………………14 CHƯƠNG III: Các định dạng liệu Weka……………………… 16 I Định dạng ARFF…………………………………………………… 16 II Sparse ARFF Files…………………………………………………… 18 CHƯƠNG IV: Môi trường Explorer……………………………………………19 I Preprocess……………………………………………………………….19 II Classify………………………………………………………………….25 III Cluster……………………………………………………………… 30 IV Associate……………………………………………………………….32 V Select Attributes……………………………………………………… 33 VI Visualize……………………………………………………………… 34 CHƯƠNG V: Ví dụ minh họa………………………………………………… 38 Preprocess……………………………………………………………….38 Classify………………………………………………………………… 42 Cluster………………………………………………………………… 45 Associate……………………………………………………………… 48 KẾT LUẬN……………………………………………………………………….52 TÀI LIỆU THAM KHẢO……………………………………………………….53 LỜI MỞ ĐẦU Ngày nay, mà thời buổi cơng nghiệp hóa, đại hóa ngày phát triển tồn cầu cơng nghệ thơng tin trở thành trợ thủ đắc lực người sống quốc gia để hòa nhập với giới Đứng trước thách thức, trước bùng nổ mạnh mẽ thời đại công nghệ 4.0, việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội Hệ trợ giúp định (DSS - Decision Support System) hệ thống thông tin tạo phát triển để trợ giúp công tác định, đặc biệt hoạt động định kinh doanh tổ chức Các DSS phục vụ cho việc quản lý, vận hành lập kế hoạch tổ chức, giúp người đưa định vấn đề thay đổi nhanh chóng khơng dễ dàng xác định trước - tức vấn đề định cấu trúc bán cấu trúc Hệ thống hỗ trợ định vi tính hóa hồn toàn hỗ trợ người, kết hợp hai Khi đề cập đến DSS, người ta thường dùng khái niệm như: người định, trình định hệ thống tin học trợ giúp Cùng với đời Hệ trợ giúp định, phần mềm Weka tạo để hỗ trợ đắc lực cho người việc phân tích liệu lập mơ hình dự đốn, phục vụ tốt cho q trình tổ chức, định đề tài mà nhóm chúng em nghiên cứu báo cáo Chúng em xin chân thành cảm ơn giúp đỡ tận tình giáo Giảng viên Đồn Thị Thanh Hằng để chúng em hoàn thành báo cáo Do kiến thức hạn hẹp nên báo cáo nhóm chúng em nhiều thiếu xót Vì vậy, chúng em mong nhận góp ý, giúp đỡ thầy/cơ để chúng em hồn thiện báo cáo tốt Chúng em xin chân thành cảm ơn! CHƯƠNG I: TỔNG QUAN VỀ PHẦN MỀM WEKA I Giới thiệu chung Weka Khái niệm Weka phần mềm mã nguồn mở miễn phí khai thác liệu, xây dựng ngôn ngữ lập trình Java, theo kiến trúc hướng đối tượng, tổ chức thành thư viện phục vụ cho lĩnh vực học máy khai phá liệu Weka phần mềm thuộc dự án phát triển Đại học Waikato, New Zealand, tên viết tắt Waikato Environment for Knowledge Analysis Ngồi khn khổ trường đại học, Weka phát âm vần điệu với Mecca, lồi chim khơng bay với chất tò mò tìm thấy đảo New Zealand, đồng thời, lồi chim biểu tượng cho phần mềm Weka Hình 1: Lồi chim Mecca chọn biểu tượng ứng dụng Weka Weka cung cấp thuật tốn học tập mà bạn dễ dàng áp dụng cho liệu (dataset) Nó bao gồm loạt công cụ để chuyển đổi liệu thuật toán để phân loại lấy mẫu mà không cần phải viết mã chương trình Theo KDNuggets (2005) đánh giá, Weka sản phẩm khai thác liệu sử dụng nhiều nhất, bật hiệu năm 2005 Weka chứa sưu tập công cụ trực quan thuật tốn để phân tích liệu lập mơ hình dự đốn, với giao diện người dùng đồ họa để dễ dàng truy cập chức Ưu điểm Weka Phần mềm mã nguồn mở Weka bắt đầu phát triển mạnh mẽ vào năm 1997 sử dụng nhiều lĩnh vực ứng dụng khác nhau, đặc biệt cho mục đích giáo dục nghiên cứu ưu điểm sau:  Tính khả dụng miễn phí theo Giấy phép Cơng cộng GNU (giấy phép cung cấp quyền phần mềm miễn phí, đảm bảo cho người dùng tự chạy, nghiên cứu, chia sẻ thay đổi phần mềm)  Được thực ngơn ngữ lập trình Java nên Weka có tính di động chạy hầu hết tảng điện toán đại thử nghiệm Linux, Windows hay hệ điều hành Macintosh  Tổng hợp toàn diện kỹ thuật tiền xử lý mơ hình hóa liệu  Giao diện đồ họa giúp người dùng dễ sử dụng Weka hỗ trợ số nhiệm vụ khai thác liệu tiêu chuẩn, cụ thể xử lý trước liệu, phân cụm, phân loại, hồi quy, trực quan hóa lựa chọn tính Tất kỹ thuật Weka dựa giả định liệu có sẵn dạng tệp phẳng quan hệ, điểm liệu mô tả số thuộc tính cố định (thơng thường thuộc tính số danh nghĩa, số loại thuộc tính khác hỗ trợ) Weka cung cấp quyền truy cập vào sở liệu SQL cách sử dụng Java Database Connectivity xử lý kết trả truy vấn sở liệu Những tính vượt trội Weka Như nói trên, Weka đánh giá sản phẩm khai thác liệu bật tính đặc biệt sau:  Hỗ trợ nhiều thuật toán máy học khai thác liệu  Được tổ chức theo dạng mã nguồn mở để người dùng dễ dàng download sử dụng  Độc lập với môi trường sử dụng máy ảo Java (JVM – Java virtual machine)  Dễ sử dụng, kiến trúc dạng thư viện dễ dàng cho việc xây dựng ứng dụng thực nghiệm  Giao diện đồ họa (gồm tính hiển thị hóa liệu)  Mơi trường cho phép so sánh giải thuật học máy khai phá liệu Kiến trúc thư viện Weka Để thuận tiện cho việc sử dụng người dùng, kiến trúc thư viện Weka xây dựng với 600 lớp tổ chức thành 10 gói (package), đó, package thực nhiệm vụ chức riêng biệt trình khai thác liệu Để người dùng tự xây dựng ứng dụng thân người dùng trực tiếp sử dụng package để xây dựng chương trình Weka có số lượng lớn công cụ hồi quy phân loại Các gói địa gói bao gồm phần mềm Weka thực thi, gói khơng phải gốc khác tải xuống sử dụng mơi trường R.Weka Trong số gói địa, cơng cụ tiếng gói mơ hình M5p Một số cơng cụ hồi quy phổ biến là:  M5Rules (thuật tốn M5' trình bày dạng hàm tốn học khơng có cây)  DecisionStump (giống M5' với đầu số nút)  M5P (tách miền thành vùng nhị phân sau phù hợp với mơ hình tuyến tính cho nút cây)  RandomForest (một số mơ hình kết hợp)  RepTree (một số mơ hình kết hợp)  ZeroR (giá trị trung bình kết đầu ra)  DecisionRules (chia tách liệu thành nhiều vùng dựa biến độc lập cung cấp giá trị đầu cho phạm vi)  LinearRegression  Sự hồi quy vector hỗ trợ  SimpleLinearRegression (sử dụng biến chặn biến đầu vào cho liệu đa biến)  MultiLayerPerceptron (mạng nơron)  GaussianProcesses II Cài đặt Weka Trang chủ Weka https://www.cs.waikato.ac.nz/ml/weka/ cung cấp đầy đủ loại phiên môi trường khác Đồng thời, cung cấp hướng dẫn sử dụng trang chủ Weka file dạng PDF sau cài đặt phần mềm Khơng vậy, Weka cung cấp file liệu xây dựng sẵn theo định dạng ARFF để tiết kiệm thời gian trình xây dựng liệu Loại phiên  Snapshot: lỗi nhất, lỗi phát sinh tự động  Book version: phiên người sử dụng đánh giá ổn định tính thời điểm  Developer version: phiên phát triển, cập nhật thường xuyên có nhiều tính Book version mang khuyết điểm chưa ổn định phiên Book version Môi trường hỗ trợ Weka hỗ trợ chạy nhiều hệ điều hành khác nhau, chia thành hai nhóm phiên dành cho mơi trường Windows platform (nền tảng) khác Linux, Macintosh… Điều kiện để khởi chạy Weka chương trình bạn phải định phải kèm với máy ảo Java (JVM – Java virtual machine) CHƯƠNG II: TÌM HIỂU VỀ WEKA I Menu thành phần Weka Phiên Weka cập nhật vào ngày 9/4/2018 ứng dụng cập nhật lên phiên 3.8.3 Trong phiên nhất, menu Weka gồm thành phần chính: Hình 2: Màn hình Menu Weka Program Chương trình Program bao gồm: - LogWindow (Ctrl+L): nơi ghi lại thông tin hệ thống hay lỗi phát sinh suốt trình sử dụng phần mềm - Memory usage (Ctrl+M): sử dụng nhớ - Settings: cài đặt Weka - Exit (Ctrl+E): chức đóng chương trình Weka Hình 3: Các chức Program Applications Applications chứa mơi trường chức Weka - Explorer: cung cấp môi trường để khảo sát liệu - Experimenter: môi trường tiến hành thực nghiệm kiểm chứng mơ hình học - Knowledge Flow: có chức tương tự Explorer Knowledge Flow lại có giao diện kéo – thả tiện lợi Đồng thời hỗ trợ chức học tăng dần (incremental learning) - Workbench: coi ứng dụng tất một, Workbench ứng dụng kết hợp tất ứng dụng bên - Simple CLI: cung cấp giao diện dòng lệnh để thực thi Weka, tính tương tự cửa sổ Command Prompt Windows, hỗ trợ cho hệ điều hành khơng có chức cửa sổ dòng lệnh, 10 khoanh màu xanh Các cột biểu diễn theo thứ tự từ trái qua phải thông qua hai màu sắc xanh đỏ với màu đỏ biểu thị cho lớp No màu xanh biểu thị cho lớp Yes Hình 22: Dữ liệu đầy đủ gốc Vì liệu gốc có sẵn thuộc tính đầy đủ, nên nhóm chúng em thực xóa bớt số giá trị thuộc tính để minh họa trực quan Hình 23: Dữ liệu sau xóa bớt 39 Chúng ta thấy Hình 23 có tất 14 giá trị, có giá trị cột humidity(độ ẩm) thiếu giá trị Để thêm giá trị thiếu, người dùng nhấp chuột vào ô để chọn giá trị tương ứng Hoặc muốn thêm giá trị vào tất trống, người dùng nhấp chuột phải vào thuộc tính humidity chọn lệnh Set missing value to… sau điền giá trị thiếu chọn OK (hình 24), thiếu trở giá trị ban đầu Hình 22 Hình 24: Điền giá trị thiếu vào tất trống Để thay liệu theo ý muốn cho giá trị thuộc tính, ta nhấp chuột phải vào thuộc tính cần thay chọn Replace value to…, điền giá trị ban đầu điền tiếp giá trị cần thay nhấp OK để hồn thành Ví dụ, thuộc tính humidity, người dùng cần đổi tất giá trị từ high sang normal, người dùng làm theo bước kết Hình 25 Sau nhấp chuột vào nút OK để lưu lại trình hiệu chỉnh 40 Hình 25: Thay giá trị thuộc tính humidity giá trị normal Người dùng đổi tên thuộc tính cách nhấp chuột phải chọn Rename attribute 1.2 Rời rạc hóa liệu liên tục Như phần lý thuyết nêu trên, Weka có cung cấp cho người dùng nhiều lọc liệu, số có lọc để người dùng rời rạc hóa tập liệu liên tục Nhóm chúng em chọn file sở liệu mang tên weather.numeric.arff để thực ví dụ minh họa trực quan cho phần Cũng tương tự sở liệu weather.nominal.arff weather.numeric.arff lại có phần khác biệt số thuộc tính temperature hay humidity lại biểu diễn trực quan cách liên tục, thay rời rạc thành cột riêng lẻ phần 41 Hình 26: Thuộc tính temparature biểu diễn liên rục Các thuộc tính liên tục có giá trị Minimum (nhỏ nhất), Maximum (lớn nhất), Mean (trung bình) StdDev (độ lệch chuẩn) Để tiến hành rời rạc hóa nó, người dùng bắt đầu với việc chọn lọc Bộ lọc sử dụng Discretize Để hiệu chỉnh thông số lọc, người dùng nhấp chuột trái vào textbox chứa tên lọc, cửa sổ GenericObjectEditor mở giúp người dùng thay đổi thông số Sau nhấn nút Apply để thực tập liệu Ngay lập tức, liệu liên tục chia rời rạc thành cột Classify Trong phần Classify, nhóm chúng em tiếp tục chọn liệu thời tiết weather.numeric.arff sử dụng thuật toán NavieBayes để thực ví dụ minh họa Lưu ý, liệu weather.numeric.arff chưa thực rời rạc hóa Sau chọn thuật tốn kiểu test, ta thực chạy thử, kết cho phần đầu thơng số thuộc tính, phần cuối kết chạy thuật tốn Theo 42 Hình 27.1 đưa kết phần đầu Run information mô tả thơng tin thuộc tính bao gồm thơng tin mơ hình học, tên quan hệ, số mẫu, thuật tốn:  Thuật toán (Scheme): NavieBayes  Tên quan hệ (Relation): weather – liệu thời tiết  Số mẫu (Instance): 14 mẫu  Số thuộc tính (Attributes): thuộc tính, danh sách thuộc tính mơ tả bên bao gồm outlook, temperature, humidity, windy, play Ngoài ra, phần thơng tin cho biết kiểu test (Test mode) chọn kiểu test đánh giá liệu huấn luyện Classifier model cho biết mơ hình phân lớp xây dựng toàn tập huấn luyện Hình 27.1: Kết thuật tốn NavieBayes Trong Hình 27.2, kết hình cho biết thời gian xây dựng mơ hình (Time taken to build model) nhanh, chưa đến giây liệu tương đối nhỏ Số liệu thống kê bên cho biết độ xác phân lớp, theo kiểu test cụ thể mà kiểu test đánh giá tập huấn luyện (Evaluation on training set) Các thông số hiển thị phần Summary, kết tổng kết cho thấy có 11 mẫu phân lớp (Correctly Classified Instances) mẫu bị phân lớp 43 sai (Incorrectly Classified Instances) Các giá trị độ đo lỗi hiển thị bên Phần Detailed Accuracy By Class cho biết độ xác phân lớp Hình 27.2: Kết thuật tốn NavieBayes Ở ma trận confusion cho biết có mẫu gán vào lớp Kết Hình 27.3 cho ta thấy có mẫu phải phân vào lớp Yes lại bị phân vào lớp No, mẫu phải phân vào lớp No lại bị phân vào lớp Yes Vì dẫn đến có mẫu bị phân lớp sai Hình 27.3: Kết thuật toán NavieBayes 44 Cluster Cùng với việc lựa chọn thuật tốn SimpleKMeans, nhóm chúng em tiếp tục sử dụng sở liệu thời tiết weather.numeric.arff để minh họa cho phần gom nhóm Cluster Để điều chỉnh tham số thuật toán, người dùng nhấp chuột trái vào textbox thuật toán, cửa sổ GenericObjectEditor mở giúp người dùng điều chỉnh tham số theo ý muốn Ở đây, chúng em phân liệu thành lớp Hình 28: Thay đổi tham số thuật toán, phân liệu thành lớp Sau tiến hành chạy thử, kết trả gồm hai phần thông tin liệu kết Phần đầu thông tin liệu Run information đưa thông tin tham số quan hệ:  Thuật toán (Scheme): SimpleKMeans  Tên quan hệ (Relation): weather 45  Số mẫu (Instances): 14  Số thuộc tính (Attributes): (outlook, temperature, humidity, windy, play)  Kiểu test (Test mode): đánh giá liệu huấn luyện Hình 29.1: Kết gom nhóm liệu weather Theo kết Hình 29.1, ta thấy việc gom nhóm thực vòng lặp (Num of iterations) Các mẫu gom nhóm thành cluster ban đầu cài đặt Trong đó, cluster gồm mẫu, cluster gồm mẫu (Hình 29.2) Dựa vào kết này, so sánh với phân bố ban đầu (lớp Yes gồm mẫu, lớp No gồm mẫu) Điều chứng tỏ việc gom nhóm vơ xác 46 Hình 29.2: Kết gom nhóm liệu weather Vẫn sử dụng thuật tốn SimpleKMeans, nhóm chúng em tiếp tục chọn sở liệu khác để làm ví dụ liệu lồi hoa iris.arff Nhóm chúng em thay đổi việc phân liệu thành lớp loại bỏ thuộc tính class gom nhóm chưa biết mẫu thuộc lớp Lần này, kết trả tương đối xác Phần mơ tả thơng tin cho biết:  Thuật toán (Scheme): SimpleKMeans  Tên quan hệ (Relation): iris – liệu loài hoa  Số mẫu (Instances): 150  Số thuộc tính (Attributes): (sepallength, sepalwidth, petallength, petalwidth, thuộc tính bị loại bỏ class)  Kiểu test (Test mode): đánh giá liệu huấn luyện 47 Hình 30.1: Kết gom nhóm liệu iris Việc gom nhóm thực vòng lặp gom thành nhóm cluster: cluster gồm 61 mẫu, cluster gồm 50 mẫu, cluster gồm 39 mẫu Khi so sánh lại với phân bố ban đầu, có loại hoa, loại hoa gồm 50 mẫu ta thấy kết cluster xác, cluster cần phải xem xét lại Associate Trong phần khai thác luật kết hợp Associate, nhóm chúng em sử dụng sở liệu weather.nominal.arff thuật tốn Apriori Nhóm chúng em lựa chọn tham số mặc định thuật toán để chạy thử nghiệm, người dùng thay đổi tham số tùy theo yêu cầu đề Các tham số sử dụng là: minconf = 0.9, minsupp=0.1, numRules (số luật) = 10 Mục đích luật kết hợp tìm kết hợp (association) hay tương quan (correlation) đối tượng (itemset) Độ hỗ trợ (support) độ tin cậy (confidence) tham số dùng để đo lường luật kết hợp 48 Hình 31: Các tham số thuật toán Apriori Sau khỉ chạy thuật tốn, kết trả thơng số sau (Hình 32.1): - Run information:  Thuật tốn (Scheme): Apriori thơng số  Tên quan hệ (Relation): weather  Số mẫu (Intances): 14 mẫu  Số thuộc tính (Attributes): mẫu (outlook, temperature, humidity, windy, play) - Các giá trị thông tin tập phổ biến:  Giá trị minsupp: 0.15  Giá trị minconf: 0.9  Số vòng lặp: 17  Kích thước tập phổ biến (Generated sets of large itemsets) 49 Hình 32.1; Kết khai thác luật kết hợp sử dụng thuật toán Apriori Phần cuối phần quan trọng nhất, kết đưa luật kết hợp tìm Ở đây, có 10 luật tìm thấy đáp ứng yêu cầu đề tiến hành phân tích luật tìm Ta thấy, chữ số 4, 3, sau dòng gọi support Hình 32.2: Kết khai thác luật kết hợp sử dụng thuật toán Apriori 50 Ví dụ: luật outlook = overcast ==> play=yes conf:(1) giá trị support Với thuộc tính outlook có giá trị overcast thuộc tính play=yes, hai điều kiện xuất đồng thời mẫu, áp dụng cơng thức tính confidence, ta thu giá trị conf = hay 100% Cơng thức tính support: Cơng thức tính confidence: Trong đó:  X -> Y dạng luật kết hợp  N tổng số giao dịch  n(X) số giao dịch chứa X 51 KẾT LUẬN Việc định cần xử lý lượng kiến thức lớn người lại bị giới hạn nhận thức, kinh tế, thời gian hay áp lực cạnh tranh Hệ trợ giúp định (DSS) đời kết hợp trị tuệ người lực máy tính để cải thiện chất lượng định, giải vấn đề Trong báo cáo trên, chúng em trình bày tổng quan ứng dụng Weka, ứng dụng hỗ trợ thiết yếu việc định Trên sở để đưa số ví dụ để giải vấn đề, cung cấp kiến thức cho bạn đọc nhìn khái qt mơn học ứng dụng Như việc phân tích liệu thời tiết để đưa định chơi hay khơng chơi… Do kiến thức hạn hẹp nên báo cáo chúng em nhiều thiết xót, mong nhận giúp đỡ, góp ý cô bạn Chúng em xin chân thành cảm ơn! 52 TÀI LIỆU THAM KHẢO Bài giảng Hệ trợ giúp định: https://vi.scribd.com/doc/51949793/Bai-giang-he-tro-giup-quyet-dinh Trang chủ Weka: https://www.cs.waikato.ac.nz/ml/weka/ Wikipedia Weka: https://en.wikipedia.org/wiki/Weka_(machine_learning) 53 ... Java virtual machine) CHƯƠNG II: TÌM HIỂU VỀ WEKA I Menu thành phần Weka Phiên Weka cập nhật vào ngày 9/4/2018 ứng dụng cập nhật lên phiên 3.8.3 Trong phiên nhất, menu Weka gồm thành phần chính:... tò mò tìm thấy đảo New Zealand, đồng thời, lồi chim biểu tượng cho phần mềm Weka Hình 1: Lồi chim Mecca chọn biểu tượng ứng dụng Weka Weka cung cấp thuật tốn học tập mà bạn dễ dàng áp dụng cho... điểm Weka Phần mềm mã nguồn mở Weka bắt đầu phát triển mạnh mẽ vào năm 1997 sử dụng nhiều lĩnh vực ứng dụng khác nhau, đặc biệt cho mục đích giáo dục nghiên cứu ưu điểm sau:  Tính khả dụng miễn

Ngày đăng: 30/11/2018, 17:52

Mục lục

  • HỆ TRỢ GIÚP QUYẾT ĐỊNH

  • ĐỀ TÀI: TÌM HIỂU VỀ PHẦN MỀM WEKA VÀ ỨNG DỤNG

  • 2. Ưu điểm của Weka

  • 3. Những tính năng vượt trội của Weka

Tài liệu cùng người dùng

Tài liệu liên quan