Tiểu luận môn hệ hỗ trợ quyết định SỬ DỤNG GIẢI THUẬT HỌC CÂY QUYẾT ĐỊNH ID3 ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN SỬ DỤNG THIẾT BỊ KẾT NỐI MẠNG

17 481 1
Tiểu luận môn hệ hỗ trợ quyết định SỬ DỤNG GIẢI THUẬT HỌC CÂY QUYẾT ĐỊNH ID3 ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN SỬ DỤNG THIẾT BỊ KẾT NỐI MẠNG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÀI THU HOẠCH MÔN HỆ HỖ TRỢ QUYẾT ĐỊNH ĐỀ TÀI: SỬ DỤNG GIẢI THUẬT HỌC CÂY QUYẾT ĐỊNH ID3 ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN SỬ DỤNG THIẾT BỊ KẾT NỐI MẠNG Học viên thực : Họ tên : Lê Chí Cảnh MSHV : CH1301081 Lớp : CH08 Giảng viên phụ trách : Đỗ Phúc LỜI NÓI ĐẦU Mục tiêu đề tài áp dụng thuật giải học định vào việc phát triển ứng dụng thực tế hệ thống tư vấn sử dụng thiết bị kết nối mạng Bố cục báo cáo trước hết giới thiệu sở lý thuyết định thuật giải xây dựng định ID3 Sau phần đánh giá nhu cầu ứng dụng tư vấn sử dụng thiết bị kết nối mạng Các phần sau tập trung vào thu thập liệu học, xử lý liệu bước triển khai ứng dụng MỤC LỤC I – Giới thiệu định thuật giải ID3 Cây định [4] Trong lĩnh vực học máy, định kiểu mơ hình dự báo (predictive model), nghĩa ánh xạ từ quan sát vật/hiện tượng tới kết luận giá trị mục tiêu vật/hiện tượng Mỗi nút (internal node) tương ứng với biến; đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định Học định phương pháp thông dụng khai phá liệu Khi đó, định mơ tả cấu trúc cây, đó, đại diện cho phân loại cành đại diện cho kết hợp thuộc tính dẫn tới phân loại Một định học cách chia tập hợp nguồn thành tập dựa theo kiểm tra giá trị thuộc tính Quá trình lặp lại cách đệ qui cho tập dẫn xuất Q trình đệ qui hồn thành tiếp tục thực việc chia tách nữa, hay phân loại đơn áp dụng cho phần tử tập dẫn xuất Một phân loại rừng ngẫu nhiên (random forest) sử dụng số định để cải thiện tỉ lệ phân loại Các thuật giải dùng để sinh định thường dùng : ID3, C4.5, C5.0 Thuật giải ID3 Là thuật giải dùng để sinh định phát minh Ross Quinlan Thuật giải tiền thân thuật giải C4.5 Thường sử dụng lĩnh vực xử lý ngôn ngữ tự nhiên lĩnh vực khai phá liệu Chi tiết giải thuật ID3 [5]: Ý tưởng Xây dựng từ root đến lá, cách trả lời: – Thuộc tính tốt để kiểm tra root ? – Mỗi tạo tương ứng nhánh trị thuộc tính Q trình lặp lại với Thuộc tính phân loại tốt ? - Dựa vào khái niệm : độ lợi thông tin - “information gain” Information gian: đo lường mức độ có lợi mà thuộc tính phân chia tập cá thể dựa theo khái niệm đích Giá trị ENTROPY: Đo lường tính đồng tập huấn luyện.Với tập huấn luyện S cơng thức tính entropy ENTROPY(S) = -p+.log2(p+) – p-.log2(p-) P+ : Tỉ lệ số thể positive tổng số cá thể P-: Tỉ lệ số thể negative tổng số cá thể Ví dụ: – Tổng số cá thể: 14 – Trong có: cá thể positive (thuộc vào phân loại khái niệm đích) cá thể negative (khơng thuộc vào phân loại khái niệm đích) – Hay ghi rút gọn: [9+,5-]  Entropy([9+,5-]) = -((9/14)log2(9/14)) – ((5/14)log2(5/14)) = 0.94 II – Giới thiệu phân tích u cầu ứng dụng Hiện nay, hai loại hình kết nối Internet nước ta sử dụng nhiều sử dụng mạng kết nối dây ADSL mạng khơng dây 3G ADSL có lịch sử lâu đời hơn, cung cấp ISPs (Internet Service Provider) VNPT, FPT, Netnam … 3G (Third Generation) xuất Việt Nam năm gần – bước cải tiến lớn 2G tiền đề 4G, cung cấp công ty viễn thông Viettel, VinaFone Mobiphone Số lượng người dùng Internet tăng không ngừng, làm nảy sinh yêu cầu lựa chọn loại hình kết nối mạng Đối với người dùng thông thường (khơng có nhiều kinh nghiệm sử dụng máy tính hiểu biết mạng) việc lựa chọn trở nên khó khăn Đó mục đích đồ án : Giúp hỗ trợ tư vấn người dùng việc lựa chọn loại hình kết nối mạng ADSL hay 3G Để đưa lời khuyên xác, có yếu tố cần quan tâm : 1/ Đặc điểm 3G ADSL - - 3G 3G mạng không dây nên tiện lợi di chuyển 3G bỏ gói cước trọn gói, việc sử dụng để tải liệu dung lượng lớn tốn kém, thích hợp cho việc duyệt mail, đọc báo, tài liệu nhỏ 3G sóng cịn yếu khu vực thành thị : miền núi, nông thôn, duyên hải … thường xuyên rớt mạng Ở thành thị tốc độ tốt hơn, có khoảng thời gian mạng không ổn định Trong tương lai điều cải thiện nhà mạng triển khai thêm trạm thu phát sóng - - ADSL ADSL thích hợp với kết nối cố định ADSL cung cấp gói cước theo lưu lượng rẻ 3G trọn gói ADSL đảm bảo đường truyền 3G nhiều, nhược điểm đường dây có vấn đề mạng khơng thể truy cập Hư hỏng thường mang tính cục (ảnh hưởng đến khu vực) 2/ Nhu cầu sử dụng người dùng Nhu cầu sử dụng người dùng chủ yếu tập trung vào việc người đâu, có hay di chuyển không lưu lượng sử dụng Internet hay nhiều Từ suy số thông tin cần nắm người dùng ảnh hưởng đến việc tư vấn sau : - Nơi : phụ thuộc sóng 3G mạnh hay yếu Chỗ : Nếu nhà riêng việc thuê hợp đồng với mạng có dây dễ dàng nhiều Loại máy tính : Laptop thích hợp với 3G Desktop tính lưu động Mục đích để sử dụng : dùng để phân loại theo lưu lượng Điều kiện tài chính, giá thành USB 3G khoảng vài trăm ngàn (khi hạ giá xuống khoảng 350 ngàn/USB) – không đắt Dựa vào mà lời khuyên tốt thường dùng loại kết nối mạng III – Mô tả thống kê cho liệu thu thập 1/ Mô tả liệu Gồm trường khảo sát sau tùy chọn cho trường: 10 Họ Tên Số điện thoại email Độ tuổi Nghề nghiệp Nơi bạn sinh sống: a Thành thị b Nông thôn c Miền núi d Trung du e Ven biển f Hải đảo Nơi bạn : a Nhà riêng b Phòng trọ tập thể c Nhà người quen, họ hàng Loại máy tính bạn sử dụng a Máy bàn (Desktop) b Máy xách tay (Laptop) c Chưa có máy tính Hiện bạn kết nối Internet a ADSL b USB 3G c Cả hai d Chưa kết nối Internet nhà Mục đích bạn dùng Internet để a Học tập, làm việc (gửi mail, đọc tài liệu, ) b Giải trí (đọc báo, nghe nhạc, xem phim ) Bạn sẵn sàng dành tiền tháng cho Internet a 100 ngàn trở xuống b Từ 100 ngàn – 200 ngàn c Trên 200 ngàn 11 Bạn có cần dùng Internet lúc di chuyển khơng a Có b Khơng c Có, nơi tơi đến có sẵn Internet 12 Theo bạn, loại kết nối Internet phù hợp với bạn 3G ADSL Cả hai Trong thuộc tính Họ tên, độ tuổi, nghề nghiệp, số điện thoại hay email khơng bắt buộc phải điền khơng ảnh hưởng đến mục đích khảo sát Đồng thời khơng giúp người dùng cảm thấy thoải mái nhập thơng tin cá nhân Thuộc tính nơi bạn sinh sống chủ yếu phân thành nhóm gần thành thị xa thành thị, tốc độ 3G phụ thuộc nhiều vào trạm thu phát mạng điện thoại Thuộc tính nơi ở, ADSL cần hợp đồng với địa nhà cụ thể, việc nhà riêng thuận lợi 3G chiếm ưu lúc nơi khơng cố định Loại máy tính sử dụng ảnh hướng đến việc lựa chọn dịch vụ mạng, người dùng Laptop thường có xu hướng di chuyển nhiều, nên phù hợp với 3G Sự khác thuộc tính “Bạn kết nối Internet ” “Theo bạn, loại kết nối Internet phù hợp với bạn thuộc tính phân loại liệu thể xu hướng người sử dụng muốn thay đổi cách thức kết nối Internet Mục đích sử dụng Internet chia làm loại tải liệu tải liệu nhiều, mặt 3G hoàn tồn thua ADSL (với loại hình trọn gói trả theo dung lượng linh động) Nhu cầu sử dụng Internet lúc di chuyển thể ưu mạng không dây 3G 2/ Thống kê liệu thu thập Nhóm thu thập 539 mẫu liệu Các bảng sau thống lê chi tiết trường liệu dùng hệ thống: Khu vực sống: Loại hình máy tính sử dụng: Loại hình Internet sử dụng: Mục đích sử dụng: Có di chuyển: Nơi ở: Số tiền chi trả mong muốn: Loại hình Internet phù hợp nhất: IV - Phương pháp sử dụng để huấn luyện 1/ Giới thiệu thư viện WEKA Bộ thư viện mã nguồn mở WEKA phát triển nhóm Meachine Leraning trường đại học Waikto phát triển ngôn ngữ Java WEKA xây dựng sẵn thuật giải học thông dụng máy học để phục vụ lĩnh vực máy học Ngồi WEKA cịn cung cấp cơng cụ để phục vụ cho tác vụ khai thác liệu tiền xử lý liệu, phân lớp liệu, phân nhóm khai thác luật kết hợp liệu Chúng ta sử dụng WEKA trực tiếp giao diện trực quan người dùng sử dụng Java code thuận lợi cho phát triển dụng Có thể tải WEKA trực tiếp trang: http://www.cs.waikato.ac.nz/ml/weka/ 2/ Tiền xử lý liệu Dữ liệu sau thu thập qua bước tiền xử lý, thuộc tính khơng dùng mơ hình học loại bỏ không ẳn hưởng đến kết phân lớp liệu: Họ tên, độ tuổi, nghề nghiệp, số điện thoại hay email Các thuộc tính cịn lại sử dụng mơ hình : Khu vực sống, Loại máy tính, Internet sử dụng, mục đích sử dụng, có di chuyển hay khơng, nơi ở, số tiền chi trả, loại hình Internet phù hợp Do liệu thuộc tính dạng rời rạc hóa nên khơng cần phải rời rạc hóa bước tiền xử lý liệu Đến liệu hồn thành, bắt đầu cho việc training liệu Dữ liệu lưu file train.arff 3/ Sử dụng thư viện WEKA vào chương trình Em xây dựng chương trình sử dụng mơ hình học định với thuật giải ID3 đề xây dựng định sử dụng thư viện WEKA Thư viện xây dựng sẵn thuật giải ID3 gói weka.classifiers.trees Chúng ta sử dụng trực tiếp lớp ID3 thơng qua lớp FilteredClassifier chứa gói weka.classifiers.meta để xây dựng Em sử dụng cách phân lớp thông qua lớp FilteredClassifier Đầu tiên đối tượng lớp FilteredClassifier cài đặt sử dụng thuật tốn ID3 thơng qua lớp ID3(code trích từ lớp decision.tree.DecisionTree) FilteredClassifier fc; ID3 id3= new Id3(); fc = new FilteredClassifier(); fc.setClassifier(id3); Phương thức buildClassifier dùng để training liệu từ tập liệu load lên từ file train.arff sau kết thúc hàm chương trình thu thập luật từ liệu public void buildClassifier(Instances ins) throws Exception{ ins.setClassIndex(ins.numAttributes()-1); fc.buildClassifier(ins); //……… } Từ liệu người dùng nhập vào sử dụng phương thức classifierInstance để áp dụng luật tìm từ đạt lời khuyên sử dụng loại hình Internet public double classifyInstance(Instance ins) throws Exception { return fc.classifyInstance(ins); } Giá trị trả phương thức số thực : + 1.0: Lời khuyên nên dùng DCOM 3G + 2.0: Lời khuyên nên sử dụng ADSL + 0.0: Lời khuyên ADSL DCOM 3G phù hợp với người dùng V - Kết thực nghiệm đánh giá Chúng ta sữ dụng WEKA để đánh giá, tiến hành chia liệu sau: Tập liệu học D_Train chiếm 66% ~ 355/539 mẫu liệu Tập liệu test D_Test chiếm 34% ~ 184/539 mẫu liệu Kết đánh giá: Chính xác khoảng 85.2% ~ 156/184 mẫu liệu test Không xác khoảng 14,8% ~ 28/184 mẫu liệu test Độ xác hệ thống sau test 85.2% Do liệu thu thập chưa nhiều(hiện thu thập 539 liệu) nên kết chưa thực cao, để nâng cao độ xác cần thu thập thêm nhiều liệu VI - Hướng dẫn sử dụng chương trình Để khởi động chương trình tìm file thực thi đường dẫn \tuvan_bin\Launcher.bat để thực thi máy tính cài sẵn Java Runtime Sau khởi động xong, để bắt đầu truy vấn người dùng điền vào thông tin cá nhân chọn “Tư vấn” để nhận lời khuyên loại hình sử dụng mạng Internet Đối với liệu đầu vào phù hợp với phân lớp 3G ADSL, chương trình xuất thơng báo “3G ADSL phù hợp với bạn”: Trường hợp chương trình đưa tư vấn sử dụng 3G: Và lời tư vấn cho việc sử dụng ADSL: VII – Lời kết Ứng dụng giải toán đưa tư vấn để giúp người dùng chọn loại thiết bị kết nối mạng phù hợp với Tuy nhiên số trường hợp chương trình có thề đưa kết khơng phù hợp, ngun nhân liệu học cịn chưa đa dạng Do để tăng khả tư vấn xác cho chương trình, cần thu thập nhiều liệu VIII – Tài liệu tham khảo Tài liệu tiếng anh [1] Wikipedia, ID3 algorithm [2] Mitchell, Tom M Machine Learning McGraw-Hill, 1997 pp 55–58 [3] Weka Wiki, http://weka.wikispaces.com Tài liệu tiếng Việt [4] Wikipedia, định [5] Nguyễn Thị Trúc Viên, Chương 11 Học máy ... áp dụng thuật giải học định vào việc phát triển ứng dụng thực tế hệ thống tư vấn sử dụng thiết bị kết nối mạng Bố cục báo cáo trước hết giới thiệu sở lý thuyết định thuật giải xây dựng định ID3. .. train.arff 3/ Sử dụng thư viện WEKA vào chương trình Em xây dựng chương trình sử dụng mơ hình học định với thuật giải ID3 đề xây dựng định sử dụng thư viện WEKA Thư viện xây dựng sẵn thuật giải ID3 gói... Trường hợp chương trình đưa tư vấn sử dụng 3G: Và lời tư vấn cho việc sử dụng ADSL: VII – Lời kết Ứng dụng giải toán đưa tư vấn để giúp người dùng chọn loại thiết bị kết nối mạng phù hợp với Tuy nhiên

Ngày đăng: 21/05/2015, 08:12

Từ khóa liên quan

Mục lục

  • I – Giới thiệu về cây quyết định và thuật giải ID3

    • 1. Cây quyết định [4]

    • 2. Thuật giải ID3

    • II – Giới thiệu và phân tích yêu cầu ứng dụng

      • 1/ Đặc điểm của 3G và ADSL

      • 2/ Nhu cầu sử dụng của người dùng

      • III – Mô tả và thống kê cho dữ liệu thu thập được

        • 1/ Mô tả dữ liệu

        • 2/ Thống kê dữ liệu đã thu thập được

        • IV - Phương pháp được sử dụng để huấn luyện

          • 1/ Giới thiệu thư viện WEKA

          • 2/ Tiền xử lý dữ liệu

          • 3/ Sử dụng thư viện WEKA vào chương trình

          • V - Kết quả thực nghiệm và đánh giá

          • VI - Hướng dẫn sử dụng chương trình

          • VII – Lời kết

          • VIII – Tài liệu tham khảo

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan