Phân loại bào ngư bằng mô hình cây quyết định

52 1 0
Phân loại bào ngư bằng mô hình  cây quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trong thời đại phát triển như vũ bão ngày nay, ngành công nghệ thông tin nắm giữ vai trò vô cùng quan trọng khó có thể thay thế. Những sản phẩm công nghệ liên tục được ứng dụng rộng rãi trong sản xuất, đồng thời lượng thông tin mới, phức tạp và các tập dữ liệu nghiệp vụ ngày một tích trữ nhiều lên. Chính vì vậy, nhu cầu mới nảy sinh là cần tìm cách trích rút dữ liệu để lấy thông tin cần có với tốc độ nhanh nhất để đưa ra dự đoán cũng như quyết định dựa trên lượng dữ liệu khổng lồ thu thập được. Những phương pháp quản trị và khai thác dữ liệu truyền thống đã không thể đáp ứng được nhu cầu ngày một tăng của khách hàng, vì thế những kỹ thuật nghiệp vụ thông minh sẽ được tạo ra nhằm phục vụ cho nghiên cứu cũng như thực tiễn. Công nghệ phân lớp ra đời chính là để phục vụ đáp ứng nhu cầu đó. Công nghệ phân lớp đã và đang được nghiên cứu, ứng dụng mạnh mẽ trước sự khát khao tri thức của con người trong nhiều lĩnh vực khác nhau trên thế giới như thương mại, marketing, nghiên cứu xu hướng thị trường, y tế, giáo dục. Cho đến nay, kĩ thuật phân lớp cho dữ liệu đã có mặt trong nhiều chương trình nghiên cứu khác nhau như khai phá dữ liệu, học máy, thống kê... Kĩ thuật này đang không ngừng được tìm tòi cũng như phát triển để có thể phân lớp hoặc dự đoán thông tin một cách nhanh và chính xác nhất.Bài toán càng cấp thiết hơn đối với những lĩnh vực cần độ chính xác, những bài toán phục vụ cho việc nghiên cứu , đánh giá ảnh hưởng trực tiếp tới đời sống con người

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN - - ĐỒ ÁN CHUYÊN NGÀNH ĐỀ TÀI: Phân loại bào ngư mơ hình định GVHD: T.S Nguyễn Mạnh Cường Nhóm : 21 Phạm Mạnh Cường – 2020605601 Đinh Đăng Nam - 2020606290 Lưu Cung Minh – 2020604161 Lớp : 2023IT6052002 Khóa: K15 Hà Nội - 2023 LỜI CẢM ƠN Trước tiên với tình cảm sâu sắc chân thành nhất, cho phép chúng em bày tỏ lịng biết ơn đến gia đình thầy trường Đại học Công Nghiệp Hà Nội, đặc biệt thầy cô khoa Công Nghệ Thông Tin trường tạo điều kiện cho chúng em Và xin chân thành cảm ơn thầy giáo Nguyễn Mạnh Cường – người tận tâm hướng dẫn chúng em qua buổi nói chuyện, hướng dẫn, thảo luận lĩnh vực đề tài Trong trình thực đề tài, trình làm báo cáo khó tránh khỏi sai sót Chúng em mong nhận ý kiến đóng góp từ thầy để học thêm nhiều kinh nghiệm hoàn thành tốt báo cáo tới Chúng em xin chúc thầy cô dồi sức khỏe, vui vẻ thành công sống Xin chân thành cảm ơn! Nhóm thực Nhóm 21 LỜI MỞ ĐẦU Trong thời đại phát triển vũ bão ngày nay, ngành công nghệ thông tin nắm giữ vai trị vơ quan trọng khó thay Những sản phẩm công nghệ liên tục ứng dụng rộng rãi sản xuất, đồng thời lượng thông tin mới, phức tạp tập liệu nghiệp vụ ngày tích trữ nhiều lên Chính vậy, nhu cầu nảy sinh cần tìm cách trích rút liệu để lấy thơng tin cần có với tốc độ nhanh để đưa dự đoán định dựa lượng liệu khổng lồ thu thập Những phương pháp quản trị khai thác liệu truyền thống đáp ứng nhu cầu ngày tăng khách hàng, kỹ thuật nghiệp vụ thông minh tạo nhằm phục vụ cho nghiên cứu thực tiễn Cơng nghệ phân lớp đời để phục vụ đáp ứng nhu cầu Cơng nghệ phân lớp nghiên cứu, ứng dụng mạnh mẽ trước khát khao tri thức người nhiều lĩnh vực khác giới thương mại, marketing, nghiên cứu xu hướng thị trường, y tế, giáo dục Cho đến nay, kĩ thuật phân lớp cho liệu có mặt nhiều chương trình nghiên cứu khác khai phá liệu, học máy, thống kê Kĩ thuật không ngừng tìm tịi phát triển để phân lớp dự đốn thơng tin cách nhanh xác nhất.Bài tốn cấp thiết lĩnh vực cần độ xác, toán phục vụ cho việc nghiên cứu , đánh giá ảnh hưởng trực tiếp tới đời sống người Chính vậy, tốn phân loại bào ngửa đời đặt tính cấp thiết cần quan tâm nghiên cứu Sở dĩ, toán phân lớp áp dụng với bào ngư mà khơng phải lồi khác giá trị cao dinh dưỡng lẫn kinh tế Ngoài , bào ngư loại động vật mà nhiều nhà sinh học nghiên cứu để đánh giá hệ sinh thái Cụ thể, nghiên cứu đề xuất sử dụng thuật toán “ định” hay “decision tree” để giải toán dựa liệu bào ngư nhằm xây dựng mơ hình tối ưu đạt hiệu cao Việc áp dụng trí tuệ nhân tạo vào phân loại bào ngư hẳn đem lại nhiều ảnh hưởng tích cực đời sống khoa học Về đời sống, người thưởng thức bào ngư giàu chất dinh dưỡng an toàn với người sử dụng Đối với khoa học, việc áp dụng công nghệ giúp nhà nghiên cứu đánh giá cách chi tiết khách quan môi trường hệ sinh thái *Nội dung báo cáo gồm chương sau: Chương 1: Phát biểu toán Trong chương 1, nhóm tập trung nghiên cứu nhu cầu thực tiễn việc phân loại bào ngư Nêu tổng quan toán phân loại bào ngư, kì vọng mà nghiên cứu muốn đạt Chương 2: Các kỹ thuật giải toán Trong chương 2, nghiên cứu đề cập tới toán, kĩ thuật để giải toán phân loại bào ngư Những toán nêu cách tổng quát để làm bật lên ưu nhược điểm phương pháp Chương 3: Thực nghiệm Từ toán kĩ thuật nghiên cứu , chúng tơi xây dựng chương trình sử dụng thuật toán “cây đinh” hay “decision tree” để xây dựng mơ hình với liệu mà nhóm nghiên cứu thu thập nhắm đưa kết quả, cải tiến để mơ hình đạt hiệu tốt Chương 4: Phần kết luận Từ kết đạt suốt q trình nghiên cứu , chúng tơi tổng hợp lại kết , cải tiến hướng phát triển để đề tài ngày phát triền tương lại Qua trình thực đề tài này, tơi đạt nhìn tổng quan vững ứng dụng “cây định” toán phân loại bào ngư Chúng tơi trải nghiệm q trình xây dựng mơ hình, thu thập liệu, tối ưu hóa mơ hình để đạt hiệu suất tốt Cuối , hy vọng đề tài ngày mở rộng nghiên cứu Đặc biệt áp dụng trực tiếp vào đời sống hỗ trợ nhà sinh học việc nghiên cứu để họ đưa thành tựu tương lai MỤC LỤC LỜI CẢM ƠN LỜI MỞ ĐẦU DANH MỤC HÌNH ẢNH Chương XÁC ĐỊNH VÀ PHÂN TÍCH BÀI TỐN 10 1.1 Tổng quan toán phân lớp 10 1.1.1 Bài toán nhận dạng 10 1.2 Bài toán phân loại bào ngư 13 1.2.1 Giới thiệu toán 13 1.2.2 Các khó khăn thách thức toán 14 1.2.3 Đầu vào đầu toán 16 1.2.4 Ứng dụng toán 16 Chương MỘT SỐ KỸ THUẬT HIỆN CÓ ĐỂ GIẢI QUYẾT BÀI TOÁN 18 2.1 KNN(K-Nearest Neighbour) 18 2.1.1 Tổng quan 18 2.1.2 Ưu điểm 21 2.1.3 Nhược điểm 22 2.2 Naive Bayes 22 2.2.1 Tổng quan 22 2.2.2 Ưu điểm 24 2.2.3 Ngược điểm 24 2.3 SVM(Support Vector Machine) 25 2.3.1 Tổng quan 25 2.3.2 Ưu điểm 26 2.3.3 Nhược điểm 26 2.4 Cây định 27 2.4.1 Tổng quan 27 2.4.2 Chiến lược xây dựng 29 2.4.3 Các thuật toán định 30 2.4.4 Ưu điểm 35 2.4.5 Nhược điểm 36 Chương PHÂN LOẠI BÀO NGƯ SỬ DỤNG THUẬT TOÁN CÂY QUYẾT ĐỊNH 37 3.1 Thu thập xử lý liệu 37 3.2 Huấn luyện mơ hình đánh giá 42 3.2.1 Xây dựng định Decision Tree Classifier 42 3.2.2 Cải tiến mơ hình 44 3.2.3 Xây dựng đánh giá mơ hình RandomForest Regressor 46 Chương KẾT LUẬN 49 Tài liệu tham khảo 51 DANH MỤC HÌNH ẢNH Hình 1: Q trình phân lớp liệu –(a) Bước xây dựng mơ hình 11 Hình 2:Quá trình phân lớp liệu –(b1) Ước lượng độ xác mơ hình 12 Hình 3: Quá trình phân lớp liệu – (b2) Phân lớp liệu 12 Hình 4: Tệp liệu D 20 Hình 5: Các nhãn sau phân loại 20 Hình 6: Cơ sở liệu khách hàng 23 Hình 7: Hai siêu phẳng song song 25 Hình 8: Bảng liệu ví dụ 27 Hình 9: Sơ đồ định 28 Hình 10: Cách xây dựng định 29 Hình 11: Thuật tốn ID3 30 Hình 12: Biểu đồ entropy 31 Hình 13: Thông tin liệu 37 Hình 14: Biểu đồ đo tập trung liệu 38 Hình 15: Bảng thống kê mô tả 39 Hình 16: Xóa liệu bị khuyết 39 Hình 17: Kết xóa liệu khuyết 40 Hình 18: Điền khuyết liệu 40 Hình 19: Chuẩn hóa liệu MinMaxScaler 41 Hình 20: Dữ liệu sau chuẩn hóa 42 Hình 21: Xây dựng mơ hình định 43 Hình 22: Kết Decision Tree Classifier 43 Hình 23: Vẽ định Pydotplus 43 Hình 24: Vẽ định sử dụng Plot_tree 44 Hình 25: Cải tiến mơ hình Decision Tree Classifier 45 Hình 26: Kết mơ hình sau cải tiến 45 Hình 27: Mơ hình RandomForest 47 Hình 28: Kết mơ hình Random Forest 47 Hình 29: Cải tiến mơ hình Random Forest 48 Hình 30: Kết mơ hình sau cải tiến 49 10 Chương 1.1 XÁC ĐỊNH VÀ PHÂN TÍCH BÀI TỐN Tổng quan toán phân lớp 1.1.1 Bài toán nhận dạng Nếu người quan tâm đến công nghệ , hẳn nhiều người khơng cịn xa lạ với cụm từ “phân lớp liệu” hay tên tiếng anh “Classification” Đây nghiên cứu khai phá liệu Thực tế đặt nhu cầu từ sở liệu với nhiều thông tin ẩn bắt buộc người phải trích rút định nghiệp vụ thông minh Tùy vào yêu cầu toán mà lại chia chúng thành nhiều dạng khác thực tế ta quy ước chúng hai dạng chính: phân lớp dự đoán Phân lớp kĩ thuật nhằm gán (đưa dự báo) nhãn lớp (class-label) cho đối tượng liệu chưa có nhãn Phân lớp thao tác thực liệu liên tục liệu rời rạc, đối tượng mà có liệu biết trước Chẳng hạn, lĩnh vực tài ngân hàng , phương pháp phân lớp áp dụng để phân loại giao dịch tài bất thường hay áp dụng phân loại khách hàng có nợ xấu.Ngồi , phân lớp cịn áp dụng nhiều lĩnh vực khác đời sống quảng cáo tiếp thị, chăm sóc khách hàng , giáo dục, hay đặc biệt y tế dược học Trong đó, dự đốn lại xây dựng mơ hình từ liệu lịch sử sử dụng mơ hình để dự đốn giá trị Phương pháp thường áp dụng phương pháp hồi quy để xác định mối quan hệ biến dự đoán giá trị phụ thuộc dựa biến độc lập Dự đoán biết đến áp dụng đời sống : dự đoán doanh số bán hàng, dự đoán thời tiết, dự đốn chu kì sản xuất, … Q trình phân lớp liệu gồm hai bước : ➢ Bước thứ ( huấn luyện) 38 Bộ liệu gồm cột cột thuộc tính cột cịn lại cột để phân lớp liệu Ý tưởng nhóm nghiên cứu chia liệu thành tập tập “train” tập “test” Tập train chiếm 80% tổng số liệu có đầy đủ cột Còn tập test chiếm 20% lại quan tâm đến cột đầu , cột “Ring” bỏ qua lờ kiểm tra mơ hình Chúng ta có nhìn trực quan liệu cách xem biểu đồ sau : Hình 14: Biểu đồ đo tập trung liệu Hơn nữa, chúng em lập bảng thống kê mô tả liệu Bảng thống kê mô tả phân bố đặc trưng đo lường kích thước số vịng mẫu hàu nghiên cứu Nó cung cấp nhìn tổng quan ban đầu hữu ích liệu trước thực phân tích sâu 39 Hình 15: Bảng thống kê mơ tả Những số liệu giúp người phân tích nắm phân bố, biến thiên liệu Từ có định phù hợp phương pháp phân tích thống kê 3.1.2 Tiền xử lý liệu Với liệu mà nhóm nghiên cứu thu thập khơng cần phải tiền xử lí khơng có liệu khuyết Hơn nữa, với thuật tốn “Cây định” thường khơng u cầu tiền xử lí liệu giống số mơ hình học máy khác Tuy nhiên việc tiền xử lí giúp thuật toán đạt hiệu xuất mong muốn tránh số nút bị thiếu thông tin dẫn đến việc phân lớp khơng xác Đầu tiên, kiểm tra xử lí liệu bị khuyết Đối với liệu khuyết, lựa chọn xóa bỏ hay điền khuyết giá trị theo giá trị : trung bình, trung vị, …Đối với cách xóa bỏ liệu khuyết, thực sau: Hình 16: Xóa liệu bị khuyết 40 Sau chạy thu kết sau: Hình 17: Kết xóa liệu khuyết Chúng ta thấy , liệu khơng có liệu khuyết nên thấy , phần tử có kết 4177 Tuy nhiên, liệu nhỏ ghi khơng thể xóa giá trị khuyết Thay vào đó, phải thay đổi phương pháp xử lí điền khuyết liệu Hình 18: Điền khuyết liệu Ngồi việc xử lí liệu khuyết , nên chuẩn hóa liệu Vậy phải chuẩn hóa liệu ? Các thuật tốn học máy thường dựa vào q trình tối ưu hóa để học mơ hình Việc chuẩn hóa liệu giúp đồng hóa đặc trưng giảm thiểu chênh lệch độ lớn chúng Điều giúp thuật toán hội tụ nhanh giảm thời gian huấn luyện.Hơn nữa, đặc trưng đo lường đơn vị đo lường khác nhau, việc so sánh chúng trở nên khó khăn Chuẩn hóa liệu giúp đồng đơn vị đo lường, làm cho so sánh hiểu Đối với liệu này, chuẩn hóa sau: 41 Hình 19: Chuẩn hóa liệu MinMaxScaler Sau q trình chuẩn hóa liệu, thu liệu chuẩn hóa độ đo Dữ liệu liệu chuẩn hóa theo Min-Max Normalization Về việc chuẩn hóa theo phương pháp chuyển đổi miền liệu thuộc tính [0,1] Yêu cầu phương pháp liệu phải kiểu số liên tục Kết đạt sau chuẩn hóa : 42 Hình 20: Dữ liệu sau chuẩn hóa 3.2 Huấn luyện mơ hình đánh giá 3.2.1 Xây dựng định Decision Tree Classifier Cây định (Decision Tree) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượngncó thể thuộc kiểu liệu khác Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Giờ tìm hiểu cách thức hoạt động thuật tốn định thơng qua thuật toán đơn giản ID3 ID3 (J R Quinlan 1993) sử dụng phương pháp tham lam tìm kiếm từ xuống thơng qua khơng gian nhánh khơng có backtracking ID3 sử dụng Entropy Information Gain để xây dựng định 43 Hình 21: Xây dựng mơ hình định Với tốn phân loại bào ngư sử dụng báo cáo này, tập liệu chia thành phần : train(80%) test(20%) Sau đó, khởi tạo mơ hình định sử dụng hàm DecisionTreeClassifier() đưa mơ hình vào huấn luyện sử dụng clf = clf.fit(X_train,y_train) Cuối ta sử dụng y_pred = clf.predict(X_test) để đưa kết Hình 22: Kết Decision Tree Classifier Ngoài ra, chúng em sử dụng plot_tree hay pydotplus để vẽ định Hình 23: Vẽ định Pydotplus 44 Hình 24: Vẽ định sử dụng Plot_tree Từ kết thu được, đưa số đánh giá mơ sau: ➢ Độ xác (Accuracy) thấp, đạt 0.21 Điều cho thấy mơ hình dự đốn có độ xác khơng cao, tỷ lệ dự đoán khoảng 21% Đây điều cần phải cải thiện mơ hình ➢ Độ nhạy (Recall) thấp, đạt 0.23 Điều cho thấy mơ hình khơng tốt việc dự đốn mẫu dương tính ➢ Độ đo (Precision) thấp, 0.126 Điều cho thấy số dự đốn dương tính, tỷ lệ dự đốn thấp ➢ F1 score thấp, đạt 0.479 Điều cho thấy cân độ xác độ nhạy Nhìn chung, với kết thu phải cải tiến lại mơ hình để mơ hình có độ xác cao 3.2.2 Cải tiến mơ hình Để cải thiện hiệu suất mơ hình Decision Tree, có số siêu tham số điều chỉnh: ➢ Max_depth(độ sâu cây) Tăng max_depth làm mơ hình phức tạp hơn, overfitting Giảm max_depth làm mơ hình đơn giản hơn, tránh overfitting Có thể thử nghiệm với giá trị khác để tìm max_depth tối ưu ➢ Min_samples_split: số lượng mẫu tối thiểu cần thiết để chia nhánh Tăng giá trị làm mơ hình phức tạp ➢ Min_samples_leaf: số lượng mẫu tối thiểu Tăng giá trị làm giảm độ phức tạp mơ hình ➢ Criterion: thước đo để chọn điểm chia nhánh tốt nhất, thường dùng entropy gini Có thể thử đổi qua lại hai thước đo 45 Các siêu tham số khác max_features, min_weight_fraction_leaf điều chỉnh để tối ưu hóa mơ hình Cần thử nghiệm nhiều giá trị khác để tìm tổ hợp siêu tham số tốt Hình 25: Cải tiến mơ hình Decision Tree Classifier Về mặt thực tế mơ hình điều chỉnh lại độ sâu Điều làm mơ hình đơn giản hạn chế overfiting Ngoài , chúng em cài đặt số mẫu tối thiểu hay số lượng mẫu Điều làm mô hình trở nên đơn giản có độ xác cao Hình 26: Kết mơ hình sau cải tiến Dựa vào kết đưa số nhận xét sau: • Độ xác (Accuracy) tăng từ 0.2129 lên 0.2822, tốt • Độ nhạy (Recall) giảm từ 0.2294 xuống 0.1582, • Độ đo (Precision) tăng đáng kể từ 0.126 lên 0.6632, tốt • F1 score giảm nhẹ từ 0.4793 xuống 0.1860 Nhìn chung, mơ hình sau cải thiện có độ xác độ đo cao hơn, nhiên độ nhạy giảm Do tùy vào mục tiêu cụ thể, cân nhắc tinh 46 chỉnh thêm siêu tham số để cải thiện độ nhạy, chấp nhận hy sinh độ nhạy để đổi lấy độ xác độ đo cao Việc sử dụng Decision Tree Classifier toán thu kết không tốt nên chúng em nghiên cứu mơ hình coi cải tiến Random Forest 3.2.3 Xây dựng đánh giá mơ hình RandomForest Regressor Random Forest mơ hình học máy thuộc họ Ensemble Learning, xây dựng dựa ý tưởng kết hợp nhiều Decision Trees để tạo mơ hình mạnh mẽ ổn định Mơ hình giới thiệu Leo Breiman Adele Cutler vào năm 2001 trở thành phương pháp phổ biến lĩnh vực học máy Dưới số đặc điểm lợi ích quan trọng RandomForest: ➢ Kết hợp nhiều Decision Trees: • RandomForest tạo "rừng" (forest) định Mỗi huấn luyện tập liệu chọn ngẫu nhiên từ tập liệu huấn luyện (bootstrap sampling) • Sự kết hợp nhiều giúp giảm nguy overfitting, tăng tính ổn định xác mơ hình ➢ Bootstrap Sampling: • RandomForest sử dụng phương pháp "bootstrap sampling" để tạo tập liệu khác cho Điều tạo đa dạng cây, giúp mơ hình tổng hợp thơng tin hiệu từ liệu ➢ Random Feature Selection: • Khi xây dựng cây, số lượng ngẫu nhiên thuộc tính xem xét nút định Điều giúp giảm chệch làm cho trở nên độc lập ➢ Dự đoán ổn định: 47 • RandomForest thường cho dự đốn ổn định liệu có khả làm việc tốt liệu có nhiễu khơng có nhiễu ➢ Độ xác cao ổn định: • Với kết hợp từ nhiều cây, RandomForest thường có độ xác cao giảm rủi ro biến ngẫu nhiên ➢ Phân tích tính quan trọng thuộc tính: • RandomForest cung cấp thơng tin tầm quan trọng thuộc tính q trình dự đoán, giúp hiểu rõ ảnh hưởng biến đến kết Chúng ta có áp vào tốn sau : Hình 27: Mơ hình RandomForest Khác với Decision Tree Classifier Random Forest khơng sử dụng số độ đo Recall , Accuracy hay Prediction mà mơ hình sử dụng : r2_score, mean_squared_error , mean_absolute_error Sau chạy mơ hình chúng em thu kết mơ hình Hình 28: Kết mơ hình Random Forest ➢ Mean Absolute Error (MAE) 1.571, tương đối thấp, cho thấy mơ hình dự đốn xác, sai số trung bình khoảng 1.5 đơn vị 48 ➢ Mean Squared Error (MSE) 5.003, tương đối thấp MSE cao MAE điều bình thường MSE tính bình phương sai số ➢ Hệ số R-squared đạt 0.537, tức mơ hình giải thích 53.7% biến thiên biến đầu Đây mức trung bình khá, cịn cải thiện Nhìn chung, mơ hình tương đối khả quan Tuy nhiên, Decision Tree Classifier cải tiến mơ hình theo số tham số khác để mơ hình có hiệu suất cao Cải tiến mơ hình RandomForestRegressor Cũng giống Decision Tree Classifier thêm số siêu tham số : criterion , min_samples_leaf, min_samples_split, max_depth để cải tiến mơ hình Hình 29: Cải tiến mơ hình Random Forest Sau cải tiến mơ hình thu kết : 49 Hình 30: Kết mơ hình sau cải tiến Chúng ta đưa số nhận xét sau cải tiến mơ sau: ➢ Mean Absolute Error (MAE) giảm nhẹ từ 1.571 xuống 1.549, cho thấy sai số trung bình giảm, mơ hình dự đốn xác chút ➢ Mean Squared Error (MSE) giảm từ 5.003 xuống 4.933, sai số bình phương trung bình nhỏ ➢ Hệ số R-squared tăng nhẹ từ 0.537 lên 0.544, nghĩa mơ hình giải thích 54.4% biến thiên biến đầu ra, cao so với trước Nhìn chung, số đánh giá mơ hình có cải thiện nhẹ Điều cho thấy việc tinh chỉnh siêu tham số có tác dụng tích cực, giúp nâng cao khả dự đốn mơ hình Chương KẾT LUẬN Trong suốt q trình thực đồ án chuyên ngành với đề tài “Phân loại bào ngư mơ hình định” nhóm chúng em đạt nhiều kinh nghiệm trải nghiệm quý báu Chúng em đạt kết sau: - Được tìm hiểu nắm vững kiến thức mơ hình như: Cây định, ID3 - Thành công xây dựng mô hình định để phân loại bào ngư dựa thông số - Thiết kế mô hình có tính linh hoạt để ứng dụng sang nhiều tốn Tuy xây dựng mơ hình học máy để tiến hành phân loại bào ngư qua thơng số với độ xác cao phần đánh giá, nhiên số hạn chế như: - Bộ liệu giả định đặc trưng đầu vào độc lập thực tế tồn phụ thuộc chúng làm giảm hiệu suất mơ hình - Khó diễn giải có nhiều tầng 50 Dù cố gắng hết sức, với giới hạn lực kiến thức, chúng em nhận thức rõ cịn nhiều hành trình phía trước để nghiên cứu phát triển Những hạn chế liệt kê phương hướng giúp chúng em phát triển tương lai: - Tối ưu hóa tham số đầu vào để đảm bảo mơ hình xác - Huấn luyện mơ hình có độ xác cao - Áp dụng biện pháp kiểm soát nhiều để giảm thiểu ảnh hưởng liệu lên mô hình Chúng em xin gửi lời cảm ơn chân thành tới thầy giáo, tiến sĩ Nguyễn Mạnh Cường tận tình hướng dẫn em thực đề tài Chúng em xin chúc thầy luôn mạnh khỏe thành công nghiên cứu tới Chúng em xin trân trọng cảm ơn! 51 Tài liệu tham khảo Tài liệu tiếng Việt: [1] Vũ Hữu Tiệp, 2020, “Machine Learning Cơ Bản” [2] Nguyễn Phương Nga 2021, “Giáo trình trí tuệ nhân tạo” Website: [3]Decision Tree Algorithm, URL: Decision Tree algorithm — Machine Learning cho liệu dạng bảng (machinelearningcoban.com), truy cập gần nhất: 15/12/2023 52

Ngày đăng: 12/01/2024, 21:51

Tài liệu cùng người dùng

Tài liệu liên quan