đề tài dự báo thời tiết bằng học máy có giám sát

45 0 0
Tài liệu đã được kiểm tra trùng lặp
đề tài dự báo thời tiết bằng học máy có giám sát

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬTKHOA HỆ THỐNG THÔNG TIN

BÁO CÁO CUỐI KỲ MÔN HỌC

TÊN MÔN HỌC: PHƯƠNG PHÁP NGHIÊN CỨU LIÊN NGÀNHMÃ HỌC PHẦN:231PP0801

TÊN ĐỀ TÀI

DỰ BÁO THỜI TIẾT BẰNG HỌC MÁY CÓ GIÁM SÁT

Giảng viên hướng dẫn: TS Nguyễn Thôn Dã Nhóm thực hiện: Nhóm Soursop

Danh sách thành viên nhóm:

1 K214061262, Mai Thị Thương

2 K224060799, Bùi Thị Hồng Ngát 3 K224060800, Nguyễn Thị Thanh Ngân 4 K224060822, Nguyễn Phương Tuyền 5 K224060825, Trần Thị Hiếu Xuân 6 K224111424, Trần Nguyễn Hoài Thư

Thành phố Hồ Chí Minh, ngày 2 tháng 12 năm 2023

Trang 3

Lời cảm ơn của nhóm

Trước tiên, chúng em muốn bày tỏ lòng biết ơn đến Trường Đại học Kinh tế - Luật - Đại học Quốc gia Thành phố Hồ Chí Minh vì đã sắp xếp môn học Phương pháp nghiên cứu liên ngành vào chương trình giảng dạy.

Đặc biệt, để hoàn thành bài báo cáo này, chúng em muốn gửi lời cảm ơn chân thành tới Thầy Nguyễn Thôn Dã – giảng viên bộ môn môn Phương pháp nghiên cứu liên ngành đã tận tình truyền đạt những kiến thức bổ ích cho chúng em Những bài giảng của Thầy đã cung cấp cho chúng em kiến thức hữu ích và thú vị Trong quá trình được giảng dạy, nhóm đã có được nhiều kiến thức mới về chuyên ngành với tinh thần học tập nghiêm túc Những kiến thức này chắc chắn là hành trang vững chắc cho những môn học sau này Trong quá trình hoàn thành đồ án, nhóm đã vận dụng những kiến thức mà thầy đã dạy Tuy nhiên, do còn non trẻ với vốn kiến thức và kinh nghiệm còn nhiều lỗ hổng, nhóm em không thể tránh khỏi những thiếu sót Rất mong thầy có thể nhận xét, góp ý, phê bình cho nhóm Những lời góp ý quý báu của thầy chắc chắn sẽ là những kinh nghiệm to lớn cho nhóm em

Nhóm xin chân thành cảm ơn thầy! Chúng em xin chân thành cảm ơn và chúc Thầy có thật nhiều sức khỏe, cũng như đạt được nhiều thành công hơn nữa trong sự nghiệp giảng dạy

Chúng em xin chân thành cảm ơn!

Thành phố Hồ Chí Minh, ngày 2 tháng 12 năm 2023 Tập thể thành viên nhóm

Trang 4

Lời cam kết

Chúng tôi cam đoan kết quả nghiên cứu này là của riêng chúng tôi, chúng tôi khẳng định không sao chép kết quả nghiên cứu của những cá nhân hoặc nhóm nghiên cứu nào khác Trong quá trình nhóm nghiên cứu đề tài có sự hướng dẫn của giảng viên bộ môn Thầy Nguyễn Thôn Dã và có tham khảo các nguồn tài liệu đã được nêu rõ trong phần tài liệu tham khảo

Thành phố Hồ Chí Minh, ngày 2 tháng 12 năm 2023 Tập thể thành viên nhóm

Mục lục

Trang 5

NỘI DUNG 1

Phần 1: Giới thiệu 1

1 Giới thiệu khát quát chung 1

2 Phát biểu bài toán và lý do chọn bài toán 2

3 Mục đích của mô hình 2

Phần 2: Các nghiên cứu liên quan 4

1 Dự đoán thời tiết: nắng, mưa 4

2 Phương pháp phân tích dự đoán liên quan 4

Phần 3: Phương pháp luận nghiên cứu 6

1 Mô hình học máy có giám sát 6

2 Lý do chọn mô hình (so sánh với học máy không có giám sát) 6

3 Các mô hình áp dụng của học máy có giám sát 7

Phần 4: Mô tả, phân tích tổng quan về dữ liệu 13

1 Tổng quát về dữ liệu phân tích 13

Trang 6

Danh mục biểu đồ

Biểu đồ 1 Biểu đồ pair plot -15

Biểu đồ 2 Biểu đồ heatmap (biểu đồ nhiệt) -16

Biểu đồ 3 Biểu đồ dạng count plot (biểu đồ cột đếm) -16

Biểu đồ 4 Biểu đồ boxplot so sánh phân phối của các biến số liên tục -17

Biểu đồ 5 Biểu đồ histogram với KDE -19

Biểu đồ 6 Biểu đồ histogram với KDE -22

Biểu đồ 7 Biểu đồ histogram cho tần suất của từng biến -23

Biểu đồ 8 Biểu đổ hộp (boxplot) -24

Biểu đồ 9.So sánh độ chính xác trên tập huấn luyện của các mô hình -29

Biểu đồ 10 So sánh độ chính xác trên tập kiểm tra -30

Trang 7

Danh mục hình ảnh

Hình 1 Ví dụ về học máy có giám sát -7

Hình 2 Ví dụ về cách hoạt động của mô hình KNN -8

Hình 3 Cách mô hình đó xác định hyperplane và khoảng margin -10

Hình 4 Tính toán sai số dự đoán -11

Trang 8

Danh mục từ viết tắt

KNN K-nearest neighbor KDE Kernel Density

XGBoost Extreme Gradient Boosting GBC Gradient Boosting Classifier SVM Support Vector Machine ML Machine learning

DNN Deep neural networks

Trang 9

NỘI DUNGPhần 1: Giới thiệu 1 Giới thiệu khát quát chung

Dự báo thời tiết là việc phân tích dữ liệu thời tiết hiện tại và sử dụng các mô hình khí tượng để dự đoán tình hình thời tiết trong tương lai Việc dự báo trước đây được thực hiện bằng tay, sử dụng thay đổi áp suất khí quyển, thời tiết hiện tại điều kiện và tình trạng bầu trời hoặc mây che phủ Dự báo thời tiết là một bài toán phức tạp, đòi hỏi sự kết hợp từ nhiều yếu tố như yếu tố khí tượng, thủy văn, địa lý và thậm chí là các yếu tố xã hội Dự báo thời tiết là một dự báo quan trọng vì nó cung cấp thông tin liên tục cho mọi người nhằm bảo vệ cuộc sống của con người cũng như tài sản của họ và giúp duy trì, khắc phục sự cố cần thiết đối với những hoạt động ngoài trời.Dự báo thời tiết là một công cụ quan trọng trong đời sống hiện đại Nhờ những tiến bộ trong công nghệ, dự báo thời tiết ngày càng chính xác và kịp thời, góp phần nâng cao hiệu quả hoạt động của nhiều lĩnh vực trong đó có lĩnh vực hàng không.

Thiên tai là những hiện tượng thời tiết bất thường gây ra những thiệt hại nặng nề về người và của Nếu không có dự báo thời tiết, con người sẽ không thể biết trước được khi nào thiên tai xảy ra, mức độ nghiêm trọng ra sao Điều này khiến người dân rơi vào thế bị động, không kịp ứng phó, dẫn đến những thiệt hại đáng tiếc Dự báo thời tiết là một vấn đề quan trọng luôn được cập nhật và được thông báo tới toàn người dân trên địa phương hàng ngày để có những biện pháp, giải pháp ứng phó kịp thời Để chủ động ứng phó với thiên tai, Đài khí tượng Thủy văn đã và đang nghiên cứu, khai thác và sử dụng những mô hình các trang thiết bị, công nghệ tiên tiến phục vụ cảnh báo, dự báo.

Các thuật toán học máy đã trở thành công cụ được sử dụng rộng rãi cho việc giải quyết các bài toán dự đoán phức tạp trong đó có dự báo thời tiết trong thời gian gần đây So với các phương pháp truyền thống, phương pháp sử dụng học máy có những ưu điểm:

- Tính linh hoạt cao: học máy có thể được sử dụng để dự báo các yếu tố thời tiết khác

nhau từ nhiệt độ, áp suất, độ ẩm đến lượng mưa, tốc độ gió, được áp dụng trong nhiều lĩnh vực khác nhau từ y tế đến tài chính và giáo dục, giúp tự động hóa các tác vụ phức tạp, giảm thiểu sự phụ thuộc vào con người và tăng hiệu quả làm việc.

- Dự đoán chính xác: học máy có thể dự đoán kết quả chính xác hơn, giảm thiểu sai sót

và tăng độ chính xác

- Xử lý dữ liệu lớn: học máy có thể xử lý lượng lớn dữ liệu một cách nhanh chóng và

hiệu quả, giúp tăng tốc độ xử lý và giảm thời gian.

1

Trang 10

Học máy có giám sát là một phương pháp học máy sử dụng dữ liệu đã được dán nhãn để đào tạo mô hình Trong trường hợp này, dữ liệu đã được dán nhãn là dữ liệu về thời tiết, bao gồm thông tin về nhiệt độ, mực nước, lượng mưa, cường độ gió,

2 Phát biểu bài toán và lý do chọn bài toán

Các mô hình vật lý truyền thống có thể dự đoán thời tiết chính xác, nhưng chúng không phải lúc nào cũng có thể sử dụng được, chẳng hạn như trong các khu vực có dữ liệu hạn chế trong các tình huống khẩn cấp Trong những trường hợp này, Machine learning có thể được sử dụng như một giải pháp thay thế hiệu quả.

Dự báo thời tiết là mộ thông tin quan trọng, hữu ích cho cuộc sống của con người Dự báo thời tiết giúp con người chủ động lập kế hoạch cho các hoạt động của mình từ lao động, sản xuất, du lịch đến tham gia các hoạt động ngoài trời biết trước tình hình thời tiết như thế nào giúp chúng ta có thể thích nghi và ứng phó kịp thời Giải pháp duy nhất giúp cho đời sống của người dân được cải thiện và nâng cao, nền kinh tế - văn hóa – xã hội ngày một đi lên đó là ứng dụng công nghệ kỹ thuật trong việc dự đoán thời tiết, đưa ra các con số cụ thể và cảnh báo tình hình thiên tai kịp thời, đúng lúc.

Việc lựa chọn đề tài dự đoán thời tiết bằng học máy có giám sát là một lựa chọn phù hợp và cần thiết ngày nay, mô hình dự đoán thời tiết bằng học máy có giám sát có thể được sử dụng để dự đoán thời gian xảy ra mưa, cường độ mưa, mức độ mưa, Dựa trên dự đoán này, các cơ quan chức năng có thể đưa ra các cảnh báo sớm về thời tiết, giúp người dân kịp thời sơ tán đến nơi an toàn vào những trường hợp khẩn cấp Mô hình dự đoán thời tiết bằng học máy có giám sát có thể được sử dụng để dự đoán lượng mưa trong tương lai Dựa trên dự đoán này, các doanh nghiệp nông nghiệp có thể lên kế hoạch sản xuất nông nghiệp một cách hiệu quả.

Nhóm đã xây dựng một mô hình dự đoán thời tiết dựa trên các thông số thời tiết hiện tại và các thuật toán học máy có giám sát Mô hình này có thể dự báo thời tiết chính xác và kịp thời, giúp người dân có thể chủ động lập kế hoạch và ứng phó với các hiện tượng thời tiết bất thường.

3 Mục đích của mô hình

Đưa ra được các dự báo tình trạng thời tiết mưa hay nắng dựa trên các thông số về lượng mưa, nhiệt độ, sức gió…

Mục đích xây dựng mô hình dự đoán tình hình thời tiết bằng học máy có giám sát là cung cấp thông tin dự báo thời tiết một cách đơn giản và dễ hiểu cho người dùng Nếu kết quả dự báo là các thông đô thời tiết, thì người dùng hoặc các hệ thống tự động cần phải phân tích các thông số này để hiểu được tình hình thời tiết Điều này có thể gây khó khăn cho người dùng, đặc biệt là những người không có chuyên môn về thời tiết Mô hình phân loại mưa hay không mưa giúp cung cấp thông tin dự báo thời tiết một cách đơn giản và dễ hiểu Người dùng chỉ cần nhìn vào kết quả dự báo là có thể biết được trời sẽ mưa

Trang 11

hay không mưa Điều này giúp người dùng có thể chủ động trong các hoạt động của mình.

Đề tài sẽ nghiên cứu, xây dựng các mô hình học máy có giám sát góp phần nâng cao hiệu quả dự báo thời tiết, giảm thiểu thiệt hại do các hiện tượng thời tiết gây ra Các mô hình này sẽ được đánh giá về độ chính xác, độ tin cậy và khả năng áp dụng thực tế Đưa ra các cảnh báo sớm về tình hình, chủ động đưa ra các lựa chọn phù hợp với thời tiết đã được dự báo, dự đoán

3

Trang 12

Phần 2: Các nghiên cứu liên quan 1 Dự đoán thời tiết: nắng, mưa

Với sự phát triển của công nghệ học máy và sự hợp tác của các nhà khoa học, các nhà nghiên cứu và các cơ quan quản lý, việc dự đoán thời tiết bằng học máy có thể trở thành một công cụ hiệu quả để giúp ích cho đời sống mọi người.

Dữ liệu đầu vào bao gồm các thông tin như: nhiệt độ, lượng mưa, tần suất gió…Dữ liệu đầu ra bao gồm dự đoán về tình trạng thời tiết như nắng hay mưa Dự báo thời tiết là một công cụ quan trọng trong nhiều lĩnh vực, đặc biệt là nông nghiệp, công nghiệp Tuy nhiên, độ chính xác của các phương pháp dự báo truyền thống còn hạn chế Mô hình học máy có giám sát là một giải pháp mới có thể giúp cải thiện độ chính xác của dự báo thời tiết Mô hình này sử dụng các thuật toán học máy để phân tích dự liệu môi trường, từ đó đưa ra dự đoán về tình hình thời tiết trong tương lai Việc triển khai mô hình học máy có giám sát trong dự báo thời tiết sẽ mang lại nhiều lợi ích cho nhiều lĩnh vực Trong nông nghiệp, mô hình này có thể giúp nông dân đưa ra quyết định trồng trọt, thu hoạch phù hợp với tình hình thời tiết Trong nông nghiệp, mô hình này có thể giúp các nhà máy sản xuất chủ động trong việc điều chỉnh hoạt động sản xuất, tránh những thiệt hại do thời tiết gây ra.

2 Phương pháp phân tích dự đoán liên quan

Các thuật toán học máy đang được sử dụng rộng rãi để giải quyết các bài toán dự đoán ở khắp nơi trên thế giới Đề tài dự báo thời tiết cũng đã được các nhà nghiên cứu đưa vào làm đề tài nghiên cứu trước đó bằng những thuận toán khác nhau Được biết đến và ứng dụng nhiều phải kể đến những thuật toán như: Support Vector Machine (SVM), Naive Bayes, Nearest Neighbor, Linear Regression, Decision Trees,…

Các nghiên cứu về dự báo thời tiết thường sử dụng dữ liệu lịch sử từ các website lưu trữ Dữ liệu này được sử dụng để xây dựng các mô hình dự báo, từ đó dự báo thông qua các thông số thời tiết như: nhiệt độ, độ ẩm, tốc độ gió, số giờ nắng …

Trong một bài nghiên cứu vào năm 2020 điển hình ở Tennessee về dự báo thời tiết thông minh bằng cách sử dụng máy học Trong bài báo này đã trình bày một công nghệ sử dụng máy học kỹ thuật cung cấp dự báo thời tiết, ít tiêu tốn tài nguyên hơn và có thể dễ dàng chạy trên hầu hết mọi máy tính kể cả thiết bị di động thiết bị Trong nghiên cứu này vì các kết quả dự đoán là số liên tục giá trị họ đã sử dụng thuật toán hồi quy rừng ngẫu nhiên - Random Forest Regression (RFR), thấy rằng RFR (Random Forest Regression) là biến hồi quy ưu việt, vì nó tập hợp nhiều cây quyết định trong khi đưa ra quyết định Ngoài ra, họ còn hiển thị sự so sánh của một số ML hiện đại khác kỹ thuật bằng kỹ thuật RFR Hồi quy kết hợp các kỹ thuật là Hồi quy sườn (Ridge), Support Vector (SVR), Multi-layer Perceptron (MLPR), và Extra-Tree Regression (ETR) Kết quả đánh giá của họ cho thấy rằng những máy học này các mô hình có thể dự đoán các đặc điểm thời tiết đủ chính xác để cạnh tranh với các mô hình truyền thống Sử dụng dữ liệu lịch sử từ khu vực xung quanh để dự đoán thời tiết của một khu vực cụ thể Họ biểu diễn rằng nó hiệu quả hơn là chỉ xem xét lĩnh vực mà dự báo thời tiết được thực hiện.

Trang 13

Trong tương lai, họ có kế hoạch sử dụng Internet of Things (IoT) với chi phí thấp, chẳng hạn như cảm biến nhiệt độ và độ ẩm, trong việc thu thập dữ liệu thời tiết từ các khu vực khác nhau của thành phố Việc sử dụng khác nhau cảm biến có thể tăng số lượng tính năng cục bộ trong quá trình đào tạo tập dữ liệu Dữ liệu này, cùng với dữ liệu trạm thời tiết, sẽ tiếp tục cải thiện hiệu suất dự đoán.

Trong bài nghiên cứu khác về dự đoán thời tiết bằng kỹ thuật học máy.Trong bài báo này, dữ liệu thời tiết được xem xét với các phương pháp khác nhau để dự báo thời tiết Thí nghiệm dự báo thời tiết được thực hiện để phân tích hiệu suất của các kỹ thuật học máy khác nhau Các nhà nghiên cứu đã đào tạo ba mô hình khác nhau trên dữ liệu SVM này, ANN (artificial neural network ) và RNN (Recurrent Neural Network) Sau đó chúng tôi sử dụng những mô hình này để dự đoán thời tiết và tính sai số bình phương trung bình gốc từ nhiệt độ thực tế Từ quan sát dự án này, chúng tôi phát hiện ra rằng sử dụng RNN là phương pháp tốt hơn để dự báo thời tiết.

5

Trang 14

Phần 3: Phương pháp luận nghiên cứu 1 Mô hình học máy có giám sát

Máy học là một kỹ thuật máy tính xây dựng những thuật toán và mô hình thống kê mà các hệ thống máy tính sử dụng để thực hiện các tác vụ dựa vào dữ liệu mẫu và thống lê suy luận mà không cần hướng dẫn cụ thể Các hệ thống máy tính sử dụng thuật toán máy học để xử lý khối lượng lớn dữ liệu huấn luyện và xác định các khuôn mẫu dữ liệu Quá trình này tạo ra một hàm ánh xạ dự đoán kết quả chính xác hơn từ cùng một tập dữ liệu đầu vào cho trước Ví dụ: ta có thể đào tạo một ứng dụng y tế chẩn đoán ung thư từ ảnh chụp X-quang bằng cách lưu trữ hàng triệu ảnh quét và chẩn đoán tương ứng và huấn luyện máy tính đưa ra kết quả dự đoán dựa trên hình ảnh đầu vào.

Học máy có giám sát: thuật toán tạo ra một hàm ánh xạ dữ liệu vào tới kết quả mong muốn Học máy có giám sát là bài toán phân loại, phân thành các kết quả dự đoán: ta có các biến đầu vào (X) và biến đầu ra (Y), chương trình học máy có giám sát cần được đào tạo sử dụng thuật toán để tìm hiểu hàm ánh xạ từ đầu vào đến đầu ra, để khi bạn có dữ liệu đầu vào mới (X) và hàm ánh xạ có thể dự đoán các biến đầu ra (Y) Phương pháp này được gọi là việc học có giám sát bởi vì chúng ta biết câu trả lời đúng của bài toán đưa vào, thuật toán máy tính sẽ lặp đi lặp lại làm cho việc dự đoán liên tục được hoàn thiện, và việc học dừng lại khi thuật toán đạt được mức hiệu suất ở mức chấp nhận được Quá trình huấn luyện mô hình được giám sát chặt chẽ

Học máy có giám sát đưa các vấn đề về bài toán phân loại và hồi quy.

Phân loại (Classification): Bài toán phân loại diễn ra khi biến đầu ra là một nhãn dán cụ thể nào đó, chẳng hạn như “hợp lệ” và “không hợp lệ”, “đúng” và “sai”, “xác định” và “không xác định”

Hồi quy (Regression): Bài toán hồi quy xảy ra khi biến đầu ra là một giá trị thực, chẳng hạn như đơn vị tiền tệ, đơn vị đo lường vật lí,…

2 Lý do chọn mô hình (so sánh với học máy không có giám sát)

Nhóm lựa chọn mô hình học máy có giám sát có khả năng dự đoán chính xác hơn so với các mô hình học máy không giám sát Mô hình học máy có giám sát sử dụng dữ liệu đầu vào và đầu ra được gắn nhãn để đào tạo mô hình, học hỏi từ dữ liệu dưới sự giám sát từ bên ngoài Cụ thể hơn, chúng sẽ chứa một mô hình có thể dự đoán, với sự tập hợp của các dữ liệu đã được gắn nhãn trước đó Dữ liệu được gắn nhãn là những dữ liệu mà ta đã biết câu trả lời đích Ví dụ, nếu dự đoán thời tiết tại 1 khu vực, các dữ liệu đã được gắn nhãn là các dữ liệu về thời tiết tại khu vực đó trong quá khứ Mô hình học máy có giám sát sẽ được “huấn luyện” để quan sát và tự phân tích để tìm hiểu sự liên kết giữa các dữ liệu, dựa vào các đặc điểm như độ ẩm, nhiệt độ, lượng mưa,… Sau khi máy đã tìm hiểu và học hỏi xong, nó có thể dự đoán, dự báo thời tiết trong tương lai với độ chính xác cao

Trang 15

hơn dựa trên các dữ liệu đầu vào mới (các yếu tố thời tiết như nhiệt độ, lượng mưa, tốc độ gió, ) mà không cần gắn nhãn trước đó

Trong khi đó, mô hình học máy không giám sát, được huấn luyện dựa trên dữ liệu không gắn nhãn Các thuật toán này quét qua dữ liệu mới và thiết lập kết nối có ý nghĩa giữa dữ liệu đầu vào chưa xác định và kết quả định sẵn Tuy nhiên, trong trường hợp dự đoán, dự báo về thời tiết, việc sử dụng mô hình học máy không giám sát có thể không hiệu quả bằng mô hình học máy có giám sát do sự phức tạp của dữ liệu và sự khó khăn trong việc xác định các mối quan hệ giữa các biến đầu vào và đầu ra

Do đó, lựa chọn mô hình học máy có giám sát giúp cho việc dự đoán, dự báo thời tiết trong tương lai trở nên chính xác hơn và giúp cho mọi người có sự chuẩn bị cho mình tốt hơn.

3 Các mô hình áp dụng của học máy có giám sát

7

Trang 16

Một bài toán được gọi là classification nếu các nhãn của dữ liệu đầu vào được chia

thành một số hữu hạn nhóm Ví dụ: hệ thống nhận diện khuôn mặt xác định xem một khuôn mặt/vân tay có thuộc về người dùng hợp lệ hay không; máy bán nước tự động xác định tờ tiền đưa vào có phải là tiền thật hay không,…

Với dự án dự báo thời tiết có 5 kiểu thời tiết, dự án này là 1 bài toán classification Mục tiêu của mô hình phân loại là học cách ánh xạ từ các đặc trưng của dữ liệu đầu vào tới các nhãn hoặc lớp tương ứng.

Mô hình chạy classification được tiến hành theo cách trình tự:

 Thu thập dữ liệu: Thu thập và chuẩn bị dữ liệu để sử dụng trong quá trình huấn luyện và đánh giá mô hình Dữ liệu này bao gồm các đặc trưng (features) và nhãn (labels) hoặc lớp (classes) tương ứng với mỗi đối tượng.

 Phân chia dữ liệu: Phân chia dữ liệu thành tập huấn luyện và tập kiểm thử Tập huấn luyện được sử dụng để huấn luyện mô hình, trong khi tập kiểm thử được sử dụng để đánh giá hiệu suất của mô hình.

 Chọn mô hình, huấn luyện và đánh giá mô hình: chạy mô hình bằng dữ liệu từ tập huấn luyện và tập kiểm thử.

Hình 1 Ví dụ về học máy có giám sát

Trang 17

 Tối ưu hóa mô hình: điều chỉnh các tham số cho tới khi mô hình đạt độ chính xác mong muốn

3.1.K-nearest neighbor

9

Trang 18

Mô hình phân loại K-nearest neighbor (KNN) trong học máy, nó đánh giá hiệu suất của mô hình dựa trên tập huấn luyện và tập kiểm thử Để dự đoán nhãn của một điểm dữ liệu mới, KNN tìm K điểm dữ liệu trong tập dữ liệu huấn luyện gần nhất với điểm đó dựa trên khoảng cách Khoảng cách này có thể được tính bằng cách so sánh các đặc trưng của các điểm dữ liệu KNN sẽ sử dụng đa số các nhãn của dữ liệu gần nhất, xuất hiện nhiều nhất sẽ được chọn là nhãn dự đoán.

Trong ví dụ trên này, nếu chúng ta đặt k = 1, chúng ta có thể thấy rằng điểm gần nhất đầu tiên với mẫu màu xám là một điểm dữ liệu màu đỏ Do đó, điểm sẽ được phân loại là màu đỏ.

Một điều cần lưu ý là nếu giá trị của k được đặt quá thấp, nó có thể bị ngoại lệ Mặt khác, nếu giá trị của k được đặt quá cao thì nó có thể bỏ qua các lớp chỉ có một vài mẫu.

 Ưu điểm:

 Đơn giản và dễ hiểu: KNN là một thuật toán đơn giản và dễ hiểu Không cần giả định phân phối dữ liệu hay học một mô hình phức tạp.

 Khả năng xử lý dữ liệu phi cấu trúc: KNN có khả năng xử lý dữ liệu phi cấu trúc, không yêu cầu các giả định về cấu trúc dữ liệu Điều này cho phép nó áp dụng cho nhiều loại dữ liệu, bao gồm cả dữ liệu văn bản, hình ảnh, và âm thanh.

 Hiệu suất tốt đối với tập dữ liệu nhỏ: KNN hoạt động tốt trên các tập dữ liệu nhỏ với số lượng mẫu ít Nó không đòi hỏi quá nhiều tính toán trước khi thực hiện dự đoán.

Hình 1 Ví dụ về cách hoạt động của mô hình KNN

Trang 19

 Dễ dàng tinh chỉnh tham số: K là tham số quan trọng trong thuật toán KNN Việc điều chỉnh giá trị K có thể ảnh hưởng đến hiệu suất của thuật toán Tuy nhiên, việc tinh chỉnh K là khá dễ dàng và có thể được thực hiện thông qua quá trình thử và sai.

 Nhược điểm:

 Phụ thuộc vào kích thước dữ liệu: KNN có hiệu suất giảm khi tập dữ liệu lớn vì việc tính toán khoảng cách giữa các điểm dữ liệu mất nhiều thời gian KNN không phải là thuật toán phù hợp cho việc xử lý các tập dữ liệu lớn.

 Nhạy cảm với nhiễu và dữ liệu không đồng nhất: KNN dễ bị ảnh hưởng bởi các nhiễu trong dữ liệu và các điểm dữ liệu nằm trong các lớp khác nhau gần nhau Điều này có thể dẫn đến việc phân loại không chính xác hoặc không ổn định.

 Cần xử lý các biến số và mất cân bằng dữ liệu: KNN không xử lý được các biến số khác nhau và cần sự cân bằng dữ liệu trong các lớp khác nhau Nếu một lớp có số lượng mẫu nhiều hơn so với lớp khác, KNN có thể dễ dàng bị thiên vị và cho ra kết quả không chính xác.

 Yêu cầu lưu trữ toàn bộ dữ liệu huấn luyện: KNN yêu cầu lưu trữ toàn bộ dữ liệu huấn luyện trong bộ nhớ để tính toán khoảng cách và tìm điểm dữ liệu gần nhất Điều này có thể là một vấn đề khi làm việc với các tập dữ liệu lớn và yêu cầu nhiều tài nguyên.

3.2.Support Vector Machine

SVM là một thuật toán giám sát, nó có thể sử dụng cho cả việc phân loại hoặc đệ quy Tuy nhiên nó được sử dụng chủ yếu cho việc phân loại Trong thuật toán này, chúng ta vẽ đồ thị dữ liệu là các điểm trong n chiều (n là số lượng các tính năng) Sau đó chúng ta thực hiện tìm đường phân chia các lớp Hyper-plane nó chỉ hiểu đơn giản là 1 đường thẳng/1 mặt phẳng/1 siêu phẳng (tùy chiều không gian) có thể phân chia các lớp ra thành hai phần riêng biệt.

11

Trang 20

Giả sử rằng có hai lớp dữ liệu Support Vector Machine sẽ tìm một siêu phẳng (hyperplane) hoặc ranh giới giữa hai lớp dữ liệu để tối đa hóa lề (margin) giữa hai lớp (xem ở trên) Có nhiều mặt phẳng có thể tách hai lớp, nhưng chỉ một mặt phẳng có thể tối đa hóa lề hoặc khoảng cách giữa các lớp.

 Ưu điểm:

 Xử lý trên không gian số chiều cao: SVM tính toán hiệu quả trong không gian chiều cao, đặc biệt áp dụng cho các bài toán phân loại văn bản và phân tích quan điểm nơi chiều có cỡ chiều cao cực kỳ lớn.

 Yêu cầu bộ nhớ thấp hơn: chỉ có một tập hợp con của các điểm được sử dụng trong quá trình huấn luyện và ra quyết định thực tế, nên chỉ có những điểm cần thiết mới được lưu trữ trong bộ nhớ khi ra quyết định.

 Tính linh hoạt - phân lớp thường là phi tuyến tính: hiệu suất phân loại lớn hơn nhờ khả năng ứng dụng dụng Kernel mới, cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính

 Nhược điểm:

 Bài toán số chiều cao: Nếu số lượng thuộc tính của tập dữ liệu lớn hơn rất nhiều so với số lượng dữ liệu thì SVM cho kết quả kém hiệu quả

 Chưa thể hiện rõ tính xác suất: Việc phân lớp của SVM chỉ cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu phẳng SVM Điều này chưa giải thích được xác suất xuất hiện của một đối tượng trong một phân loại là như thế nào.

3.3.Gradient Boosting

Hình 2 Cách mô hình đó xác định hyperplane và khoảng margin

Trang 21

Gradient Boosting là một kỹ thuật tối ưu hóa mô hình dự đoán bằng cách kết hợp các mô hình yếu thành một mô hình dự đoán mạnh mẽ hơn, bằng cách tính sai số dự đoán r và điều chỉnh các trọng số của mô hình yếu nhằm giảm sai số Nó thường được sử dụng để giải quyết cả nhiều loại vấn đề dự đoán khác nhau và có hiệu suất cao trên nhiều tập dữ liệu Gradient Boosting sử dụng độ dốc để xác định độ chính xác của máy học, áp dụng hàm mất mát (loss function) cho mô hình Các hàm mất mát là một cách để đo lường độ chính xác của sự phù hợp của mô hình trên tập dữ liệu, tính toán lỗi và tối ưu hóa mô hình để giảm lỗi đó Gradient Boosting cho phép người dùng tối ưu hóa một hàm tổn thất được chỉ định dựa trên mục tiêu mong muốn của họ

 Ưu điểm:

 Hiệu suất cao: Gradient Boosting thường cung cấp hiệu suất cao và có khả năng xử lý các tập dữ liệu phức tạp, không tuyến tính.

 Có tính tổng hợp các mô hình yếu: Gradient Boosting kết hợp nhiều cây quyết định yếu thành một mô hình mạnh hơn.

 Khả năng xử lý: Xử lý dữ liệu thiếu và có khả năng xử lý nhanh chóng các tập dữ liệu

Trang 22

Nhạy cảm với dữ liệu nhiễu, yêu cầu điều chỉnh tham số cẩn thận

3.4.Extreme Gradient Boosting (XGBoost)

XGBoost (Extreme Gradient Boosting) là một thuật toán học máy hiệu quả cao Phương thức hoạt động là kết hợp các kỹ thuật để điều chỉnh các trọng số lỗi trên các mô hình yếu để tạo ra một mô hình mạnh hơn Nguyên tắc thuật toán XGBoost là đưa ra mô hình tối ưu dựa trên cây quyết định và kỹ thuật tăng cường độ dốc (Gradient Boosting) Các cây mới sinh ra tuần tự được giảm thiểu lỗi từ cây trước đó bằng cách học lại lỗi của cây trước đó, thực hiện sửa lỗi để được cây tốt hơn.

XGBoost (Extreme Gradient Boosting) là phiên bản hiệu quả hơn của Gradient Boosting, thể hiện ở các khía cạnh:

 Tốc độ xử lý: tốc độ xử lý có thể tăng gấp 10 lần so với GBM XGBoost thực hiện tính toán song song Ngoài ra, XGboost còn hỗ trợ tính toán trên Hadoop.

 Overfitting: cơ chế Regularization giúp XGBoost hạn chế đáng kể hiện tượng Overfitting Đây là điểm mà GBM không có.

 Tính linh hoạt: XGboost cho phép người dùng sử dụng hàm tối ưu và chỉ tiêu đánh giá của riêng họ, không bị hạn chế bởi những hàm cung cấp sẵn.

 Xử lý dữ liệu thiếu: XGBoost bao gồm cơ chế tự động xử lý dữ liệu thiếu nên có thể bỏ qua bước này khi chuẩn bị dữ liệu cho XGBoost.

 Tự động cắt tỉa: Tính năng tree pruning hỗ trợ việc tự động bỏ qua những leaves, nodes không mang giá trị tích cực trong quá trình mở rộng tree.

Phần 4: Mô tả, phân tích tổng quan về dữ liệu 1 Tổng quát về dữ liệu phân tích

Ngày đăng: 01/05/2024, 08:28

Tài liệu cùng người dùng

Tài liệu liên quan