báo cáo bài tập lớn học phần học máy đề tài phân loại điểm tín dụng

11 0 0
Tài liệu đã được kiểm tra trùng lặp
báo cáo bài tập lớn học phần học máy đề tài phân loại điểm tín dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trong báo cáo này, tôi sẽ trình bày về các phương pháp phân loại điểm tín dụng cũng như sử dụng các thuật toán máy học để phân loại điểm tín dụng.. Tóm lại, phân loại môn học máy là quá

Trang 1

PHÂN HIỆU TRƯỜNG ĐẠI HỌC THỦY LỢI KHOA CÔNG NGHỆ THÔNG TIN

-*** -

BÁO CÁO BÀI TẬP LỚN HỌC PHẦN “HỌC MÁY” Đề tài: PHÂN LOẠI ĐIỂM TÍN DỤNG GVHD: VŨ THỊ HẠNH Sinh viên thực hiện: Võ Quốc Cường _ S23-62TH Trần Minh Phúc _ S23-62TH Bình Thạnh ,ngày 17 tháng 6 năm 2023.MỤC LỤC LỜI CẢM ƠN 3

LỜI MỞ ĐẦU 4

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 5

1.1: Khái niệm 5

1.1.1:Phân loại là gì? 6

Trang 2

CHƯƠNG II: TRÌNH BÀY THUẬT TOÁN 6

2.1: Các bước trình bày bài toán 8

CHƯƠNG III: BÀI TOÁN 8

3.1: Mô tả bài toán 9

3.2: Phân tích bàitoán 10

3.2: Triển khai bài toán 12 KẾT LUẬN CHUNG 13 TÀI LIỆU THAM KHẢO 15

LỜI CẢM ƠN

Lời đầu tiên, em xin chân thành gửi lời cảm ơn tới các thầy cô giáo trong TrườngPhân Hiệu Đại Học Thủy Lợi nói chung và các thầy cô giáo trong Khoa Công nghệthông tin nói riêng đã tận tình giảng dạy, truyền đạt cho chúng em những kiến thứccũng như kinh nghiệm quý báu trong suốt quá trình học

Đặc biệt, chúng em xin gửi lời cảm ơn đến Cô Giáo Vũ Thị Hạnh - giảng viên KhoaCông nghệ thông tin - Trường Phân Hiệu Đại Học Thủy Lợi, Cô đã tận tình theo sátgiúp đỡ, trực tiếp chỉ bảo, hướng dẫn trong suốt quá trình nghiên cứu và học tập củachúng em Trong thời gian học tập với Cô, nhóm chúng em không những tiếp thuthêm nhiều kiến thức bổ ích mà còn học tập được tinh thần làm việc, thái độ nghiêncứu khoa học nghiêm túc, hiệu quả Đây là những điều rất cần thiết cho chúng emtrong quá trình học tập và công tác sau này Do thời gian thực hiện có hạn kiến thứccòn nhiều hạn chế nên bài làm của chúng em chắc chắn không tránh khỏi nhữngthiếu sót nhất định Em rất mong nhận được ý kiến đóng góp của thầy cô giáo vàcác bạn để em có thêm kinh nghiệm và tiếp tục hoàn thiện đồ án của mình Chúng em xin chân thành cảm ơn

Trang 3

LỜI NÓI ĐẦU

Mục tiêu của bài toán này là phân loại khách hàng xin vay tiền có thể trả đượckhoản vay hay không dựa trên thông tin của khách hàng như lịch sử tín dụng,thunhập, số lượng khoản vay hiện tại và các thông tin khác

Bài toán phân loại điểm tín dụng là một trong những bài toán phổ biến trong lĩnh vực ngân hàng và tài chính Việc áp dụng máy học để giải quyết bài toán này giúpcho các tổ chức tài chính có thể đưa ra quyết định vay tiền một cách nhanh chóng và chính xác

Trong báo cáo này, tôi sẽ trình bày về các phương pháp phân loại điểm tín dụng cũng như sử dụng các thuật toán máy học để phân loại điểm tín dụng Bên cạnh đó, tôi cũng sẽ giới thiệu về các bộ dữ liệu thường được sử dụng để huấn luyện và kiểmđịnh mô hình

Báo cáo này được thực hiện với mong muốn góp phần nâng cao hiệu quả công tác cho vay và giúp các tổ chức tài chính đưa ra quyết định đúng đắn về việc cho vay tiền Tôi hy vọng rằng báo cáo sẽ mang lại những thông tin hữu ích và quý vị sẽ có những nhận xét đánh giá tích cực về nó

I KHÁI NIỆM

Trang 4

1 PHÂN LOẠI LÀ GÌ?

Phân loại môn học máy được thực hiện dựa trên nhiều tiêu chí khác nhau Tuy

nhiên, trong bài này, tôi sẽ trình bày lý thuyết phân loại môn học máy dựa trên cácthuật toán phân loại và ứng dụng của chúng

Các thuật toán phân loại là các kỹ thuật trong Machine Learning giúp xây dựng môhình dự đoán cho dữ liệu mới dựa trên các quan sát đã biết từ trước Các thuật toánphân loại chủ yếu được chia thành hai loại: Classification (Học có giám sát) vàClustering (Học không giám sát)

1 Classification

Trong Supervised Learning, chúng ta có một tập dữ liệu được gọi là Training Data(Dữ liệu huấn luyện) với đầu vào và đầu ra được xác định rõ ràng trước đó Mụctiêu là xây dựng một mô hình dự đoán cho dữ liệu mới dựa trên các quan sát đã biếttừ trước Các thuật toán Supervised Learning phổ biến bao gồm: Linear Regression,Logistic Regression, Decision Tree, Random Forest, Naive Bayes, K-NearestNeighbors và Support Vector Machines (SVM)

2 Clustering

Trong Unsupervised Learning, chúng ta không có đầu ra được xác định trước Mụctiêu của chúng ta là phân loại các dữ liệu trong tập dữ liệu thành các nhóm hoặccụm dữ liệu có tính chất giống nhau Các thuật toán Unsupervised Learning phổbiến bao gồm: Clustering, Dimensionality Reduction và Association Rule Mining Ứng dụng của các thuật toán phân loại trong Machine Learning rất đa dạng, ví dụ như Phân loại hình ảnh (Image Classification), Phân loại văn bản (Text

Classification), Dự đoán giá cổ phiếu (Stock Price Prediction), Phát hiện gian lận

Trang 5

trong thẻ tín dụng (Credit Card Fraud Detection),

Tóm lại, phân loại môn học máy là quá trình sử dụng các thuật toán phân loại để tìmra các mô hình dự đoán chính xác cho các dữ liệu mới dựa trên các quan sát đã biếttừ trước

II Thuật Toán

Thuật toán cây quyết định là một trong những thuật toán được sử dụng phổ biếntrong Machine Learning để giải quyết các bài toán phân loại và dự đoán Để ápdụng thuật toán này vào bài toán phân loại điểm tín dụng, ta thực hiện các bướcsau:

Bước 1: Thu thập dữ liệu

Trong bài toán phân loại điểm tín dụng, chúng ta cần thu thập dữ liệu từ các kháchhàng bao gồm các thông tin về Age,Gender,Income,Education,Marital

Status,Number of Children,Home Ownership,Credit Score

Bước 2: Chuẩn bị dữ liệu

Sau khi thu thập được dữ liệu, ta cần tiền xử lý dữ liệu như loại bỏ các giá trị thiếu,chuẩn hóa các giá trị số về cùng một khoảng giá trị và mã hoá các biến phân loại thành dạng số Truy cập đường dẫn

https://www.kaggle.com/datasets/sujithmandala/credit-score-classification-datasetđể tải xuống bộ dữ liệu và đọc file CSV trong google colab

Thực hiện các bước tiền xử lý dữ liệu cần thiết, chẳng hạn như loại bỏ các giá trị bịthiếu, mã hóa các biến phân loại, và chọn các biến có ảnh hưởng đáng kể đến mục tiêu

Trang 6

Cụ thể là đọc file CSV in ra bản dữ liệu và thông tin khung dữ liệu , thống kê mô tảkhung dữ liệu Chia dữ liệu thành hai tập dữ liệu: tập huấn luyện và tập kiểm tra Áp dụng các thuật toán phân loại khác nhau để phân loại các điểm tín dụng trong tập kiểm tra Sử dụng mô hình phân loại

Bước 3: Xây dựng cây quyết định

Để xây dựng cây quyết định, ta sẽ thực hiện các bước sau:

Tiến hành tiền xử lý dữ liệu, bao gồm loại bỏ các cột không cần thiết, mã hóa cácbiến phân loại, và chia tập dữ liệu thành tập huấn luyện và tập kiểm tra Sử dụng thư viện scikit-learn trong Python để xây dựng mô hình cây quyết định Sử dụng tập huấn luyện để huấn luyện mô hình cây quyết định

Đánh giá hiệu suất của mô hình bằng cách sử dụng tập kiểm tra và các độ đo thông thường như độ chính xác, độ phủ, và F1 score Tinh chỉnh các siêu tham số của mô hình để cải thiện hiệu suất nếu cần.Áp dụng mô hình đã huấn luyện để dự đoán phân loại điểm tín dụng cho dữ liệu mới Đánh giá khả năng áp dụng của mô hình trên các bộ dữ liệu khác và so sánh với các mô hình phân loại khác để chọn ra mô hình tốt nhất

Bước 4: Đánh giá và kiểm tra mô hình

Bộ dữ liệu này được sử dụng để xây dựng các mô hình phân loại khác nhau để dựđoán điểm tín dụng của khách hàng

Để kiểm tra và đánh giá mô hình dựa trên bộ dữ liệu này, ta có thể chia tập dữ liệu thành hai phần: tập huấn luyện và tập kiểm tra Tập huấn luyện được sử dụng để huấn luyện mô hình, trong khi tập kiểm tra được sử dụng để đánh giá hiệu suất củamô hình Ta có thể sử dụng nhiều phương pháp đánh giá mô hình như Precision,Recall, F1-score

Trang 7

Việc đánh giá mô hình dựa trên bộ dữ liệu này còn phụ thuộc vào mô hình được sử dụng Mô hình phân loại được sử dụng để dự đoán điểm tín dụng ở bài toán này là Decision Tree.Nếu mô hình được xây dựng tốt và đưa ra dự đoán chính xác, ta có thể sử dụng nó để phân loại điểm tín dụng của khách hàng trong thực tế

Tuy nhiên, cần lưu ý rằng bộ dữ liệu trên Kaggle không phải là bộ dữ liệu thật sựđược sử dụng trong các hệ thống phân loại điểm tín dụng, do đó kết quả đánh giá và kiểm tra mô hình chỉ mang tính tương đối và không phản ánh chính xác hiệu suất của mô hình trong thực tế

III BÀI TOÁN 1.Mô tả bài toán

Đề tài "Phân loại điểm tín dụng" là một bài toán trong lĩnh vực tài chính, nó liênquan đến việc đánh giá khả năng vay của khách hàng Với việc thu thập các thôngtin như thu nhập, tuổi, tình trạng hôn nhân, giới tính , có nhà hoặc thuê , số lượngcon trong gia đình, mục đích của bài toán này là xác định điểm tín dụng

2.Phân tích

Bài toán : Bài toán phân loại điểm tín dụng là một bài toán trong lĩnh vực học máy,có mục đích phân loại điểm tín dụng của người dựa trên một số thông tin liên quan.Để giải quyết bài toán này, ta cần thu thập một tập dữ liệu chứa thông tin về kháchhàng như: tuổi, thu nhập, giới tính , tình trạng hôn nhân , số lượng con cái, tìnhtrạng

nhà ở hay thuê ,điểm tín dụng của người dùng Sau đó, ta sử dụng các kỹ thuật họcmáy như Decision Tree để phân loại khách hàng thành 3 nhóm: hight, low ,

medium

Trang 8

Việc chọn mô hình phù hợp và tối ưu hóa các tham số của mô hình là rất quan trọngđể đạt hiệu quả cao khi phân loại các khách hàng Ngoài ra, việc kiểm tra và đánhgiá chất lượng của mô hình cũng là một bước quan trọng để đảm bảo tính khả thi vàđộ chính xác của bài toán

3 Thông tin về thu nhập

Dữ liệu này có thể được thu thập từ các nguồn khác nhau, bao gồm hồ sơ kháchhàng của các công ty tài chính hoặc ngân hàng, các trang web tài chính, và cáctrang web bán hàng trực tuyến Việc thu thập và quản lý dữ liệu là rất quan trọng đểđảm bảo tính chính xác và bảo mật của dữ liệu

Đầu tiên, ta cần tiền xử lý dữ liệu bằng cách chuẩn hóa và mã hóa dữ liệu để có thểsử dụng cho các thuật toán máy học Sau đó, ta có thể chia tập dữ liệu thành 2 phần:tập huấn luyện (training set) và tập kiểm thử (test set) Dùng tập huấn luyện để huấnluyện các model phân loại và sử dụng tập kiểm thử để đánh giá hiệu suất của cácmodel

Sau khi huấn luyện các model, ta có thể lựa chọn model tốt nhất dựa trên các chỉ số

Trang 9

đánh giá như precision, recall và F1-score Cuối cùng, ta có thể sử dụng model đượcchọn để phân loại điểm tín dụng của các khách hàng mới

Bước 2: Tiền xử lý dữ liệu

Sau khi thu thập được dữ liệu, ta cần tiền xử lý để chuẩn hóa dữ liệu và loại bỏ các giá trị null Các bước tiền xử lý dữ liệu bao gồm:

- Loại bỏ các giá trị null hoặc thiếu trong dữ liệu - Chuyển đổi dữ liệu dạng chữ sang dạng số - Chuẩn hóa các giá trị dữ liệu

Bước 3: Xây dựng mô hình dự đoán

Ở bước này, ta sẽ sử dụng các thuật toán máy học để xây dựng mô hình dự đoánđiểm tín dụng của khách hàng.Ta có thể sử dụng các thuật toán Decision Tree, đểxây dựng mô hình

Bước 4: Đánh giá hiệu suất của mô hình

Sau khi xây dựng được mô hình, ta cần đánh giá hiệu suất của mô hình bằng các độ

Trang 10

đo như Precision, Recall, F1-score Nếu hiệu suất của mô hình không đạt yêu cầu, tacó thể tinh chỉnh lại các siêu tham số để cải thiện hiệu suất của mô hình

Bước 5: Triển khai mô hình

Cuối cùng, ta triển khai mô hình đã xây dựng vào hệ thống thực tế để phân loạiđiểm tín dụng của khách hàng Việc này có thể được thực hiện thông qua các APIhoặc giao diện web cho người dùng cuối

Nếu có bất kỳ ý kiến đóng góp hoặc câu hỏi liên quan đến báo cáo này, xin vui lòngđể lại bình luận để tôi có thể trả lời và cải thiện báo cáo tốt hơn trong tương lai Cảm ơn các bạn đã quan tâm và đọc báo cáo của tôi!

Tài liệu tham khảo

Để thực hiện đề tài "Phân loại điểm tín dụng" trong môn học Máy học, bạn có thể tham khảo các tài liệu sau:

Trang 11

1 "Credit Scoring and Its Applications" của Lyn C Thomas và Jonathan Crook 2 "Credit Risk Modeling using Excel and VBA" của Gunter Loeffler và Peter N Posch

3 "Statistical Techniques for Credit Risk Modeling and Evaluation" của Tony Bellotti, Jonathan Crook, and David Edelman

4 "Applied Predictive Modeling" của Max Kuhn and Kjell Johnson 5 "Data Mining and Analysis: Fundamental Concepts and Algorithms" của Mohammed J Zaki và Wagner Meira Jr.

6 "Machine Learning for Credit Risk Modelling" của Ashwin Madhavan và James David Westhuizen

7 "The Elements of Statistical Learning: Data Mining, Inference, and Prediction" của Trevor Hastie, Robert Tibshirani và Jerome Friedman

Ngoài ra, cũng có thể tham khảo các tài liệu trên internet, như các bài viết trên blog chuyên về Máy học, các tài liệu trên GitHub hoặc các khoá học trực tuyến về Máy học và khoa học dữ liệu

Ngày đăng: 16/05/2024, 16:23

Tài liệu cùng người dùng

Tài liệu liên quan