Ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng trong ngân hàng

46 2 0
Ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng trong ngân hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Những biện pháp như vậy, mặc dù thành công trong việc tăng thêm thu nhập có được thông qua hoa hồng, tuy nhiên lại có tác động tiêu cực đến sự hài lòng của khách hàng và do đó đã dẫn đến

Trang 1

ĐẠI HỌC UEH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

ĐỀ TÀI

ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO DỰ BÁO VIỆC RỜI ĐI HAY Ở LẠI CỦA KHÁCH HÀNG TRONG NGÂN HÀNG

Trang 2

Lời cảm ơn

Lời đầu tiên, nhóm 1 xin phép gửi lời biết ơn sâu sắc đến thầy Nguyễn Mạnh Tuấn -giảng viên bộ môn Khoa học dữ liệu, Đại học Kinh tế thành phố Hồ Chí Minh Trong suốt thời gian học tập, nhóm đã được thầy trang bị thêm các kiến thức nền tảng mới, đã giúp cho nhóm tự tìm hiểu và là hành trang giúp ích trong công việc sau này Ngoài ra, thầy đã đưa ra thêm các lời khuyên và kinh nghiệm thực tế khi nhóm đối mặt với một số vấn đề khó khăn khi thực hiện đề tài.

Với sự giúp đỡ của thầy, chúng em có thể hiểu sâu thêm về đề tài mình đang làm Bằng tất cả sự kính trọng và biết ơn sâu sắc nhất, một lần nữa nhóm xin gửi lời cảm ơn chân thành đến thầy Và để báo đáp phần nào đó, nhóm mong đề tài này sẽ mang lại hữu ích cho ngành ngân hàng.

Trang 3

Mức độ liên quan đến chuyên ngành của các bài toán

Dự án của nhóm gồm những biến liên quan đến chuyên ngành tài chính:

Điểm tín dụng (CreditScore ) là một công cụ đánh giá quan trọng để xác định rủi

ro tín dụng và quyết định về các dịch vụ tài chính, như vay vốn, điều kiện vay, lãi suất hay thẻ tín dụng.

Số dư trong tài khoản ngân hàng (Balance) là một phần quan trọng của ngân sách

cá nhân hoặc doanh nghiệp Nó giúp xác định khả năng chi tiêu và đầu tư trong các kế hoạch tài chính Số dư tài khoản có thể ảnh hưởng đến điểm tín dụng và khả năng vay vốn.

Sử dụng thẻ tín dụng (HasCrCard) có thể ảnh hưởng đến điểm tín dụng của cá

nhân Thẻ tín dụng thường đi kèm với lãi suất nếu người sử dụng không thanh toán đầy đủ số tiền mỗi tháng Thẻ tín dụng là một phương tiện thanh toán linh hoạt và phổ biến trong lĩnh vực tài chính.

Thu nhập ước tính (EstimatedSalary) có thể ảnh hưởng đến sự lựa chọn về các

dịch vụ tài chính, chẳng hạn như loại tài khoản ngân hàng, thẻ tín dụng, hay các sản phẩm đầu tư Thu nhập đóng vai trò quan trọng trong quản lý tài chính cá nhân Nó ảnh hưởng đến khả năng chi tiêu, tiết kiệm, và đầu tư.

Việc rời bỏ ngân hàng (Exited) là một quyết định tài chính quan trọng và có ảnh

hưởng đến mối quan hệ của cá nhân hoặc doanh nghiệp với ngành tài chính Rời bỏ ngân hàng có thể ảnh hưởng đến loại tài khoản và các dịch vụ tài chính mà người dùng có thể tiếp cận, cách quản lý chi tiêu, tiết kiệm, và đầu tư.

Trong dự án này, tỷ lệ khách hàng rời bỏ được phân tích xuyên suốt trong qua 3 bài toán với các biến như trên Nghiên cứu trong các bài toán mang lại thông tin thực tiễn và ứng dụng cho ngành tài chính ngân hàng.

Do vậy, nhóm đánh giá rằng các bài toán trong dự án thuộc mức độ 1 (liên quan đếnchuyên ngành).

Link drive chứa các file dữ liệu cần thiết cho đồ án: link

Trang 4

Chương 2: Quy trình thực hiện và Kết quả 7

1 Mô tả nguồn dữ liệu và cấu trúc nguồn dữ liệu 7

1.1 Mô tả nguồn dữ liệu 7

1.2 Cấu trúc nguồn dữ liệu 7

2 Tiền xử lý 8

3 Bài toán 1: Phát hiện điểm đặc thù của dữ liệu 9

3.1 Dashboard: Tổng quan về ngân hàng 9

3.2 Orange: Phân tích đặc thù 11

3.3 Kết luận bài toán 15

4 Bài toán 2: Bài toán phân lớp về dự đoán khả năng rời bỏ hay ở lại của khách hàng16 4.1 Mô tả bài toán 16

4.2 Các kiến thức chuyên ngành liên quan đến việc giải quyết bài toán 16

4.3 Chạy mô hình và kết quả 17

4.4 Kết luận cho bài toán: 25

5 Bài toán 3: Bài toán phân cụm nhằm xác định nhóm khách hàng trung thành 26

5.1 Mô tả bài toán 26

5.2 Các kiến thức chuyên ngành nếu liên quan đến bài toán 28

5.3 Chạy mô hình và kết quả 28

5.4 Kết luận bài toán 37

Chương 3: Kết luận và kiến nghị 38

Trang 5

2.1 Kiến nghị giải pháp cho ngân hàng để giữ chân khách hàng rời đi 39

2.2 Kiến nghị giúp ngân hàng để giữ chân khách hàng ở lại để tìm được khách hàng trung thành 40

Giải thích thuật ngữ 41

Tài liệu tham khảo 41

Trang 6

MỤC LỤC BẢNG BIỂU – HÌNH ẢNH

Bảng 1: Cấu trúc nguồn dữ liệu 7

Hình 1: Mô hình tiền xử lý 9

Hình 2: Dashboard – Churn For Bank Customers 10

Hình 3: Mô hình Orange phân tích đặc thù 11

Hình 4: Biểu đồ cột thể hiện độ tuổi của khách hàng 12

Hình 5: Biểu đồ cột thể hiện điểm tín dụng của khách hàng 12

Hình 6: Biểu đồ cột thể hiện số lượng sản phẩm/dịch vụ khách hàng đã mua 13

Hình 7: Biểu đồ cột thể hiện vị trí của khách hàng 13

Hình 8: Biểu đồ cột thể hiện thu nhập của khách hàng 14

Hình 9: Biểu đồ cột thể hiện số dư của khách hàng 14

Hình 10: Biểu đồ cột thể hiện điểm tín dụng của khách hàng 15

Hình 11: Mô hình phân lớp dự đoán khả năng rời đi của khách hàng 16

Hình 12: Kết quả Test and Score 17

Hình 13: Kết quả Logistic Regression 18

Hình 14: Kết quả SVM 18

Hình 15: Kết quả Tree 19

Hình 16: Mô hình phân tích chuyên sâu Logistic Regression và Tree 20

Hình 17: Bảng đánh giá chuyên sâu bằng phương pháp Logistic Regression 21

Hình 18: Bảng đánh giá chuyên sâu bằng phương pháp Tree Viewer 22

Hình 19: Kết quả dự báo Predictions 23

Hình 20: File kết quả dự báo Excel (1) 24

Hình 21: File kết quả dự báo Excel (2) 24

Hình 22: File kết quả dự báo Excel (3) 25

Hình 23: File kết quả dự báo Excel (4) 25

Hình 24: Mô hình phân tách dữ liệu trong phân cụm 26

Hình 25: Select Rows – Lựa chọn nhóm khách hàng 27

Hình 26: Mô hình phân cụm về đặc điểm của nhóm khách hàng rời bỏ ngân hàng 28

Hình 27: Bảng kết quả của phương pháp K-Means 29

Hình 28: Kết quả Silhouette Plot 30

Hình 29: Mô hình điểm tín dụng của 2 cụm 31

Hình 30: Phân bố nhóm khách hàng rời bỏ ngân hàng theo tuổi 31

Hình 31: Phân bố nhóm khách hàng rời bỏ ngân hàng theo vị trí địa lý 32

Hình 32: Phân bố nhóm khách hàng rời bỏ ngân hàng theo giới tính 33

Hình 33: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số dư ngân hàng 33

Hình 34: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số năm khách hàng hợp tác với ngân hàng 34

Trang 7

Hình 35: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số sản phẩm mà khách hàng

đã sử dụng 34

Hình 36: Phân bố nhóm khách hàng rời bỏ ngân hàng theo thành viên tích cực 35Hình 37: Phân bố nhóm khách hàng rời bỏ ngân hàng theo mức lương của khách hàng 35Hình 38: Phân bố nhóm khách hàng rời bỏ ngân hàng theo thẻ tín dụng 36Hình 39: Kết quả của Feature Statistic 37

Trang 8

Chương 1: Tổng quan

1 Lý do chọn đề tài

Sau khủng hoảng tài chính năm 2008, Ngân hàng Trung ương Châu Âu (ECB - The

European Central bank) đã sử dụng các biện pháp tiền tệ rất linh hoạt (như nới lỏng địnhlượng1 và chính sách lãi suất bằng không2) để thúc đẩy tăng trưởng, tăng lạm phát và giảm tỷ lệ thất nghiệp Những biện pháp này tuy có lợi trong việc kích thích nền kinh tế của các quốc gia, nhưng lại gây bất lợi cực kỳ lớn cho lợi nhuận của các ngân hàng phụ thuộc vào lãi suất do ECB quy định Khi đó, các ngân hàng không còn lựa chọn nào khác ngoài việc tìm kiếm các nguồn thu nhập thay thế, về bản chất bao gồm việc kiểm soát chi phí và xem xét chính sách giá của họ bằng cách tính phí hoa hồng cao hơn Những biện pháp như vậy, mặc dù thành công trong việc tăng thêm thu nhập có được thông qua hoa hồng, tuy nhiên lại có tác động tiêu cực đến sự hài lòng của khách hàng và do đó đã dẫn đến mức độ rời bỏ khách hàng tăng lên.

Khách hàng rời bỏ (customer churn) là tình trạng khách hàng dù đã bắt đầu sử dụng sản phẩm hoặc dịch vụ của doanh nghiệp nhưng vì lý do này hay lý do khác, ngừng hoàn toàn và chuyển sang lựa chọn một đối thủ khác Trong kinh doanh, khi khách hàng không hài lòng với dịch vụ, sản phẩm mà doanh nghiệp cung cấp thì họ sẽ ngừng kết nối, hợp tác với doanh nghiệp Theo như số liệu thống kê từ nhiều nguồn nghiên cứu trên thế giới:

Nghiên cứu của Deloitte (2018) chỉ ra rằng khả năng cung cấp giá trị và dịch vụ chất lượng là một trong những yếu tố quan trọng nhất ảnh hưởng đến quyết định của khách hàng về việc ở lại hoặc rời bỏ ngân hàng.

Nghiên cứu của Accenture (2019) đã nhấn mạnh sự quan trọng của trải nghiệm khách hàng trong quá trình giữ chân khách hàng Nói chung, khách hàng đánh giá cao các trải nghiệm tích cực và có thể chuyển đổi với các tổ chức có trải nghiệm khách hàng kém.

Thống kê từ Federal Reserve Bank of St Louis (2020) cho thấy chi phí và phí liên quan đến tài khoản ngân hàng là một trong những lý do quan trọng khiến khách hàng đưa ra quyết định rời bỏ ngân hàng.

Theo Nie et al (2011), giảm 5% tỷ lệ khách hàng rời bỏ có thể làm tăng lợi nhuận của ngân hàng lên tới 85%.

Ta thấy rằng sự rời bỏ hay ở lại của khách hàng là yếu tố quyết định sự phát triển của ngân hàng Việc tìm kiếm một khách hàng mới sẽ “đắt hơn” rất nhiều so với việc giữ chân một khách hàng hiện có Thế nên nhu cầu phân tích tỷ lệ khách hàng rời bỏ ngày càng tăng Đặc biệt là nhu cầu về mô hình dự đoán được xây dựng trên các phương pháp thuộc lĩnh vực khoa học dữ liệu Nếu ngân hàng có thể dự đoán tỷ lệ rời bỏ của khách hàng, các chiến

Trang 9

dịch tiếp thị nhằm giữ chân khách hàng sẽ được cải thiện, mang lại hiệu quả hơn cho doanh nghiệp.

Và đó là lý do nhóm chọn đề tài “Ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng trong ngân hàng” Bằng cách tìm hiểu và nghiên cứu về hành vi rời bỏ ngân hàng của khách hàng tại Pháp, Đức và Tây Ban Nha nói riêng và tại châu Âu nói chung, nhóm mong rằng sẽ đóng góp một phần vào sự phát triển của ngành tài chính -ngân hàng, đồng thời tạo ra giá trị cho các tổ chức trong việc duy trì khách hàng và tăng cường sự cạnh tranh.

2 Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát

Nhìn chung, mục tiêu tổng quát của đồ án này là phân tích và dự báo hành vi rời bỏ của khách hàng tại ngân hàng nhằm giảm bớt tỷ lệ khách hàng rời bỏ.

2.2 Mục tiêu cụ thể

Bài toán 1: Phát hiện điểm đặc thù của dữ liệu

Bài toán 2: Dự đoán khả năng rời bỏ hay ở lại của khách hàng

Bài toán 3: Bài toán phân cụm nhằm xác định nhóm khách hàng trung thành

3 Đối tượng nghiên cứu

Nghiên cứu hành vi rời bỏ của khách hàng trên bộ dữ liệu “Churn for Bank Customers”.

4 Phương pháp thực hiện

Bước 1: Thu thập dữ liệu

Nhóm chọn bộ dữ liệu “Churn for Bank Customers” từ trang Kaggle.

Bước 2: Tiền lý trước dữ liệu

o Excel: Tạo Dashboard để khái quát về các ngân hàng.

o Orange: Tiến hành phân tích đặc thù của dữ liệu và mối tương quan giữa chúng.

Bước 4: Phát triển mô hình

Triển khai các thuật toán học máy trong các bài toán phân lớp và phân cụm thông qua Orange.

Bước 5: Đánh giá mô hình

Đánh giá hiệu suất và xem xét lại quy trình.

Trang 10

Chương 2: Quy trình thực hiện và Kết quả

1 Mô tả nguồn dữ liệu và cấu trúc nguồn dữ liệu 1.1 Mô tả nguồn dữ liệu

Bộ dữ liệu cho đề tài có tên là “Churn for Bank Customers” và có nguồn từ Kaggle (link) Dữ liệu được thu thập từ một ngân hàng ở châu Âu với các khách hàng ở các quốc gia Pháp, Tây Ban Nha và Đức Mục đích của việc nghiên cứu bộ dữ liệu này là dự đoán tỷ lệ rời bỏ khách hàng Dữ liệu chứa tổng cộng 10.000 quan sát với 14 cột thuộc tính Trong đó, “Exited” là biến phụ thuộc và phần còn lại là biến độc lập.

1.2 Cấu trúc nguồn dữ liệu

Bảng 1: Cấu trúc nguồn dữ liệu

STTThuộc tínhKiểu dữliệuKhoảng giá trịÝ nghĩa

1 RowNumber Word 1 đến 10,000 Số thứ tự và không ảnh hưởng đến việc khách hàng rời khỏi ngân hàng

2 CustomerId Longtin 15,565,701 đến 15,815,690

ID của khách hàng, chứa các giá trị ngẫu nhiên và không ảnh hưởng đến việc khách hàng rời

4 CreditScore Word 350 đến 650 Điểm tín dụng 3của khách hàng 5 Geography String Spain, France,

Germany Vị trí (quốc gia) của khách hàng. 6 Gender String Male, Female Giới tính của khách hàng 7 Age Integer 18 - 92 Tuổi của khách hàng

8 Tenure Integer 0 – 10 Thâm niên khách hàng, thể hiện số năm kể từ khi khách hàng hợp tác với ngân hàng.

9 Balance Real 0 đến 250,898.1 Số dư trong tài khoản của khách hàng.

10 NumOfProducts Integer 1 đến 4 Số lượng sản phẩm (thẻ tín dụng, thẻ ghi nợ, ) hoặc dịch vụ (gửi tiền tiết kiệm, mua bán ngoại tệ, ) mà khách hàng đã mua từ ngân

hàng.

Trang 11

12 IsActiveMember Integer 0, 1 Thể hiện việc khách hàng có phải là thành viên tích cực của ngân hàng hay không Nếu giá trị là 1 thì khách hàng này là thành viên tích cực và giá trị là 0 thì ngược lại.

13 EstimatedSalary Real 11.58 đến

199,992.5 Thu nhập ước tính của kháchhàng 14 Exited Integer 0, 1 Cho biết khách hàng khàng có rời bỏ ngân hàng hay không Nếu giá

Bộ dữ liệu được sử dụng gồm 14 biến và 10.000 quan sát, bao gồm đầy đủ thông tin cần thiết cho mục đích nghiên cứu nên nhóm cũng sẽ không tích hợp thêm bộ dữ liệu nào khác vào đề án.

Bước 3: Rút gọn dữ liệu

Nhóm sử dụng công cụ Select Columns của Orange để chọn lọc thuộc tính, loại ra các cột thuộc tính không cần thiết cho đề tài nghiên cứu bao gồm:

o RowNumber: Số thứ tự của khách hàng, không ảnh hưởng đến việc rời bỏ ngân

o CustomerId: ID của khách hàng, chứa các giá trị ngẫu nhiên và không ảnh

hưởng đến việc khách hàng rời khỏi ngân hàng.

o Surname: Họ của khách hàng không ảnh hưởng đến việc khách hàng rời khỏi

ngân hàng.

Sau đó, nhóm lưu file sau rút gọn thành “Bài toán 1.xlsx” để thực hiện bài toán 1.

Trang 12

Bước 4: Chỉnh dạng dữ liệu

Trang 13

Nhóm không thực hiện chuẩn hóa dữ liệu do không cần thiết nhiều cho các bài toán.

Hình 1: Mô hình tiền xử lý

3 Bài toán 1: Phát hiện điểm đặc thù của dữ liệu

Trong bài toán này, nhóm sẽ lấy file “Bài toán 1.xlsx” được lưu trong phần tiền xử lý Và bài toán được thực hiện bằng hai công cụ:

Excel: Dùng Dashboard để cung cấp cái nhìn tổng quát về ngân hàng, giúp người

đọc nắm thêm thông tin để phục vụ cho phần phân tích chuyên sâu hơn trong Orange.

Orange: Phân tích sâu hơn về hành vi rời bỏ của khách hàng Nhóm sẽ phân tích

từng biến độc lập để xem chúng có thực sự ảnh hưởng đến việc “rời bỏ” hay không Những phân tích này sẽ làm rõ hơn về hành vi “rời bỏ” của khách hàng và giúp ngân hàng cải thiện chất lượng dịch vụ.

3.1 Dashboard: Tổng quan về ngân hàng

3.1.1 Các bước thực hiện:

Bước 1: Tạo Table

Chọn một ô bất kỳ trên vùng dữ liệu sau đó vào thẻ Insert chọn vào Table (phím tắt Ctrl + T), tại cửa sổ Create Table chọn vào My table has headers, hoàn tất chọn OK.

Bước 2: Tạo Pivottable

o Trong thẻ Insert chọn PivotTable, tích vào New Worksheet để tạo PivotTable ở sheet mới.

o Tại sheet mới ở cửa sổ PivotTable Fields kéo các trường vào vị trí mong muốn o Kế tiếp sẽ vào thẻ Analyze, chọn PivotChart để chọn loại biểu đồ Sau đó tùy

chỉnh các định dạng của biểu đồ sau cho phù hợp.

o Đối với các loại biểu đồ không được dùng trong Pivottable có thể sao chép bảng dữ liệu từ Pivottable để tạo biểu đồ.

Bước 3: Tạo Dashboard

o Tạo một Sheet mới với tên là Dashboard sau đó Copy các PivotTable vừa tạo và dán nó qua sheet Dashboard.

Trang 14

o Nhóm không sử dụng chức năng Slicer do trong phần Dashboard này chỉ cung cấp một cái nhìn tổng quát Trong phần Orange tiếp theo, nhóm sẽ tiến hành phân tích sâu hơn về các biến.

o File Dashboard này được nhóm gắn vào link drive File tên “Dashboard” nằm trong thư mục “Bài toán 1”.

3.1.2 Nhận xét kết quả:

Hình 2: Dashboard – Churn For Bank Customers

EXITED: Tỷ lệ khách hàng rời bỏ là 20% (2037), trong khi 80% (7963) khách

hàng vẫn sử dụng sản phẩm/dịch vụ của ngân hàng Trong ngành tài chính/tín dụng, tỷ lệ khách hàng rời bỏ là 25% (Nguồn: Filum.ai, link) Do đó, ta thấy rằng con số 20% này là không quá lớn trong ngành tài chính/tín dụng.

AGE: Phần lớn khách hàng thuộc độ tuổi từ 28 đến 48 tuổi, chiếm 74% (7.438).

Đặc biệt, nhóm khách hàng từ 78 tuổi trở lên chiếm chưa tới 1% (24 người) Đa số khách hàng là người trung niên, những người lớn tuổi (hơn 78 tuổi) chiếm khá ít.

TENURE: Ngân hàng hiện đang có 413 khách hàng mới, chưa sử dụng qua sản

phẩm/ dịch vụ nào của ngân hàng và 490 khách hàng có thâm niên 10 năm Lượng khách hàng mới (tenure = 0) và lượng khách với thâm niên là 10 năm đều ít tương tự nhau, chiếm chưa tới 5% Hiện tại, phần lớn khách hàng có thâm niên từ 1 đến 9 năm.

NUMBER OF PRODUCTS: Hầu hết khách hàng chỉ mua 1 hoặc 2 sản phẩm/

dịch vụ tại ngân hàng Hơn 50% (5084) khách hàng chỉ mua 1 dịch vụ hoặc sản phẩm của ngân hàng Số lượng khách mua 1 sản phẩm/ dịch vụ gần như ngang bằng với lượng khách mua 2 sản phẩm/ dịch vụ (4590) Ngoài ra, số lượng khách hàng mua 3 hoặc 4 sản phẩm dịch vụ ít hơn đáng kể, chiếm lần lượt là 0.26% và 0.06%.

Trang 15

GENDER: Khách hàng nam chiếm 55% (5457) và nữ chiếm 45% (4543) Chênh

lệch giới tính không được xem là quá lớn.

CREDIT CARD: Nhìn chung, phần lớn khách hàng có thẻ tín dụng Hiện có 71%

(7055) khách hàng có thẻ tín dụng và 29% (2945) còn lại không có.

ACTIVE MEMBER: Ngân hàng có 52% (5151) khách hàng là thành viên tích

cực và 48% (4849) còn lại không phải là thành viên tích cực Ta thấy rằng hơn một nửa khách hàng là thành viên tích cực.

GEOGRAPHY: Lượng khách hàng ở Pháp chiếm 50% (5010) Còn lại là 25%

(2509) ở Đức và 25% (2477) ở Tây Ban Nha.

ESTIMATED SALARY: Giá trị 3 tứ phân vị lần lượt là $51.015, $100.218 và

$149.400 Thu nhập ít nhất là $90.07 và cao nhất là $199.992,5 Trung bình thu nhập của khách hàng là $100.097,8 mỗi người.

BALANCE: Có khoảng 36% (3617) khách hàng không có tiền trong tài khoản

Do đó điểm min (0) trùng với tứ phân vị thứ nhất Tứ phân vị thứ 2 và 3 lần lượt là

97.208 và 127.648 Giá trị số dư cao nhất là 250.898 Trung bình số dư của khách hàng là 76.486.

CREDIT SCORE: Điểm tín dụng trải dài từ 350 đến 850 điểm Giá trị 3 tứ phân

vị lần lượt là 584, 652 và 718 Điểm tín dụng trung bình là 650.53.

3.2 Orange: Phân tích đặc thù

3.2.1 Các bước thực hiện

Bước 1: Xây dựng mô hình trong Orange

Tương tự như phần Dashboard, nhóm tiếp tục sử dụng file “Bài toán 1.xlsx” trong Tiền xử lý File này được nhóm đưa vào Orange và được thể hiện bằng các biểu đồ thông qua chức năng Distribution.

Hình 3: Mô hình Orange phân tích đặc thù

3.2.2 Nhận xét kết quả

Từ chức năng Distributions trong Orange, ta nhận sẽ nhận được một loạt các biểu đồ Các thuộc tính sẽ được đánh giá là có liên quan đến hành vi rời bỏ nếu tỷ lệ rời bỏ chênh lệch lớn hơn 10% và ngược lại, dưới 10% thì các thuộc tính sẽ không tác động đến việc rời đi hay ở lại của khách hàng Cụ thể như sau:

Age (Tuổi): Trong biểu đồ sau, độ tuổi từ 56-58 tuổi có tỷ lệ rời bỏ cao nhất,

60.69% Và từ độ tuổi 76 trở lên, tỷ lệ rời bỏ hầu như là 0% Sự khác biệt này đã chứng minh rằng độ tuổi tác động mạnh mẽ đến hành vi rời bỏ của khách hàng.

Trang 16

Các khách hàng

Trang 17

trung niên (44-66 tuổi) có tỷ lệ rời bỏ khá cao Trong khi những người lớn tuổi (trên 76 tuổi) thường có xu hướng trung thành hơn.

Hình 4: Biểu đồ cột thể hiện độ tuổi của khách hàng

CreditScore (Điểm tín dụng): Đối với biến độc lập là thẻ tín dụng, tỷ lệ rời bỏ ở

nhóm khách hàng có điểm tín dụng ít hơn 400 là 100% và ở nhóm khách hàng có điểm tín dụng từ 400 đến 600 là 21.26% Từ đó có thể nói rằng điểm tín dụng có tác động đến hành vi rời bỏ của khách hàng Khách hàng có điểm tín dụng càng cao thì càng ít có khả năng rời bỏ.

Hình 5: Biểu đồ cột thể hiện điểm tín dụng của khách hàng

NumberOfProducts (Số lượng sản phẩm/dịch vụ): Các khách hàng đã mua 2

sản phẩm/dịch vụ có khá ít khách hàng rời bỏ 7.58% Ngược lại, các khách hàng đã mua 4 sản phẩm/dịch vụ thì luôn luôn rời bỏ ngân hàng với tỷ lệ rời bỏ là 100% Ta thấy rằng, rõ ràng số lượng sản phẩm/dịch vụ có tác động đến tỷ lệ rời bỏ của ngân hàng Đa số các khách hàng mua 1 -2 sản phẩm/dịch vụ thì ít có khả năng rời bỏ ngân hàng hơn.

Trang 18

Hình 6: Biểu đồ cột thể hiện số lượng sản phẩm/dịch vụ khách hàng đã mua

IsActiveMember (Thành viên tích cực): Tỷ lệ rời bỏ trong nhóm khách hàng

thành viên tích cực là 26.85% và trong nhóm khách hàng không phải thành viên tích cực là 14.27% Rõ ràng, những thành viên tích cực có tỷ lệ rời bỏ cao hơn.

Hình 7: Biểu đồ cột thể hiện vị trí của khách hàng

Geography (Vị trí): Tại Đức, tỷ lệ rời bỏ là 32.44% Trong khi đó, tỷ lệ rời bỏ ở

Pháp và Tây Ban Nha lần lượt là 16.15% và 16.67% Do đó, vị trí của khách hàng có thể ảnh hưởng đến việc họ rời bỏ ngân hàng Đặc biệt, khách hàng ở Đức có xu hướng rời bỏ hơn là ở Pháp và Tây Ban Nha.

Trang 19

Hình 8: Biểu đồ cột thể hiện thu nhập của khách hàng

Balance (Số dư): Đối với nhóm khách hàng có số dư bằng 0 thì tỷ lệ rời bỏ chiếm

13.85% Khi số dư trong khoảng 200.000 đến 210.000 thì có 57.14% khách hàng rời bỏ Do đó, số dư có tác động đến tỷ lệ rời bỏ của ngân hàng Nhìn chung, những người có số dư cao sẽ rời bỏ ngân hàng.

Hình 9: Biểu đồ cột thể hiện số dư của khách hàng

CreditScore (Điểm tín dụng): Đối với biến độc lập là thẻ tín dụng, tỷ lệ rời bỏ ở

nhóm khách hàng có điểm tín dụng ít hơn 400 là 100% và ở nhóm khách hàng có điểm tín dụng từ 400 đến 600 là 21.26% Từ đó có thể nói rằng điểm tín dụng có tác động đến hành vi rời bỏ của khách hàng Khách hàng có điểm tín dụng càng cao thì càng ít có khả năng rời bỏ.

Trang 20

Hình 10: Biểu đồ cột thể hiện điểm tín dụng của khách hàng

Bên cạnh đó, nhóm phát hiện ra rằng 4 thuộc tính sau không tác động đến việc rời bỏ của khách hàng do có tỷ lệ chênh lệch giữa rời bỏ và ở lại dưới 10%.

Gender (Giới tính): Tỷ lệ rời bỏ ở nam và nữ là 16.46% và 25.07%.Tenure (Thâm niên): Ở mỗi mức thâm niên, tỷ lệ rời bỏ dao động từ 17-23%.HasCrCard (Thẻ tín dụng): Tỷ lệ rời bỏ ở nhóm khách hàng có thẻ tín dụng và

không có thẻ lần lượt là 20.81% và 20.18%.

EstimatedSalary (Thu nhập khách hàng): Tỷ lệ rời bỏ đối với các mức thu nhập

của khách hàng dao động từ 15.91% đến 25%.

3.3 Kết luận bài toán

Dashboard: Tổng quan về các ngân hàng

Ngân hàng có đa số khách hàng thuộc độ tuổi trung niên, có thu nhập trung bình cao, và hầu hết đều có thẻ tín dụng Tuy nhiên, lượng khách hàng mới và khách hàng với thâm niên với 10 năm chiếm chưa tới 5% và hầu hết khách hàng chỉ mua 1 hoặc 2 sản phẩm/ dịch vụ tại ngân hàng Ngoài ra, với hơn một nửa khách hàng là thành viên tích cực và 36% khách hàng không có tiền trong tài khoản.

Orange: Phân tích đặc thù

Trong quá trình phân tích, nhóm đã loại ra 4 yếu tố không tác động đến hành vi rời bỏ (giới tính, thâm niên, thẻ tín dụng, thu nhập) Khách hàng rời bỏ ngân hàng có đặc thù như sau: là thành viên tích cực, có số dư và điểm tín dụng thấp, thuộc các nước Pháp và Đức, nằm trong độ tuổi trung niên, mua nhiều sản phẩm/dịch vụ.

 Nhìn chung, ngân hàng có một lượng khách hàng ổn định và có nhu cầu sử dụng thẻ tín dụng Đây là những yếu tố tích cực cho ngân hàng, cho thấy ngân hàng có uy tín và chất lượng dịch vụ tốt Bên cạnh đó, tỷ lệ rời bỏ 20% cũng là một con số mà ngân hàng cần xem xét để có thể tăng thêm lợi nhuận.

Trang 21

4 Bài toán 2: Bài toán phân lớp về dự đoán khả năng rời bỏ hay ởlại của khách hàng

4.1 Mô tả bài toán

Bước 1: Chọn dữ liệu File “churn_Data” và chọn cột “Exited” làm target (

biến phụ thuộc) và các biến còn lại là biến độc lập.

Bước 2: Mở File “churn_Data” → Mở Preprocess nối với File và logistic

Bước 3: Nối File và 3 phương pháp SVM, Tree và Logistic Regression với Test

and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn.

Bước 4: Liên kết phương pháp tốt nhất và File “churn_forecast” với Predictions để

đánh giá và phân loại dữ liệu đầu vào.

Bước 5: Dựa vào kết quả dự báo đưa ra đánh giá và nhận xét.

Hình 11: Mô hình phân lớp dự đoán khả năng rời đi của khách hàng

4.2 Các kiến thức chuyên ngành liên quan đến việc giải quyết bài toánRủi ro tín dụng và đánh giá tín nhiệm: Đánh giá khả năng thanh toán và rủi ro

tín dụng của khách hàng Điều này có thể bao gồm việc sử dụng các mô hình đánh giá tín nhiệm để đo lường rủi ro tín dụng của khách hàng.

Sản phẩm/Dịch vụ tài chính: Kiến thức sâu rộng về các sản phẩm tài chính như

tín dụng cá nhân, thẻ tín dụng Điều này giúp hiểu rõ về lựa chọn và ưu tiên của khách hàng.

Trang 22

Thu nhập và số dư: Nếu mức lương của khách hàng giảm, họ có thể phải điều

chỉnh chi tiêu hàng tháng Nếu số tiền rút hàng tháng tăng lên, họ có thể cảm thấy khó khăn trong việc giữ lại tài khoản ngân hàng hiện tại.

4.3 Chạy mô hình và kết quả:

4.3.1 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:

Hình 12: Kết quả Test and Score

Sau khi đánh giá kết quả dựa trên Confusion Matrix ta thấy rằng chỉ số CA, F1, Prec, Recall, MCC của phương pháp Tree cao nhất Vì thế, nhóm quyết định chọn phương pháp Tree.

Trang 23

Hình 13: Kết quả Logistic Regression

Hình 14: Kết quả SVM

Ngày đăng: 08/04/2024, 12:12

Tài liệu cùng người dùng

Tài liệu liên quan