Tiểu luận Khoa Học Dữ Liệu UEH Thầy Trương Việt Phương

56 237 1
Tiểu luận Khoa Học Dữ Liệu UEH  Thầy Trương Việt Phương

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài tiểu luận cuối kỳ môn Khoa Học Dữ Liệu UEH Thầy Trương Việt Phương Đề tài: PHÂN TÍCH DỮ LIỆU ĐỂ DỰ ĐOÁN PHÊ DUYỆT KHOẢN VAY TÀI CHÍNH BẰNG PHẦN MỀM ORANGE Bài tiểu luận cuối kỳ môn Khoa Học Dữ Liệu UEH Thầy Trương Việt Phương với đề tài PHÂN TÍCH DỮ LIỆU ĐỂ DỰ ĐOÁN PHÊ DUYỆT KHOẢN VAY TÀI CHÍNH BẰNG PHẦN MỀM ORANGE đã sử dụng bộ dữ liệu Loan Approval Prediction trên web Kaggle. Bộ dữ liệu này bao gồm 4 hàng dữ liệu thông tin khách hàng và 13 cột đặc tính, được sử dụng phân tích dữ liệu và đánh giá tính hiệu quả và hợp lý của các điều kiện cho vay thông thông qua mô hình dự báo.

TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM BÀI TIỂU LUẬN KHOA HỌC DỮ LIỆU Đề tài: PHÂN TÍCH DỮ LIỆU ĐỂ DỰ ĐỐN PHÊ DUYỆT KHOẢN VAY TÀI CHÍNH BẰNG PHẦN MỀM ORANGE Mã lớp học phần: 23C1INF50905904 Giảng viên: Trương Việt Phương Sinh viên làm bài: Thiều Minh Khôi - 31201022337 Trương Thanh Phong - 31201022580 Phan Thị Kim Ngọc - 88224020319 Phạm Minh Trân - 31211025634 BẢNG PHÂN CÔNG NHIỆM VỤ STT Họ Tên MSSV Nhiệm vụ Đánh giá Thiều Minh Khôi 31201022337 - Tiến hành phân cụm liệu phần mềm Orange - Phân tích đánh giá kết 100% Trương Thanh Phong 31201022580 - Tiến hành phân lớp liệu phần mềm Orange - Tiến hành dự báo kết phân lớp kết luận 100% Phan Thị Kim Ngọc 88224020319 - Tìm liệu - Tổng hợp hoàn chỉnh nội dung làm 100% Phạm Minh Trân 31211025634 - Tổng hợp sở lý thuyết - Mô tả liệu, xử lí liệu 100% MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI NGHIÊN CỨU 1.1 Giới thiệu Khoa học liệu 1.2 Giới thiệu đề tài .7 1.2.1 Lý chọn đề tài 1.2.2 Mục tiêu nghiên cứu CHƯƠNG 2: TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI NGHIÊN CỨU CHƯƠNG 3: TỔNG QUAN LÝ THUYẾT CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 14 3.1 Các mơ hình phân lớp liệu phần mềm Orange 14 3.1.1 Khái niệm phân lớp liệu 14 3.2 Quy trình phân lớp liệu 14 3.2.1 Xây dựng mơ hình phân lớp 14 3.2.2 Đánh giá mơ hình phân lớp liệu 15 3.3 Các phương pháp phân lớp liệu 15 3.3.1 Hồi quy Logistic (Logistic Regression) .15 3.3.2 Cây định (Decision Tree) 16 3.3.3 SVM (Support Vector Machine) 16 3.3.4 Neural Network 17 3.4 Phương pháp đánh giá mơ hình phân lớp 17 3.4.1 Ma trận nhầm lẫn (Confusion Matrix) độ xác (Accuracy); ROC, AUC, Precision/Recall, F1-score 17 3.4.2 Cross Validation: K-fold Holdout 19 3.5 Phân cụm liệu 19 3.5.1 Phân cụm phân cấp 19 3.5.2 Phân cụm phân hoạch 20 3.6 Các phương pháp đánh giá phân cụm liệu 21 3.7 Ứng dụng phân cụm: 22 CHƯƠNG 4: KẾT QUẢ THỰC HIỆN .23 4.1 Mô tả liệu 23 4.2 Tiền xử lý liệu: .25 LỜI MỞ ĐẦU Trong bối cảnh kinh tế ngày phát triển, nhu cầu vay vốn tài cá nhân doanh nghiệp ngày tăng cao Để đáp ứng nhu cầu này, tổ chức tín dụng cần xây dựng hệ thống thẩm định tín dụng hiệu quả, giúp giảm thiểu rủi ro cho vay tối đa hóa lợi nhuận Phân tích liệu cơng cụ quan trọng giúp tổ chức tín dụng nâng cao hiệu thẩm định tín dụng Bằng cách phân tích liệu lịch sử vay vốn, tổ chức tín dụng xác định yếu tố ảnh hưởng đến khả trả nợ khách hàng, từ đưa định phê duyệt khoản vay xác Trong tiểu luận này, sử dụng phần mềm Orange để phân tích liệu nhằm dự đốn khả phê duyệt khoản vay tài Chúng sử dụng liệu tổ chức tín dụng, tổng hợp từ biểu mẫu đăng ký trực tiếp khách hàng, chi tiết bao gồm: Giới tính, Tình trạng nhân, Trình độ học vấn, Số lượng người phụ thuộc, Thu nhập, Số tiền vay, Lịch sử tín dụng chi tiết khác để xây dựng mơ hình dự đốn CHƯƠNG 1: TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI NGHIÊN CỨU 1.1 Giới thiệu Khoa học liệu Khoa học liệu lĩnh vực quan trọng ngày phát triển doanh nghiệp lĩnh vực khác Nó áp dụng kỹ thuật phân tích tiên tiến nguyên tắc khoa học để trích xuất thơng tin có giá trị từ liệu, từ giúp tổ chức tăng hiệu hoạt động, tìm hội kinh doanh cải thiện chương trình tiếp thị bán hàng Khoa học liệu kết hợp nhiều lĩnh vực khác kỹ thuật liệu, chuẩn bị liệu, khai thác liệu, phân tích dự đốn, học máy trực quan hóa liệu, thống kê, tốn học lập trình phần mềm Nó đóng vai trị quan trọng tất khía cạnh hoạt động chiến lược kinh doanh Không lĩnh vực kinh doanh, khoa học liệu cịn có ứng dụng rộng rãi lĩnh vực khác chăm sóc sức khỏe, giáo dục, thể thao sách cơng Nó giúp cải thiện chất lượng dịch vụ y tế, quản lý hoạt động giảng dạy, phân tích hiệu suất thể thao đưa định sách hiệu Quá trình khoa học liệu bao gồm sáu bước chính: xác định giả thuyết, thu thập chuẩn bị liệu, thử nghiệm với mơ hình phân tích, chọn mơ hình tốt nhất, trình bày kết triển khai mơ hình để sử dụng liên tục với liệu Khoa học liệu lĩnh vực ngày khẳng định tầm quan trọng vị Nó kết hợp nguyên tắc phương pháp từ nhiều lĩnh vực khác để xử lý phân tích liệu, từ mang lại hiểu biết tri thức hành động cho tổ chức Khoa học liệu khơng việc phân tích liệu, mà cịn việc đánh giá tình hình dự đoán tương lai để điều hành doanh nghiệp cách hiệu 1.2 Giới thiệu đề tài 1.2.1 Lý chọn đề tài Trong thời đại số hóa ngày nay, liệu trở thành tài sản vơ quan trọng có tiềm lớn để phát triển dự đoán chiến lược quản lý thông minh Để đáp ứng nhu cầu xử lý khối lượng lớn thông tin định đắn, việc áp dụng phân tích liệu thuật toán phương pháp tiên tiến, đánh giá rủi ro xác định khả trả nợ khách hàng cách xác Điều giúp giảm thiểu rủi ro tín dụng tăng cường hiệu suất hoạt động tổ chức tài chính, tối ưu hóa quy trình phê duyệt tăng cường hiệu quả, giúp tiết kiệm thời gian cơng sức, đồng thời đảm bảo tính quán công định phê duyệt Điều nâng cao trải nghiệm khách hàng hiệu suất tổ chức tài Để tìm hiểu nghiên cứu vấn đề này, nhóm tìm kiếm lựa chọn liệu Home Loan Approval Prediction Data để thực Mục tiêu liệu giúp cơng ty tự động hóa quy trình thẩm định điều kiện vay dựa thông tin khách hàng cung cấp điền đơn đăng ký trực tuyến Các chi tiết bao gồm Giới tính, Tình trạng nhân, Trình độ học vấn, Số người phụ thuộc, Thu nhập, Số tiền vay, Lịch sử tín dụng chi tiết khác Để tự động hóa quy trình này, họ đưa vấn đề xác định phân khúc khách hàng đủ điều kiện vay khoản tiền cụ thể để nhắm mục tiêu khách hàng cách cụ thể Dưới họ cung cấp tập liệu phần, nhóm tiến hành làm rõ vấn đề chương 1.2.2 Mục tiêu nghiên cứu - Xác định vấn đề: Xác định phân khúc khách hàng đủ điều kiện vay khoản tiền cụ thể - Hiểu liệu: Dữ liệu bao gồm thông tin khách hang đăng ký hồ sơ bao gồm Giới tính, Tình trạng nhân, Trình độ học vấn, Số người phụ thuộc, Thu nhập, Số tiền vay, Lịch sử tín dụng chi tiết khác - Khai thác xử lí liệu - Phân cụm, phân lớp liệu - Xây dựng mơ hình dự đốn khả phê duyệt khoản vay tài phần mềm Orange - Đánh giá hiệu mơ hình dự đốn - Đưa nhận xét để tối ưu hóa quy trình xét duyệt cho vay tổ chức CHƯƠNG 2: TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI NGHIÊN CỨU Orange phần mềm học máy khai thác liệu mã nguồn mở, viết ngôn ngữ Python Orange cung cấp giao diện trực quan, dễ sử dụng, giúp người dùng thực tác vụ khai thác liệu học máy mà không cần có kiến thức mã hóa Với giao diện trực quan, dễ sử dụng Orange giúp người dùng dễ dàng kéo thả thành phần để tạo mơ hình học máy, hỗ trợ nhiều loại liệu bao gồm liệu số, văn bản, hình ảnh âm thanh, cung cấp nhiều thuật tốn học máy bao gồm phân loại, hồi quy, clustering dimensionality reduction Tích hợp với cơng cụ khác: Orange tích hợp với cơng cụ khác, chẳng hạn Python, R SQL Orange ứng dụng nhiều lĩnh vực, bao gồm: - Tin sinh học: phân tích liệu sinh học, chẳng hạn liệu gen protein - Tài chính: phân tích liệu tài chính, chẳng hạn liệu thị trường chứng khoán liệu khách hàng - Marketing: phân tích liệu marketing, chẳng hạn liệu bán hàng liệu khách hàng - Công nghiệp: phân tích liệu cơng nghiệp, chẳng hạn liệu sản xuất liệu chất lượng Orange cung cấp cho người dùng tập toolbox tinh gọn giúp người dùng bắt tay vào việc phân tích liệu, bao gồm: - Data: dùng để rút trích, biến đổi, nạp liệu (ETL process) - Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát liệu tốt - Model: gồm hàm machine learning phân lớp liệu - Evaluate: phương pháp đánh giá mơ hình máy học - Unsupervised: gồm hàm machine learning gom nhóm liệu Các chức cung cấp kể đến như: đọc liệu, hiển thị liệudạng bảng, so sánh thuật tốn máy học, trực quan hóa phần tử liệu, lựa chọnthuộc tính đặc điểm liệu, huấn luyện liệu để dự đoán, ,….Data: công cụ để nhập liệu, lọc liệu, lấy mẫu, quy nạp, thao tác tính lựa chọn tính Visualize: cơng cụ để trực quan hóa thơng thường (biểu đồ hộp, biểu đồ, biểu đồ phân tán) trực quan hóa đa biến (hiển thị khảm, sơ đồ sàng) Data: Dùng để rút trích, biến đổi, nạp liệu (ETL process)

Ngày đăng: 28/11/2023, 20:09

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan