Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

27 1.5K 4
Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Dương Hùng ỨNG DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI KHÁCH HÀNG VAY VỐN CỦA NGÂN HÀNG THƯƠNG MẠI Chuyên ngành: Hệ thống thơng tin Mã số: 60.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – NĂM 2013 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS TS TRẦN ĐÌNH QUẾ Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Ngành công nghiệp ngân hàng giới trải qua thay đổi to lớn cách thức kinh doanh thực Ngành ngân hàng bắt đầu nhận cần thiết kỹ thuật khai phá liệu, kỹ thuật giúp họ cạnh tranh thị trường Các ngân hàng hàng đầu sử dụng công cụ khai phá liệu (DM: Data Mining) cho việc phân khúc khách hàng lợi nhuận,chấm điểm tín dụng phê duyệt, quảng bá bán sản phẩm, phát giao dịch gian lận, vv… Có nhiều phương pháp phân lớp đề xuất, nhiên khơng có phương pháp tiếp cận phân loại tối ưu xác hẳn phương pháp khác Dù với phương pháp có lợi bất lợi riêng sử dụng Một công cụ khai phá tri thức hiệu sử dụng định để tìm luật phân lớp Với mong muốn nghiên cứu việc ứng dụng định để phân loại khách hàng Ngân hàng thương mại, chọn đề tài “Ứng dụng định để phân loại khách hàng vay vốn Ngân hàng thương mại” làm luận văn tốt nghiệp Mục tiêu nghiên cứu Nghiên cứu vấn đề thuật toán xây dựng định ID3, cài đặt đánh giá thuật tốn đó; bước đầu áp dụng mơ hình định (ID3: Decision Tree) xây dựng vào việc phân loại khách hàng vay vốn Ngân hàng thương mại Đối tượng, phạm vi nghiên cứu • Tìm hiểu thuật toán khai phá liệu ID3 để phân loại khách hàng dựa liệu ngân hàng có • Cài đặt thử nghiệm với liệu tập tin Excel Phương pháp nghiên cứu • Phương pháp nghiên cứu tài liệu: Phân tích tổng hợp tài liệu khai phá liệu sử dụng thuật tốn Decision Tree có thuật tốn ID3, phân loại liệu, mơ hình dự báo • Phương pháp thực nghiệm: Ứng dụng kết hợp kỹ thuật phân loại mơ hình định để phân loại khách hàng vay vốn Ngân hàng thương mại Bố cục luận văn: Chương Tổng quan khai phá liệu 1.1 Giới thiệu khai phá liệu 1.2 Một số phương pháp khai phá liệu đại 1.3 Một số phương pháp khai phá liệu thông dụng 1.4 Ứng dụng khai phá liệu lĩnh vực khách hàng Chương Ứng dụng định quy trình tín dụng 2.1 Quy trình tín dụng 2.2 Sử dụng định để phân loại khách hàng 2.3 Thuật toán xây dựng định dựa vào Entropy Chương Xây dựng chương trình thử nghiệm đánh giá 3.1 Giới thiệu toán 3.2 Cơ sở liệu 3.3 Cài đặt ứng dụng 3.5 Kết luận Chương - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu 1.1.1 Khám phá tri thức Quá trình khám phá liệu gồm bước sau [1]: Bước 1: Xác định vấn đề lựa chọn nguồn liệu (Problem Understanding anh Data Understanding) Bước 2: Chuẩn bị liệu (Data preparation) Quá trình gồm q trình sau: • Thu thập liệu (Data gathering) • Làm liệu (Data cleaning) • Tích hợp liệu (Data integeration) • Chọn liệu (Data selection) • Biến đổi liệu (Data transformation) Bước 3: Khai phá liệu (Data Mining) Bước 4: Đánh giá mẫu (Partern Evalution) Bước 5: Biểu diễn tri thức triển khai (Knowlegde presentation and Deployment) Tóm lại: KDD trình kết xuất tri thức từ kho liệu mà khai phá liệu cơng đoạn quan trọng [2], [5] Hình 1: Quá trình phát tri thức CSDL 1.1.2 Khai phá liệu Khai phá liệu dùng để mô tả trình phát tri thức CSDL Quá trình khai phá liệu bao gồm giai đoạn [2]: Giai đoạn 1: Gom liệu Giai đoạn 2: Trích lọc liệu Giai đoạn 3: Làm sạch, tiền xử lý chuẩn bị trước Giai đoạn 4: Chuyển đổi liệu Giai đoạn 5: Phát trích mẫu Giai đoạn 6: Đánh giá kết mẫu Q khai phá liệu mơ hình hóa cách tổng qt hình vẽ [2]: Hình 2: Kiến trúc điển hình hệ thống khai phá liệu 1.2 Ứng dụng khai phá liệu Hiện nay, kĩ thuật khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác marketing, tài chính, ngân hàng bảo hiểm, khoa học, giáo dục, y tế, an ninh, internet: 1.3 Một số phương pháp khai phá liệu thông dụng 1.3.1 Phân lớp (Classification) Quá trình phân lớp liệu thường gồm pha: Pha 1: Xây dựng mơ hình Trong bước này, mơ hình xây dựng dựa việc phân tích mẫu liệu sẵn có Đầu vào q trình tập liệu có cấu trúc mơ tả thuộc tính tạo từ tập giá trị thuộc tính Mỗi giá trị gọi chung mẫu (sample) Trong tập liệu này, mẫu giả sử thuộc lớp định trước, lớp giá trị thuộc tính chọn làm thuộc tính gán nhãn lớp hay thuộc tính định Đầu bước thường quy tắc phân lớp dạng luật dạng if-then (nếu-thì), định, cơng thức logic, hay mạng nơron Pha 2: Sử dụng mô hình xây dựng để phân lớp liệu Trong bước việc phải làm tính độ xác mơ hình Nếu độ xác chấp nhận mơ hình sử dụng để dự đoán nhãn lớp cho mẫu liệu khác tương lai 1.3.2 Phân cụm (Clustering) Phân cụm việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách phân cấp hay gối lên Có nghĩa liệu vừa thuộc nhóm lại vừa thuộc nhóm khác Các ứng dụng khai phá liệu có nhiệm vụ phân nhóm phát tập khách hàng có phản ứng giống CSDL tiếp thị; xác định quang phổ từ phương pháp đo tia hồng ngoại 1.3.3 Luật kết hợp (Association Rules) Khai phá luật kết hợp thực qua bước: • Bước 1: Tìm tất tập mục phổ biến, văn phổ biến xác định qua độ hỗ trợ thỏa mãn độ hỗ trợ cực tiểu • Bước 2: Sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu 1.4 Ứng dụng khai phá liệu lĩnh vực ngân hàng 1.4.1 Marketing Một lĩnh vực ứng dụng rộng rãi cho ngành ngân hàng kỹ thuật khai phá liệu lĩnh vực quảng bá sản phẩm Bộ phận tiếp thị bán hàng Ngân hàng sử dụng kỹ thuật khai phá liệu để phân tích sở liệu khách hàng Kỹ thuật khai thác liệu giúp xác định khách hàng mang lại lợi nhuận khách hàng không mang lại lợi nhuận 1.4.2 Quản lý rủi ro Khai phá liệu sử dụng rộng rãi để quản lý rủi ro ngành công nghiệp ngân hàng [4] Giám đốc điều hành ngân hàng cần phải biết khách hàng mà họ có liệu đáng tin cậy hay không 1.4.3 Phát gian lận Một lĩnh vực khác khai phá liệu sử dụng ngành công nghiệp ngân hàng việc phát gian lận Phát hành động gian lận mối quan tâm ngày tăng cho nhiều doanh nghiệp, với giúp đỡ kỹ thuật khai phá liệu hành động gian lận ngày phát hiên nhiều 1.4.4 Quản trị quan hệ khách hàng Trong thời đại cạnh tranh khốc liệt ngày nói chung, đặc biệt ngành ngân hàng, khách hàng luôn nhân tố quan trọng định tồn phát triển họ Khai phá liệu hữu ích tất ba giai đoạn chu kỳ mối quan hệ khách hàng: Tìm kiếm khách hàng, tăng giá trị khách hàng trì khách hàng 1.5 Kết luận Trong chương này, luận văn giới thiệu tổng quan khai phá liệu, ứng dụng khai phá liệu, số phương pháp khai phá liệu thơng dụng Trong chương sau, luận văn trình bày nội dung lý thuyết ứng dụng thuật toán khai phá liệu thơng dụng : Thuật tốn định ID3 Đó thuật tốn ứng dụng để khai phá liệu lĩnh vực khác nhau, đặc biệt lĩnh vực ngân hàng Chương - ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG QUY TRÌNH TÍN DỤNG 2.1 Quy trình tín dụng 2.1.1 Khái niệm quy trình tín dụng Để chuẩn hố q trình tiếp xúc, phân tích, cho vay thu nợ khách hàng, Ngân hàng thường đặt quy trình phân tích tín dụng [4] Đó bước (hoặc nội dung công việc) mà cán tín dụng, phịng ban có liên quan Ngân hàng phải thực làm việc cho khách hàng 2.1.2 Ý nghĩa quy trình tín dụng Việc thiết lập quy trình tín dụng khơng ngừng hồn thiện đặc biệt quan trọng ngân hàng thương mại Về mặt hiệu quả, quy trình tín dụng hợp lý giúp cho ngân hàng nâng cao chất lượng tín dụng giảm thiểu rủi ro tín dụng 2.1.3 Quy trình tín dụng Bước 1: Lập hồ sơ vay vốn Bước cán tín dụng thực sau tiếp xúc khách hàng Nhìn chung hồ sơ vay vốn cần phải thu thập thơng tin như: • Năng lực pháp lý, lực hành vi dân khách hàng • Khả sử dụng vốn vay • Khả hoàn trả nợ vay (vốn vay lãi) Bước 2: Phân tích tín dụng Phân tích tín dụng xác định khả tương lai khách hàng việc sử dụng vốn vay hồn trả nợ vay với mục tiêu: • Tìm kiếm tình xảy dẫn đến rủi ro cho ngân hàng, dự đoán khả khắc phục rủi ro đó, dự kiến biện pháp giảm thiểu rủi ro hạn chế tổn thất cho ngân hàng • Phân tích tính chân thật thơng tin thu thập từ phía khách hàng bước 1, từ nhận xét thái độ, thiện chí khách hàng làm sở cho việc định cho vay Bước 3: Ra định tín dụng Trong khâu này, ngân hàng định đồng ý từ chối cho vay hồ sơ vay vốn khách hàng Bước 4: Giải ngân Nguyên tắc giải ngân: phải gắn liền vận động tiền tệ với vận động hàng hóa dịch vụ có liên quan, nhằm kiểm tra mục đích sử dụng vốn vay khách hàng đảm bảo khả thu nợ Bước 5: Giám sát tín dụng Nhân viên tín dụng thường xuyên kiểm tra việc sử dụng vốn vay thực tế khách hàng, trạng tài sản đảm bảo, tình hình tài khách hàng để đảm bảo khả thu nợ Bước 6: Thanh lý hợp đồng tín dụng 2.2 Sử dụng định (DT) để phân loại khách hàng 2.2.1 Tổng quan thuật toán định Chúng ta định nghĩa định có tính chất sau: • Mỗi nút (internal node) biểu diễn thuộc tính cần kiểm tra giá trị (an attribute to be tested) các tập thuộc tính • Nút (leaf node) hay gọi nút trả lời biểu thị cho lớp trường hợp mà nhãn tên lớp, biểu diễn lớp (a classififcation) • Nút nhánh (branch) từ nút tương ứng với giá trị thuộc tính gắn với nút • Nhãn (lable) nút tên thuộc tính có nhánh nối nút đến ứng với kết có phép thử Nhãn nhánh giá trị thuộc tính Nút gọi nút gốc 11 dạng luật dạng “If … Then…” Hai mơ hình tương đương, chúng chuyển đổi qua lại mơ hình với Ví dụ : Các luật rút từ ví dụ trên: + Luật 1: IF(Nhiệt độ: cao) AND (Ngoài trời: mưa) THEN (=> Quyết định: Khơng) + Luật 2: IF(Độ ẩm: cao) AND (Ngồi trời: nắng) THEN (=> Quyết định:Không) + Luật3: IF(Độ ẩm:Cao) AND (Ngồi trời:Bình thường)THEN (=> Quyết định: Có) Sau đó, ta sử dụng luật để hỗ trợ trình định, dự đốn 2.3 Thuật tốn xây dựng định dựa vào Entropy 2.3.1 Tiêu chí chọn thuộc tính phân lớp Tiêu chí để đánh giá tìm điểm chia quan trọng, chúng xem tiêu chuẩn “heuristic” để phân chia liệu Ý tưởng việc đưa tiêu chí cho tập phân chia trở nên “trong suốt” (tất thuộc nhãn) tốt Thuật toán dùng độ đo lượng thông tin thu thêm (Information Gain - IG) để xác định điểm chia [2] Độ đo dựa sở lý thuyết thông tin nhà toán học Claude Shannon, độ đo xác sau: Xét bảng định DT = (U, C ∪ {d} ), số giá trị (nhãn lớp) d k Khi Entropy tập đối tượng DT định nghĩa bởi: k Entropy(U ) = −∑ p i log p i i =1 pi tỉ lệ đối tượng DT mang nhãn lớp i Ý nghĩa đại lượng Entropy lĩnh vực lý thuyết công nghệ thông tin: Entropy tập U sơ lượng bít cần thiết để mã hóa lớp phần tử lấy ngẫu nhiên từ tập U Lượng thông tin thu thêm (Information Gain - IG) lượng Entropy lại tập đối tượng DT phân hoạch theo thuộc tính điều kiện c IG xác định theo cơng thức sau [6]: IG (U , c) = Entropy (U ) − |U v | ∑ | U | Entropy (U v∈Vc v ) Vc tập giá trị thuộc tính c, Uv tập đối tượng DT có giá trị thuộc tính c v Giá trị IG(U, c) sử dụng làm độ đo lựa chọn thuộc tính phân chia liệu nút thuật tốn xây dựng định ID3 Thuộc tính 12 chọn thuộc tính cho lượng thơng tin thu thêm lớn Ý nghĩa đại lượng IG lĩnh vực lý thuyết công nghệ thông tin: IG tập S số lượng bít giảm việc mã hóa lớp phần tử c lấy ngẫu nhiên từ tập U 2.3.2 Thuật tốn ID3 Ý tưởng thuật tốn ID3: • Thực giải thuật tìm kiếm thám lam (greedy search) khơng gian định • Xây dựng nút (node) theo chiến lược Top-Down, nút gốc • Ở nút, thc tính kiểm tra (test attribute) thuộc tính có khả phân loại tốt • Tạo (sub-tree) nút cho giá trị thuộc tính kiểm tra, tập liệu đầu vào tách thành tập tương ứng với vừa tạo • Mỗi thuộc tính phép xuất tối đa lần đường • Quá trình phát triển tiếp tục khi: - Cây định phân loại hoàn toàn (perfectly classifies) liệu đầu vào - Tất thuộc tính sử dụng Giả mã thuật tốn ID3 sau: Dữ liệu vào: Bảng định DT = (U, C ∪ {d}) Dữ liệu ra: Mơ hình định Function Create_tree (U, C, {d}) Begin If tất mẫu thuộc nhãn lớp di then return nút gán nhãn di else if C = null then return nút có nhãn dj lớp phổ biến DT else begin bestAttribute:= getBestAttribute(U, C); // Chọn thuộc tính tốt để chia 13 C := C- {bestAttribute}; //xóa bestAttribute khỏi tập thuộc tính với v in bestAttribute Begin Uv := [U]v ; //Uv phân hoạch U ChildNode:=Create_tree(UV, C, {d}); //Tạo nút end end End Giả mã hàm getBestAttribute sau: Dữ liệu vào: Bảng định DT = (U, C∪{d}) Dữ liệu ra: Thuộc tính điều kiện tốt Function getBestAttribute (U, C); Begin maxIG := 0; Với c in C begin tg : = IG(U, c); // Tính lượng thơng tin thu thêm IG(U,c) If (tg > max IG) then begin maxIG := tg; kq := c; end end return kq; //Hàm trả thuộc tính có lượng thơng tin thu thêm IG lớn End 2.3.3 Ví dụ thuật tốn ID3 Xét bảng định DT = {U, C ∪ {d}} sau đây: 14 Bảng 1: Dữ liệu huấn luyện Ngày Quang cảnh Gió Nhiệt độ Độ ẩm Quyết định Ngày Âm u Có Mát mẻ Cao Có Ngày Nắng Không Ấm áp Cao Không Ngày Nắng Không Nóng Cao Khơng Ngày Âm u Khơng Nóng Trung bình Khơng Ngày Nắng Có Nóng Thấp Có Ngày Mưa Không Ấm áp Cao Không Ngày Mưa Khơng Nóng Cao Khơng Ngày Mưa Khơng Nóng Trung bình Khơng Ngày Âm u Có Nóng Thấp Có Ngày 10 Mưa Khơng Ấm áp Trung bình Có Ngày 11 Mưa Có Nóng Trung bình Khơng Ngày 12 Mưa Khơng Nóng Cao Khơng Thuật tốn xây dựng định với liệu bảng sau: • Trước tiên nút khởi tạo gồm mẫu từ đến 12 Đầu tiên tính Entropy cho toàn tập huấn luyện U gồm: bốn {1, 5, 9, 10} có giá trị thuộc tính nhãn “CÓ” tám {2, 3, 4, 6, 7, 8, 11, 12} có thuộc tính nhãn “KHƠNG”, đó: Entropy (U ) = − 8 log 12 − log 12 = 0.918 12 12 Tính IG cho thuộc tính: Thuộc tính “Quang cảnh” Thuộc tính có ba giá trị “Âm u”, “Nắng” “Mưa” Căn vào bảng liệu ta thấy: • Với giá trị “Âm u” có ba {1, 9} có giá trị thuộc tính nhãn “CĨ” có {4} có nhãn lớp “KHƠNG” • Tương tự giá trị “Nắng” có {5} có nhãn lớp “CĨ” có hai {2, 3} có nhãn lớp “KHƠNG”; • Với giá trị “Mưa” có {10} có nhãn lớp “CĨ” năm {6, 7, 8, 11, 12} có nhãn lớp “KHƠNG” 15 Theo cơng thức trên, độ đo lượng thơng tin thu thêm thuộc tính “Quang cảnh” xét U là: IG(U , Outlook) = Entropy(U ) − | Uv | Entropy(U v ) v∈VOutlook | U | ∑ 1 2 5 3 = 0.918− [ (− log2 − log23 ) + (− log23 − log2 ) + (− log2 − log2 )] = 0.134 12 3 12 3 12 6 Theo cách tính tương tự trên, ta tính được: 1 IG(U,Gió) = 0.918 − [ (− log − log ) + (− log − log )] = 0.285 12 4 12 8 2 IG(U,Nhiệt độ)= 0.918 − [ (− log − log ) + (− log − log )] = 0.148 12 3 12 8 IG(U,Độ ẩm)= 0.918 − [ (− log − log ) + (− log − log )] = 0.323 12 6 12 4 Như vậy, thuộc tính “Độ ẩm” thuộc tính có số IG lớn nên chọn thuộc tính phân chia Vì thuộc tính “Độ ẩm” chọn làm nhãn cho nút gốc, ba nhánh tạo với tên là: “Cao”, “Trung bình”, “Thấp”.Hơn nhánh “Thấp” có mẫu {5, 9} thuộc lớp “CÓ ” nên nút tạo với nhãn “CÓ ”.Kết phân chia định sau: Độ ẩm {1, 2, …., 12} Cao ID3(U1, C-{Độ ẩm}, {d}) {1, 2, 3, 6, 7, 12} Thấp CĨ {5, } Trung bình ID3(U2, C-{Độ ẩm}, {d}) {4, 8, 10, 11} Hình 4: Cây sau chọn thuộc tính Độ ẩm (ID3) 16 Bước gọi thuật toán đệ quy: ID3(U1, C-{Độ ẩm}, {d}) Tương tự để tìm điểm chia tốt thuật tốn này, phải tính tốn số IG thuộc tính “Quang cảnh”, “Gió”, “Nhiệt độ” • Đầu tiên ta tính Entropy cho tồn tập huấn luyện U1 gồm {1} có thuộc tính nhãn “CÓ ” năm {2, 3, 6, 7, 12} có thuộc tính nhãn “KHƠNG”: Entropy (U ) = − log 6 log − = 65 • Tiếp theo tính IG cho thuộc tính “Quang cảnh”, thuộc tính có ba giá trị “Âm u”, “Nắng” “Mưa” Nhìn vào bảng liệu: Với giá trị “Âm u” có {1} có giá trị thuộc tính nhãn “CĨ ” Tương tự giá trị “Nắng” có hai {2, 3} có nhãn lớp “KHƠNG”; Với giá trị “Mưa” có ba {6, 7, 12} có nhãn lớp “KHƠNG” Do đó, độ đo lượng thơng tin thu thêm thuộc tính “Quang cảnh” xét U1 là: 1 2 3 IG(U1, Quang cảnh) =0.65 - [ (− log ) + (− log 2 ) + (− log )] = 0.65 • Tính tương tự ta có: 1 5 IG(U1, Gió) = 0.65 - [ (− log ) + (− log )] = 0.65 1 5 IG(U1, Nhiệt độ) = 0.65 - [ (− log ) + (− log )] = 0.65 Ta thấy số IG ba thuộc tính “Quang cảnh”, “Gió”, “Nhiệt độ” nhau, ta chọn thuộc tính để phân chia Giả sử ta chọn thuộc tính “Quang cảnh” để phân chia Do đó, thuộc tính “Quang cảnh” làm nhãn cho nút bên trái nối với nhánh “Cao” Thuộc tính có ba giá trị “Âm u”, “Nắng” “Mưa” nên ta tiếp tục tạo thành ba nhánh “Âm u”, “Nắng” “Mưa”: • Với nhánh “Âm u” gồm mẫu {1} có giá trị định “CÓ ” nên ta tạo nút “CĨ ” • Với nhánh “Nắng” gồm hai mẫu {2, 3} có giá trị định “KHÔNG” nên tạo nút “KHÔNG” 17 • Với nhánh “Mưa” có ba mẫu {6, 7, 12} có giá trị định “KHƠNG” nên ta tạo nút “KHÔNG” Sau thực xong thuật toán đệ quy: ID3(U1, C{Độ ẩm}, {d}), ta có sau: Độ ẩm {1, 2,…, 12} Cao Thấp Bình Thường Quang cảnh CĨ ID3(U2, C-{ Độ ẩm}, {d}) {1, 2, 3, 6, 7, 12} {5, } {4, 8, 10 , 11} Âm u Mưa Nắng CÓ KHÔNG KHÔNG {1 } {2, } {6, 7, 12 } Hình 5: Cây sau chọn thuộc tính Quang cảnh (ID3) • Bước gọi thuật tốn đệ quy: ID3(U2, C-{ Độ ẩm}, {d}) • Tính cách tương tự ta có: 3 Entropy (U2) = − log − log = 0.811 4 1 1 3 IG(U2, Quang cảnh) = 0.811 - [ (− log ) + (− log − log )] = 0.811-0.689 = 0.123 3 1 IG(U2, Gió) = 0.811 - [ (− log − log ) + / 4(− log )] = 0.811-0.689 = 0.123 3 3 1 IG(U2, Nhiệt độ) = 0.811 - [ (− log ) + (− log )] = 0.811-0 = 0.811 Ta thấy số IG “Nhiệt độ” lớn nhất, nên chọn để phân chia Do đó, thuộc tính “Nhiệt độ” làm nhãn cho nút bên phải nối với nhánh “Trung bình”.Trong U2, thuộc tính có hai giá trị “Nóng” “Ấm áp” nên ta tiếp tục tạo thành hai nhánh “Nóng” “Ấm áp”: 18 Với nhánh “Nóng” gồm ba mẫu {4, 8, 11} có giá trị định - “KHÔNG” nên ta tạo nút “KHÔNG” Với nhánh “Ấm áp” gồm mẫu {10} có giá trị định “CĨ ” nên - tạo nút “CÓ ” Cuối thu sau: Độ ẩm {1, 2,…, 12} Cao Thấp Bình Thường Quang cảnh CĨ Nhiệt độ {1, 2, 3, 6, 7, 12} {5, } {4, 8, 10 , 11} Nóng Âm u Nắng Trung bình Mưa CĨ KHƠNG KHƠNG KHƠNG CĨ {1 } {2, } {6, 7, 12 } {4, 8, 11 } {10 } Hình 6: Cây kết (ID3) 2.4 Kết luận Chương này, luận văn trình bày tổng quan quy trình tín dụng mà ngân hàng thương mại phải tuân theo Bên cạnh luận văn trình bày phương pháp tổng qt xây dựng định; ba thuật toán xây dựng định ID3; ví dụ cụ thể để minh họa bước thuật toán Trong chương sau, luận trình bày ứng dụng cụ thể mà ngân hàng áp dụng để phân loại khách hàng mình, vào kết ngân hàng có thêm hỗ trợ để định có cho họ vay vốn hay khơng 19 Chương - THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Giới thiệu toán Trong chương này, luận văn tập trung nghiên cứu cơng tác tín dụng tiêu dùng đặc biệt việc mua nhà giá thấp khách hàng với tập liệu Dulieu_nganhang.xls Dựa vào tập Dulieunganhang.xls xây dựng mơ hình định, từ định rút luật định Dựa vào luật định ta phân lớp tập liệu (dữ liệu khách hàng xin vay tiêu dùng, chưa phân lớp) tập liệu sau phân lớp hỗ trợ cho cán tín dụng định cho khách hàng vay hay không 3.2 Cơ sở liệu Luận văn sử dụng tập liệu: Dulieunganhang.xls gồm 600 đối tượng với 10 thuộc tính điều kiện thuộc tính định “result” định khách hàng vay không vay Bảng 2: Bảng thuộc tính tập liệu Dulieunganhang Thứ tự Thuộc tính Tuoi Giá trị Tre, Ý nghĩa Trẻ, trung niên, già Trungnien, Gia Gioitinh Nam, Nu Nam, Nữ Hokhau NongThon, ThiTran, Nông thôn, Thị trấn, NgoaiO, ThanhPho Ngoại ô, Thành phố Thunhap Thap,Trungbinh, Cao Thấp, trung bình, cao Kethon Co, Khong Có, khơng SoCon Khongcon, Motcon, Khơng con, Một con, Haicon, Bacon Hai con, Ba XeOto Co, Khong Có, khơng TaikhoaTietkiem Co, Khong Có, khơng TaikhoanHientai Co, Khong Có, khơng 10 TaisanThechap Co, Khong Có, khơng 11 RESULT(Chovay) True, false Có (True), Khơng (False) 20 3.3 Cài đặt ứng dụng Chương trình gồm mơ đun chính: Đọc liệu đầu vào từ file Excel Kiểm tra liệu Tạo định Tạo luật sinh từ đinh Đánh giá độ xác thuật tốn • Thuật tốn tạo cụ thể hóa việc lập trình với nội dung câu lệnh sau: 'Lớp xây dựng định thuật toán DecisionTree*/ Public Class DecisionTree Private mSamples As DataTable Private mTotalPositives As Integer = Private mTotal As Integer = Private mTargetAttribute As String = "RESULT Public mTrueValue As String = "True" Private mFalseValue As String = "False" Private mEntropySet As Double = 0.0 'Trả số phần tử True bảng định Private Function countTotalPositives(ByVal samples DataTable) As Integer Dim result As Integer = For Each aRow As DataRow In samples.Rows Dim s As String = "True" If Not (aRow(mTargetAttribute).ToString().Trim().ToUpper() = mTrueValue.ToUpper()) Then s = "False" If Boolean.Parse(s) = True Then result = result + Next Return result End Function As 21 ' Duyệt qua bảng kiểm tra thuộc tính có giá trị value trả số phần tử True số phần tử âm Private DataTable, String, Sub ByVal ByRef getValuesToAttribute(ByVal attribute positives As As Attribute, Integer, */ samples ByVal ByRef As value As negatives As Integer) positives = negatives = For Each aRow As DataRow In samples.Rows If CType(aRow(attribute.AttributeName), String) = value Then Dim s As String = "True" IF Not (aRow(mTargetAttribute).ToString().Trim().ToUpper() = mTrueValue.ToUpper()) Then s = "False" If Boolean.Parse(s) = True Then positives = positives + Else negatives = negatives + End If End If Next End Sub k • Thủ tục tính tốn Entropy: Entropy(U ) = −∑ p i log p i i =1 'Tính entropy -p+log(p+,2) + p-log(p-,2) Private Function calcEntropy(ByVal positives As Integer, ByVal negatives As Integer) As Double Dim total As Integer = positives + negatives Dim ratioPositive As Double = CType(positives / Dim ratioNegative As Double = CType(negatives / total, Double) 22 ' Cây ngưng làm việc phát root.Attribute.value chứa giá trị null If total = Then Return If Not (ratioPositive = 0) Then ratioPositive = (ratioPositive) * System.Math.Log(ratioPositive, 2) If Not (ratioNegative = 0) Then ratioNegative = (ratioNegative) * System.Math.Log(ratioNegative, 2) Dim result As Double = ratioPositive + ratioNegative Return result End Function • Thủ tục tính lượng thơng tin IG 'Tính lượng IG (U , c) = Entropy (U ) − thông |U v | ∑ | U | Entropy(U v∈Vc v tin thu thêm (IG): ) Private Function gain(ByVal samples As DataTable, ByVal attribute As Attribute) As Double Dim values() As String = attribute.values Dim sum As Double = 0.0 Dim _len As Integer = values.Length - For i As Integer = To _len Dim positives, negatives As Integer positives = negatives = getValuesToAttribute(samples, attribute, values(i), positives, negatives) Dim entropy As Double = calcEntropy(positives, negatives) sum += -CType((positives + negatives) / mTotal * entropy, Double) Next i Return mEntropySet + sum End Function 23 3.4 Kết đánh giá 3.4.1 Mơ hình định luật Với tập liệu trình bày (Dulieunganhang.xls: 600 mẫu,10 thuộc tính, thuộc tính kết luận), sau chạy với chương trình, sinh 238 luật với mơ hình định sau: Hình 7: Cây định ứng với thuật tốn ID3 • Các luật định ứng với định ID3 Hình 8: Một số luật định ID3 24 3.4.2 Đánh giá thuật toán ứng dụng định việc hỗ trợ cán tín dụng Để đánh giá hiệu suất định người ta thường sử dụng tập ví dụ tách rời, tập khác với tập liệu huấn luyện, để đánh giá khả phân loại ví dụ tập Tập liệu gọi tập kiểm tra Thông thường, tập liệu sẵn có chia thành hai tập: tập huấn luyện thường chiếm 2/3 tổng số mẫu tập kiểm tra chiếm 1/3 tổng số mẫu Luận văn sử dụng phương thức để đánh giá thuật toán ID3 theo tập liệu: Dulieunganhang.xls Đánh giá độ xác thuật toán với số lần 10 liệu Dulieunganhang.xsl , ta kết sau: Hình 9: Độ xác thuật tốn ID3 3.5 Kết luận Trong chương này, luận văn sử dụng liệu Dulieunganhang.xls để kiểm chứng thuật toán xây dựng định chương Bộ liệu với 600 ghi 10 thuộc tính, phù hợp việc sử dụng định để phân loại khách hàng vay vốn ngân hàng thương mại Đồng thời, dựa vào mơ hình định (các luật định) xây dựng, luận văn đánh giá, phân tích luật q trình phân loại khách hàng để từ tiếp tục hỗ trợ việc định cho khách hàng vay vốn ngân hàng thương mại 25 KẾT LUẬN Qua hai năm học tập, tìm tịi, nghiên cứu, đặc biệt khoảng thời gian làm luận văn, tác giả hoàn thiện luận văn với mục tiêu đặt ban đầu Cụ thể luận văn đạt kết sau: • Trình bày kiến thức khám phá tri thức khai phá liệu • Giới thiệu phương pháp tổng quát xây dựng định, trình bày thuật toán xây dựng định ID3 số ví dụ minh họa cho phương pháp xây dựng định • Cài đặt Visual Basic thuật toán xây dựng định ID3 sở liệu mẫu Dulieunganhang.xsl Đánh giá độ xác thuật tốn đánh giá độ xác luật mơ hình định Một số vấn đề luận văn phải tiếp tục nghiên cứu, tìm hiểu: • Cần tiếp tục nghiên cứu thuật toán khai phá liệu định: thuật tốn ADTCCC (dựa vào CORE đại lượng đóng góp phân lớp thuộc tính), thuật tốn ADTNDA (dựa vào độ phụ thuộc thuộc tính) … • Cần bổ sung thêm liệu cho tập huấn luyện để mơ hình định có độ tin cậy cao hoạt động hiệu Tiếp tục phát triển hoàn thiện theo hướng trở thành phần mềm khai phá liệu tín dụng tiêu dùng nhằm hỗ trợ cho cán tín dụng đưa định cho khách hàng vay hay khơng • Tìm hiểu nhu cầu thực tế để từ cải tiến chương trình, cài đặt lại tốn theo thuật tốn nghiên cứu để làm việc tốt với sở liệu lớn có sản phẩm thị trường ... mong muốn nghiên cứu việc ứng dụng định để phân loại khách hàng Ngân hàng thương mại, chọn đề tài ? ?Ứng dụng định để phân loại khách hàng vay vốn Ngân hàng thương mại? ?? làm luận văn tốt nghiệp Mục... vi dân khách hàng • Khả sử dụng vốn vay • Khả hoàn trả nợ vay (vốn vay lãi) Bước 2: Phân tích tín dụng Phân tích tín dụng xác định khả tương lai khách hàng việc sử dụng vốn vay hồn trả nợ vay với... sử dụng liệu Dulieunganhang.xls để kiểm chứng thuật toán xây dựng định chương Bộ liệu với 600 ghi 10 thuộc tính, phù hợp việc sử dụng định để phân loại khách hàng vay vốn ngân hàng thương mại

Ngày đăng: 17/02/2014, 09:46

Hình ảnh liên quan

Hình 1: Quá trình phát hiện tri thức trong CSDL - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

Hình 1.

Quá trình phát hiện tri thức trong CSDL Xem tại trang 5 của tài liệu.
Quá khai phá dữ liệu được mơ hình hóa một cách tổng quát như hình vẽ dưới - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

u.

á khai phá dữ liệu được mơ hình hóa một cách tổng quát như hình vẽ dưới Xem tại trang 6 của tài liệu.
Hình 3: Mơ tả chung về cây quyết định 2.2.2 Thiết kế cây quyết định   - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

Hình 3.

Mơ tả chung về cây quyết định 2.2.2 Thiết kế cây quyết định Xem tại trang 11 của tài liệu.
2.2.2.1 Xử lý dữ liệu - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

2.2.2.1.

Xử lý dữ liệu Xem tại trang 11 của tài liệu.
Xét bảng quyết định DT = {U, C∪ {d}} sau đây: - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

t.

bảng quyết định DT = {U, C∪ {d}} sau đây: Xem tại trang 15 của tài liệu.
Dữ liệu vào: Bảng quyết định DT = (U, C∪{d}) - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

li.

ệu vào: Bảng quyết định DT = (U, C∪{d}) Xem tại trang 15 của tài liệu.
Bảng 1: Dữ liệu huấn luyện - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

Bảng 1.

Dữ liệu huấn luyện Xem tại trang 16 của tài liệu.
Hình 4: Cây sau khi chọn thuộc tính Độ ẩm (ID3) - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

Hình 4.

Cây sau khi chọn thuộc tính Độ ẩm (ID3) Xem tại trang 17 của tài liệu.
Hình 5: Cây sau khi chọn thuộc tính Quang cảnh (ID3) - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

Hình 5.

Cây sau khi chọn thuộc tính Quang cảnh (ID3) Xem tại trang 19 của tài liệu.
Hình 6: Cây kết quả (ID3) 2.4 Kết luận   - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

Hình 6.

Cây kết quả (ID3) 2.4 Kết luận Xem tại trang 20 của tài liệu.
Dulieu_nganhang.xls. Dựa vào tập Dulieunganhang.xls sẽ xây dựng mơ hình cây quyết - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

ulieu.

_nganhang.xls. Dựa vào tập Dulieunganhang.xls sẽ xây dựng mơ hình cây quyết Xem tại trang 21 của tài liệu.
'Trả về số phần tử True trong bảng quyết định - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

r.

ả về số phần tử True trong bảng quyết định Xem tại trang 22 của tài liệu.
' Duyệt qua bảng và kiểm tra thuộc tính có giá trị là value và trả về số phần tử True và số phần tử âm - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

uy.

ệt qua bảng và kiểm tra thuộc tính có giá trị là value và trả về số phần tử True và số phần tử âm Xem tại trang 23 của tài liệu.
tính kết luận), sau khi được chạy với chương trình, nó sinh ra 238 luật với mô hình cây - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

t.

ính kết luận), sau khi được chạy với chương trình, nó sinh ra 238 luật với mô hình cây Xem tại trang 25 của tài liệu.
3.4.1 Mơ hình cây quyết định và các luật - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

3.4.1.

Mơ hình cây quyết định và các luật Xem tại trang 25 của tài liệu.
Hình 9: Độ chính xác của thuật toán ID3 - Ứng dụng cây quyết định để phân loại khách hàng vay vốn của ngân hàng thương mại

Hình 9.

Độ chính xác của thuật toán ID3 Xem tại trang 26 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan