Ứng dụng khai phá dữ liệu để phân loại khách hàng viễn thông

52 820 11
Ứng dụng khai phá dữ liệu để phân loại khách hàng viễn thông

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: “Ứng dụng khai phá liệu để phân loại khách hàng viễn thông “ Giảng viên hướng dẫn: ThS NGUYỄN QUỲNH CHI Sinh viên thực hiện: LÊ TUẤN KHANG Lớp : D10HTTT2 Khoá : 2010-2015 Hệ : Chính Quy Hà Nội, tháng 11 /2014 NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của giáo viên hướng dẫn) …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………… Điểm: …………………………… (bằng chữ: ………………………………) Đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp ………………, ngày tháng năm 2014 GIÁO VIÊN HƯỚNG DẪN ThS Nguyễn Quỳnh Chi NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của giáo viên phản biện) …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………… Điểm: …………………………… (bằng chữ: ………………………………) Đồng ý/ Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp ………………, ngày tháng năm 2014 GIÁO VIÊN PHẢN BIỆN SVTH: Lê Tuấn Khang, Lớp D10HTTT2 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo, cô giáo khoa Công nghệ thông tin – Học viện công nghệ bưu viễn thông, tận tâm giảng dạy kiến thức năm học qua với động viên từ gia đình bạn bè người thân Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc đến cô giáo Nguyễn Quỳnh Chi, người tận tình hướng dẫn em thực đồ án Tuy nhiên trình nghiên cứu, thực không tránh khỏi thiếu sót, mong đóng góp ý kiến từ tất thầy cô, bạn bè để đồ án phát triển hoàn thiện Hà nội,tháng 11,năm 2014 Người thực Lê Tuấn Khang Trang SVTH: Lê Tuấn Khang, Lớp D10HTTT2 MỤC LỤC Trang SVTH: Lê Tuấn Khang, Lớp D10HTTT2 LỜI MỞ ĐẦU Thông tin nguồn tri thức quan trọng dồi nhân loại, đặc biệt ngành công nghệ thông tin, tri thức chiếm vị trí vô quan trọng Tuy nhiên với phát triển vũ bão công nghệ ngành khác thời đại ngày nay, số lượng tài nguyên số tăng lên cách chóng mặt, thông tin trở nên đa dạng phong phú trước nhiều.Việc nắm bắt thông tin coi sở hoạt động kinh doanh, sản xuất.Với tăng trưởng vượt bậc liệu mặt sống làm sinh thúc đẩy phát triển phương pháp thu thập, lưu trữ, phân tích… không hình thức thông thường thống kê, liệu kê hay phép đếm… mà đòi hỏi cách thức xử lý thông minh mà hiệu Ngoài thông tin có nguồn liệu lúc dạng có sẵn nhìn thấy được.Vấn đề trích xuất thông tin hữu ích (nhưng dạng tiềm ẩn) nguồn liệu lớn đồ sộ trở thành toán không ngành công nghệ thông tin mà tất ngành khác.Khai phá liệu (data mining) cho phép giải vấn đề nhiều phương pháp khác nhau, đồng thời đưa tiêu chuẩn nhằm kiểm định kết quả, mang tính ứng dụng cao thực tiễn Một ngành nghề cần đến ứng dụng khai phá liệu ngành viễn thông Để đảm bảo yêu cầu công việc, doanh nghiệp (công ty) viễn thông cần lưu trữ khối lượng liệu khổng lồ, bao gồm thông tin cá nhân khách hàng, thông tin dịch vụ, tình trạng hệ thống,…Ngoài trình cạnh tranh, doanh nghiệp viễn thông không nắm rõ thông tin có sẵn khách hàng mà phải đoán xu hướng, hành vi, thói quen khách hàng nhằm đưa thay đổi sách, dịch vụ hay phản hồi nhằm đảm bảo doanh thu đường lối công ty Các thông tin quan trọng thường sẵn thông tin dạng thô, khó để sử dụng phương pháp liệt kê, tìm kiếm thông thường Ứng dụng khai phá liệu nhằm phát thông tin ẩn chứa khối liệu khổng lồ đưa đoán (prediction) hỗ trợ trình định cấp lãnh đạo góp phần cải thiện, nâng cao hiệu trình kinh doanh của doanh nghiệp (công ty) viễn thông Trong đề tài tốt nghiệp “Ứng dụng khai phá liệu để phân loại khách hàng viễn thông”, người viết tìm hiểu khai phá liệu ứng dụng thực tiễn, toán phân loại thông tin khách hàng viễn thông Mục tiêu nghiên cứu Trang SVTH: Lê Tuấn Khang, Lớp D10HTTT2 Xây dựng chương trình thử nghiệm áp dụng thực tế, giúp doanh nghiệp viễn thông đoán thói quen trả cước khách hàng Từ hỗ trợ việc định nâng cao hiệu trình kinh doanh Đối tượng, phạm vi nghiên cứu Tìm hiểu khai phá liệu, thuật toán SVM, để phân loại khách hàng viễn thông dựa liệu có • Phạm vi nghiên cứu: Trong khuôn khổ kiến thức học nghiên cứu • Phương pháp nghiên cứu Nghiên cứu vấn đề khai liệu, trình học máy, thuật toán máy Vector hỗ trợ(SVM) khai phá liệu áp dụng thuật toán máy vector hỗ trợ vào việc xây dựng chương trình phân loại thói quen trả cước dịch vụ khách hàng doanh nghiệp viễn thông Từ đánh giá độ xác khả ứng dụng chương trình thực tế Bố cục luận văn Chương 1: Tổng quan toán phân loại khách hàng viễn thông Chương 2: Xây dựng thuật toán máy Vector hỗ trợ (Support Vector Machine) cho toán phân loại Chương 3: Xây dựng chương trình thử nghiệm đánh giá cho toán phân loại khách hàng viễn thông Chương 1: Tổng quan toán phân loại khách hàng viễn thông Trang SVTH: Lê Tuấn Khang, Lớp D10HTTT2 Đặt vấn đề (Bài toán cần giải quyết) 1.1 Luận văn tìm hiểu giải toán xuất phát từ thực tế, thói quen trả phí dịch vụ khách hàng công ty(doanh nghiệp) viễn thông.Cụ thể vấn đề trả phí dịch vụ không hạn cá nhân tập thể Thông thường khách hàng kí hợp đồng sử dụng dịch vụ công ty viễn thông (ví dụ dịch vụ điện thoại, internet, fax… ), khách hàng (có thể cá nhân tập thể) phải có trách nhiệm trả phí dịch vụ cho bên cung cấp dịch vụ khoảng thời gian kí kết hợp đồng Tuy nhiên nhiều nguyên nhân khác nhau, xuất phát từ phía khách hàng phía công ty viễn thông Khách hàng không trả phí dịch vụ hạn cho bên cung cấp dịch vụ thỏa thuận hợp đồng, điều gây ảnh hưởng không nhỏ tới công ty viễn thông Việc không thu phí dịch vụ hạngây ảnh hưởng xấu tới nhiều mặt doanh nghiệp viễn thông, bao gồm doanh thu, trình kiểm toán, trả lương cho nhân viên… Mặc dù tình trạng xảy điều không mong muốn, nhiên xảy công ty viễn thông cần tìm cách giải vấn đề.Trong giải pháp để giải tình trạng việc thống kê khách hàng có thói quen trả cước muộn, việc đoán, phân loại khách hàng có thói quen trả phí dịch vụ hạn quan trọng không Việc đoán, phân loại thói quen trả cước khách hàng có nhiều ý nghĩa công ty viễn thông đoán, phân loại khách hàng có thói quen trả cước tốt hay xấu không hỗ trợ giải vấn đề nêu trên, mà giúp công ty viễn thông có nhìn xác đối tượng khách hàng Từ giúp công ty viễn thông đề sách đối tượng khách hàng, hỗ trợ việc định nâng cao hiệu trình kinh doanh Có thể cụ thể hóa toán cần giải đề tài sau Phân loại, đoán thói quen trả cước dịch vụ khách hàng (đúng hạn hay không hạn) dựa vào liệu viễn thông sẵn có (sẽ đề cập phần sau) • Phỏng đoán tháng trả cước không hạn khách hàng trả cước không hạn • 1.2 Dữ liệu đầu vào để giải toán Các công ty viễn thông lưu trữ khối lượng liệu khổng lồ, bao gồm: • Các thông tin cá nhân khách hàng • Các thông tin dịch vụ khách hàng Trang SVTH: Lê Tuấn Khang, Lớp D10HTTT2 • Các thông tin trình trả cước dịch vụ khách hàng Đây liệu sử dụng để giải toán đoán thói quen trả cước khách hàng viễm thông Trong nội dung đồ án này, liệu thu thập từ trung tâm kinh doanh dịch vụ viễn thông, liệu lưu định dạng file excel, bao gồm loại thông tin nêu Các thông tin lưu trữ vòng năm (2013), liệu không giá trị sử dụng chia sẻ miễn phí để hỗ trợ trình tiến hành thực đồ án Tuy nhiên có vài thông tin bị loại bỏ yêu cầu bảo mật khách hàng 1.3 Các nghiên cứu trước Vấn đề phân loại khách hàng viễn thông, đoán thói quen trả cước khách hàng tiến hành nhiều công ty viễn thông lớn giới, nhiên Việt Nam vấn đề ý thời gian gần phát triển cạnh tranh công ty viễn thông nước Ở góc độ giải vấn đề toán giải theo phương pháp truyền thống, biện pháp thống kê , kế toán chưa áp dụng công nghệ khai phá liệu Một vài đề tài nước (bổ sung phần thích) có áp dụng giải pháp khai phá liệu nhiên hiệu chưa cao, khó có khả áp dụng thực tiễn.Mục tiêu đề tài ứng dụng áp dụng vào thực tiễn, điều mà đề tài trước chưa làm 1.4 Phương pháp tiếp cận Như nói phần đặt vấn đề, toán đoán, phân loại khách hàng viễn thông phương pháp tiếp cận đề tài dùng ứng dụng khai phá liệu để giải toán Trong đó, kĩ thuật khai phá liệu sử dụng phương pháp phân loại (classification)[1] Các bước trình khai phá liệu gồm trình: 1.4.1 Quá trình huấn luyện mô hình phân loại • Tiền xử lý liệu: Dữ liệu thô (các thông tin khách hàng, dịch vụ, trả cước) thu thập tiến hành khai phá mà phải xử lý tinh chỉnh trước tiên, ta tiến hành vài bước nhỏ trình tiền xử lý liệu nhằm đưa tập liệu thô trở thành tập liệu dạng khai phá, áp dụng thuật toán Trang SVTH: Lê Tuấn Khang, Lớp D10HTTT2 Xây dựng mô hình phân loại: Sau trình tiền xử lý liệu,ta tiến hành xây dựng mô hình từ tập liệu qua tiền xử lý dựa vào thuật toán phân loại SVM Kết trình mô hình qua huấn luyện, áp dụng vào trình phân loại • Đánh giá hiệu mô hình phân loại: Sau trình xây dựng mô hình phân loại, kết thu sử dụng ngay trình tiền xử lý huấn luyện mô hình, ta thường gặp phải nhiều vấn đề nhiễu liệu (noise) hay liệu vừa (overfiting).Bộ mô hình thu không xác không hiệu tiến hành phân loại Do phải tiến hành đánh giá hiệu mô hình để lựa chọn mô hình tốt • Có thể tóm gọn trình huấn luyện mô hình phân loại hình Hình 1.4.1 Mô tả bước trình huấn luyện mô hình phân loại 1.4.2 • Quá trình phân loại liệudựa vào mô hình phân loại Tiền xử lý liệu: Dữ liệu dùng để phân loại trước tiến hành phân loại cần kiểm tra, xử lý, đưa định dạng tiến hành phân loại • Phân loại dựa vào mô hình:Bước thứ hai sử dụng mô hình tối ưu qua huấn luyện (1.4.1) để tiến hành phân loại liệu dùng để phân loại, đoán thói quen trả cước khách hàng, tức giải mục tiêu toán.Kết thu liệu ban đầu qua phân loại gán nhãn phân loại • Đánh giá hiệu trình phân loại: Sau tiến hành phân loại, ta tiến hành đánh giá hiệu trình phân loại.Dữ liệu phân loại thu cần phải đánh giá dựa tiêu chí khác để đánh giá mức độ hiệu Trang 10 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 đảm bảo sai số không nhiều Sau ta loại bỏ thuộc tính “Tên Khách Hàng” thuộc tính không giá trị khai phá Hình 3.3.1.3.b Mô tả kết sau sinh thuộc tính 3.3.1.4 Rời rạc nhị phân hóa liệu Thuật toán SVM phân loại tốt với liệu đầu vào dạng rời rạc, ta phải tiến hành chuyển thuộc tính có giá trị liên tục thành giá trị rời rạc Có thuộc tính phải tiến hành rời rạc hóa liệu thuộc tính “Tuổi” “Khu vực” • Đối với thuộc tính “Tuổi”: Chuyển tuổi khách hàng hai khoảng 30 tuổi 30 tuổi, khách hàng tập thể có độ tuổi “Khác” giữ nguyên Trang 38 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 • Đối với thuộc tính “Khu vực”: chuyển khu vực khách hàng thành phố khu vực.Các khách hàng quận huyện giữ nguyên giá trị Thuộc tính Giá trị cũ Giá trị Tuổi 18,19,20,… ,59,60 Khac Tren30, Duoi30, Khac Khu vực ThanhPhoKV1,ThanhPhoKV2 , ThanhPhoKV3,ThanhPhoKV4 , KienXuong,DongHung, TienHai ThanhPho,KienXuong, DongHung,TienHai Bảng 3.3.1.4.a Mô tả trình rời rạc liệu Về mặt giải thuật: Sử dụng câu lệnh so sánh (if-else) hàm so sánh chuỗi “indexOf” để chuyển đổi khoảng giá trị theo mong muốn 3.3.1.5 Chuyển đổi thuộc tính Ta tiến hành chuyển đổi toàn giá trị tập thuộc tính cũ sang tập thuộc tính với giá trị thay nhằm thuận tiện cho trình khai phá, không làm thay đổi chất giá trị Cụ thể là: Tiến hành chuyển kiểu liệu từ dạng chữ (chuỗi ) sang dạng số nhằm thuận tiện cho trình vào (input/output) tiết kiệm thời gian chạy thuật toán Sau bước rời rạc nhị phân hóa liệu thu bao gồm bảng excel hình dưới: Trang 39 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 Bảng 3.3.5.1.a: Dữ liệu đầu vào dạng chữ Tiến hành chuyển đổi kiểu liệu từ dạng chữ (chuỗi) sang dạng số cách mã hóa kí tự số stt Tên thuộc tính Nganh Gioi_tinh Tuoi Loaikh tenDV Giá trị Mã hóa giaoduc_daotao Dn_cty chinhquyen Dvu_kinhdoanh Dvu_xahoi Khac Nam Nu Khac Duoi30 Tren30 Khac Canhan TapThe CoDinh DiDong Internet Fax Khac 0 2 1 Trang 40 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 ThanhPho DoHung TienHai KienXuong HinhThuc_T TraTruoc T TraSau KhuyenMai Khong Co Taikhoan_nh Khong Co 10 Chitra Tramuon (Lớp) TraDungHan Bảng 3.3.5.1.b:Bảng liệu mã hóa liệu KhuVuc Thu kết file excel dạng mã hóa: Bảng 3.3.5.1.c: Bảng liệu dạng mã hóa Cuối chuyển liệu dạng text cho phù hợp với định dạng đầu vào, ta chuyển đổi định dạng từ file excel sang file text, cấu trúc file text có dạng: Trang 41 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 Trong tương ứng với dòng đầu tiên: 1:0 2:1 3:1 4:0 5:1 6:0 7:0 8:0 9:1 Giá trị lớp phân loại Số thứ tự thuộc tính Giá trị thuộc tính Như ta xây dựng xong tập liệu đầu vào, đến trình khai phá liệu 3.3.2 Xây dựng chương trình khai phá liệu Chương trình viết ngôn ngữ Java, gồm phần phần thuật toán SVM, phần huấn luyện mô hình dựa thuật toán SVM trình kiểm tra dựa vào mô hình huấn luyện 3.3.2.1 Quá trình huấn luyện mô hình Mục tiêu trình huấn luyện xây dựng mô hình tốt sử dụng cho trình kiểm tra Input: File liệu qua trình xử lý Quá trình huấn luyện: bao gồm bước • Đọc liệu đầu vào từ file text • Lựa chọn thuật toán huấn luyện: - C-SVC - v-SVC • lựa chọn hàm nhân Kernel: - Hàm nhân tuyến tính (Linear) - Hàm nhân đa thức (polynomial) - Hàm nhân hướng tâm (RBF) - Hàm nhân dạng xích ma(sigmoid) • Cài đặt tham số đầu vào cho thuật toán (C, degree, gamma,nu) Trang 42 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 • • • Kiểm tra tham số đầu vào Chạy thuật toán Xuất output Output: Xuất file mô hình bao gồm thông tin: • Thông tin loại thuật toán • Dạng hàm nhân • Các thông số sau chạy thuật toán (tham số tối ưu, số support vector, số hạng độ dốc….) • Vị trí support vector lớp phân loại mà chúng thuộc Minh họa hình Hình 3.2.2.1 Kết trình huấn luyện mô hình 3.3.2.2 Quá trình kiểm tra Mục tiêu trình kiểm tra đánh giá mức độ xác mô hình, riêng phần đánh giá độ xác ta đề cập phần Trong trình kiểm tra, ta dựa vào tập mô hình để phân loại liệu (thuộc kiểm tra) thuộc lớp liệu cho Input: • Tập mô hình qua huấn luyện Trang 43 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 • Tập liệu dùng để kiểm tra (chưa phân loại) Output: • Phân loại liệu kiểm tra lớp phân loại xuất file output • Đánh giá độ xác Mô tả kết phân loại liệu: Hình 3.3.2.2 Định dạng file output, thể kết phân loại Mô tả kết đánh giá độ xác Hình 3.3.3.2.2: Kết đánh giá độ xác 3.4 Đánh giá độ xác 3.4.1 Phương pháp tiêu chuẩn đánh giá Phương pháp đánh giá: • Giữ lại phần(holdout):Dùng 2/3 số ghi tập liệu cho việc huấn luyện, 1/3 lại cho việc kiểm tra • Xác nhận chéo(cross-validation) Nội dung lý thuyết phương pháp trình bày phần 2.1.2.2 Tiêu chuẩn đánh giá:Trong trường hợp ta thấy chuẩn đo tốt cho liệu Do đó, • Đánh giá độ hiệu mô hình chuẩn đo độ xác accuracy Trang 44 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 • Tính toán thông số TP (True possitive), FP (False positive), FN(False Negative), TN(True Negative) Các thông số TP,FP,FN,TN chủ yếu dùng để tính toán độ xác nên ta đề cập đến độ xác phần 3.4.2 Kết thử nghiệm ban đầu Ban đầu ta sử dụng phương pháp giữ lại phần, chia liệu thành phần: 2/3 liệu cho huấn luyện 1/3 liệu cho kiểm tra Bộ liệu có số mẫu đạt xấp xỉ 50.000 Sau tiến hành trình huấn luyện, kiểm tra để thu kết Đối với chương trình, ta tiến hành: • Lựa chọn phương pháp phân loại bao gồm C-SVC v-SVC • Sử dụng hàm nhân(Kernel) để đánh giá kết khác Lưu ý liệu khác nhau, dạng hàm nhân cho kết khác • Các tham số thuật toán ta để mặc định (c=1, degree=3,gamma=1) Kết trình phân loại thể bảng: Hàm nhân Phân loại C-SCV Phân loại v-SVC Tuyến tính (Linear) 64.15% 60% Đa thức (Polynomial) 80,37% 76.02% Hướng tâm (RBF) 82.02% 77.13% Dạng xích ma(Sigmoid) 70.41% 67.12% Biểu diễn dạng đồ thị: Theo lý thuyết hàm nhân RBF phân loại C-SVC thường cho độ xác cao nhất, trường hợp thực tế toán độ xác sử dụng C-SVC hàm nhân Trang 45 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 RBF lớn trường hợp , đạt 82.02% (13960/16968 trường hợp phân loại) Tuy nhiên độ xác chưa cao mong muốn, ta phải tiến hành bước xử lý nhằm tăng độ xác 3.5 Tăng hiệu trình phân loại Khi độ xác trình khai phá không cao mong muốn, giải pháp sử dụng để tiến hành tăng độ xác bao gồm: • Kiểm tra lại trình tiền xử lý • Kiểm tra lại thuật toán( đề tài ta tiến hành thay đổi tham số thuật toán ) 3.5.1 Thay đổi trình tiền xử lý để tăng hiệu phân loại Hiệu trình phân loại không cao trình tiền xử lý chưa kĩ lưỡng chưa đúng, cần tiến hành kiểm tra bước trình tiền xử lý kiểm tra nguyên nhân Cụ thể ta tiến hành kiểm tra lại bước “rời rạc nhị phân ” hóa trình tiền xử lý liệu, định dạng lại giá trị cho hai thuộc tính “Tuổi ” “Khu vực” Đối với thuộc tính “Tuổi”: Chuyển tuổi khách hàng ba khoảng trẻ(1830), trung bình(30-50), già(>50), khách hàng tập thể có độ tuổi “Khác” giữ nguyên • Đối với thuộc tính “Khu vực”: chuyển khu vực khách hàng thành phố khu vực.Các khách hàng quận huyện chuyển kiểu giá trị vềkhu vực Ngoại thành • Thuộc tính Giá trị ban đầu Giá trị cũ Giá trị Tuổi 18,19,20,… ,59,60 Khac Tren30, Duoi30, Khac Tre(18-30), TrungNien(30-50) Gia(>50),Khac Trang 46 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 Khu vực ThanhPhoKV1,ThanhPhoKV2 , ThanhPhoKV3,ThanhPhoKV4 , KienXuong,DongHung, TienHai ThanhPho,KienXuong, DongHung,TienHai ThanhPho,NgoaiThan h Ta tiến hành bước chuyển đổi thuộc tính tương tự làm với liệu cũ Bộ liệu tiếp tục chia làmthành phần: 2/3 liệu cho huấn luyện 1/3 liệu cho kiểm tra Số mẫu cũ (gần 50.000) Sau đóđó tiến hành trình huấn luyện, kiểm tra để thu kết Phương pháp phân loại C-SVC, hàm nhân sử dụng RBF, tham số để mặc định Kết thu có độ xác đạt 78.81%, tức giảm so với kết ban đầu, hiệu trình phân loại không tăng thay đổi trình tiền xử lý liệu Đây điều mà đồ án chưa đạt 3.5.2 Thay đổi tham số thuật toán để tăng hiệu phân loại Phương pháp phân loại SVM có đặc điểm độ xác mô hình phụ thuộc vào tham số thuật toán Do mục tiêu thay đổi tham số thuật toán để thu kết có độ xác cao Ta tiến hành thay đổi tham số thuật toán C, gamma degree Ta tiến hành sử dụng với liệu ban đầu (3.4.1), phương pháp phân loại C-SVC, hàm nhân sử dụng RBF • Thay đổi C, đại lượng sai số trình huấn luyện Giá trị C từ đến vô cùng, dạng số thực Thông số mặc định C Các tham số khác để mặc định Kết thu được: Giá trị C Độ xác 0.01 64.86% 0.1 76.62% (mặc định) 82.02% Trang 47 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 10 30 100 87.13% 89.65% 91.2% 91.2% Mô tả đồ thị: Ta nhận thấy giảm C độ xác giảm, tăng C độ xác tăng hội tụ mức 91.2% với C = 30 • Thay đổi gamma, đại lượng phép tính hàm nhân kernel Giá trị Gamma từ đến vô cùng, dạng số thực Giá trị mặc định gamma = 0.1 Các tham số ta khác để mặc định Kết thu Giá trị Gamma Độ xác 0.001 62.85% 0.01 67.87% 0.1(mặc định) 82.02% 82.03% 10 82.03% 100 82.03% Mô tả đồ thị: Kết quả: độ xác gần không đổi Như ta với tham số gamma ta không tìm cách để tăng độ xác, ta để tham số mức mặc định • Thay đổi degree, tham số phép tính số mũ hàm nhân kernel Giá trị Gamma từ đến vô cùng, dạng số nguyên dương Giá trị mặc định Degree = Các tham số khác để mặc định Kết thu Giá trị Degree Độ xác 82.01% 82.02% 3(mặc định) 82.02% 82.02% 10 82.02% Trang 48 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 Kết quả: Độ xác gần đổi thay đổi tham số degree, ta để tham số mức mặc định Tóm lại: Qua trình thay đổi tham số, ta thu độ xác cao 91.2 với C = 30, tham số khác để mặc định Tuy giá trị C sử dụng để tính toán hàm số mũ ma trận Do tăng C làm tăng thời gian thực chương trình Để tránh trường hợp liệu vừa (Overfit) huấn luyện, ta tiến hành kiểm tra chéo (Cross-validation), chia tập liệu thành 10 phần tiến hành huấn luyện đồng thời kiểm tra phần Kết quả: • Độ xác đạt 81.63 %với tham số mặc định C=1 • Độ xác đạt 91.1 % với tham số tối ưu C= 30 3.6 Mở rộng đề tài với toán phân loại đa lớp Trong mục trên, ta thực toán khai phá liệu đoán thói quen trả cước khách hàng (trả hạn hay trả muộn), phần ta tiến hành xây dựng toán phân loại, đoán xem khách hàng trả cước muộn vào tháng năm Quá trình thực Đối với liệu: • Loại bỏ thuộc tính chi trả, ta xét đến trường hợp khách hàng trả cước muộn • Loại bỏ khách hàng trả cước hạn • Sinh thêm thuộc tính “Tháng trả muộn” từ liệu xác định khách hàng trả muộn vào tháng (Từ tháng 1-12 tháng) • Do lọc từ liệu nên số mẫu đạt 23.000 Dạng liệu sau: Trang 49 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 Mô tả liệu Quá trình phân loại: • Các bước thực với phân loại hai lớp, nhiên nhãn phân loại nằm khoảng [1;12] • Phương pháp đánh giá: o Chia liệu thành phần, tỉ lệ 2/3 huấn luyện, 1/3 kiểm tra thông thường o Xác nhận chéo (cross-validation) • Lần lượt sử dụng hàm nhân kernel khác nhau, lấy kết hàm nhân có độ xác cao • Tiến hành trình thay đổi tham số để tăng độ xác Kết quả: • Độ xác tối đa đạt 81.1% với phương pháp chia liệu 2/3 huấn luyện, 1/3 kiểm tra • Độ xác đạt 79.6% với phương pháp xác nhận chéo • Tham số C = 20, tham số khác để mặc định Kết Luận Các công việc thực Trong khuôn khổ đồ án tốt nghiệp này, người nghiên cứu tiến hành nghiên cứu lý thuyết, giải toán phân loại khách hàng viễn thông qua trình nghiên cứu Trang 50 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 khai phá liệu, tìm hiểu giải thuật cho phương pháp phân loại SVM xây dựng chương trình ứng dụng Kết đạt đồ án Kết đạt chương trình ứng dụng đạt hiệu cao áp dụng tốt thực tế.Ngoài kiến thức trình bày đồ án áp dụng vào giải vấn đề khác nghiên cứu lý thuyết thực tiễn Các hạn chế Do hạn chế định thân, đồ án nhiều thiếu sót Các hạn chế đồ án bao gồm vấn đề sau.Độ xác trình phân loại cao, nhiên tăng thông qua trình tiền xử lý liệu (cần tiền xử lý liệu tốt hơn), đồng thời tăng độ xác cách thay đổi tham số phương pháp phân loại SVM Ngoài ra, nội dung đồ án, liệu dùng đồ án đạt mức thấp, cần tăng thêm để đảm bảo tính khách quan ứng dụng Hướng phát triển Tiếp tục nghiên cứu để đồ án đạt kết phân loại tốt với giải thuật khác Mạng nơ-ron nhân tạo, bayes… • Mở rộng mục tiêu toán, không nhằm phân loại khách hàng viễn thông mà mở rộng nghiên cứu ngành nghề khác thực tiễn • Thuật toán SVM có nhiều ứng dụng khác nhau, không nhằm giải toán phân loại Các ứng dụng khác thuật toán SVM hồi quy, học máy … thường cho kết tốt so với phương pháp khác • Trang 51 SVTH: Lê Tuấn Khang, Lớp D10HTTT2 Tài Liệu Tham Khảo [1]Bài giảng Kho dữ liệu và khai phá dữ liệu,Học viện Công nghệ bưu viễn thông [2]Bài giảng khai phá dữ liệu, Trường đại học bách khoa thành phố HCM [3]http://en.wikipedia.org/wiki/Data_mining [4] LIBSVM: A Library for Support Vector Machines, Chih-Chung Chang and Chih-Jen Lin [5]Support vector machine tutorial, Wu, Shih-Hung(Ph.D),Dept of CSIE, CYUT [6]Support Vector Machines, by David Meyer,FH Technikum Wien, Austria [7]http://vi.wikipedia.org/wiki/Máy_vectơ_hỗ_trợ [8]A tutorial on n-support vector machines,Pai-Hsuen Chen1, Chih-Jen Lin1 and Bernhard Sch.olkopf2 Trang 52

Ngày đăng: 11/07/2016, 22:44

Từ khóa liên quan

Mục lục

  • NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM

  • NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan