PHÂN LOẠI HÀNH VI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI ĐỘNG DỰA TRÊN THUẬT TOÁN K-MEANS

28 335 0
  • Loading ...
1/28 trang

Thông tin tài liệu

Ngày đăng: 20/03/2017, 06:03

Header Page of 166 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - LÊ MINH HẢI PHÂN LOẠI HÀNH VI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI ĐỘNG DỰA TRÊN THUẬT TOÁN K-MEANS LUẬN VĂN THẠC SỸ KỸ THUẬT HÀ NỘI - 2013 Footer Page of 166 Header Page of 166 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - LÊ MINH HẢI PHÂN LOẠI HÀNH VI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI ĐỘNG DỰA TRÊN THUẬT TOÁN K-MEANS Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI -2013 Footer Page of 166 Header Page of 166 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS NGUYỄN MẠNH HÙNG Phản biện 1: ………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông Footer Page of 166 Header Page of 166 MỞ ĐẦU Lý chọn đề tài Đối với doanh nghiệp thông di động di động việc phát triển thuê bao để kiếm tìm lợi nhuận vào thời điểm không đem lại hiệu Thay vào phương án kinh doanh tiến đến phát triển chất lượng dịch vụ cung cấp thêm nhiều dịch vụ giá trị gia tăng Tuy nhiên dịch vụ truyền thống thoại, nhắn tin đem lại nguồn lợi nhuận cao kích thích nhu cầu sử dụng khách hàng Lưu lượng gọi theo 80 Tỷ lệ lưu lượng (%) 70 60 50 Nhóm B 40 Nhóm A 30 20 10 0 10 12 14 16 18 20 22 Thông thường cá nhân tùy vào vị trí xã hội, điều kiện kinh tế vùng mà có nhu cầu sử dụng thoại tin nhắn khác Tại vùng cụ thể, có thời điểm lực mạng khả phục vụ nhu cầu nên toàn tài nguyên hoạt động hiệu suất thấp Đây thời điểm nhà mạng cần tăng cường tận dụng Giả sử địa phương có 02 nhóm người có hành vi tương tự thể biểu đồ trên, nhóm A thường thực gọi vào buổi sáng, nhóm B thường thực gọi vào chiều tối; ban đầu chưa xác định 02 nhóm Để phân tích hành vi sử dụng dịch vụ cần khai thác nguồn liệu tổng đài MSC Các liệu CDR ghi lại lịch sử gọi địa điểm cụ thể, nguồn liệu thích hợp nhiên khối lượng liệu lớn nên cần có kỹ thuật phân tích Footer Page of 166 Header Page of 166 thích hợp Hiện kỹ thuật khai phá liệu đạt nhiều thành tựu hỗ trợ toán phân tích hành vi khách hàng phân cụm dựa vào thuật toán k-means Dựa vào thực trạng kết hợp với kỹ thuật phân cụm khai phá liệu phát triển để đưa đề tài “Phân loại hành vi khách hàng sử dụng dịch vụ di động dựa thuật toán k-means” Mục đích đề tài: đề tài hướng đến phân loại hành vi khách hàng, tìm nhóm khác hàng phổ biến, hoạt động mạng di động Mobifone; tiến đến đề xuất tích hợp kết vào hệ thống báo cáo số liệu sản xuất kinh doanh cho Tập đoàn VNPT Đối tượng phạm vi nghiên cứu: Việc nghiên cứu tập trung vào lý thuyết phân cụm liệu theo thuật toán k-means, áp dụng vào phân cụm hành vi sử dụng dịch vụ thoại nhắn tin khách hàng VMS Mobifone Phương pháp nghiên cứu: Tìm hiểu tài liệu liên quan đến kỹ thuật phân cụm, tập trung vào thuật toán k-means Kết cấu luận văn Luận văn gồm chương Chương 1: Bài toán phân nhóm khách hàng dựa hành vi sử dụng dịch vụ dị động Chương luận văn trình bày nhu cầu phân tích số liệu di động để đưa thông tin thói quen sử dụng dịch vụ viễn thông, dịch vụ truyền thống thoại nhắn tin, địa bàn Chương 2: Thuật toán k-means Chương luận văn trình bày thuật toán phân cụm k-means đánh giá khả áp dụng toán phân cụm hành vi khách hàng sử dụng dịch vụ viễn thông Chương 3: Áp dụng thuật toán k-means vào phân cụm hành vi sử dụng dịch vụ thoại nhắn tin Chương luận văn trình bày bước xử lỷ liệu, xây dựng nguồn liệu đầu vào, thực phân cụm theo phương pháp k-means cuối đánh giá số thông tin rút từ kết sau phân cụm Footer Page of 166 Header Page of 166 CHƯƠNG BÀI TOÁN PHÂN NHÓM KHÁCH HÀNG DỰA TRÊN HÀNH VI SỬ DỤNG DỊCH VỤ DỊ ĐỘNG 1.1 Đặt vấn đề 1.1.1 Một số định nghĩa Định nghĩa tổng lượng sử dụng mạng khoảng thời gian ∑ (1)  t khoảng thời gian xem xét  Lt tổng lượng sử dụng dịch vụ (là giây với dịch vụ thoại, số lượng tin nhắn dịch vụ nhắn tin)  n tổng số thuê bao vùng xem xét  Cit tổng lượng sử dụng khách hàng C i khoảng thời gian xem xét t ∑ (2)  m số gọi khách hàng i khoản thời gian t  Di,j thời lượng gọi khách hàng i gọi thứ j khoảng thời gian t Với dịch vụ tin nhắn giá trị = hay Cit = m Khung thời gian có Lt nhỏ khoảng thời gian cần kích thích để thuê bao sử dụng sử dụng nhiều Định nghĩa hành vi: Hành vi nói chung khái niệm rộng Trong luận văn này, khái niệm hành vi dùng để hành động thực dịch vụ khách hàng dựa vào vùng nơi thuê bao thực dịch vụ thời điểm thực dịch vụ 1.1.2 Nhu cầu phân tích hành vi sử dụng dịch vụ di động Hiện hệ thống báo cáo số liệu kinh doanh tập đoàn VNPT khai thác cung cấp liệu dạng tổng hợp Tuy nhiên câu hỏi tính chất liệu chưa khai thác Luận văn đề xuất việc phân tích liệu lịch sử gọi khách hàng để tìm nhóm hành vi Xem xét nhóm hành vi tác động nhóm đối Footer Page of 166 Header Page of 166 với lực mạng địa bàn cụ thể; từ trợ giúp việc thiết kế gói khuyến mại để tận dụng lực mạng 1.1.3 Các khía cạnh phục vụ phân tích hành vi Thời điểm thực dịch vụ: thuộc tính hành vi sử dụng dịch vụ khách hàng, thời điểm khách hàng bắt đầu sử dụng dịch vụ gọi điện nhắn tin Lượng sử dụng dịch vụ: khung thời gian chia theo thuộc tính thời điểm, tổng lượng thời gian đàm thoại số tin nhắn khách hàng lượng sử dụng dịch vụ khách hàng khung thời gian Địa điểm phát sinh gọi: Một nhóm hành vi đặc trưng lượng sử dụng thuê bao nhóm khung xem xét địa phương cụ thể Địa điểm phát sinh gọi vùng quản lý trạm phát sóng phục vụ cho khách hàng Trong luận văn địa điểm phân tích cấp tỉnh/thành phố 1.2 Trình bày số giải pháp cho toán 1.2.1 Các giải pháp theo thống kê thông thường Phương pháp tổng hợp số liệu phổ biến sử dụng lệnh thống kê, sử dụng truy vấn liệu theo chuẩn SQL 2.0 Để tìm nhóm số lượng khách hàng thuộc nhóm cần thực hai bước:  Khảo sát thị trường tìm đặc trưng thời điểm gọi, lượng sử dụng điển hình  Sử dụng giá trị đặc trưng nhóm, xây dựng lệnh thống kê Việc khảo sát thường đem lại kết xác không cao tốn nhiều thời gian Do hành vi sử dụng dịch vụ biến đổi liên tục phụ thuộc vào kiện kinh tế trị, việc phân tích nhóm cần thực nhiều lần thời điểm năm nhiều năm; điều khối lượng cần khảo sát chiếm nhiều chi phí Phương pháp thống kê truyền thống tỏ không thích hợp để giải toán 1.2.2 Giải pháp ứng dụng kỹ thuật khai phá liệu Khai phá liệu vấn đề nhận nhiều quan tâm Nhu cầu khai phá dự liệu nhu cầu sau doanh nghiệp tổ chức hệ thống sở liệu Footer Page of 166 Header Page of 166 Hình 1 Sự phát triển hệ thống sở liệu (dựa [2, tr.2]) Hệ quản trị sở liệu quan hệ xuất từ năm 1970 đến đầu 1980, đại diện tên tuổi lớn Oracle, DB2, MS SQL, MySQL Đến nay, hệ quản trị cở sở liệu quan hệ có nhiều cải tiến mạnh mẽ ứng dụng rộng rãi Các doanh nghiệp tích lũy số liệu kinh doanh qua thời gian dài nhờ sử dụng cở sở liệu, nhiên mẫu báo cáo kinh doanh thông thường chưa khai thác hết thông tin mà liệu cất giữ Chính kỹ thuật khai phá liệu nghiên cứu ứng dụng Các kiến thức tìm nhờ ưng dụng kỹ thuật khai phá liệu gồm: Nhận biết phân biệt lớp liệu: Nhận biết đặc tính liệu việc tìm tổng kết đặc điểm chung tính lớp liệu mục tiêu Phân biệt lớp liệu việc so sánh đặc tính liệu lớp liệu với lớp khác tập lớp khác biết Khai thác mẫu phổ biến: Mẫu phổ biến mẫu liệu hay xuất tập liệu xét Mẫu thường xuyên bao gồm kiểu tập phổ biến mẫu Footer Page of 166 Header Page of 166 Phân loại dự báo: trình việc tìm kiếm mô hình (hoặc chức năng) mô tả phân biệt lớp liệu khái niệm, sử dụng mô hình tìm để dự đoán lớp đối tượng mà chưa gán lớp Phân cụm liệu: Khác với phân loại dự báo liệu, phân cụm liệu phân tích liệu mà không tham khảo lớp liệu biết trước Với nguồn liệu biểu diễn tập đối tượng, phân cụm liệu nhóm đối tượng thành nhóm dựa tối đa hóa sai khác phần tử nhóm khác tối thiểu hóa sai khác phần tử nhóm Phân tích bất thường: Một sở liệu chứa đối tượng liệu mà không tuân thủ với hành vi chung, mang đặc điểm liệu khác nhiều so với đại phận đối tượng lại Các đối tượng liệu coi liệu bất thường Đánh giá liệu theo thời gian: tìm mô hình mô tả xu hướng liệu thay đổi theo thời gian 1.2.3 Phân cụm liệu Quá trình nhóm tập hợp đối tượng vật lý hay trừu tượng thành lớp đối tượng tương tự gọi phân cụm Một cụm tập đối tượng liệu tương tự không giống đối tượng cụm khác Hình Hình ảnh phân cụm điểm mặt phẳng hai chiều [2, tr.64] Footer Page of 166 Header Page 10 of 166 Phân cụm liệu thực gom nhóm liệu theo hướng ngược lại Tập liệu gom thành nhóm dựa tương tự liệu, sau gán nhãn cho nhóm Số lượng nhóm cài đặt trước phân cụm liệu trở nên thích nghi với biến đổi liệu tốt phân loại liệu Vấn đề xác định độ tương đồng liệu: Khi liệu cần phân cụm có nhiều thuộc tính thuộc tính đa dạng nhiều kiểu Trong thực tế việc xem xét phân cụm liệu mang nhiều thuộc tính nhiều kiểu thuộc tính vần đề cần giải Ngoài nhiều thuật toán xác định tương đồng đối tượng dựa khoảng cách Euclidean Manhattan cho phần tử tương đồng tạo thành cụm dạng cầu Tuy nhiên cụm có hình dạng cần phát triển thuật toán tính độ tương đồng với hình dạng tuỳ ý Vấn đề xử lý nhiễu phân cụm liệu: Hầu hết sở liệu thực tế có chứa liệu cá biệt tích, không rõ, liệu sai Một số thuật toán phân cụm nhạy cảm với liệu dẫn đến kết phân cụm có chất lượng Tập liệu gốc loại bỏ thành phần nhiễu trở thành đầu vào tốt cho giai đoại phân cụm liệu 1.3 Kết luận Trong chương 1, luận văn trình bày vấn đề sau:  Nêu lên toán phân tích hành vi sử dụng dịch vụ khách hàng, để hỗ trợ việc xây dựng sách phát triển dịch vụ tận dụng tốt tài nguyên mạng lưới  Nêu mặt khó khăn việc giải toán dựa khảo sát thị trường Đề xuất sử dụng kỹ thuật khai phá liệu, cụ thể phương pháp phân cụm liệu, để phân tích nhóm hành vi Chương luận văn trình bày kỹ thuật phân cụm k-means, bên cạnh đánh giá khả áp dụng thuật toán vào toán phân cụm hành vi Footer Page 10 of 166 Header Page 14 of 166 12 Hình Mô tả thuật toán k-means [2, tr.403] Trong thuật toán phương pháp tính khoảng cách gần cho khách hàng dựa vào công thức Euclidean, dựa [2,tr.389], sau: √ Trong Pk giá trị điểm trung tâm Do tham số để đánh giá khoảng cách có thứ nguyên bình đẳng sử dụng công thức Euclidean tham số Trong nhiều trường hợp tham số không thứ nguyên ,ví dụ thuộc tính “giới tính” “độ tuổi” người, nên cần thiết phải chuyển đổi đơn vị 2.3 Đánh giá thuật toán 2.3.1 Đánh giá kết Với kết đầu dạng mô tả điểm trung tâm với thuộc tính có giá trị trung bình phần tử nhóm, thuật toán đưa kết phù hợp với nhu cầu phân tích hành vi khách hàng hành vi tương tự nhóm lại vùng Đánh giá liệu đầu thuật toán k-means toán phân cụm hành vi sử dụng dịch vụ khách hàng, cụm hành xác định, việc phân tích sâu nhóm cần thiết 2.3.2 Đánh giá khả triển khai Thuật toán k-means có độ phức tạp thuật toán tính theo công thức sau [2,tr.403] Footer Page 14 of 166 Header Page 15 of 166 13  số phần tử tập phân cụm  số cụm cần phân chia  số lần tái lặp xác định phần tử cụm Thông thường nhỏ nhiều so với , phương pháp phân cụm dựa phương pháp phân cấp có độ phức tạp thuật toán nhiên phương pháp không sử dụng với nhóm có hình dạng cầu không dùng công thức tính toán khoảng cách Các tiêu chí đánh giá xếp loại hành vi sử dụng ba tiêu chí ý nghĩa, cách tính khoảng cách áp dụng thuật toán k-means đưa nhóm hình cầu tỏ thích hợp Bên cạnh đó, việc phân cụm lặp lại hàng ngày; việc tái sử dụng kết phân cụm giụp giảm số lần tái lặp , từ giảm chi phí thực Thuật toán k-means có nhược điểm có khả chống nhiễu kém; nhóm có lượng giá trị nhiễu giá trị chung bình nhóm bị thay đổi đáng kể từ dẫn đến kết nạp sai lầm vòng lặp xử lý sau Tuy nhiên áp dụng số phương pháp tiền xử lý liệu đầu vào để giảm ảnh hưởng nhiễu 2.4 Kết luận Trong chương 2, luận văn trình bày vấn đề :  Giới thiệu thuật toán k-means  Cài đặt thuật toán k-means  Đánh giá sơ kết khả triển khai thuật toán k-means vào công việc phân cụm hành vi sử dụng dịch vụ viễn thông Chương luận văn trình bày trình áp dụng thuật toán k-means vào toán phân cụm hành vi sử dụng khách hàng mạng di động VMS Mobifone Footer Page 15 of 166 Header Page 16 of 166 14 CHƯƠNG ÁP DỤNG THUẬT TOÁN K-MEANS VÀO PHÂN CỤM HÀNH VI SỬ DỤNG DỊCH VỤ THOẠI VÀ NHẮN TIN Bài toán phân cụm hành vi 3.1 Mục tiêu toán tìm nhóm thuê bao, nhóm chứa thuê bao có hành vi sử dụng dịch vụ thoại tin nhắn địa bàn Một hành vi xác định tỷ lệ tương quan lượng sử dụng dịch vụ (thời gian đàm thoại số lượng tin nhắn) khung thời gian ngày Cụ thể khung thời gian chia thành:  S tổng lượng sử dụng số máy (tính giây dịch vụ thoại, tính số lượng tin nhắn dịch vụ nhắn) tin tính từ 4h sáng đến 11h 59 phút  C tổng lượng sử dụng số máy tính từ 12h đến 19h 59 phút  T tổng lượng sử dụng số máy tính 20h đến 23h59 0h đến 4h sáng Gọi M giá trị lớn lượng sử dụng thuê bao khung thời gian Tỷ lệ tương quan lượng sử dụng ba khung xác định sau:  ; giá trị tương quan lượng sử dụng buổi sáng với lượng sử dụng lớn  ; giá trị tương quan lượng sử dụng buổi trưa với lượng sử dụng lớn  ; giá trị tương quan lượng sử dụng buổi tối với lượng sử dụng lớn Bảng Tổng lưu lượng tỷ lệ lưu lượng thuê bao theo thời gian S (giây) 100 C (giây) 1000 T (giây) 50 PS 0.1 PC PT 0.05 Luận văn đề xuất số mẫu kết cần đạt sau: Tiêu chí : đánh giá nhu cầu sử dụng dịch vụ khách hàng theo khung thời gian Bảng Định dạng mẫu đánh giá nhu cầu sử dụng dịch vụ khách hàng theo thời gian Ngày /Tuần Địa /Tháng /Năm phương báo cáo (tỉnh/ thành phố) Footer Page 16 of 166 Tổng thời gian gọi buổi sáng buổi chiều Tổng tin nhắn gửi buổi tối buổi sáng buổi chiều buổi tối Header Page 17 of 166 15 Tiêu chí : đánh giá nhóm hành vi sử dụng dịch vụ thoại khách hàng theo ngày địa phương Bảng 3 Định dạng mẫu đánh giá nhóm hành vi sử dụng dịch vụ thoại khách hàng theo ngày địa phương Số thứ tự cụm Số lượng Thời gian gọi trung bình thuê bao Buổi Buổi Buổi tối sáng chiều Tổng thời gian gọi Buổi Buổi sáng chiều Buổi tối Tiêu chí : đánh giá nhóm hành vi sử dụng dịch vụ tin nhắn khách hàng theo ngày địa phương Bảng Định dạng mẫu đánh giá nhóm hành vi sử dụng dịch vụ tin nhắn khách hàng theo ngày địa phương Số thứ tự cụm Số lượng Số lượng tin nhắn gửi trung Tổng số tin nhắn gửi thuê bao bình Buổi sáng 3.2 Buổi chiều Buổi tối Buổi sáng Buổi chiều Buổi tối Khảo sát nguồn liệu lịch sử gọi 3.2.1 Khuôn dạng tin gọi, tin nhắn Nguồn liệu ban đầu ghi ghi hệ thống tổng đài chuyển mạch di động (MSC – mobile switching center) VMS Mobifone quy định chuẩn giản lược khai thác liệu lịch sử gọi theo chuẩn đo Cấu trúc liệu áp dụng cho tất loại tổng đài sử kiện gồm 43 trường Dựa vào chuẩn liệu VMS khai thác, luận văn xác định thuộc tính khai thác để phục vụ toán gồm: Thuộc tính “calling isdn” “called_isdn” : sử dụng làm khóa xác định thuê bao Thuộc tính ghi lại số điện thoại mà tổng đài phục vụ số máy theo nguyên tắc thuộc thuê bao Mobifone thuê bao sử dụng dịch vụ roaming qua mạng Mobifone Đối với ghi gọi calling_isdn chứa thuê bao thực quay số, ghi gọi đến calling_isdn mang số máy nhận gọi tin nhắn Thuộc Footer Page 17 of 166 Header Page 18 of 166 16 tính calling_isdn lại có giá trị để phân biệt khách hàng calling_isdn làm mã xác nhận phần tử thuật toán phân cụm k-means Thuộc tính “call type”: nhận biết loại dịch vụ Gồm giá trị : OG: gọi Số máy calling_isdn gọi cho số máy called_isdn; IC: gọi đến Số máy calling_isdn nhận gọi từ số called_isdn; SMO: tin nhắn Số máy calling_isdn nhắn tin cho số máy called_isdn; SMT: tin nhắn đến Số máy calling_isdn nhận tin nhắn called_isdn Để xác định hành vi khách hàng, kiện chủ động quan tâm khai thác kiện gọi (OG) tin nhắn (SMO) Thuộc tính “call sta time” : nhận biết thời điểm gọi Thời điểm bắt đầu gọi hay thời điểm tin nhắn Định dạng liệu “DD/MM/YYYY HH:MI:SS” (Ngày/tháng/năm giờ/phút/giây) Thuộc tính “duration” : nhận biết lượng sử dụng kiện Đối với dịch vụ thoại thời lượng gọi số giây khách hàng thực gọi Đối với dịch vụ tin nhắn thuộc tính giá trị, lúc đánh giá hành vi nhắn tin tổng số tin nhắn mà khách hàng gửi khung thời gian Thuộc tính “cell id” : nhận biết địa điểm gọi khởi tạo Mỗi lần tổng đài thực khởi tạo dịch vụ ghi lại tọa độ nơi khách hàng bắt đầu sử dụng dịch vụ Tọa độ “cell id” mã trạm phát sóng di động quy hoạch theo mạng tổ ong Với cấp độ toán tại, luận văn khai thác thông tin đến địa bàn tỉnh, từ cung cấp nhìn tổng quát nhóm hành vi toàn tỉnh Nguồn liệu xác định địa bàn dựa vào cell_id có dạng sau: Bảng Cấu trúc liệu quy hoạch trạm BTS Tên cột Dạng liệu Ghi CELL_ID String Lưu mã trạm phát sóng DISTRICT String Mã huyện nơi đặt trạm PROVINCE String Mã tỉnh/thành phố nơi đặt trạm REGION String Mã trung tâm, nơi quản lý trạm Footer Page 18 of 166 Header Page 19 of 166 17 3.2.2 Khối lượng liệu cần xử lý VMS Mobifone có hệ thống tổng đài MSC gồm 25 tổng đài Trung bình ngày cần xử lý 30000 file dung lượng trung bình 57GB Theo thống kê, có khoảng 10 triệu thuê mobifone thực 39 triệu gọi thực gửi 52 triệu tin nhắn tinh toàn mạng Quá trình tiền xử lý liệu cho đầu vào thuật toán k-means cần phải tổng hợp lượng sử dụng dịch vụ từ 90 triệu ghi để tạo thành nguồn 10 triệu ghi ghi lưu số máy đặc trưng sử dụng số máy ngày 3.3 Tiền xử lý liệu đầu vào 3.3.1 Định dạng tập liệu phần tử đầu vào thuật toán k-means Dựa vào cách mô tả hành vi sử dụng dịch vụ khách hàng, xác định định dạng đầu kiểu liệt kê phần tử (định dạng đầu vào thuật toán k-means) sau: Bảng Cấu trúc liệu đầu thuật toán k-means dạng liệt kê phần tử Số thứ tự Tên cột Ý nghĩa Phone Number Số điện thoại khách hàng S Tổng số thời lượng sử dụng buổi sáng C Tổng số thời lượng sử dụng buổi chiều T Tổng số thời lượng sử dụng buổi tối Ps Tỷ lệ thời lượng sử dụng buổi sáng so với thời lượng lớn Pc Tỷ lệ thời lượng sử dụng buổi chiều so với thời lượng lớn Pt Tỷ lệ thời lượng sử dụng buổi tối so với thời lượng lớn Với liệu định dạng file đầu liệt kê điểm trung tâm có dạng: Footer Page 19 of 166 Header Page 20 of 166 18 Bảng Cấu trúc liệu đầu thuật toán k-means dạng mô tả điểm trung tâm Số thứ tự Tên cột Round Count Cluster S C T PS PC PT Ý nghĩa Lần xử lý Số phần tử nhóm Chỉ số cụm Trung bình tổng số thời lượng sử dụng buổi sáng Trung bình tổng số thời lượng sử dụng buổi chiều Trung bình tổng số thời lượng sử dụng buổi tối Tỷ lệ thời lượng sử dụng buổi sáng so với thời lượng lớn Tỷ lệ thời lượng sử dụng buổi chiều so với thời lượng lớn Tỷ lệ thời lượng sử dụng buổi tối so với thời lượng lớn 3.3.2 Phương pháp xác định k điểm khởi tạo ban đầu Mỗi khách hàng cần tổng hợp thành liệu mô tả tương quan lượng sử dụng buổi ngày tính theo tỷ lệ phần trăm so với cao điểm Tương quan sử dụng dịch vụ khung định thành ba mức : 0; 0.5 Các giá trị khung mang ba giá trị; nhiên có ràng buộc ba giá trị phải Như danh sách điểm k khởi tạo gồm Bảng Danh sách k điểm khởi tạo sau điều chỉnh Nhóm 10 11 12 13 14 15 16 17 18 Footer Page 20 of 166 PS 0 0 0.5 0.5 0.5 0.5 0.5 1 1 1 1 PC 0.5 1 0.5 1 0 0.5 0.5 0.5 1 PT 1 0.5 1 0.5 0.5 0.5 0.5 Header Page 21 of 166 19 3.3.3 Chuyển đổi liệu tổng đài theo định dạng đầu vào thuật toán Quá trình tổng hợp duyệt ghi có thuộc tính “call_type” ứng với hành vi thuê bao chủ động gọi nhắn tin Với ghi tìm thuộc tính “call_sta_time” xem xét để xác định khung thời gian kiện, đồng thời giá trị “duration” tính cộng tích lũy vào thuộc tính thể lượng sử dụng khung thời gian tương ứng Khi ghi duyệt hết, tập hành vi xác định cho toán thuê bao, liệu ghi đĩa nhớ Quá trình tổng hợp mô tả sau: (1) Khởi tạo HashMap (2) Lặp danh sách thư mục tổng đài ngày (3) Lặp danh sách file tổng đài (4) Lặp dòng file (5) Kiểm tra thuộc tính “call type”, khác OG, SMO bỏ qua (6) Kiểm tra HashMap có chứa key có giá trị thuộc tính “calling_isdn”, chưa có khởi tạo đối tượng mô tả hành vi thêm vào HashMap (7) Xác định khung thời gian (8) Cộng tích lũy giá trị “duration” vào thuộc tính mô tả lượng sử dụng khung thời gian xác định bước (7) Với “call type” SMO coi giá trị “duration” = (9) (10) Kết thúc lặp dòng Kết thúc lặp file (11)Kết thúc lặp thư mục (12)Ghi tập mô tả thuộc tính đĩa nhớ 3.3.4 Xử lý nguồn nhiễu số liệu hành vi Trong hai dịch vụ, liệu thoại có nguồn nhiễu, gọi xuất phát từ nhu cầu thật cá nhân khách hàng Với dịch vụ nhắn tin nguồn nhiễu xuất Dịch vụ nhắn tin mục đích trao đổi thông tin hai người dùng có thêm số trường hợp : nhắn tin dịch vụ (đăng ký nhạc chuông, ủng hộ quỹ xã hội, bình chọn trò chơi truyền hình v.v…); tin Footer Page 21 of 166 Header Page 22 of 166 20 nhắn quảng bá từ tổng đài; tin nhắn quảng bá từ tư nhân trình tổng hợp liệu loại bỏ liệu Cụ thể lọc loại số dạng:  Dạng 1800XXXX, 1900XXXX (X đại diện cho số từ đến 9)  Độ dài số máy Quá trình lọc nhiễu áp dụng trước trình phân cụm, triển khai phần chuyển đổi định dạng theo mẫu định nghĩa, trình bày phần 3.3.1 3.3.3 3.4 Triển khai thuật toán phân lớp k-means Luận văn sử dụng ngôn ngữ Java để triển khai thuật toán Dưới phần thiết kế lớp chương trình phân cụm Chương trình gồm 03 lớp chính: Lớp NormalObject chứa thông tin hành vi sử dụng dịch vụ khách hàng Lớp phần lớp Cluster, phục vụ việc mô tả giá trị trung bình lượng sử dụng, tỷ lệ lượng sử dụng đối tượng cụm Lớp Cluster chứa thông tin cụm gồm : số lượng phần tử nhóm đặc tính hành vi nhóm Lớp Program triển khai thuật toán k-means 3.5 Tăng tốc độ xử lý phân cụm Nghiệp vụ phân cụm hành vi sử dụng dịch vụ phải thực hàng ngày liệu lưu lượng ngày đó, khối lượng liệu cần xử lý lớn việc lựa chọn k điểm khởi tạo có ảnh hưởng nhiều đến thời gian xử lý Hành vi khách hàng gần biến đổi so với ngày trước giá trị trung tâm cuối lần phân cụm ngày trước dùng điểm khởi tạo cho thuật toán cho liệu hôm sau Các thời điểm sử dụng lại điểm khởi tạo mặc định:  Ngày nghỉ lễ: thời gian thói quen sử dụng dịch vụ khác với ngày thường  Ngày thứ 7: tương tự với nghỉ lễ ngày nghỉ cuối tuần  Ngày sau kỳ nghỉ lễ: sau nghỉ lễ thói quen sử dụng dịch vụ trở lại bình thường  Ngày thứ 2: thói quen sử dụng dịch vụ trở lại bình thường sau hai ngày nghỉ Footer Page 22 of 166 Header Page 23 of 166 3.6 21 Kết đánh giá Xem xét kết phân cụm thành phố Hồ Chí Minh, ngày 21/09/2012 Bảng Kết phân cụm theo mẫu đánh giá nhóm hành vi sử dụng dịch vụ thoại khách hàng theo ngày địa phương * Đơn vị giây Footer Page 23 of 166 Header Page 24 of 166 22 Biểu đồ tương quan nhóm hành vi ngày 21/09/2012 TP Hồ Chí Minh Tổng lượng sử dụng 500000000 450000000 Series19 400000000 Series18 350000000 Series17 300000000 Series16 250000000 Series15 200000000 150000000 Series14 100000000 Series13 50000000 Series12 Chiều Sáng Tối Khung thời gian Series11 Series10 Hình Biểu đồ so sánh lượng sử dụng nhóm hành vi 3.7 Khuyến nghị tăng hiệu suất mạng Ta nhận thấy nhóm số nhóm số 10 có tiềm kích thích nhu cầu gọi Giả sử nhắm vào đối tượng thuộc nhóm để kích thích nhu cầu sử dụng, áp dụng gói khuyễn mại sau:  Nội dung khuyễn mại: giảm 50% cước gọi thực khoảng thời gian từ 20h đến 23h59 từ 0h đến 4h sáng tháng  Điều kiện áp dụng: thuê bao thực 100 phút (tương đương thực khoảng 200s đàm thoại vào buổi chiều) đàm thoại vào khung 12h đến 20h tháng trước Trường hợp gói cước triển khai có nhiều 11 nhóm khách hàng thỏa mãn điều kiện Giả sử thuê bao thực phút gọi khung tối, số liệu thu Bảng 10 Kết tăng doanh thu với gói khuyến mại cước khung tối Footer Page 24 of 166 Header Page 25 of 166 23 Như tổng số doanh thu thu thêm khoảng 506 triệu đồng ngày với điều kiện thuê bao thỏa mãn gói khuyến thực thêm phút gọi vào khung tối 3.8 Kết luận Trong chương 3, luận văn trình bày vấn đề:  Phân tích chi tiết toán phân cụm hành vi sử dụng dịch vụ thoại nhắn tin mạng di động VMS Mobifone  Khảo sát nguồn liệu lịch sử gọi  Quá trình tiền xử lý liệu lịch sử, tạo nguồn liệu đầu vào phù hợp cho thuật toán k-means  Triển khai thuật toán phân cụm k-means  Đánh giá kết thu sau trình phân cụm  Nêu hướng khuyến nghị tăng hiệu sử dụng tài nguyên mạng dựa kết thu Footer Page 25 of 166 Header Page 26 of 166 24 KẾT LUẬN Luận văn “Phân loại hành vi khách hàng sử dụng dịch vụ di động dựa thuật toán k-means” đạt kết sau:  Thiết kế nguồn liệu đầu vào mô tả hành vi sử dụng dịch vụ khách hàng di động  Thiết kế xây dựng chương trình chuyển đổi nguồn liệu lịch sử gọi thành liệu đầu vào cho thuật toán phân cụm  Triển khai thuật toán k-means thu kết  Lập lịch tái sử dụng kết đầu cho lần phân cụm để tăng tốc độ xử lý  Luận văn đề xuất gói khuyễn mại, sau đánh giá kết phân cụm hành vi Kết thu là: lực mạng vào khung tối vốn thấp điểm tận dụng, doanh thu thường xuyên từ dịch vụ thoại tăng lên Tuy nhiên nhiệm vụ phân tích nhóm khách hàng luận văn số nhược điểm sau:  Do hành vi định nghĩa tỷ lệ lượng sử dụng dịch vụ, nên nhóm khách hàng có nhiều đặc điểm khác nhau, cụ thể tổng lượng sử dụng đóng góp Do cách xác định mà tính chất gọi nhiều hay khách hàng chưa đem làm tiêu chí phân cụm  Do số lượng thuê bao toán quốc lớn, nên việc phân cụm tiến hành địa phương đảm bảo thời gian xử lý Như kết phân cụm khó mô tả cụm hành vi điển hình toàn quốc Việc đưa phân tích cục địa phương xem thích hợp với mạng Vinaphone so với mạng VMS Mobifone, thuê bao mạng Vinaphone viễn thông tỉnh chăm sóc dịch vụ VMS Mobifone tổ chức thuê khoán đại lý phát triển thuê bao với doanh nghiệp VNPT Điều dẫn đến hệ kết đầu thuật toán phân cụm chưa trợ giúp trực tiếp công tác hoạch định Footer Page 26 of 166 Header Page 27 of 166 25  Trong trình thực phân cụm, luận văn triển khai lại thuật toán ngôn ngữ lập trình Java mà chưa gắn với hệ thống khai thác số liệu kinh doanh tập đoàn, vốn triển khai tảng khác Để tìm hiểu thiết kế có tính thực tế cao hơn, luận văn đề xuất số hướng khắc phục giai đoạn hoàn thiện sau:  Cần có thêm trình phân cụm 19 nhóm kết Tại trình phân cụm tiêu chí tổng lượng sử dụng dịch vụ xem xét Sau trình nhóm kết ban đầu xem xét chi tiết hơn, dự đoán tác dụng gói cước kích thích tính toán chuẩn xác  Do số lượng thuê bao lớn nên để thực phân cụm, cần tìm hiểu thêm kỹ thuật phân cụm song song Nghiên cứu triển khai thuật toán k-means tảng có sẵn hệ thống khai thác số liệu kinh doanh Từ dễ dàng triển khai đưa vào sử dụng Footer Page 27 of 166 Header Page 28 of 166 26 TÀI LIỆU THAM KHẢO [1] Hamerly Greg, and Elkan Charles Learning the k in k-means Department of Computer Science and Engineering, University of California (2003) [2] Jiawei Han, Jian Pei.Data Mining: Concepts and Techniques Second Edition Diane Cerra (2006) [3] Zhexue Huang.Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values Kluwer Academic (1998) [4] N Hussein A Fast Greedy k-means Algorithm (2002) [5] Sammy Larbi k-means Clustering & Finding K codeodor.com (2006) [6] XindongWu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip S Yu, Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg Top 10 algorithms in data mining Chapman and Hall/CRC (2007) [7] http://en.wikipedia.org/wiki/k-means_clustering [8] http://wtng.info/wtng-84-vn.html Footer Page 28 of 166 ... khai thuật toán k-means vào công vi c phân cụm hành vi sử dụng dịch vụ vi n thông Chương luận văn trình bày trình áp dụng thuật toán k-means vào toán phân cụm hành vi sử dụng khách hàng mạng di động. .. LUẬN Luận văn Phân loại hành vi khách hàng sử dụng dịch vụ di động dựa thuật toán k-means đạt kết sau:  Thiết kế nguồn liệu đầu vào mô tả hành vi sử dụng dịch vụ khách hàng di động  Thiết kế... thuật toán phân cụm k-means đánh giá khả áp dụng toán phân cụm hành vi khách hàng sử dụng dịch vụ vi n thông Chương 3: Áp dụng thuật toán k-means vào phân cụm hành vi sử dụng dịch vụ thoại nhắn
- Xem thêm -

Xem thêm: PHÂN LOẠI HÀNH VI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI ĐỘNG DỰA TRÊN THUẬT TOÁN K-MEANS, PHÂN LOẠI HÀNH VI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI ĐỘNG DỰA TRÊN THUẬT TOÁN K-MEANS, PHÂN LOẠI HÀNH VI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI ĐỘNG DỰA TRÊN THUẬT TOÁN K-MEANS

Từ khóa liên quan

Tài liệu mới bán

Gợi ý tài liệu liên quan cho bạn