Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

25 533 0
Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

-1- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRƯƠNG TIẾN DƯỠNG NGHIÊN CỨU ỨNG DỤNG PHÂN LỚP DỮ LIỆU TRONG QUẢN KHÁCH HÀNG TRÊN MẠNG Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2012 -2- Công trình ñược hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH Phản biện 1: TS. NGUYỄN TRẦN QUỐC VINH Phản biện 1: PGS.TS. LÊ MẠNH THẠNH Luận văn ñược bảo vệ tại Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 03 tháng 03 năm 2012 Có thể tìm hiểu luận văn tại: • Trung tâm Thông tin - H ọc liệu, Đại học Đà Nẵng • Trung tâm Học liệu, Đại học Đà Nẵng -3- MỞ ĐẦU 1. do chọn ñề tài Trong kinh doanh yếu tố khách hàng quyết ñịnh ñến sự thành bại của doanh nghiệp, khi thông tin ñang trở thành yếu tố quyết ñịnh trong kinh doanh thì vấn ñề tìm ra các thông tin hữu ích trong các CSDL khổng lồ ngày càng trở thành mục tiêu quan trọng của các doanh nghiệp. Vì vậy một trong những giải pháp hữu hiệu nhất nhằm khắc phục các vấn ñề nêu trên là tiến hành triển khai xây dựng một hệ thống khai phá dữ liệu (KPDL), khai thác quản nguồn khách hàng nói trên. Đó là một hệ thống ñược thiết kế giúp cho lãnh ñạo doanh nghiệp nắm bắt ñược nguồn thông tin khách hàng hữu ích và các tri thức chiết xuất ñược từ CSDL trên sẽ là một nguồn tài liệu hỗ trợ cho lãnh ñạo xây dựng chiến lược kinh doanh. Chính vì những do nêu trên, tôi quyết ñịnh chọn ñề tài “Nghiên cứu ứng dụng kỹ thuật phân lớp dữ liệu trong quản khách hàng trên mạng”. 2. Mục ñích nghiên cứu Nghiên cứu phương pháp phân lớp dữ liệu trong KPDL, các thuật toán liên quan ñến quy nạp cây quyết ñịnh, tìm hiểu các ngôn ngữ mã lệnh siêu tìm kiếm Regurlation Expressions, 3. Đối tượng và phạm vi nghiên cứu  Đối tượng nghiên cứu Tìm hiểu các website TMĐT bán hàng trực tuyến với số l ượng truy cập và giao dịch lớn phong phú, ña dạng có thể gây khó khăn trong công tác quản nguồn khách hàng. -4-  Phạm vi nghiên cứu Ứng dụng các thuật toán của kỹ thuật phân lớp dữ liệu ñể xây dựng phục vụ công việc khai thác nguồn khách hàng. 4. Phương pháp nghiên cứu Dựa trên thực trạng các website TMĐT hiện có ñể xây dựng ứng dụng quản khách hàng. 5. Ý nghĩa khoa học và thực tiễn  Ý nghĩa khoa học Đề xuất giải pháp ứng dụng kỹ thuật phân lớp dữ liệu vào trong khai thác quản nguồn khách hàng trên mạng.  Ý nghĩa thực tiễn Sản phẩm là hệ thống hỗ trợ ñắc lực, kịp thời và có ñộ hiệu quả cao cho các doanh nghiệp thu thập ñược thông tin và ñưa ra các chính sách phù hợp trong hoạt ñộng kinh doanh của ñơn vị. 6. Cấu trúc của luận văn Nội dụng chính của luận văn này ñược chia thành ba chương với nội dung như sau: Chương 1. Tổng quan về khai phá dữ liệu Chương 2. Giải pháp phân lớp dữ liệu bằng kỹ thuật quy nạp cây quyết ñịnh. Chương 3. Xây dựng hệ thống và thử nghiệm. -5- CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Giới thiệu về khai phá dữ liệu 1.1.1. Khái niệm về khai phá dữ liệu Khai phá dữ liệu (Data Mining) là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu ñược lưu trữ trong các CSDL, kho dữ liệu,…ñể từ ñó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong [6][10]. 1.1.2. Những lợi thế và thách thức của khai phá dữ liệu 1.1.2.1. Lợi thế KPDL là một lĩnh vực liên quan tới nhiều ngành học khác như: hệ cơ sở dữ liệu, thống kê xác suất, trực quan hoá… Thêm vào ñó KPDL còn có thể áp dụng các kỹ thuật như mạng nơron, thuyết tập thô, tập mờ, biểu diễn tri thức… 1.1.2.2. Thách thức Những hạn chế của các thuật toán: Hầu hết các thuật toán ñều khá là tổng quát, nó sinh ra nhiều luật. Mặc các luật sinh ra ña số ñều hữu ích nhưng ta vẫn phải ño ñộ ñáng quan tâm của các mẫu nên vẫn cần sự can thiệp của các chuyên gia nghiệp vụ. 1.1.3. Những nhu cầu về khai phá dữ liệu trong kinh doanh Phân loại khách hàng ñể từ ñó phân ñịnh thị trường, thị phần. Tăng sức cạnh tranh, làm thế nào ñể giữ ñược khách hàng cũ và thu hút ñược thêm nhiều khách hàng mới. Phân tích rủi ro trước khi ra các quyết ñịnh quan trọng trong chiến lược hoạt ñộng sản xuất kinh doanh. Ra các báo cáo giàu thông tin … Tất cả các nhu cầu xã hội trên ñòi hỏi cần phải có một phương th ức, công cụ nào ñó hỗ trợ bên cạnh các chuyên gia kinh tế. Và KPDL là một chìa khoá hỗ trợ giải quyết vấn ñề nêu trên. -6- 1.1.4. Khai phá dữ liệu trong một số lĩnh vực quan trọng khác 1.2. Các phương pháp chính trong khai phá dữ liệu 1.2.1. Phân loại Phân loại là tổ chức dữ liệu trong các lớp cho trước, còn ñược gọi là học có quan sát. Phân loại sử dụng các nhãn lớp cho trước ñể sắp xếp các ñối tượng. Trong ñó có một tập huấn luyện gồm các ñối tượng ñã ñược kết hợp với các nhãn ñã biết. Một số thuật toán dùng trong bài toán phân loại như: cây quyết ñịnh, mạng nơron, Naive Bayes. 1.2.2. Phân cụm Phân cụm là kỹ thuật KPDL tương tự như phân loại dữ liệu. Tuy nhiên, sự phân nhóm dữ liệu là quá trình học không ñược giám sát. 1.2.3. Luật kết hợp 1.2.4. Hồi quy 1.2.5. Phân tích chuỗi 1.3. Các bước xây dựng một giải pháp về khai phá dữ liệu 1.3.1. Mô hình luồng dữ liệu Hình 1.1 Mô hình luồng dữ liệu OLTP D W Ứng dụng OLAP X ử giao dịch tr ực tuyến Kho dữ liệu X ử phân tích tr ực tuyến Khai phá dữ liệu -7- 1.3.2. Vòng ñời của một hệ thống khai phá dữ liệu Bước 1: Xác ñịnh mục tiêu bài toán. Bước 2: Thu thập dữ liệu. Bước 3: Làm sạch dữ liệu và chuyển ñổi dữ liệu. Bước 4: Xây dựng mô hình. Bước 5: Đánh giá mô hình hay ñánh giá mẫu. Bước 6: Báo cáo. Bước 7: Dự ñoán. Bước 8: Tích hợp vào ứng dụng. Bước 9: Quản mô hình. 1.3.3. Kiến trúc của một hệ thống khai phá dữ liệu ñiển hình Hình 1.2 Ki ến trúc của một hệ thống khai phá dữ liệu ñiển hình Giao diện ñồ họa ngư ời dùng Đánh giá mẫu Máy khai phá dữ liệu Máy chủ CSDL / Kho d ữ liệu C ơ sở dữ liệu Kho dữ liệu Cơ sở tri thức Làm sạch dữ liệu Lọc -8- 1.3.3.1. Phương pháp ñánh giá ñộ chính xác của mô hình phân lớp Trong phương pháp holdout, dữ liệu dưa ra ñược phân chia ngẫu nhiên thành 2 phần là: tập dữ liệu ñào tạo và tập dữ liệu kiểm tra. Thông thường 2/3 dữ liệu cấp cho tập dữ liệu ñào tạo, phần còn lại cho tập dữ liệu kiểm tra. Trong phương pháp k-fold cross validation tập dữ liệu ban ñầu ñược chia ngẫu nhiên thành k tập con (fold) có kích thước xấp xỉ nhau S1, S2, …, Sk. Quá trình học và test ñược thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ liệu kiểm tra, các tập còn lại hợp thành tập dữ liệu ñào tạo. 1.3.3.2. Vấn ñề quản KH trên mạng và sự liên quan ñến DM KPDL giúp lãnh ñạo các doanh nghiệp xác ñịnh ñược các KH mục tiêu, phân loại ñể từ ñó hỗ trợ các doanh nghiệp có một chiến lược quảng cáo, tiếp thị tốt. Tổng hợp các tri thức này lãnh ñạo có thể lên kế hoạch hoạt ñộng, sản xuất, kinh doanh một cách thuận tiện hơn nhằm giảm bớt thời gian thống kê, tìm hiểu thị hiếu KH. Chẳng hạn chiến lược quảng cáo cho các ñối tượng KH khác nhau… 1.3.4. So sánh giữa các kỹ thuật khai phá dữ liệu 1.3.4.1. Kỹ thuật khai phá dữ liệu mô tả Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các ñối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các ñối tượng thuộc cùng một lớp là tương ñồng còn các ñối tượng thuộc các cụm khác nhau sẽ không tương ñồng. 1.3.4.2. Kỹ thuật khai phá dữ liệu dự ñoán Mục tiêu của phương pháp phân lớp dữ liệudự ñoán nhãn l ớp cho các mẫu dữ liệu. Không giống như phân cụm dữ liệu, phân lớp dữ liệu là học bằng ví dụ, trong khi phân cụm dữ liệu có thể coi là một cách học bằng quan sát. -9- CHƯƠNG 2. GIẢI PHÁP PHÂN LỚP DỮ LIỆU TRONG QUẢN KHÁCH HÀNG TRÊN MẠNG 2.1. Bài toán phân lớp dữ liệu 2.1.1. Giới thiệu Phân lớp là một tiến trình xử nhằm xếp các mẫu dữ liệu hay các ñối tượng vào một trong các lớp ñã ñược ñịnh nghĩa trước. 2.1.2. Các bước chính ñể giải quyết bài toán phân lớp Phân lớp dữ liệu gồm hai bước xử chính: Bước 1: Học, mục ñích của bước này là xây dựng một mô hình xác ñịnh một tập các lớp dữ liệu. Bước 2 : Kiểm tra và ñánh giá, bước này sử dụng mô hình phân lớp ñã ñược xây dựng ở bước 1 vào việc phân lớp. 2.1.3. Các cơ sở dữ liệu phục vụ cho phân lớp dữ liệu 2.1.3.1. Cơ sở dữ liệu giao tác CSDL giao tác là tập hợp những bản ghi giao dịch, trong ña số các trường hợp chúng là những bản ghi các dữ liệu hoạt ñộng của doanh nghiệp, tổ chức. 2.1.3.2. Cơ sở dữ liệu ña phương tiện KPDL web thông thường ñược chia thành ba phạm trù chính: Khai phá cách dùng web, khai phá cấu trúc web và khai phá nội dung web. 2.1.3.3. Cơ sở dữ liệu Hypertext HyperText là loại dữ liệu phổ biến hiện nay, và cũng là loại dữ liệu có nhu cầu tìm kiếm và phân lớp rất lớn. -10- 2.2. Phân lớp bằng phương pháp quy nạp cây quyết ñịnh 2.2.1. Khái niệm cây quyết ñịnh Cây quyết ñịnh là một flow-chart giống cấu trúc cây, nút bên trong biểu thị một kiểm tra trên một thuộc tính, nhánh biểu diễn ñầu ra của kiểm tra, nút lá biểu diễn nhãn lớp. 2.2.2. Đánh giá cây quyết ñịnh trong lĩnh vực khai phá dữ liệu 2.2.2.1. Sức mạnh của cây quyết ñịnh Khả năng sinh ra các quy tắc hiểu ñược, khả năng thực thi trong những lĩnh vực hướng quy tắc, dễ dàng tính toán trong khi phân lớp,… 2.2.2.2. Điểm yếu của cây quyết ñịnh Dễ xãy ra lỗi khi có quá nhiều lớp, Chi phí tính toán ñắt ñể ñào tạo 2.2.3. Xây dựng cây quyết ñịnh Quá trình xây dựng cây quyết ñịnh gồm hai giai ñoạn: Giai ñoạn thứ nhất phát triển cây quyết ñịnh bắt ñầu từ gốc, ñến từng nhánh và phát triển quy nạp theo cách thức chia ñể trị cho tới khi ñạt ñược cây quyết ñịnh với tất cả các lá ñược gán nhãn lớp. Giai ñoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết ñịnh. 2.2.4. Thuật toán quy nạp cây quyết ñịnh Input : những mẫu học ñược biểu thị bằng những thuộc tính riêng biệt, một tập các thuộc tính ñặc trưng và danh sách các thuộc tính. Output : một cây quyết ñịnh. 1) Khởi tạo một node N; 2) if tất cả các mẫu ñều thuộc vào cùng một lớp C then 3) return node N, ñược xem là 1 node lá và ñặt tên là lớp C; [...]... 2.4.1 Phân tích quy trình, ho t ñ ng khách hàng TMĐT Đ th c hi n ñăng ký thành viên ho c ñăng tin, giao d ch mua bán trên website TMĐT, khách hàng ph i ñăng ký xác nh n các thông tin c a KH mà ng như các website thương m i ñi n t ñ u yêu c u ñó là: email, tên khách hàng, ñi n tho i, ñ a ch ,… Các hình th c giao d ch trong thương m i ñi n t TMĐT ñư c phân chia thành m t s lo i như B2B, B2C, C2C d a trên. .. qu trên các phiên giao d ch trong nh ng l n ti p theo Đ tài ñã ñi sâu vào tính ng d ng, ñưa ra cách th c x thi hành các tri th c ñư c chi t xu t m t cách hi u qu V m t thuy t, ñã nêu ñư c gi i pháp ng d ng k thu t phân l p d li u vào bài toán qu n khách hàng trên m ng V m t th c ti n, có th kh ng ñ nh ñ tài ñã ñáp ng ñư c các m c tiêu ñ ra, h th ng ñã khai phá ñư c các thông tin khách hàng. .. chương trình khai phá t trên trang TMĐT ñư c ñưa vào CSDL theo các trư ng, b ng d li u R t thu n ti n cho doanh nghi p tri n khai và khai thác các ng d ng như theo dõi, tìm ki m, phân lo i khách hàng -25K T LU N K t qu ñ t ñư c N i dung nghiên c u trong ñ tài, tác gi ñã ñưa ra m t gi i pháp t vi c phân lo i d li u trên các phiên giao d ch, trên TMĐT , r i ti n hành khai thác x chúng ñ chi t xu t... 14/09/2011 12500 … … … … … … … … Hàng ngày có r t nhi u thông tin ñư c c p nh t trên các website TMĐT này bao g m c thư t , các t p văn b n, các cơ s d li u, các b n tính, các hình nh, các bi u m u, Nên r t khó khăn -14cho doanh nghi p khi mu n tìm ki m, x khai thác ngu n thông tin c a khách hàng, m t r t nhi u th i gian và d b sót 2.4.3 Nhu c u qu n khách hàng Trên th c t hi n có r t nhi u website... u Phân lo i thông tin: Ch c năng này cho phép phân lo i các thông tin khai phá ñư c theo các tiêu chí: -19Tìm ki m thông tin: Tìm ki m thông tin khai phá ñư c qua các trư ng d li u Đánh giá khách hàng ti m năng: Đánh giá ti m năng KH d a vào thông tin khai phá ñư c qua các trư ng d li u 3.3 Xây d ng mô hình phân l p d li u tr c quan 3.3.1 Thi t k CSDL v t v i MSSQL Server Các b ng d li u s d ng trong. .. thông tin khách hàng giao d ch trên m ng h u ích và c n thi t, nh m h tr doanh nghi p có ñư c ngu n khách hàng d i dào và n m b t k p th i các cơ h i kinh doanh Đ ng th i thông tin thu ñư c s là ngu n d li u cơ s ñ cho doanh nghi p phân tích và ñ nh hư ng chi n lư c trong ho t ñ ng kinh doanh c a ñơn v Hư ng phát tri n Trong khuôn kh c a ñ tài, ch ti n hành th c nghi m trên website TMĐT http://www.raovat30s.com... chưa t n t i trên h th ng 3.4.2 X các d li u thu ñư c t khai phá Tìm ki m Hi n th k t qu sau khi ñã nh p các thông tin có liên quan: Ph n này s hi n th k t qu tương ng v i d li u ñư c ngư i s d ng nh p vào Phân lo i theo nhu c u Ph n này s hi n th k t qu tương ng v i d li u ñư c ngư i s d ng ch n Đánh giá Khách hàng ti m năng Đây là ph n giúp cho ngư i dùng, lãnh ñ o có k t qu ñánh giá, phân tích ngu... giá, phân tích ngu n KH ti m năng -24G i email qu ng bá khách hàng Các ngu n thông tin mà h th ng trích rút ñư c như email, ñi n tho i s giúp cho doanh nghi p ti p c n k p th i và tư v n v i khách hàng thông qua h th ng g i mail, tin nh n, 3.5 Đánh giá k t qu chương trình H th ng khai phá ho t ñ ng ch y t ñ ng theo b l p l ch ñ nh s n H th ng ñã x và trích rút ñư c nh ng thông tin KH tương ñ i chính... m v phân lo i và h i quy -122.3.2 Data Mining eXtensions DMX - Data Mining eXtensions là m t ngôn ng truy v n khai phá d li u ñư c ñ nh nghĩa trong OLE DB dành cho khai phá d li u, ñư c k th a h u h t các khái ni m quan h và c u trúc c a nó d a trên ngôn ng truy v n SQL 2.3.3 Gi i thi u v Regular Expressions Regular Expression (regex) là m t chu i miêu t m t b các chu i khác, t p h p các phép x lý. .. chung nh t trong các m u ; 6) Ch n thu c tính th , là m t thu c tính trong danh sách thu c tính mà có ñ ño cao nh t; 7) Đ t tên node N v i tên c a thu c tính th ; 8) V i m i giá tr ai ñã bi t c a thu c tính th 9) T o ra 1 nhánh t node N cho ñi u ki n thu c tính th = ai; 10) Đ t Si là m t t p các m u l y trong các m u ban ñ u v i thu c tính th = ai; 11) if Si là r ng then 12) T o ra m t node lá trên cây . những lý do nêu trên, tôi quyết ñịnh chọn ñề tài “Nghiên cứu ứng dụng kỹ thuật phân lớp dữ liệu trong quản lý khách hàng trên mạng . 2. Mục ñích nghiên cứu. NGHIÊN CỨU ỨNG DỤNG PHÂN LỚP DỮ LIỆU TRONG QUẢN LÝ KHÁCH HÀNG TRÊN MẠNG Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 60.48.01 TÓM TẮT LUẬN VĂN

Ngày đăng: 11/03/2014, 17:20

Hình ảnh liên quan

1.3.1. Mơ hình luồng dữ liệu - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

1.3.1..

Mơ hình luồng dữ liệu Xem tại trang 6 của tài liệu.
Bước 5: Đánh giá mơ hình hay ñánh giá mẫụ Bước 6: Báo cáọ  - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

c.

5: Đánh giá mơ hình hay ñánh giá mẫụ Bước 6: Báo cáọ Xem tại trang 7 của tài liệu.
Bảng 2.1 Bảng thống kê KH giao dịch TMĐT tại một thời ñiểm - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

Bảng 2.1.

Bảng thống kê KH giao dịch TMĐT tại một thời ñiểm Xem tại trang 13 của tài liệu.
3.2.2.1. Mơ hình giải pháp tổng thể - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

3.2.2.1..

Mơ hình giải pháp tổng thể Xem tại trang 16 của tài liệu.
3.2.2. Mơ hình giải pháp - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

3.2.2..

Mơ hình giải pháp Xem tại trang 16 của tài liệu.
3.2.2.3. Mơ hình giải pháp phần mềm ứng dụng - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

3.2.2.3..

Mơ hình giải pháp phần mềm ứng dụng Xem tại trang 17 của tài liệu.
3.3. Xây dựng mơ hình phân lớp dữ liệu trực quan - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

3.3..

Xây dựng mơ hình phân lớp dữ liệu trực quan Xem tại trang 19 của tài liệu.
Bảng 3.5 Bảng dữ liệu lịch khai phá - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

Bảng 3.5.

Bảng dữ liệu lịch khai phá Xem tại trang 21 của tài liệu.
Hình 3.4 Giao diện chương trình Robot khai phá dữ liệu - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

Hình 3.4.

Giao diện chương trình Robot khai phá dữ liệu Xem tại trang 21 của tài liệu.
Hình 3.6 Chọn URL ñể khai phá - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

Hình 3.6.

Chọn URL ñể khai phá Xem tại trang 22 của tài liệu.
Hình 3.5 Giao diện chương trình phần mềm ứng dụng - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

Hình 3.5.

Giao diện chương trình phần mềm ứng dụng Xem tại trang 22 của tài liệu.
Hình 3.7 Hiển thị dữ liệu ñược huấn luyện - Luận văn:Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng docx

Hình 3.7.

Hiển thị dữ liệu ñược huấn luyện Xem tại trang 23 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan