Ứng dụng khai phá luật kết hợp trong phân tích dữ liệu sử dụng web

74 805 1
Ứng dụng khai phá luật kết hợp trong phân tích dữ liệu sử dụng web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

3 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Khai phá liệu sử dụng web 1.2 Phát biểu toán khai phá luật kết hợp từ liệu sử dụng web 11 1.3 Hướng tiếp cận đề tài 12 1.4 Kết luận chương 13 CHƯƠNG 2: LUẬT KẾT HỢP VÀ CÁC KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP 14 2.1 Khái niệm luật kết hợp tập phổ biến 14 2.2 Luật kết hợp liệu sử dụng web 15 2.3 Một số nghiên cứu khai phá luật kết hợp 15 2.4 Khai phá sử dụng Web với giải thuật Apriori 19 2.5 Các kỹ thuật khai phá song song luật kết hợp 24 2.6 Những vấn đề đặt khai phá luật kết hợp từ liệu web log 30 2.7 Kết luận chương 36 CHƯƠNG : TƯ TƯ NG CHIA Đ T Ị T ONG KHAI PHÁ LUẬT KẾT HỢP 37 3.1 p dụng chiến lược Chia để trị toán khai phá luật kết hợp 37 3.2 Cơ sở toán học cho việc áp dụng chiến lược Chia để trị 38 3.3 Mơ hình hệ thống khai phá luật kết hợp từ liệu sử dụng web dựa chiến lược Chia để trị 40 3.4 Tư tưởng Chia để trị khai phá song song luật kết hợp từ liệu sử dụng web 46 3.5 Sinh tập phổ biến cục 50 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 3.6 Sinh luật kết hợp mạnh từ tập phổ biến 51 3.7 Kết luận chương 52 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 54 4.1 Đặc trưng liệu thực nghiệm 54 4.2 Các thao tác tiền xử lý liệu 54 4.2.1 Lọc liệu 55 4.2.2 Gán nhãn thời gian 57 4.2.3 Phân định phiên truy cập 58 4.3 Một số kết thực nghiệm 63 4.3.1 Mục tiêu trình thực nghiệm 63 4.3.2 Các hệ thống tham gia vào trình thực nghiệm 64 4.3.3 Tổ chức liệu cách thức tiến hành thực nghiệm 65 4.3.4 Kết thực đánh giá 66 4.4 Kết luận chương 71 KẾT LUẬN 72 TÀI LIỆU THAM KHẢO 74 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ DANH MỤC CÁC BẢNG Bảng 2.1: Các phiên truy cập người dùng 21 Bảng 2.2: Cơ sở liệu giao dịch D 22 Bảng : Các mẫu web log số máy chủ web thu thập cung cấp trang web http://ita.ee.lbl.gov 34 Bảng 4.1: Các tập tin liệu thực nghiệm 54 Bảng 4.2: Cấu hình máy tính tham gia thử nghiệm 64 Bảng : Các liệu thử nghiệm 66 Bảng 4.4: Kết thực nghiệm với 04 liệu 03 hệ thống 67 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Một trích đoạn liệu web log Hình 2.1: Loại bỏ tập mục độ dài có độ hỗ trợ nhỏ minsup=2/9 22 Hình 2.2: Loại bỏ tập mục độ dài có độ hỗ trợ nhỏ minsup=2/9 23 Hình 2.3: Các tập phổ biến độ dài 23 Hình 2.4: Minh họa giải thuật phân phối độ hỗ trợ 03 xử lý song song 25 Hình 2.5: Minh họa giải thuật phân phối liệu 03 xử lý song song 26 Hình 2.6: Mơ hình khai phá song song luật kết hợp từ liệu truy cập web 27 Hình 2.7: Một tập tin web log với trường thơng tin xác định 31 Hình 2.8: Sự tiêu tốn nhớ số mục vào tăng 32 Hình 2.9: Cấu hình tập tin log Microsoft IIS 7.5 35 Hình 2.10: Các tập tin log ghi theo ngày (từ 20/07 đến 25/07/2012) 36 Hình 3.1: Tương quan lực lượng tập phổ biến cục toàn cục 38 Hình 3.2: Mơ hình khai phá luật kết hợp dựa chiến lược Chia để trị 41 Hình 3.3: Mơ hình Chia để trị khai phá song song luật kết hợp 48 Hình 4.1: Quá trình tiền xử lý liệu truy cập web 55 Hình 4.2: Yêu cầu truy cập Ri ∈ Sj khoảng cách TS(Ri) - TS(Ro) ≤ θ 60 Hình 4.3: Ri ∈ Sj Ri+1 ∈ Sj+1 ST(Ri+1) - ST(Ri) ≥ δ 61 Hình 4.4: Nếu Rk ∈ Sj Rk tham chiếu đến Ri Ri ∈ Sj 61 Hình 4.5: p dụng phương pháp heuristic hướng thời gian 62 Hình 4.6: p dụng phương pháp heuristic hướng cấu trúc 62 Hình 4.7: Hệ thống khai phá luật kết hợp dựa giải thuật Apriori 65 Hình 4.8a: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 0.25% 69 Hình 4.8b: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 0.5% 69 Hình 4.8c: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 0.75% 70 Hình 4.8d: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 1.00% 70 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ M ĐẦU Dữ liệu sử dụng web (còn gọi liệu truy cập web hay liệu web logs) chứa đựng nhiều thơng tin hữu ích phản ánh q trình tương tác người dùng với World Wide Web Dữ liệu thường phần mềm máy chủ web tự động ghi lại dạng tập tin nhật ký truy cập (web server logs) p dụng kỹ thuật khai phá liệu, ta phát mẫu (tri thức) tiềm hữu ích từ liệu sử dụng web Được xem ba loại hình khai phá web, khai phá sử dụng web trở thành lĩnh vực thu hút quan tâm nhiều nhà nghiên cứu có nhiều ứng dụng hiệu thực tế Trong luận văn này, tác giả tập trung trình bày hướng nghiên cứu quan trọng khai phá sử dụng web, khai phá luật kết hợp từ liệu sử dụng web Có thể nói khai phá luật kết hợp toán khai phá liệu điển hình Từ luật kết hợp, xác định thói quen xu hướng truy cập người dùng, từ giúp cho doanh nghiệp có chiến lược kinh doanh phù hợp giúp cho nhà phát triển tái cấu trúc lại website cho thuận tiện với người dùng Tuy nhiên, liệu sử dụng web có nét đặc trưng khác với dạng liệu khác, là: liệu thường có dung lượng lớn phát sinh liên tục theo thời gian thực Điều dẫn tới kết khai phá liệu thời điểm khơng cịn phản ánh thực tế thời điểm sau liệu đầu vào có phát sinh Trong điều kiện mà liệu đầu vào thường xuyên thay đổi thao thác khai phá liệu phải thực liên tục có liệu phát sinh chi phí cho q trình khai phá liệu lớn Để khắc phục vấn đề này, tác giả mạnh dạn đề xuất phương pháp tiếp cận dựa chiến lược Chia để trị xử lý tập liệu vào Tập liệu vào chia nhỏ thành phần liệu riêng biệt tiến hành xử lý độc lập, sau kết hợp lại để thu kết cuối Phương pháp giúp làm giảm đáng kế chi phí cho q trình khai phá liệu điều kiện liệu phát sinh liên tục Khi tiếp cận dựa chiến lược Chia để trị tập liệu phát sinh xem độc lập với liệu trước q trình khai phá thực với tập liệu phát sinh với tồn liệu, nhờ làm giảm đáng kể chi phí cho q trình khai phá Trong luận văn này, tác giả dành phần đáng kể để sở toán học nhằm chứng minh cho tính đắn phương pháp đề xuất Luận văn NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ xây dựng dựa tảng nghiên cứu khai phá luật kết hợp khai phá sử dụng web đề xuất từ năm 1995, đáng ý phải kể đến nghiên cứu Navathe [16] Agrawal [3] Nội dung luận văn tác giả trình bày bao gồm 04 chương: hương i i thiệu t ng u n: Đặt vấn đề giới thiệu toán mong muốn xử lý, nghiên cứu trước hướng tiếp cận đề tài hương Luật kết hợp kỹ thuật kh i phá luật kết hợp: Tập trung trình bày số khái niệm tập phổ biến luật kết hợp, nghiên cứu khai phá luật kết hợp số thuật toán tiêu biểu Trong chương này, tác giả khó khăn áp dụng khai phá luật kết hợp với liệu web log hương Tư tưởng “ hi để trị” kh i phá luật kết hợp: Trình bày sở toán học cho việc áp dụng tư tưởng Chia để trị đề xuất thuật toán cho phép tổng hợp kết xử lý tập liệu để thu kết mong muốn Tác giả đề xuất mơ hình hệ thống phân tích liệu web log để tìm luật kết hợp dựa chiến lược Chia để trị hương o ul ph n t ch liệu kết u thực nghiệ : Phân tích đặc trưng liệu web log trình bày kết thực nghiệm đánh giá Mặc dù có nhiều cố gắng chắn khơng tránh khỏi thiếu sót, tác giả mong nhận ý kiến đóng góp thầy giáo, cô giáo bạn học viên để tác giả hồn thiện kết nghiên cứu NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Khai phá liệu sử dụng web Sự bùng nổ Internet khiến cho World Wide Web trở thành kho liệu khổng lồ với số lượng vô lớn máy chủ web rải rác khắp nơi giới Kho tài nguyên liệu Web tiềm ẩn nhiều mẫu thông tin quý giá cá nhân, tổ chức hay cộng đồng Trong năm gần đây, lĩnh vực khai phá web (Web Mining) có bước phát triển mạnh mẽ, thu hút quan tâm nhiều nhà nghiên cứu nhóm phát triển ứng dụng Khai phá liệu sử dụng web (Web Usage Mining) hướng nghiên cứu quan trọng khai phá web Các máy chủ web thường ghi lại tích lũy liệu phản ánh hoạt động người dùng nhận yêu cầu truy cập (hình 1.1) Từ hồ sơ truy cập web (hay gọi web log), áp dụng kỹ thuật khai phá liệu giúp khám phá tri thức hữu ích liên quan đến trình tương tác người dùng với Internet mà cụ thể trang Web Hình 1.1: Một trích đoạn liệu web log NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 10 Khai phá liệu định nghĩa trình khơng tầm thường nhằm phát mẫu có giá trị, mới, hữu ích tiềm hiểu liệu [1] Đối với khai phá sử dụng web nói riêng khai phá liệu nói chung, có nhiều phương thức tiếp cận khác sử dụng phát mẫu: Phân tích th ng k (Standard Statistical Analysis): Đây phương pháp thường sử dụng nhằm trích chọn tri thức liên quan đến người dùng cách phân tích hồ sơ phiên truy cập sử dụng kỹ thuật phân tích thống kê tần suất, giá trị trung bình, trung vị, dựa số lần duyệt trang (page view), thời gian duyệt trang (viewing time), chiều dài vết truy cập (navigation path) uật kết hợp (Association Rules): Phát mối quan hệ kết hợp tập liệu toán quan trọng khai phá liệu Bài toán khai phá luật kết hợp thực việc phát mối quan hệ tập thuộc tính (mục) có dạng Y, Y hai tập thuộc tính Luật kết hợp cho biết tập trang web thường truy cập với M u tu n t (Sequential Patterns): sử dụng để phát mẫu trải dài nhiều phiên truy cập mà có mặt tập mục (item set) xếp theo thứ tự thời gian phiên truy cập h m cụm (Clustering): sử dụng để nhóm mục (item) có đặc trưng thành tập mục Đối với khai phá sử dụng web, người ta quan tâm nhiều đến việc phân cụm người dùng (usage clustering) phân cụm trang web (page clustering) Theo [1 , phân cụm coi tốn mô tả hướng tới việc nhận biết tập hữu hạn cụm lớp để mô tả liệu h n l p (Classification): sử dụng để ánh xạ mục liệu vào lớp định nghĩa trước Theo [1], phân lớp thực việc xây dựng mơ hình dự báo nhằm mơ tả phát lớp/khái niệm cho dự báo Trong khai phá sử dụng web người ta quan tâm nhiều đến việc hồ sơ truy cập người dùng thuộc lớp hay nhóm người dùng cụ thể Trong luận văn này, tác giả lựa chọn hướng tiếp cận dựa khai phá luật kết hợp nhằm xác định xu hướng truy cập người dùng phản ánh tập phổ biến Các phân tích giúp cấu trúc lại website phân nhóm hiệu hơn, hay xác định vị trí đặt banner quảng cáo hiệu nhất, NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 11 gắn việc quảng cáo sản phẩm định cho người dùng quan tâm để đạt hiệu cao nhất,… 1.2 Phát biểu toán khai phá luật kết hợp từ liệu sử dụng web Trong lĩnh vực thương mai điện tử, việc xác định thói quen, thị hiếu mua sắm hay xu hướng truy cập thông tin người dùng vô quan trọng Điều giúp nhà quản lý đưa chiến lược quảng cáo hay tiếp thị phù hợp Đối với nhà phát triển hệ thống, việc nắm thói quen hay xu hướng truy cập người dùng gợi ý hay để xây dựng website với cấu trúc khoa học tiện dụng Bài toán đặt là: vào liệu truy cập (web log) xác định nhóm trang web thường truy cập với hay khơng nhóm phản ánh thói quen hay xu hướng truy cập người dùng Bài tốn phát biểu sau: Dữ liệu đầu vào (Input): tập các ghi truy cập web (web log) với trường thông tin xác định, đọc từ tập tin log Số lượng ghi lớn Dữ liệu đầu (Output): tập trang web (hay tập tin) thường truy cập với với xác suất ngưỡng Trong lĩnh vực khai phá liệu, tốn giải dựa mơ hình luật kết hợp thuật toán khai phá luật kết hợp Phát mối quan hệ kết hợp liệu sử dụng web trở thành toán khai phá web Sau liệu truy cập web tiền xử lý, phân tách riêng ứng với người dùng phiên truy cập vấn đề thực tiễn đặt trang web (hay tập tin tài nguyên) thường truy cập với Việc sử dụng giải thuật khai phá luật kết hợp giúp phát mối tương quan người dùng viếng thăm trang web giới thiệu sản phẩm điện tử với người dùng khác viếng thăm trang web quảng cáo dụng cụ thể thao chẳng hạn Bên cạnh ứng dụng thương mại điện tử, luật kết hợp giúp đưa gợi ý cho nhà phát triển web nhằm tái cấu trúc lại trang web họ cho thuận tiện với người dùng Các luật kết hợp ứng dụng chế tìm kiếm nhằm tải trước trang web để giảm bớt thời gian chờ đợi người dùng truy cập tới máy chủ web xa NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 12 1.3 Hướng tiếp cận đề tài Khi áp dụng khai phá luật kết hợp vào liệu web log, ta vấp phải số vấn đề sau đây: Dung lượng liệu đọc vào từ tập tin web log q lớn đến mức khơng thể áp dụng trực tiếp giải thuật khai phá luật kết hợp hạn chế nhớ hệ thống tính tốn Bản thân liệu web log ghi lại cách phân tán tập tin rời rạc (theo chu kỳ thời gian giờ/ngày/tuần/tháng/năm) liệu thường xuyên phát sinh sau chu kỳ Tuy nhiên tiến hành khai phá liệu ta cần khai phá toàn liệu từ tập tin chỉnh thể Việc liệu phát sinh khiến kết khai phá trước khơng cịn xác phải tiến hành khai phá lại từ đầu sau liệu đầu vào cập nhật Liệu có cách tận dụng kết khai phá trước hay khơng vấn đề đặt Trong luận văn, tác giả không tiếp cận dựa việc cải tiến giải thuật khai phá luật kết hợp có hay đề xuất áp dụng giải thuật mà tiếp cận giải vấn đề từ góc độ liệu vào Tư tưởng Chia để trị (Divide and Conquer) tác giả đề xuất áp dụng xử lý tập liệu vào Chia để trị cách tiếp cận tự nhiên giải toán Tập liệu vào phân chia thành tập liệu (có kích thước phù hợp với nhớ trong) xử lý độc lập Các kết xử lý tổng hợp lại để thu kết mong muốn Trong luận văn, tác giả tập trung trình bày sở tốn học chứng minh tính đắn việc áp dụng chiến lược Chia để trị xử lý tập liệu vào đồng thời đề xuất mơ hình hệ thống phân tích liệu thu từ tập tin web log để đưa luật kết hợp Các số liệu thực nghiệm trình bày cách đầy đủ để làm sở so sánh Cách thức tiếp cận dựa tư tưởng Chia để trị có nhiều ưu điểm, có hai ưu điểm lớn là: Độc lập với giải thuật khai phá liệu sử dụng: Khi tiến hành xử lý tập liệu con, ta lựa chọn giải thuật khai phá liệu phù hợp Thậm chí, không thiết tất tập liệu phải sử dụng giải thuật mà tập liệu dùng giải thuật khác để xử lý NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ ... nhiều ứng dụng hiệu thực tế Trong luận văn này, tác giả tập trung trình bày hướng nghiên cứu quan trọng khai phá sử dụng web, khai phá luật kết hợp từ liệu sử dụng web Có thể nói khai phá luật kết. .. nhật ký truy cập (web server logs) p dụng kỹ thuật khai phá liệu, ta phát mẫu (tri thức) tiềm hữu ích từ liệu sử dụng web Được xem ba loại hình khai phá web, khai phá sử dụng web trở thành lĩnh... hàng thường mua với Trong ngữ cảnh khai phá web khai phá luật kết hợp nhằm tìm trang web có quan hệ với nhau, truy cập với với xác suất định Các luật kết hợp khai phá sử dụng web thường có dạng:

Ngày đăng: 25/03/2015, 10:24

Mục lục

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

  • CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN

  • 1.1. Khai phá dữ liệu sử dụng web

  • 1.3. Hướng tiếp cận của đề tài

  • 2.1. Khái niệm về luật kết hợp và tập phổ biến

  • 2.2. Luật kết hợp trong dữ liệu sử dụng web

  • 2. . Một số nghiên cứu về khai phá luật kết hợp

  • 2.4. Khai phá sử dụng Web với giải thuật Apriori

  • 2.5. Các kỹ thuật khai phá song song luật kết hợp

  • 3.2. Cơ sở toán học cho việc áp dụng chiến lược Chia để trị

  • 3.5. Sinh các tập phổ biến cục bộ

  • 3.6. Sinh các luật kết hợp mạnh từ các tập phổ biến

  • CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

  • 4.1. Đặc trưng của dữ liệu thực nghiệm

  • 4.2. Các thao tác tiền xử lý dữ liệu

  • 4.2.2. Gán nhãn thời gian

  • 4.2.3. Phân định các phiên truy cập

  • 4.3 . Một số kết quả thực nghiệm

  • 4.3 .1. Mục tiêu của quá trình thực nghiệm

Tài liệu cùng người dùng

Tài liệu liên quan