Advanced engineering informatics tin hoc ky thuat nang cao HUIM

27 6 0
Advanced engineering informatics tin hoc ky thuat nang cao HUIM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tin học kỹ thuật nâng cao với thuật toán khai thác hiệu quả các tập phần tử tiện ích trung bình cao. Với số lượng ứng dụng khai thác dữ liệu ngày càng tăng, khai thác tập phần tử có tiện ích cao (HUIM) đã trở thành một vấn đề sôi nổi trong những thập kỷ gần đây. Trong HUIM truyền thống, tiện ích của một phần tử được định nghĩa là tổng số các tiện ích của phần tử đó, trong các giao dịch

Tin học kỹ thuật nâng cao Bài viết hoàn chỉnh Thuật toán khai thác hiệu tập phần tử tiện ích trung bình cao Jerry Chun-Wei Lin , Ting Li , Philippe Fournier-Viger , Tzung-Pei Hong, Justin Zhan, Miroslav Voznak Trường Khoa học Cơng nghệ Máy tính, Học viện Công nghệ Cáp Nhĩ Tân, Trường Sau đại học Thâm Quyến, Thâm Quyến, Trung Quốc Trường Khoa học Tự nhiên Nhân văn, Viện Công nghệ Cáp Nhĩ Tân, Trường Sau đại học Thâm Quyến, Thâm Quyến, Trung Quốc Khoa Khoa học Kỹ thuật Máy tính, Đại học Quốc gia Cao Hùng, Cao Hùng, Đài Loan Khoa Khoa học Kỹ thuật Máy tính, Đại học Quốc gia Sun Yat-sen, Cao Hùng, Đài Loan Khoa Khoa học Máy tính, Đại học Nevada, Las Vegas, Hoa Kỳ Khoa Viễn thơng, VSB-Đại học Kỹ thuật Ostrava, Cộng hịa Séc Lịch sử viết: Đã nhận ngày 24 tháng 12 năm 2015 Nhận sửa đổi ngày 26 tháng năm 2016 Được chấp nhận ngày tháng năm 2016 Đăng trực tuyến ngày 15 tháng năm 2016 Từ khóa: Các tập phần tử có tiện ích trung bình cao, Cấu trúc danh sách, Khai thác liệu Mở đầu Với số lượng ứng dụng khai thác liệu ngày tăng, khai thác tập phần tử có tiện ích cao (HUIM) trở thành vấn đề sôi thập kỷ gần Trong HUIM truyền thống, tiện ích phần tử định nghĩa tổng số tiện ích phần tử đó, giao dịch Một vấn đề quan trọng với định nghĩa khơng tính đến độ dài phần tử Bởi tiện ích tập lớn thường lớn tiện ích tập nhỏ hơn, thuật tốn HUIM truyền thống có xu hướng thiên phát tập lớn Vì vậy, khơng phải phép đánh giá công tiện ích Để cung cấp đánh giá tốt tiện ích tập phân tử con, nhiệm vụ khai thác phần tử có tiện ích trung bình cao (HAUIM) đề xuất Các biện pháp tiện ích trung bình đưa có tính đến chiều dài tiện ích phần tử, phù hợp tình thực tế Một số thuật toán thiết kế phân loại thành phương pháp tăng trưởng theo cấp độ theo mô hình Tuy nhiên, hai u cầu tính tốn nhiều để tìm tập có tiện ích trung bình cao thực tế (HAUI) Trong viết này, trình bày cấu trúc danh sách tiện ích trung bình (AU) hiệu để khai thác HAUI hiệu Thuật tốn tìm kiếm có tên HAUI-Miner đề xuất để khám phá khơng gian tìm kiếm mà không cần tạo ứng viên, đồng thời phương pháp cắt giảm hiệu phát triển để giảm khơng gian tìm kiếm tăng tốc q trình khai thác Các thí nghiệm mở rộng tiến hành để so sánh hiệu suất HAUI-Miner với thuật toán HAUIM tiên tiến thời gian hoạt động, số lượng nút xác định, mức sử dụng nhớ khả mở rộng Giới thiệu Khai thác tập phổ biến (FI) luật kết hợp (AR) sở liệu giao dịch nhiệm vụ khai thác kiến thức sở liệu (KDD) [2,3,6] Nhiều thuật toán thiết kế để khai thác FI AR Các cách phổ biến để lấy FI AR từ sở liệu sử dụng cách tiếp cận mức độ [3] tiếp cận tăng trưởng mẫu [8,14] Apriori [3] thuật toán khai thác FI theo cách tiếp cận mức độ Nó dựa vào ngưỡng hỗ trợ tối thiểu giai đoạn để khai thác FI, sau sử dụng FI phát giai đoạn thứ hai để tạo AR thỏa mãn ngưỡng tin cậy tối thiểu Phương pháp tăng trưởng mơ hình giới thiệu Han cộng [8] để khai thác FI mà không cần tạo ứng viên Ban đầu, tăng trưởng FP xây dựng cấu trúc FP cách sử dụng tập phổ biến Sau đó, q trình khai thác, FP có điều kiện tạo chứa bảng số thiết kế (Header_Table) để khai thác FI Các thuật toán khai thác tập phổ biến truyền thống (FIM) khai thác luật kết hợp (ARM) đánh giá tần suất xuất tập sở liệu nhị phân Các yếu tố quan trọng khác số lượng, lợi nhuận trọng số phần tử khơng tính đến thuật toán FIM ARM truyền thống Một vấn đề khác FI AR tìm thấy sở liệu giao dịch đóng góp phần nhỏ tổng lợi nhuận tạo từ việc bán mặt hàng mặt hàng khơng phổ biến đóng góp lượng lớn lợi nhuận Ví dụ, việc bán kim cương phổ biến so với quần áo giày dép trung tâm mua sắm, kim cương thường đóng góp lợi nhuận cao nhiều cho đơn vị bán Do đó, rõ ràng xem xét tần suất xuất không đủ để xác định mặt hàng có lợi nhuận cao thường quan trọng người dùng Do đó, khai thác vật phẩm có tiện ích cao (HUIM) [111313,22] lên vấn đề quan trọng thập kỷ gần đây, cho thấy mặt hàng có lợi nhuận thực tế HUIM coi phần mở rộng FIM xem xét thông tin bổ sung số lượng lợi nhuận theo đơn vị mặt hàng, để đánh giá tốt mức độ hữu ích vật phẩm người dùng Một vật phẩm / mặt hàng coi có tiện ích cao (HUI) tiện ích khơng ngưỡng tiện ích tối thiểu người dùng xác định Vì thuộc tính bao đóng suy giảm (DC) sử dụng FIM ARM truyền thống khơng trì HUIM truyền thống, Liu cộng [12] thiết kế cách tiếp cận hai giai đoạn phát triển thuộc tính bao đóng theo trọng số giao dịch (TWDC) để giảm khơng gian tìm kiếm cách cắt giảm mặt hàng khơng hiệu Một số thuật tốn tăng trưởng theo cấp độ mơ hình đề xuất để khai thác hiệu HUI, sử dụng phương pháp hai pha [4,5,7] Trong HUIM truyền thống, tiện ích vật phẩm / mặt hàng định nghĩa tổng tiện ích sở liệu Một vấn đề đáng quan tâm với định nghĩa khơng tính đến độ dài vật phẩm Vì vậy, định nghĩa khơng phù hợp để đánh giá tiện ích Để có đánh giá cơng tiện ích mặt hàng, nhiệm vụ khai thác tiện ích trung bình cao (HAUIM) đề xuất Hong cộng [9] Các biện pháp tiện ích trung bình đề xuất ước tính tiện ích vật phẩm cách xem xét chiều dài Nó định nghĩa tổng số tiện ích vật phẩm giao dịch, chia cho số lượng vật phẩm mà chứa Biện pháp giải thiếu công HUIM truyền thống tập mặt hàng lớn hơn, cách xem xét độ dài tập, đánh giá khách quan tiện ích tập Đối với HUIM truyền thống, thuật toán tăng trưởng theo cấp độ mơ hình thiết kế cho HAUIM Các thuật toán theo cấp độ [9] yêu cầu tạo nhiều ứng viên để khai thác tập mặt hàng có tiện ích trung bình cao thực tế (HAUI) Các thuật toán tăng trưởng mẫu [15] yêu cầu xây dựng có điều kiện để khai thác HAUI, việc tốn thời gian Trong viết này, trước tiên thiết kế cấu trúc danh sách tiện ích trung bình (AU) hiệu phát triển thuật tốn có tên HAUI-Miner để khai thác HAUI pha Những đóng góp quan trọng viết bao gồm ba phần chính: Trước tiên, chúng tơi thiết kế thuật tốn khai thác HAUI hiệu để khai thác mục tiện ích trung bình cao (HAUIs) Nó dựa cấu trúc danh sách trung bình tiện ích (AU) đại Cấu trúc lưu giữ thông tin theo yêu cầu q trình khai thác, nén sở liệu lớn thành cấu trúc đơn giản Phương pháp cắt giảm hiệu phát triển để giảm tải khơng gian tìm kiếm, thể dạng liệt kê, cách cắt giảm ứng viên không hiệu Sử dụng phương pháp này, tránh việc xây dựng danh sách AU phần mở rộng nút xử lý liệt kê để giảm số lần tính tốn Các thí nghiệm lớn thực để so sánh hiệu suất thuật toán HAUI-Miner thiết kế với thuật toán tiên tiến, thời gian hoạt động, số lượng nút xác định, mức tiêu thụ nhớ khả mở rộng Các nghiên cứu liên quan Khai thác mặt hàng tiện ích cao (HUIM) [12,13,22], phần mở rộng khai thác mặt hàng phổ biến, dựa đo lường tiện ích bên tiện ích bên ngồi Tiện ích bên mặt hàng số lượng mua giao dịch tiện ích bên ngồi mặt hàng xem lợi nhuận theo đơn vị, tầm quan trọng trọng số Tiện ích vật phẩm / mặt hàng sở liệu tính tổng số lượng mua vật phẩm sở liệu, nhân với lợi nhuận theo đơn vị (tiện ích bên ngồi) Mục đích HUIM khám phá tập hồn chỉnh mặt hàng tiện ích cao (HUIs), tập có tiện ích khơng ngưỡng tiện ích tối thiểu Yao cộng [22] đề xuất khung khai thác HUI dựa thuộc tính tốn học tính tiện ích Hai phương pháp cắt giảm thiết kế để giảm khơng gian tìm kiếm để khám phá HUI tương ứng dựa giới hạn tiện ích giới hạn tiện ích dự kiến Vì thuộc tính bao đóng suy giảm (DC) ARM khơng lưu giữ HUIM truyền thống, Liu cộng [12] sau thiết kế thuộc tính bao đóng theo trọng số giao dịch (TWDC) phát triển mơ hình sử dụng trọng số giao dịch (TWU) Điều cung cấp giới hạn tiện ích HUI tiềm năng, sử dụng để giảm bùng nổ tổ hợp khơng gian tìm kiếm HUIM truyền thống Tuy nhiên, mơ hình TWU u cầu tạo nhiều ứng viên để có HUI thực tế Các thuật toán tăng trưởng mẫu đề xuất để nén sở liệu vào cấu trúc kết hợp mơ hình TWU Lin cộng [16] thiết kế thuật tốn ba chiều mẫu tiện ích cao (HUP) để khai thác mục tiện ích cao cách sử dụng cấu trúc đề xuất Tseng cộng phát triển thuật toán UP-Growth [20] UP-Growth + [21] để khám phá hiệu HUI dựa phương pháp cắt giảm khác Tất cách tiếp cận nói dựa vào mơ hình TWU thuộc tính TWDC để khám phá HUI Tuy nhiên, khơng gian tìm kiếm lớn sử dụng mơ hình TWU tốn thời gian để khám phá HUI thực tế Thay cho chế tăng trưởng theo mơ hình, Liu cộng [13] phát triển thuật toán HUIMiner dựa danh sách để khám phá HUI mà không cần tạo ứng viên Cấu trúc danh sách tiện ích phát triển cấu trúc hiệu để trì thơng tin cần thiết để khai thác HUI cách sử dụng lượng nhớ hạn chế Fournier-Viger cộng sự[7] mở rộng HUI-Miner với cấu trúc có tên EUCS để lưu trữ thông tin mối quan hệ mục, tăng tốc độ khai thác HUI Một số phần mở rộng nhiệm vụ khai thác HUIM đề xuất khai thác HUI cập nhật [17] HUI hàng đầu [23] Tương tự HUIM truyền thống, số thuật toán HAUIM thiết kế mơ hình TWU Lin cộng [15] lần phát triển cấu trúc HAUP thuật toán tăng trưởng HAUP để khai thác HAUI Trong HAUP, nút cuối đường dẫn lưu trữ giới hạn tiện ích trung bình mặt hàng tương ứng số lượng mặt hàng trước đường dẫn Cách tiếp cận sử dụng để tăng tốc độ khám phá HAUI Lan cộng [10] đề xuất thuật toán khai thác vật phẩm trung bình tiện ích dựa phép chiếu (PAI) để HAUI có sử dụng phương pháp tiếp cận mức độ Dựa mơ hình giới hạn đề xuất, số lượng ứng viên không tiềm giảm đáng kể so với trước dựa mơ hình TWU Lu cộng [18] đề xuất thuật toán HAUI để tiếp tục giảm số lượng ứng viên không phù hợp để khai thác HAUI thực tế cách sử dụng cấu trúc liệt kê Tuy nhiên, việc khai thác HAUI thuật toán thiết kế tốn thời gian giới hạn sử dụng thuật toán bị lỏng lẻo, đó, nhiều ứng viên khơng cần thiết phải tạo q trình xây dựng liệt kê hồn chỉnh cịn tốn Khái quát trình bày vấn đề 3.1 Khái quát Cho I = {i1, i2, …, im} tập hợp hữu hạn m mặt hàng riêng biệt Cơ sở liệu định lượng tập hợp giao dịch D = {T1, T2, …, Tn} giao dịch Tq ∈ (1 ≤ q ≤ m) tập hợp I có định danh q, gọi TID Ngoài ra, mục ij giao dịch Tq có số lượng mua ký hiệu q(ij , Tq ) Bảng lợi nhuận PT cho biết giá trị lợi nhuận đơn vị mặt hàng sở liệu PT = {pr(i1), pr(i2), …, pr(im)}, giá trị lợi nhuận số nguyên dương Một tập hợp k mặt hàng riêng biệt X = {i1, i2, …, ik} cho X ⊆ I gọi tập mặt hàng k, k chiều dài tập Một tập X cho có giao dịch Tq X ⊆ Tq Ngưỡng tiện ích trung bình tối thiểu 𝛿 đặt theo sở thích người dùng (một số nguyên dương) Một sở liệu định lượng ví dụ hiển thị Bảng 1, sử dụng làm ví dụ xuyên suốt cho phần lại viết Cơ sở liệu chứa sáu giao dịch sáu tập mặt hàng riêng biệt, biểu thị chữ từ (A) đến (F) Bảng lợi nhuận cho biết lợi nhuận đơn vị mặt hàng xuất sở liệu hiển thị Bảng Trong ví dụ tại, ngưỡng tiện ích trung bình tối thiểu đặt thành 𝛿 = 16% Định nghĩa Tiện ích trung bình mặt hàng ij giao dịch Tq ký hiệu au(ij, Tq) tính sau: au(ij, Tq) = 𝑞(𝑖𝑗 𝑇𝑞) 𝑥 𝑝𝑟(𝑖𝑗) , Trong q(ij, Tq) số lượng ij Tq vàpr(ij) giá trị lợi nhuận theo đơn vị ij Ví dụ, tiện ích trung bình mặt hàng (A), (B), (C), (D) (F) Tq tính au(A, T1) (= 1𝑥5 6𝑥1 3𝑥2 3𝑥3 1 1 au(F, T1)(= ) (= 5), au(B, T1) (= ) (= 6), au(C, T1) (= ) (=6), au(D, T1) (= ) (=9) 6𝑥1 ) (=6) Định nghĩa 2: Tiện ích trung bình vật phẩm loại k X giao dịch Tq ký hiệu au(X, Tq) định nghĩa au(X, 𝑻𝒒 ) = = ∑𝒊𝒋 ∈𝑿˄𝑿⊆𝑻𝒒 (𝒊𝒋 ,𝑻𝒒 ) 𝒙 𝒑𝒓(𝒊𝒋) |𝑿| ∑𝒊𝒋 ∈𝑿˄𝑿⊆𝑻𝒒 (𝒊𝒋 ,𝑻𝒒 ) 𝒙 𝒑𝒓(𝒊𝒋) 𝒌 Trong đó, k số lượng vật phẩm X Ví dụ: tiện ích trung bình tập (AB) (ABC) T1 tính tương ứng au(AB) = 𝑥 5+6 𝑥 = (5.5) au(ABC) = 𝑥 5+6 𝑥 1+3 𝑥 (=5.66) Định nghĩa Tiện ích trung bình tập X D ký hiệu au(X) tính theo công thức: au(X) = ∑𝑿 ⊆𝑻𝒒 ˄ 𝑻𝒒 ∈𝑫 𝒂𝒖(𝑿, 𝑻𝒒 ) (3) Ví dụ: tiện ích trung bình tập (AB) (ABC) sở liệu mơ tả Bảng tính tương ứng Định nghĩa Tiện ích giao dịch Tq giao dịch ký hiệu tu(Tq) định nghĩa là: Ví dụ: tiện ích giao dịch Bảng tính tương ứng Định nghĩa Tổng tiện ích sở liệu D ký hiệu TU định nghĩa tổng tất tiện ích giao dịch, là: Ví dụ: tổng tiện ích ví dụ vận dụng Bảng tính TU = 32 + 16 + 22 + 28 + 37 + 15 (= 150) 3.2 Trình bày vấn đề Vấn đề việc khai thác tập hợp tiện ích trung bình cao khám phá hồn chỉnh tập mặt hàng tiện ích trung bình cao (HAUIs) Một mặt hàng X HAUI sở liệu D tiện ích khơng nhỏ số lượng tiện ích trung bình tối thiểu, định người dùng Do đó, tập HAUI định nghĩa thức là: Thuật toán khai thác HAUI-Miner đề xuất Trong viết này, thiết kế cấu trúc danh sách tiện ích trung bình (AU) để lưu trữ thơng tin cần thiết cho trình khai thác Hơn nữa, thuật tốn có tên HAUI-Miner phát triển để khai thác HAUI hiệu cơng trình nghiên cứu trước Trong khai thác luật kết hợp truyền thống (ARM), thuộc tính bao đóng suy giảm (DC) sử dụng để giảm khơng gian tìm kiếm tránh cố nổ liên hợp khai thác HAUI Trong HAUIM, thuộc tính khơng trì cho biện pháp đánh giá tiện ích trung bình Để khơi phục thuộc tính giảm hiệu khơng gian tìm kiếm, viết giới thiệu thuộc tính bao đóng suy giảm tối đa tiện ích giao dịch (TMUDC) Nó cho phép cắt giảm sớm ứng viên không phù hợp, giảm khơng gian tìm kiếm để khám phá hiệu HAUI thực tế Định nghĩa Tiện ích tối đa giao dịch giao dịch Tq ký hiệu định nghĩa tiện ích tối đa mặt hàng giao dịch Tq, là: Ví dụ: tiện ích tối đa giao dịch T1 tính Các tiện ích tối đa giao dịch giao dịch khác tính theo giá trị thể Bảng Định nghĩa Giới hạn tiện ích trung bình tập mặt hàng X ký hiệu định nghĩa tổng tiện ích tối đa giao dịch có chứa X, là: Ví dụ, xem xét sở liệu Bảng Giá trị auub(A) tính Các giới hạn tiện ích trung bình - tập mặt hàng khác tính theo cách đưa Bảng Định nghĩa Một tập X gọi tập sản phẩm giới hạn tiện ích trung bình cao (HAAUUBI) giới hạn tiện ích trung bình khơng thấp số lượng tiện ích trung bình tối thiểu, định nghĩa là: Định lý (Thuộc tính bao đóng suy giảm tối đa giao dịch (TMUDC) HAUUBI) Các biện pháp đánh giá giới hạn tiện ích trung bình bao đóng suy giảm Thuộc tính TMUDC trì tập HAUUBI Chứng minh Đặt Xk tập mặt hàng k X k-1 tập Vì X k-1 tập Xk, nên tập hợp TID giao dịch có chứa Xk tập hợp tập hợp TID X k-1 Giả sử Xk HAUUBI Do đó: Theo đinh lý 1, Xk HAUUBI, tập X k- Xk HAUUBI Hệ Nếu vật phẩm Xk HAUUBI, tất tập hợp Xk HAUUBI Hệ Nếu vật phẩm Xk HAUUBI, tất tập siêu Xk HAUUBI Định lý Thuộc tính TMUDC đảm bảo Do đó, vật phẩm khơng phải HAUUBI, khơng có tập HAUI Bảng 4: Giới hạn tiện ích trung bình vật phẩm Vì mặt hàng (E) HAUUBI tập (B) Do đó, (E) xóa khỏi Bảng kết trình hiển thị Bảng 7, gọi sở liệu dự kiến (B) 4.2 Cấu trúc danh sách tiện ích trung bình (AU) Một sở liệu dự kiến sửa đổi hai lần sau sử dụng để xây dựng hiệu cấu trúc danh sách tiện ích trung bình (danh sách AU) vật phẩm / mặt hàng Danh sách AU mặt hàng / vật phẩm X danh sách yếu tố cho có yếu tố đại diện cho Tq giao dịch Một phần tử bao gồm ba trường, định nghĩa sau: Trường Trường tid iu biểu tiện thị ích giao X dịch T q, tức là, T q u(X; Tq) Trường tmu biểu thị tiện ích tối đa giao dịch X Tq, tức là, tmu(X; Tq) Các danh sách AU xây dựng sở liệu dự kiến (B), mô tả Bảng 7, hiển thị Hình Trong Hình 1, phần tử (1,6,9) danh sách AU xây dựng (B) (B) xuất giao dịch T1, có tiện ích giao dịch tiện ích tối đa giao dịch (B) giao dịch Nếu tổng giá trị u(X) tất yếu tố danh sách AU không so với số lượng tiện ích trung bình tối thiểu, xuất trực tiếp dạng tập hợp tiện ích trung bình cao (HAUI) Để xây dựng danh sách AU vật phẩm k , không cần thiết phải quét lại sở liệu gốc Chúng xây dựng cách thực thao tác giao cắt cách sử dụng danh sách AU tập nhỏ (bằng cách so sánh TID danh sách AU) Giả sử độ dài hai vật phẩm tương ứng m n Việc thực giao điểm hai danh sách AU yêu cầu tối đa (m + n) so sánh để lấy danh sách AU mặt hàng k Thuật toán xây dựng danh sách AU cho mặt hàng k hiển thị Thuật toán Thuật toán Xây dựng danh sách AU Hình Các danh sách AU xây dựng sở liệu dự kiến (B) Thuật toán xây dựng danh sách AU lấy danh sách AU gồm ba tập làm đầu vào (P; Px Py) Ở đây, ký hiệu Px biểu thị kết hợp vật phẩm P với vật phẩm x, tức ta cho Người Đầu thuật toán danh sách AU mục Pxy Thuật toán áp dụng sau Đầu tiên, danh sách AU Pxy khởi tạo trống (Dịng 1) Sau đó, vòng lặp thực tất phần tử Ex Px.AUL (Dòng -10) để điền vào danh sách AU Pxy cách kết hợp Px.AUL Py.AUL Nếu tập hợp phần tử phần tử cấu trúc danh sách AU xây dựng trực tiếp cách so sánh phần tử danh sách AU Px Py (Dòng - 5) Mặt khác, Pxy mặt hàng k danh sách AU xây dựng cách xem xét danh sách AU P (Dịng -10) Ví dụ, xem xét việc xây dựng danh sách AU (BA) cách sử dụng danh sách AU (B) (A), minh họa Hình Điều thực cách thực giao điểm phần tử có TID danh sách AU (B) (A) Do đó, tập hợp TID (BA) Các giá trị u tmu danh sách AU cập nhật Danh sách AU xây dựng ðB hiển thị Hình 4.3 Khơng gian tìm kiếm danh sách AU Dựa cấu trúc danh sách AU thiết kế, khơng gian tìm kiếm để khai thác mục tiện ích trung bình cao (HAUI) biểu diễn dạng liệt kê, nút đại diện cho tập hợp riêng biệt, HAUI tiềm Thuật tốn đề xuất khám phá cách sử dụng tìm kiếm theo chiều sâu Nó dựa vào phương pháp cắt giảm (được trình bày phần phụ tiếp theo) để xác định xem danh sách AU nút xử lý có cần xây dựng hay cắt giảm trực tiếp hay khơng Cây vật phẩm (B) cho ví dụ sử dụng Bảng hiển thị Hình 4.4 Phương pháp cắt giảm Khai thác HAUI tốn thời gian hoạt động nhớ khơng gian tìm kiếm lớn (nếu số lượng lớn mặt hàng xem xét) Giả sử số lượng vật phẩm sở liệu k Một cách tiếp cận đơn giản yêu cầu xem xét tất 2k - vật phẩm không hiệu HUI tiềm Để tránh bùng nổ tổ hợp này, viết giới thiệu phương pháp cắt giảm hiệu việc giảm không gian tìm kiếm Định nghĩa Đặt SUM.X.iu biểu thị tổng tiện ích mục X sở liệu D, là: Ví dụ hình 2, Định nghĩa 10 Đặt SUM.X.tmu biểu thị tổng số tiện ích tối đa giao dịch có chứa mục X sở liệu D, là: Ví dụ: Hình 2, SUM.B.tmu = + + + 15 (= 41) SUM tmu = + + 15 (= 33) Định nghĩa 11 Cho mục X giao dịch T cho , tập hợp tất mục xuất sau X T ký hiệu T/X định nghĩa Ví dụ: Bảng 5, Định nghĩa 12 Cho phép có số mục X Y Y gọi phần mở rộng X tồn mặt hàng , cho nữa, Y gọi phần mở rộng X phần mở rộng X Hơn cho Để khai thác HAUI cách hiệu quả, cần phải giảm khơng gian tìm kiếm Điều thực cách xác định cắt giảm mặt hàng không hiệu Trong cấu trúc danh sách AU thiết kế, tổng trường iu tmu cung cấp đủ thông tin để đạt mục tiêu Hình Xây dựng danh sách AU (BA) Định lý Cho phép có tập X Nếu giá trị SUM.X tmu tính danh sách AU X nhỏ số lượng trung bình tối thiểu, tất phần mở rộng X mục tiện ích trung bình cao (HAUI) Chứng minh mở rộng X Đặt id(T) biểu thị tid giao dịch T giá trị X.tids biểu thị tập hợp tids danh sách AU X giá trị X’.tids X’ Như vậy: X ⊂ X’ => X’.tids ⊆ X.tids Au(X’) = ∑𝒊𝒅(𝑻) ∈𝑿′ 𝒕𝒊𝒅𝒔 𝒂𝒖(𝑿′ , 𝑻) ≤ ∑𝒊𝒅(𝑻) ∈𝑿′ 𝒕𝒊𝒅𝒔 𝒕𝒎𝒖(𝑿′ , 𝑻) ≤ ∑𝒊𝒅(𝑻) ∈𝑿.𝒕𝒊𝒅𝒔 𝒕𝒎𝒖(𝑿, 𝑻) = SUM.X.tmu Do đó, tổng số tiện ích tối đa giao dịch giao dịch có chứa vật phẩm X nhỏ số lượng tiện ích trung bình tối thiểu, tất tiện ích mở rộng X khơng phải mặt hàng có tiện ích trung bình cao (HAUI) đó, bỏ qua khơng cần xây dựng Ví dụ, xem xét tập (BAD), phần mở rộng (BA) mặt hàng Tổng giá trị tmu (BA) tính (9 + + 15) (= 33), lớn số lượng tiện ích trung bình tối thiểu (33> 24) Do đó, danh sách AU phần mở rộng (BA) liệt kê cần xem xét cách tìm kiếm theo chiều sâu danh sách AU phần mở rộng cần tạo Mã giả đầy đủ thuật toán khai thác HAUI đề xuất trình bày Thuật tốn Thuật toán HAUI-Miner Thuật toán HAUI-Miner đầu vào (1) danh sách AU mặt hàng P, (2) danh sách AU P.AUL tất phần mở rộng P, (3) ngưỡng tiện ích trung bình cao xác định trước (4) tổng tiện ích sở liệu D Các vịng lặp thuật tốn xem xét danh sách AU Y.AUL P.AUL Nếu tổng số tiện ích tối đa giao dịch Y.AUL chia cho số phần tử Y.AUL nhỏ số lượng tiện ích trung bình tối thiểu (=δ x TU), Y HAUI đầu (Dịng - ) Sau đó, tổng tiện ích tối đa giao dịch Y.AUL vượt δ (dòng 4), thuật tốn thiết kế khai thác khơng gian tìm kiếm cách giao Y Z danh sách AU xuất sau Y AULs (Dòng 6, 7) Hàm xây dựng (P.AUL, Y, Z) (Dịng 7) sau thực để xây dựng Danh sách AU tập hợp vật phẩm Y ∪ Z Sau đó, thuật tốn vận dụng để xây dựng phần mở rộng Y ∪ Z (Dòng 8) Khi thuật toán chấm dứt, tất HAUI phát thành cơng Ví dụ minh họa Trong phần này, ví dụ đơn giản đưa để minh họa cách thuật toán HAUI-Miner đề xuất áp dụng bước để khám phá HAUI Xem xét tập liệu mẫu bảng lợi nhuận tương ứng hiển thị Bảng Hơn nữa, giả sử ngưỡng tiện ích trung bình tối thiểu δ đặt thành 16% người dùng Bộ liệu quét để tính giá trị auub tất mặt hàng Các kết hiển thị Bảng Vì số lượng tiện ích trung bình tối thiểu (150 x 0.16) (= 24), nên tập hợp 1-HAUUBIs {A; B; C; D; E} Cơ sở liệu sau sửa đổi để loại bỏ mục không hiệu mục lại xếp theo thứ tự tăng dần giá trị auub giao dịch Cơ sở liệu thay đổi kết hiển thị Bảng Sau đó, sở liệu dự kiến phần tử 1- HAUUBI tạo Cơ sở liệu dự kiến (B) hiển thị Bảng Trong sở liệu dự kiến, HAUUBI cục xác định danh sách tiện ích chúng xây dựng Ví dụ, danh sách AU cục (B), (A), (D) (C) xây dựng sở liệu dự kiến mục (B) hiển thị Hình Danh sách AU Các phần mở rộng 1- (B) (BA, BD, BC) sau xây dựng cách tiếp giao danh sách AU (B) với danh sách AU phần tử khác Sử dụng danh sách AU xây dựng phần mở rộng (B), người ta thấy au(BA) (= 24,5), au(BD) (= 21), au(BC) (= 25) auub(BA) (= 33), auub(BD) (= 33), auub(BC) (= 41) Vì au(BA) (=24.5 ≥ 24) au(BC)(=25≥24) , tập (BA) (BC) HAUI xuất trực tiếp thành đầu Nếu giá trị auub vật phẩm không nhỏ δ x TU, ví dụ, vật phẩm (BD), danh sách AU sau sử dụng để tạo tiện ích mở rộng, để theo đuổi tìm kiếm theo chiều sâu cách sử dụng liệu Quá trình thực đệ quy khơng có danh sách AU tạo Sau tất mục có mục tiền tố (B) xem xét, 1-HAUUBI khác (E, A, D, C) xử lý theo cách Bộ HAUI cuối thu cho ví dụ sử dụng hiển thị Bảng Kết thử nghiệm Trong phần này, hiệu thuật toán HAUI-Miner đề xuất so sánh với ba thuật toán tiên tiến, đặt tên thuật toán HAUP-grow [15], PAI [10] HAUI-tree [18] số liệu Tất thuật toán triển khai Java thử nghiệm thực máy tính có xử lý Intel (R) Core (TM) i7-4790 3.60 GHz với nhớ GB, chạy hệ điều hành Microsoft Windows 64 bit Các thí nghiệm thực sáu liệu, bao gồm năm liệu thực tế [19] liệu tổng hợp tạo Trình tạo liệu tổng hợp IBM Quest [1] Một mô hình mơ [12] phát triển để tạo số lượng (tiện ích nội bộ) giá trị lợi nhuận đơn vị (tiện ích bên ngồi) mục giao dịch cho tất liệu Các tiện ích bên ngồi tạo khoảng [0.01,10] cách sử dụng phân phối log tiện ích nội chọn ngẫu nhiên khoảng [1,5] Các tham số sử dụng để mô tả sáu liệu hiển thị Bảng đặc điểm liệu hiển thị Bảng 10 Để đánh giá hiệu suất thuật toán, thời gian thực hiện, số lượng nút truy cập khơng gian tìm kiếm, mức sử dụng nhớ tối đa khả mở rộng phân tích tương ứng Kết báo cáo Trong thử nghiệm thực hiện, thuật toán chạy 10.000 giây hết nhớ, thuật toán bị dừng 6.1 Thời gian hoạt động Trong phần này, thời gian hoạt động ba thuật toán tiên tiến để khai thác HAUI so sánh với thuật toán khai thác HAUI-Miner đề xuất cho giá trị ngưỡng tiện ích trung bình tối thiểu khác nhau, sáu liệu Kết hiển thị Hình Có thể thấy hình 4, thuật tốn HAUI-Miner đề xuất vượt trội thuật toán trước cho ngưỡng tiện ích trung bình tối thiểu khác nhau, tất sáu liệu Cụ thể, thuật tốn khai thác HAUI-Miner đề xuất nhanh đến hai bậc so với thuật tốn PAI, tang trưởng HAUP HAUI Ví dụ, Hình (b), thời gian hoạt động HAUP-grow, PAI HAUI-Tree tương ứng 233.7, 4.5 6,6 giây, thuật toán đề xuất 1.3 giây ngưỡng tiện ích trung bình tối thiểu đặt thành 4% Đối với thuật toán tăng trưởng HAUP, khơng có kết cung cấp Hình (a), (c), (d) (f) Ngồi ra, thuật tốn tang trưởng HAUP khơng có kết Hình (b) (e) ngưỡng tiện ích trung bình tối thiểu tương ứng đặt thành 3,8% 0,3% thấp Lý thuật toán tăng trưởng HAUP sử dụng nhiều nhớ để khai thác HAUI dựa cấu trúc thiết kế sử dụng trường bổ sung để trì thơng tin sử dụng q trình khai thác Nếu kích thước mảng m, tăng trưởng HAUP tạo tối đa 2m ứng viên để khai thác HAUI Hiệu thuật tốn HAUI giải thích theo cách Thuật tốn PAI sử dụng phương pháp khai thác lặp để khám phá HAUI thực quét sở liệu bổ sung để xác định HAUI thực tế từ tập ứng viên đầy triển vọng Cách tiếp cận hiệu so với thuật toán HAUP-grow HAUI-tree, nhanh Một quan sát khác khoảng cách thuật toán HAUI-Miner thiết kế PAI nhỏ ngưỡng tiện ích trung bình tối thiểu đặt thành giá trị lớn, với thuật toán so sánh khác Điều hợp lý ngưỡng tiện ích trung bình tối thiểu đặt cao hơn, tạo ứng viên việc khám phá HAUI thực tế từ nhóm nhỏ ứng viên dễ dàng 6.2 Phân tích nút xác định Trong phần này, số lượng nút tạo để khai tháccác HAUI thực tế sử dụng thuật toán so sánh Kết hiển thị Hình Có thể thấy hình 5, số lượng nút tạo thuật tốn HAUI-Miner đề xuất nhiều so với thuật toán HAUP-grow, PAI HAUI-Tree cho giá trị ngưỡng tiện ích trung bình tối thiểu khác tất liệu Điều thuật toán so sánh nhạy cảm với độ dài giao dịch Điều đặc biệt trường hợp thuật tốn tăng trưởng HAUP trường bổ sung gắn vào nút cấu trúc để giữ thơng tin sử dụng q trình khai thác Khi có nhiều thơng tin lưu trữ trường này, số lượng nút (ứng viên) tạo tăng theo cấp số nhân Khơng có kết cung cấp cho thuật toán tang trường HAUP Hình (a), (c), (d) (e) vượt giới hạn thời gian tối đa thiết lập Trong số liệu khác Hình (b) (e), thuật toán tăng trưởng HAUP tạo lượng lớn ứng viên để có HAUI Cả hai thuật toán PAI HAUI sử dụng chế chiếu để tạo liệu nhỏ cho q trình khai thác sau Do đó, số lượng mục coi ứng viên để khai thác HAUI so với sử dụng thuật tốn tang trưởng HAUP, Hình (b) - (e) Dựa phương pháp cắt giảm thiết kế, số lượng nút xác định giảm đáng kể, quan sát Hình 6.3 Sử dụng nhớ Việc sử dụng nhớ thuật toán so sánh thay đổi ngưỡng tiện ích trung bình tối thiểu, cho tất liệu Kết hiển thị Hình Có thể thấy thuật tốn HAUI-Miner đề xuất thực tốt mặt sử dụng nhớ Thuật tốn HAUI Miner đề xuất cần nhớ PAI Lý PAI sử dụng chế chiếu để tìm HAUI, thuật tốn HAUI-Miner thiết kế xây dựng danh sách AU để lưu trữ thơng tin cần thiết Cả hai thuật tốn HAUP-grow HAUI-tree cần nhiều nhớ để tạo cấu trúc chúng để giữ thông tin cần thiết để khám phá HAUI Nếu độ sâu xây dựng cao, lượng nhớ theo yêu cầu thuật toán tăng trưởng HAUP tăng lên nhiều trường gắn vào nút, quan sát Hình (b) (e) Do đó, kết luận HAUI-Miner có hiệu suất tốt việc sử dụng nhớ cần nhớ để khai thác HAUI thực tế tất liệu 6.4 Khả mở rộng Khả mở rộng thuật toán khai thác HAUI-Miner đề xuất so sánh với ba thuật toán khai thác HAUI đại tương tự loạt liệu tổng hợp T10I4N4KD│X│K, số lượng giao dịch thay đổi từ 100 nghìn đến 500 nghìn giao dịch với mức tăng 100 nghìn Ngưỡng tiện ích trung bình tối thiểu cố định mức 0,27% Kết hiển thị Hình Có thể quan sát Hình 7, tất thuật tốn so sánh có thời gian hoạt động dài cần nhiều nhớ để tìm HAUI kích thước tập liệu tăng Mặc dù thuật tốn HAUI làm giảm hiệu số lượng ứng viên khai thác HAUI cấu trúc nó, thơng tin lưu HAUI lớn việc sử dụng nhớ tăng đáng kể theo kích thước tập liệu Thuật tốn khai thác HAUI thiết kế sử dụng cấu trúc danh sách AU đề xuất để lưu trữ thông tin cần thiết để khám phá HAUI Phương pháp cắt giảm sử dụng thuật tốn HAUIMiner thiết kế có hiệu cắt giảm ứng viên không phù hợp, đảm bảo tính xác thuật tốn thiết kế Cũng thấy tất thuật toán so sánh HAUIMiner thiết kế có khả mở rộng tốt, ngoại trừ thuật toán HAUI tập liệu lớn Tuy nhiên, thuật toán đề xuất vượt trội thuật toán khác thời gian hoạt động, số lượng nút xác định, mức sử dụng nhớ khả mở rộng Do đó, hiệu lực hiệu thuật toán khai thác HAUI đề xuất hoàn toàn chấp nhận ứng dụng thực tế Kết luận nghiên cứu tương lai Khai thác vật phẩm tiện ích cao truyền thống (HUIM) xem xét số lượng mua lợi nhuận đơn vị mặt hàng để khám phá mặt hàng tiện ích cao (HUIs) Bởi tiện ích mục lớn thường lớn tiện ích mục nhỏ hơn, thuật toán HUIM truyền thống có xu hướng thiên tìm kiếm tập lớn Do đó, biện pháp tiện ích truyền thống thước đo công ứng dụng thực tế Để giải vấn đề này, vấn đề khai thác vật phẩm tiện ích trung bình cao (HAUIM) đề xuất HAUIM thu hút nhiều ý cung cấp biện pháp thú vị thay hiệu để đánh giá mẫu phát Trong viết này, cấu trúc danh sách tiện ích trung bình (AU) hiệu thiết kế để lưu trữ thông tin cần thiết để khám phá HAUI Thuật toán HAUI-Miner khám phá HAUI cách khám phá liệt kê tập hợp cách sử dụng tìm kiếm theo chiều sâu Phương pháp cắt giảm hiệu phát triển để sớm cắt giảm ứng viên không hiệu làm giảm khơng gian tìm kiếm Các thí nghiệm đáng kể thực liệu thực tế tổng hợp để đánh giá hiệu hiệu thuật toán thiết kế thời gian chạy, số lượng nút xác định, mức sử dụng nhớ khả mở rộng Hiệu suất so sánh với thuật toán HAUP-grow, PAI HAUI-Tree tiên tiến Trong viết này, thuật toán HAUI-Miner thiết kế để khám phá HAUI cách hiệu sở liệu tĩnh Tuy nhiên, tình thực tế, giao dịch cập nhật thường xuyên Các giao dịch thường xuyên thêm vào sở liệu gốc Do đó, tương lai, chúng tơi xem xét phát triển số thuật toán để khai thác HAUI sở liệu gia tăng luồng liệu Bên cạnh đó, với phát triển nhanh chóng cơng nghệ thơng tin, vấn đề quan trọng để khai thác HAUI liệu lớn Ghi nhận Nghiên cứu hỗ trợ phần Quỹ khoa học tự nhiên quốc gia Trung Quốc (NSFC) theo Trợ Cấp số 61503092

Ngày đăng: 24/05/2023, 08:58

Tài liệu cùng người dùng

Tài liệu liên quan