(6) 2017 multi resolution time series discord discovery(2)

13 3 0
(6) 2017 multi resolution time series discord discovery(2)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Discord Discovery là một cách tiếp cận gần đây để phát hiện sự bất thường trong chuỗi thời gian đã thu hút nhiều nghiên cứu vì phạm vi rộng. Để cung cấp một cách trình bày hữu ích cho việc phát hiện sự bất hòa, chúng tôi đề xuất các biện pháp khác biệt để đạt được kết quả hiệu quả cao và B. Bustos—Được hỗ trợ bởi Millennium Nucleus Center for Semantic Web Research được tính nếu chúng ta xem xét độ phân giải tối đa của chuỗi thời gian. TRONG H. Sanchez—Công việc được hỗ trợ bởi khoản trợ cấp nghiên cứu từ CONICYTChile. Khoa Khoa học Máy tính, Đại học Chile, Santiago, Chile sử dụng sơ đồ lập chỉ mục đa độ phân giải. Chúng tôi đánh giá phương pháp của chúng tôi biểu diễn tượng trưng dựa trên kỹ thuật SAX để tìm kiếm hiệu quả

Machine Translated by Google Khám phá bất hòa chuỗi thời gian đa độ phân giải Heider Sanchez Benjamin Bustos(B) Khoa Khoa học Máy tính, Đại học Chile, Santiago, Chile {hesanche,bebustos}@dcc.uchile.cl Trừu tượng Discord Discovery cách tiếp cận gần để phát bất thường chuỗi thời gian thu hút nhiều nghiên cứu phạm vi rộng nhiều ứng dụng giới thực hệ thống giám sát Tuy nhiên, việc tìm kiếm bất thường theo mức độ phân giải khác ý dịng nghiên cứu Trong báo này, giới thiệu biểu diễn đại diện đa độ phân giải dựa xu hướng cục giá trị trung bình chuỗi thời gian Chúng yêu cầu mức độ phân giải làm tham số, tự động tính xem xét độ phân giải tối đa chuỗi thời gian TRONG Để cung cấp cách trình bày hữu ích cho việc phát bất hịa, chúng tơi đề xuất biện pháp khác biệt để đạt kết hiệu cao biểu diễn tượng trưng dựa kỹ thuật SAX để tìm kiếm hiệu sử dụng sơ đồ lập mục đa độ phân giải Chúng đánh giá phương pháp đa dạng miền liệu đạt hiệu suất tốt so với với số kỹ thuật cổ điển tiếng Từ khóa: Chuỗi thời gian · Phát bất thường · Phát bất hòa · Lập mục Giới thiệu Trước tiến gần công nghệ phát trực tuyến, khả phát bất thường chuỗi thời gian trở thành nhiệm vụ quan trọng ứng dụng khác hệ thống giám sát, chẳng hạn như: phân tích giám sát video, nhiều cảm biến ô tô tai nạn máy bay, theo dõi vật thể phát bạo loạn, cảnh báo giao thơng đường, tín hiệu mic địa chấn, điện tâm đồ (ECG), v.v Để giải việc phát bất thường chuỗi thời gian, trước tiên cần xác định loại bất thường phù hợp với mục đích ứng dụng miền liệu Đây vấn đề phức tạp, bất thường liên kết với điểm ngoại lệ (bất thường, điểm thay đổi), chuỗi ngoại lệ (mẫu bất thường, tính mới) mối quan hệ bất thường biến Các giải pháp phổ biến để phát bất thường xây dựng máy học phương pháp [2] Thông thường, chúng kỹ thuật học có giám sát cần thời gian loạt mẫu hành vi “bình thường” làm mơ hình huấn luyện trường hợp khác, tập hợp mẫu bất thường bắt buộc Các cung cấp chuyên gia tên miền H Sanchez—Công việc hỗ trợ khoản trợ cấp nghiên cứu từ CONICYT-Chile B Bustos—Được hỗ trợ Millennium Nucleus Center for Semantic Web Research theo Cấp NC120004 c Springer International Publishing AG 2017 I Rojas et al (Biên tập): IWANN 2017, Phần II, LNCS 10306, trang 116–128, 2017 DOI: 10.1007/978-3-319-59147-6 11 Machine Translated by Google Chuỗi thời gian đa độ phân giải Discord Discovery 117 Tuy nhiên, nhiều bối cảnh thực tế, có kiến thức trước khó khăn nhiệm vụ Đây nơi Kỹ thuật học không giám sát sử dụng để cố gắng xác định mẫu quan trọng, điều chỉnh mơ hình tri thức trực tiếp từ luồng đầu vào Chúng tập trung nghiên cứu vào chuỗi ngoại lai, lấy làm sở cho Quy trình khám phá dây Dis Keogh et al đề xuất [6] Trước họ tiến hành công việc quan trọng để xác định chuỗi bất thường chuỗi thời gian dài thiết kế phương pháp dựa cửa sổ không giám sát Đặc điểm subsequences mức độ chồng chéo chúng; dãy liên tiếp nhiều tương tự Theo đó, có cần thiết cho cấu trúc tối ưu xem xét thuộc tính để tìm kiếm hiệu Hàng loạt cơng trình liên quan phát bất hòa đề xuất thập kỷ qua [1,7,8,12] Mục tiêu cơng việc liên quan hiệu phát hiện, lực lượng vũ phu thuật tốn có bậc hai tổng số dãy Tuy nhiên, khám phá bất hòa đa độ phân giải nhận ý lĩnh vực dòng nghiên cứu Trong báo này, giới thiệu (1) biểu diễn đa độ phân giải dựa xu hướng cục giá trị trung bình chuỗi thời gian Nó trở thành kỹ thuật khơng có tham số sử dụng mức độ phân giải tối đa xác định phần công việc Chúng đề xuất (2) biểu diễn tượng trưng bắt nguồn từ số biểu diễn cách áp dụng lượng tử hóa SAX [9] thành phần xu hướng giá trị Nó cung cấp cho hàm giới hạn thấp để lập mục chuỗi thời gian sưu tập Đóng góp (3) kỹ thuật phát bất hịa đa độ phân giải dựa biểu diễn chuỗi thời gian Hiệu lực hiệu phương pháp tiếp cận đánh giá thực nghiệm nhiều lĩnh vực liệu [5] Chúng chứng minh thực nghiệm phương pháp vượt trội phương pháp thông thường Bối cảnh công việc liên quan Chúng liên kết điểm bất thường chuỗi thời gian dạng chuỗi (mẫu bất thường) tạo thay đổi đáng kể chất hành vi liệu Các mẫu bất thường chuỗi bật xuất cách tùy tiện liên quan đến thay đổi lại chuỗi thời gian Điều trái ngược với kiểu mẫu thường xuyên xảy có liên quan đến chu kỳ tuần hoàn thay đổi chuỗi thời gian, nữa, chúng nằm quan sát bình thường chuỗi thời gian Keogh cộng [6] giới thiệu cách tiếp cận để tránh tạo định nghĩa khả thi cho “dãy bất thường nhất”, phương pháp không giám sát không yêu cầu liệu huấn luyện Định nghĩa (Không trùng khớp) Cho chuỗi thời gian P, chứa dãy Ci có độ dài w dãy phù hợp Cj có độ dài, ta nói Cj khơng tự so khớp với Ci |i j| ≥ w, p q chúng vị trí xuất phát tương ứng P Định nghĩa (Sự bất hòa chuỗi thời gian) Cho chuỗi thời gian P, dãy Cj có độ dài w gọi bất đối P Cj có khoảng cách lớn đến trận đấu không tự gần Machine Translated by Google 118 H Sanchez B Bustos Vấn đề giải tìm kiếm brute force sử dụng vịng lặp lồng Vịng lặp bên ngồi lấy dãy làm ứng cử viên vòng lặp bên sử dụng để tìm kiếm đối sánh khơng phải gần ứng cử viên Ứng cử viên có giá trị lớn bất hịa Độ phức tạp tính tốn O(N2), N số dãy Để cải thiện phức tạp này, Keogh et al [6] đề xuất thuật toán chung để phát hiệu Thuật toán yêu cầu hai phương pháp đoán tạo hai danh sách chuỗi xếp theo thứ tự; cho vòng ngồi cho vịng Heuristic Outer hữu ích để nhanh chóng tìm ứng viên tốt Heuristic Inner hữu ích để nhanh chóng tìm kết phù hợp gần Chúng khỏi vịng lặp bên khoảng cách nhỏ khoảng cách bất hòa tốt Hai phương pháp liên quan để khám phá bất hòa HOT SAX [7] HOT iSAX [1], dựa biểu diễn SAX [9] SAX chia chuỗi thời gian thành phân đoạn xây dựng chuỗi thời gian ký hiệu lượng tử hóa giá trị trung bình phân đoạn Cả hai kỹ thuật xây dựng cấu trúc hiệu để tìm bất hòa chuỗi thời gian cách sử dụng kinh nghiệm khám phá bất hòa Xấp xỉ giá trị xu hướng đa độ phân giải 3.1 Tại nên trình bày dựa xu hướng? Esmael et al tuyên bố “chỉ sử dụng giá trị gần khiến khả cao bỏ sót số mẫu quan trọng số liệu chuỗi thời gian SAX khơng ý đầy đủ đến hình dạng chuỗi thời gian tạo chuỗi tương tự cho chuỗi thời gian hoàn toàn khác nhau” [4] Theo cách này, số xấp xỉ phần dựa đặc điểm xu hướng giá trị đề xuất gần [3,4,11] Chúng tập trung vào kỹ thuật 1d-SAX Malinowski cộng đề xuất [11] Đây biểu diễn nhị phân nhỏ gọn để cải thiện hiệu suất truy xuất cách sử dụng lượng thông tin mà SAX Ở đây, SAX mở rộng cách thêm ký hiệu thể độ dốc đoạn Thuật toán sử dụng hồi quy tuyến tính để tính tốn độ dốc 1d-SAX hoạt động với bảng chữ có kích thước khác nhau: 1d-SAX(P, m, αv, αs) = {(ˆv1, sˆ1), ··· ,(ˆvi, sˆi), ··· ,(ˆvm, sˆm)}, ˆvi ký hiệu giá trị trung bình từ bảng chữ có kích thước αv ˆsi ký hiệu độ dốc từ bảng chữ có kích thước αs Chúng tơi so sánh hai phương pháp, SAX 1d-SAX, cách sử dụng phân cụm theo cấp bậc tổng hợp để nhóm năm chuỗi thời gian thành ba lớp khác (Hình 1) Chuỗi thời gian chia thành bốn phân đoạn SAX lấy giá trị trung bình 1d-SAX xem xét độ dốc có kết phù hợp chuỗi thời gian thuộc lớp Trong công việc này, mở rộng khả xu hướng địa phương đến cấp độ giải khác Trong tham số độ chi tiết (số lượng phân đoạn) phép tính gần phần SAX 1d-SAX tạo phân đoạn theo chiều ngang, đề xuất phân đoạn theo cấp bậc mức độ phân giải tạo Sự phân đoạn Machine Translated by Google 119 Khám phá bất hòa chuỗi thời gian đa độ phân giải KÈN 1d-SAX Hình So sánh khả hai biểu diễn chuỗi thời gian với cụm năm thành viên liệu CBF sử dụng khoảng cách Euclide cung cấp lợi lớn thiết kế tối ưu hóa thảo luận Của biểu diễn chuỗi thời gian gọi Xấp xỉ giá trị xu hướng đa độ phân giải (MTVA) Ý tưởng tạo cặp xu hướng-giá trị mức độ phân giải, sau tính tốn độ tương tự hai biểu diễn MTVA cách sử dụng thước đo khoảng cách Ngồi ra, chúng tơi thiết kế đại diện tượng trưng để xây dựng cấu trúc lập mục đa độ phân giải để phát bất hịa 3.2 Thuật tốn xây dựng từ lên Với chuỗi thời gian P = {p1, ··· , pn} L mức độ phân giải xác định người dùng, biểu diễn MTVA P xây dựng theo bước tiếp theo: Chúng bắt đầu mức độ phân giải cuối L chia chuỗi thời gian thành M = 2L đoạn có kích thước w = n/M Cho Y = {y1, ··· , yw}, đoạn P đoạn thời gian X = {x1, ··· , xw}, tính hồi quy tuyến tính đoạn hàm lr(x) = ax + b, đó: – = – b = Y¯ w tơi=1 (xj X¯) w i=1(xj a X¯ yj X¯)2 – X¯ Y¯ giá trị trung bình X Y – Cặp giá trị xu hướng (v, s) đoạn Y xác định bởi: x1+xw • v = a + b giá trị trung bình • s = arctan(a) độ dốc, Đối với mức độ phân giải M = 2{L 2,L 3,··· ,0}, tính giá trị xu hướng cặp (v,s) cho đoạn sau: vi+vi+1 – v = – s = arctan vi+1 vi xi+1 xi – vi xi giá trị trung bình thời gian trung bình liên quan đến đoạn cấp độ cao (xem Hình 2) Machine Translated by Google 120 H Sanchez B Bustos MTVA(P, 3) = {(v1, s1), , (v7, s7)} Hình Xây dựng xấp xỉ giá trị-xu hướng đa độ phân giải Kết mảng gồm tất cặp xu hướng-giá trị: MTVA(P, L) = {(v1, s1), ,(vm, sm)} Hình cho thấy biểu diễn MTVA chuỗi thời gian P lên thứ ba mức độ phân giải (L=3) Thơng số L tự động tính tốn để độ phức tạp không gian biểu diễn MTVA không vượt không gian chuỗi thời gian gốc, nghĩa điều chỉnh tổng số đoạn m ≤ n/2 Mặt khác, m xác định theo mức độ phân giải m = 2L Sau giải hai phương trình, ta thu mức tối đa độ phân giải cho P Lmax = log2(n/2) + 3.3 Khoảng cách MTVA Trước tiên cần hàm chi phí để đo khoảng cách cặp xu hướng-giá trị Với hai cặp số pi qj , ta định nghĩa hàm chi phí sau: chi phí(pi, qj ) = |vp Tơi vq | + |s j P Tôi s q j | 2, miền giá trị miền dốc phải có phạm vi tương tự để tránh khoảng cách điều chỉnh số chúng Phạm vi độ dốc nằm khoảng π +π , chúng tơi chuẩn hóa chuỗi thời gian quy trình chuẩn hóa tiêu chuẩn (ví dụ: phân phối Z) Sau đề xuất khoảng cách đa độ phân giải MDist để đo lường khác biệt hai biểu diễn MTVA thực hàm chi phí tất mức độ phân giải: l MDist(P, Q) = chi phí (pi, qi) l=1 i=2(l 1) Machine Translated by Google 121 Khám phá bất hòa chuỗi thời gian đa độ phân giải Thời gian tính tốn việc thực MDist tổng thời gian mức độ phân giải: l l 2l Ml = T(L) = l=1 = 2L l=1 Nếu tính toán khoảng cách trường hợp xấu L xác log2(n/2) + 1, thời gian tính tốn theo thứ tự O(n), n độ dài gốc chuỗi thời gian Do đó, MDist trường hợp xấu mặt lý thuyết nhanh khoảng cách cổ điển hoạt động biểu diễn thô 3.4 Biểu diễn tượng trưng Các kỹ thuật rời rạc hóa sử dụng để chuyển đổi biểu diễn số thành chuỗi ký hiệu Đại diện mang tính biểu tượng cung cấp cho dễ dàng giải thích đơn giản để quản lý sưu tập chuỗi thời gian Định nghĩa “Điểm ngắt danh sách xếp gồm số β = {β1, ,βα 1}, cho diện tích đường cong Gaussian N(0, 1) từ βi đến βi+1 = 1/α (β0 diện tích βα xác định điểm dừng {β1 = ∞ +∞)” [9] Ví dụ: α = 0,67, β2 = 0, β3 = +0,67} Giả định Gaussian Để chuyển đổi cặp số pi = (vi, si) thành cặp ký hiệu ˆpi = (ˆvi, sˆi), lượng tử hóa riêng biệt hai giá trị cách sử dụng điểm dừng mà tạo khu vực có kích thước đường cong Gaussian N(μ, σ2) (tương tự 1d-SAX) Sự rời rạc hóa Gaussian khả thi chuỗi thời gian chuẩn hóa, theo thống kê giá trị trung bình độ dốc có phân bố Gaussian [10,11] Như 1d SAX, điểm dừng xác định đường cong N(0, 1) cho giá trị trung bình N(0, σ2 L) cho độ dốc Trong trường hợp cuối này, sử dụng phương sai σ2 l mức độ phân giải L mức độ phân giải tạo khác phân phối độ dốc (Hình 3), khơng giống 1d-SAX sử dụng phương sai độ dốc xét kích thước phân khúc Ngồi ra, để áp dụng hồi quy tuyến tính X Y, , khuyến nghị hai biến có phạm vi tương tự Nếu chuỗi thời gian chuẩn hóa N(0, 1), thành phần thời gian X phải phù hợp với kích thước khoảng Trong cơng việc này, chúng tơi bình thường hóa độ dài đoạn X = [1, w] X = [ 1, 1] Theo cách này, phương sai σ2 l định nghĩa theo thuật ngữ mức độ phân giải độc lập với kích thước phân khúc L = 1,5 0,5 0,5 1,5 L = 1,5 0,5 0,5 L = 1,5 1,5 0,5 0,5 1,5 Hình Mật độ độ dốc thay đổi mức độ phân giải chuỗi thời gian ECG Machine Translated by Google 122 H Sanchez B Bustos Kích thước bảng chữ Kích thước bảng chữ phân định số lượng điểm dừng (Định nghĩa 3) ảnh hưởng mạnh mẽ đến tỷ lệ nén lỗi tái tạo Để lượng tử hóa cặp xu hướng-giá trị, cần hai bảng chữ có kích thước αv αs tương ứng với giá trị trung bình hệ số góc Để phù hợp, chúng tơi sử dụng ký hiệu nhị phân α lũy thừa hai [13] Vì vậy, ví dụ, để nén số MTVA lên cấp sử dụng αv = αs = 4, ta cần (2+ 2) (23 1) bit, nhỏ byte theo chuỗi thời gian Đại diện mang tính biểu tượng phục vụ với ứng dụng khác lập mục phát bất thường 3.5 Lập mục Để quản lý hiệu tập liệu chuỗi thời gian MTVA, sử dụng biểu diễn ký hiệu để xây dựng mục dựa hàm băm, nhóm Pˆ bao bọc tập hợp phần tử tương tự Chuỗi thời gian MTVA Để lọc khoảng cách tìm kiếm tương tự, thiết kế chức giới hạn gọi MINDIST để đo khoảng cách đối tượng truy vấn Q thùng Pˆ, cho nhỏ khoảng cách Q vật P Pˆ Trước định nghĩa MINDIST, trước tiên cần xác định hàm giới hạn chi phí giá trị xu hướng, biểu thị sau: Chi phí LB(ˆpi, qi)=(Δv) 2 + (Δs) ≤ cost(pi, qi), Δv = |vq |βLi Δs = βU i| vq > βU Tôi Tôi vq Tôi | vq < βLi Tôi |s q βU i| S Tôi q > βU Tôi q q Tôi Tôi s | S < βLi |βLi khác, khác, ——— ——— : βLi ≤ vp < βU i, Tôi : βLi ≤ s Tôi < βU i Dốc Giá trị Chi phí LB (ˆpi, qi)=(βLi P vq ) + (βLi Tơi sq ) Tơi Hình Chi phí giá trị xu hướng giới hạn thấp Đường màu xanh đại diện cho cặp xu hướng-giá trị lưu trữ sở liệu chúng tơi dịng màu xanh truy vấn (Hình màu trực tuyến) Machine Translated by Google Chuỗi thời gian đa độ phân giải Discord Discovery 123 Ký hiệu ˆpi bắt nguồn từ cặp giá trị xu hướng pi nằm hai điểm ngắt βU i < pi ≤ βLi, độc lập với giá trị cặp (Hình 4) MINDIST sau tính theo phương trình sau: ˆ l TÂM TRÍ(P , Q, l, α ) = α + Chi phí LB(ˆpi, qi), i=2(l 1) l mức độ phân giải α khoảng cách tích lũy mức trước Khám phá Discord đa độ phân giải Thách thức phương pháp khám phá bất hòa phải đối mặt với độ phức tạp bậc hai Theo nghĩa này, biểu diễn MTVA chúng tơi với phương pháp đốn phát mối bất hịa sử dụng để giải việc phát bất thường theo chuỗi thời gian Chúng đề xuất phương pháp đa độ phân giải gọi HOT MTVA, giúp tăng độ phân giải mức mục nhóm băm bị tràn (Hình 5) Cấu trúc mục cho phép phù hợp hoàn hảo với đại diện MTVA chúng tơi Hơn nữa, linh hoạt để kiểm soát mức độ giải điểm bất thường phát Hình Mơ hình số đa độ phân giải cho biểu diễn MTVA 4.1 Thuật toán xây dựng Với chuỗi thời gian P có độ dài n, sử dụng cửa sổ trượt chồng lên có kích thước wn để trích xuất tất chuỗi có Ci, i {1, ,(n w + 1)} từ P Quy trình chèn dãy MTVA Ci cấu trúc mục R mô tả sau Không giống HOT iSAX, chúng tơi áp dụng lượng tử hóa phân cấp để truy cập vào bảng băm (trong vị trí nút) từ độ phân giải thấp đến độ phân giải tối đa Nếu nút đầu cuối đầy, chèn lại tất đối tượng liên kết vào bảng băm cấp độ cao để cung cấp thêm khác biệt, đó, chúng tơi tạo nút với mức độ phân giải nút Chúng tơi sử dụng ngưỡng kích thước thmax để kiểm soát số lượng đối tượng tối đa nút đầu cuối (cái gọi nhóm) Như thấy, cấp độ lập mục có hành vi động, giá trị gia tăng phụ thuộc vào kích thước tập liệu mức độ phân giải tối đa (Lmax) Machine Translated by Google 124 H Sanchez B Bustos 4.2 Chẩn đoán khám phá bất hịa Dãy bất hịa tìm thấy cách áp dụng khám phá bất hòa tối ưu thủ tục [7] sử dụng phương pháp đoán sau: Heuristic vịng ngồi: Đầu tiên truy cập tất chuỗi thuộc nhóm chứa số lượng dãy tối thiểu mức thấp mức độ phân giải Sau đó, thăm nhóm cịn lại theo thứ tự ngẫu nhiên Cái heuristic đảm bảo chuỗi bị cô lập nhất, độ phân giải cấp độ, truy cập bắt đầu tìm kiếm với tư cách ứng viên tiềm Heuristic vòng bên trong: Sau đó, chúng tơi sử dụng vịng lặp bên để tìm kiếm ngã tốt trận đấu ứng cử viên chọn Cj Đầu tiên truy cập tất chuỗi chứa Thuật tốn NNM-Tìm kiếm số MTVA đa độ phân giải Yêu cầu: (Chỉ mục R, Truy vấn Cj , Kích thước cửa sổ w, Khoảng cách ngưỡng thứ) 1: stack.push([R.getNodeRoot(), 0]) 2: khoảng cách tốt = ∞ 3: viết hay = 4: ngăn xếp = làm vòng 5: [nút, phút d] = stack.pop() 6: d > best dist Phá vỡ 7: số 8: khỏi vịng lặp bên nút nội 9: danh sách = 10: nút node.children làm nút khơng truy cập 11: 12: d = MINDIST(con node.str, Cj , node.level, d) list.add([nút con, d]) 13:14: kết thúc 15: kết thúc cho 16: danh sách xếp = argsort(list) 17: 18: stack.push(danh sách xếp) khác nút thiết bị đầu cuối 19: đối tượng = readBucket(node.str) 20: đối tượng Ci 21: |i làm j| ≥ w d = 22: MDist(Ci, Cj ) d < 23: khoảng cách tốt 24: quận tốt = d 25: viết hay = j 26: kết thúc 27: d < thdist Kết thúc 28: 29: 30: kết thúc 31: kết thúc cho kết thúc 32:33: kết thúc 34: Trả lại (quận tốt nhất, vị trí tốt nhất) khơng tự phù hợp? Khoảng cách đa độ phân giải thoát khỏi vòng lặp bên Machine Translated by Google Chuỗi thời gian đa độ phân giải Discord Discovery 125 thùng mà từ Cj lấy Sau đó, chúng tơi áp dụng thuật tốn tìm kiếm khơng khớp gần (NNM-Search, Thuật toán 1) để truy cập nhóm cịn lại Heuristic cho phép lần truy cập tất chuỗi giống với Cj , làm tăng khả kết thúc sớm vịng lặp Thuật tốn NNM-Search thực tìm kiếm theo thứ bậc nút bên cách sử dụng ngăn xếp để trì nút xếp theo MINDIST (dòng 10 – 17) MINDIST đo khoảng cách tối thiểu truy vấn nút Thuật toán áp dụng hai câu lệnh ngắt để ngắt vòng lặp bên sớm tốt: câu liên kết với MINDIST (dòng 6) câu lại liên kết với khoảng cách bất hòa tốt (dòng 27) kết thí nghiệm Trong phần này, chúng tơi đánh giá hiệu phương pháp tiếp cận nhằm giải vấn đề phát bất thường Hiệu đánh giá qua tập hợp gồm 20 trường hợp thực tế chuỗi thời gian dị thường (với cửa sổ trượt khác nhau) Keogh et al thu thập [5,6] Hiệu đánh giá cách sử dụng chuỗi thời gian dài mô tả Sanchez cộng [12] 5.1 Hiệu Đại diện MTVA Chúng Trước tiên, chúng tơi đánh giá tính xác biểu diễn số có giá trị xu hướng tất trường hợp bất thường Các kỹ thuật cổ điển sử dụng Khoảng cách Euclide làm khoảng cách đo chắn biểu diễn thô dãy chuẩn hóa Q trình chuẩn hóa sử dụng để đồng hóa tất chuỗi áp dụng hai phép biến đổi: dịch thuật chia tỷ lệ Tuy nhiên, điều có vấn đề: diện nhiễu cục khuếch đại phép biến đổi tỷ lệ Vấn đề giải cách sử dụng tham số phụ thuộc ngữ cảnh ε > để làm mịn chuỗi nhiễu [9,12] Một tính quan trọng biểu diễn MTVA độ dốc phân đoạn ồn có xu hướng đó, tính bất thường chuỗi ồn bị giảm Bảng cho thấy kết thu hai kỹ thuật sáu giá trị ε Chúng đánh giá MTVA ba mức độ phân giải khác Chúng lưu ý biểu diễn MTVA đạt tỷ lệ phát thực cao tăng mức độ phân giải lên L = 4, mức tối đa chung cho tất cửa sổ trượt Bằng cách này, khẳng định phương pháp chúng tơi có khả chống nhiễu cục tốt so với ED cổ điển Hơn nữa, chúng tơi cải thiện tỷ lệ phần trăm lên tới 100% lần phát thực để tìm giá trị tốt cho ε chuỗi thời gian Ngồi ra, chúng tơi nêu bật tính linh hoạt MTVA để hoạt động linh hoạt mức độ phân giải khác thời gian chạy 5.2 Hiệu Chỉ số Đa độ phân giải Chúng Chúng đẩy nhanh trình tìm kiếm phương pháp đa độ phân giải HOT MTVA so sánh với hai kỹ thuật đại nhất: HOT SAX HOT iSAX (Phần 2) Chúng đặt thông tin định lượng giống cho kỹ thuật: αv = Machine Translated by Google 126 H Sanchez B Bustos Bảng Tỷ lệ phát thực sử dụng biểu diễn MTVA ε ED MTVA Khoảng cách L = L = L = 0,025 60% 60% 67% 70% 0,050 77% 70% 83% 87% 0,075 73% 70% 80% 83% 0,100 80% 73% 83% 87% 0,125 83% 77% 83% 87% 0,150 77% 73% 77% 80% tốt 100% – 100% 100% αs = số MTVA αv = số dựa SAX Theo kinh nghiệm, đặt số phần tử tối đa nhóm thmax = 50 mức độ phân giải tối đa giới hạn L = Ngoài ra, chúng tơi thêm chiến lược tối ưu hóa tìm kiếm vào thuật tốn HOT SAX gọi HOT SAX*, thuật toán bao gồm áp dụng hàm MINDIST nhóm trước truy cập chuỗi liên quan chúng [9] Hình cho thấy hiệu thuật toán số lượng khoảng cách tính tốn Chúng tơi quan sát thấy MTVA HOT hiệu nhiều so với kỹ thuật khác khoảng cách tính tốn Lợi hiệu thuộc tính đa độ phân giải phương pháp chúng tơi, cho phép heuristic vịng ngồi tìm thấy nhanh chóng ứng cử viên tiềm thông qua mức độ phân giải 1.E+07 1.E+06 gp n) ăô ậ y đm h u ( n q HOT_SAX gncn ảợá h oư c n ốt h í o S k c đ 1.E+05 HOT_iSAX HOT_MTVA 1.E+04 1.E+03 Độ dài chuỗi thời gian 1K 2K 4K 8K 16K 32K Hình Hiệu phương pháp đa độ phân giải việc phát bất thường * Machine Translated by Google Khám phá bất hòa chuỗi thời gian đa độ phân giải 127 Kết luận công việc tương lai Chúng đề xuất biểu diễn chuỗi thời gian đa độ phân giải (MTVA) bao gồm cặp xu hướng-giá trị thu cách áp dụng hồi quy tuyến tính tuyến tính phân đoạn độ phân giải Chúng cung cấp thước đo khoảng cách chức giới hạn để thực tìm kiếm hiệu Chúng tơi chứng minh tiện ích biểu diễn MTVA Phát bất thường, chúng tơi làm bật tính độ dốc để giảm thiểu tính bất thường sai chuỗi ồn Hơn nữa, hiệu thuật tốn khám phá bất hịa đa độ phân giải vượt trội so với phương pháp tốt có khoảng cách tính tốn Một ưu điểm bổ sung biểu diễn MTVA mức độ phân giải trực quan dễ tinh chỉnh so với số lượng phân đoạn xấp xỉ phần Tuy nhiên, nhược điểm phép tính gần giá trị xu hướng u cầu gấp đơi khơng gian cho phân đoạn Việc thêm tham số để biểu thị xu hướng chuỗi thời gian có nguy làm giảm tính đơn giản mơ hình liệu ngắn gọn so sánh với kỹ thuật SAX Cách tiếp cận sử dụng làm sở để tìm bất thường mức độ chi tiết khác Chúng dự định tập trung phương pháp vào việc phát bất thường trực tuyến liệu phát trực tuyến lớn Người giới thiệu Bửu, HTQ, Anh, DT: Khám phá bất hòa chuỗi thời gian dựa biểu diễn ký hiệu iSAX Trong: Kỷ yếu Hội nghị Quốc tế lần thứ ba Tri thức Kỹ thuật Hệ thống (KSE), trang 11–18 (2011) Chandola, V., Banerjee, A., Kumar, V.: Phát bất thường: khảo sát ACM Com đặt sống sót 41, 1–58 (2009) Dan, J., Shi, W., Dong, F., Hirota, K.: Xấp xỉ xu hướng phần: biểu diễn chuỗi thời gian dựa tỷ lệ trừu tượng ứng dụng hậu môn 2013(4) (2013) Esmael, B., Arnaout, A., Fruhwirth, RK, Thonhauser, G.: Phân loại chuỗi thời gian đa biến cách kết hợp phép tính gần dựa xu hướng giá trị Trong: Murgante, B., Gervasi, O., Misra, S., Nedjah, N., Rocha, AMAC, Taniar, D., Apduhan, BO (eds.) ICCSA 2012 LNCS, tập 7336, trang 392–403 Springer, Heidelberg (2012) doi:10.1007/978-3-642-31128-4 29 Keogh, E., Lin, J., Fu, A.: Bộ liệu bất hòa chuỗi thời gian đơn biến (2005) http:// www.cs.ucr.edu/ eamonn/discords/ Keogh, EJ, Lin, J., Fu, AW: HOT SAX: tìm kiếm chuỗi thời gian bất thường cách hiệu Trong: Hội nghị quốc tế khai thác liệu lần thứ năm IEEE, trang 226–233, tháng 11 năm 2005 Keogh, EJ, Lin, J., Lee, SH, Herle, HV: Tìm dãy bất thường chuỗi thời gian: thuật tốn ứng dụng hiểu biết thơng tin liên lạc hệ thống 11, 1–27 (2007) Kha, NH, Anh, DT: Từ phát ngoại lệ dựa cụm đến phát bất hòa chuỗi thời gian Trong: Li, X.-L., Cao, T., Lim, E.-P., Chu, Z.-H., Ho, T.-B., Cheung, D., Motoda, H (eds ) PAKDD 2015 LNCS, tập 9441, trang 16–28 Springer, Chăm (2015) doi:10.1007/978-3-319-25660-3 Lin, J., Keogh, E., Lonardi, S., Chiu, B.: Một biểu tượng mang tính biểu tượng chuỗi thời gian, có ý nghĩa thuật toán truyền phát Trong: Kỷ yếu Hội thảo ACM SIGMOD lần thứ vấn đề nghiên cứu khai thác liệu khám phá tri thức, trang 2–11 (2003) Machine Translated by Google 128 H Sanchez B Bustos 10 Lin, J., Keogh, EJ, Wei, L., Lonardi, S.: Trải nghiệm SAX: cách biểu diễn mang tính biểu tượng lạ chuỗi thời gian Dữ liệu tối thiểu hiểu biết khám phá 15, 107–144 (2007) 11 Malinowski, S., Guyet, T., Quiniou, R., Tavenard, R.: 1d-SAX: cách biểu diễn mang tính biểu tượng mi cho chui thi gian Trong: Tucker, A., Hăoppner, F., Siebes, A., Swift, S (eds.) IDA 2013 LNCS, tập 8207, trang 273–284 Springer, Heidelberg (2013) doi:10 1007/978-3-642-41398-8 24 12 Sanchez, H., Bustos, B.: Phát bất thường chuỗi thời gian phát trực tuyến dựa hộp giới hạn Trong: Traina, AJM, Traina, C., Cordeiro, RLF (eds.) SISAP 2014 LNCS, tập 8821, trang 201–213 Springer, Chăm (2014) doi:10.1007/ 978-3-319-11988-5 19 13 Shieh, J., Keogh, E.: iSAX: lập mục khai thác chuỗi thời gian có kích thước terabyte Trong: Kỷ yếu Hội nghị quốc tế ACM SIGKDD lần thứ 14 Khám phá tri thức khai thác liệu, trang 623–631 ACM (2008)

Ngày đăng: 25/10/2023, 04:17

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan