tóm tắt luận án nghiên cứu xây dựng một số giải pháp đảm bảo an toàn thông tin trong quá trình khai phá dữ liệu

B GIÁO DC VÀ ÀO TO B QUC PHÒNG VIN KHOA HC VÀ CÔNG NGH QUÂN S e ̌f LNG TH DNG NGHIÊN CU XÂY DNG MT S GII PHÁP M BO AN TOÀN THÔNG TIN TRONG QUÁ TRÌNH KHAI PHÁ D LIU (Distributed solutions in privacy preserving data mining) Chuyên ngành: Bo đm toán hc cho máy tính và h thng tính toán. Mã s : 62 46 35 01 TÓM TT LUN ÁN TIN S TOÁN HC Hà Ni - 2011 Chương 1 GIỚI THIỆU 1.1. Tổng quan về khai phá dữ liệu có đảm bảo tính riêng tư Hiện nay, khai phá dữ liệu (KPDL) đóng vai trò quan trọng trong nhiều lĩnh vực, nó cung cấp cho chúng ta các công cụ hiệu quả để khai phá ra các tri thức hữu dụng từ các cơ sở dữ liệu. Tuy nhiên, tiến trình khai phá dữ liệu có thể dẫn đến việc vi phạm các thông tin riêng tư và lĩnh vực khai phá dữ liệu có đảm bảo tính riêmg tư (PPDM) đã ra đời [Verykios et al., 2004]. Các nghiên cứu trong lĩnh vực này cho phép khai phá dữ liệu trong khi bảo vệ các thông tin riêng tư ở cấp độ cá nhân hoặc cấp độ tổ chức. Về cơ bản, có ba hướng chính trong lĩnh vực PPDM [Charu and Yu, 2008]. Hướng thứ nhất là công bố dữ liệu có đảm bảo tính riêng tư, các nghiên cứu trong hướng này cho phép một tổ chức (thành viên-party) công bố tập dữ liệu cho các nhà nghiên cứu khai thác, trong khi đảm bảo tính riêng tư cho dữ liệu được công bố. Hướng thứ hai là khai phá dữ liệu phân tán có đảm bảo tính riêng tư, c ác nghiên cứu theo hướng này cho phép một nhóm các thành viên, mỗi thành viên có một tập dữ liệu riêng, có thể hợp tác khai phá trên tập dữ liệu liên kết của các thành viên, trong khi đảm bảo tính riêng tư cho dữ liệu của mỗi thành viên. Có hai tình huống dữ liêu phân tán cơ bản là phân tán ngang và phân tán dọc. Hướng thứ ba là khai phá dữ liệu của người dùng có đảm bảo tính riêng tư, hướng này nghiên cứu tình huống bao gồm một người KPDL (Miner) và một số luợng lớn người dùng (user), các người dùng không truyền thông với nhau mà chỉ truyền thông với người KPDL và mỗi người dùng sở hữu một bản ghi dữ liệu. Các nghiên cứu này cho chép người KPDL học các mô hình từ dữ liệu của các người dùng trong khi bảo vệ các thuộc tính nhạy cảm của mỗi người dùng. Cho đến thời điểm này, đã có nhiều giải pháp được đề xuất để giải quyết các vấn đề trong PPDM [Kargupta et al., 2003], [Dowd et al., 2005], [Vaidya et al., 2008] v.v., chất lượng của mỗi giải pháp được đánh giá dựa trên ba thuộc tính căn bản: mức độ duy trì tính riêng tư, tính chính xác so với thuật toán gốc và tính hiệu quả. Tuy nhiên, vấn đề ở đây là mỗi giải pháp thường chỉ áp dụng được cho một tình huống dữ liệu phân tán cụ thể hoặc cho một thuật toán khai phá dữ liệu cụ thể. Mặc dù một số có thể áp dụng cho nhiều hơ n một thuật toán nhưng độ chính xác lại thấp so với yêu cầu. Một số giải pháp đạt được độ chính xác cao, nhưng lại giảm tính riêng tư. Hơn thế nữa, vẫn thiếu giải pháp cho nhiều tính huống thực tế hoặc các thuật toán khai phá dữ liệu cụ thể. 1 1.2. Các đóng góp chính của luận án Đóng góp chính của luận án là bốn giải pháp cho bốn vấn đề trong PPDM: 1. Xác định một tình huống mới, gọi là 2PFD (2-part fully distributed setting) và đề xuất các giao thức cho họ các thuật toán học dựa trên tính toán tần suất có đảm bảo tính riêng tư trong tình huống này. 2. Phát triển các giao thức mới để nâng cao tính riêng tư cho việc khai phá tập phổ biến trong dữ liệu phân tán dọc. Một thuộc tính quan trọng của các giao thức này tốt hơn các giao thức trước đây là chúng có thể đảm bảo sự riêng tư đầy đủ cho các thành viên tham gia. Thuộc tính này cho phép các giao thức không cần bất kỳ thành viên tin cậy nào, cũng như không có sự thông đồng của bất kỳ nhóm thành viên nào có thể làm lộ thông tin riêng tư của mỗi thành viên. 3. Phát triển hai giao thức mới cho thuật toán phân cụm EM có đảm bảo tính riêng tư trong dữ liệu phân tán ngang. Khác với giao thức trước đây yêu cầu ít nhất ba thành viên tham gia và không chống được sự thông đồng. Các giao thức đã đề xuất cho phép số thành viên tham gia có thể là hai hoặc nhiều hơn, hơn thế nữa nó chống lại được sự thông đồng lên đến n-2 thành viên. 4. Đề xuất một kỹ thuật biến đổi tuyến tính để thiết kế các giao thức đảm bảo tính riêng tư cho việc phát hiện các phần tử ngoại lai dựa trên thống kê cho cả hai tình huống dữ liệu phân tán ngang và phân tán dọc. Các giao thức được đánh giá dựa trên các tiêu chuẩn phổ biến như: tính riêng tư, tính đúng đắn, tính hiệu quả và khả năng mở rộng. Mặc dù mỗi vấn đề trong luận án này được phát biểu một cách độc lập, nhưng chúng cũng có thể được phát biểu trong một khuôn khổ chung khi tập dữ liệu được phân mảnh theo một cách nào đó trên một số thành viên hoặc một số lớn người dùng, vấn đề là tìm ra các giải pháp để đạt được tri thức trên tập dữ liệu liên kết từ các nguồn phân tán này trong khi đảm bảo tính riêng tư cho mỗi thành viên hoặc người dùn g. 1.3. Tổ chức luận án Luận án bao gồm sáu chương, 109 trang A4. Chương 1 giới thiệu tổng quan về PPDM và các vấn đề liên quan. Chương 2 trình bày các khái niệm và công cụ cơ bản về tính toán bảo mật nhiều thành viên. Chương 3 đề xuất các giao thức cho việc KPDL dựa trên tần suất có đảm bảo tính riêng tư trong 2PFD. Chương 4 đề xuất các giao thức để nâng cao tính riêng tư trong việc phát hiện tập phổ biến. Chương 5 phát triển các giao thức phân cụm dữ liệu có đảm bảo tính riêng tư. Chương 6 đề xuất các giao thức phát hiện các phần tử ngoại lai có đảm bảo tính riêng tư. Cuối cùng là phần kết luận của luận án. 2 Chương 2 CÁC CÔNG CỤ TÍNH TOÁN BẢO MẬT NHIỀU THÀNH VIÊN Chương này sẽ nhắc lại một số khái niệm cơ bản của tính toán bảo mật nhiều thành viên (SMC) và giới thiệu các công cụ tính toán bảo mật mà sẽ sử dụng để thiết kế các giao thức PPDM trong các chương sau. 2.1. Một số khái niệm cơ bản Định nghĩa 2.1. (Hàm nhỏ) Gọi N là một tập các số tự nhiên. Chúng ta nói rằng ǫ(·) : N → (0, 1] là một hàm nhỏ theo n, nếu mọi đa thức nguyên dương poly(·) tồn tại một số nguyên n 0 > 0 sao cho, với √ n > n 0 ǫ(n) < 1 poly(n) Định nghĩa 2.2. (Không thể phân biệt tính toán): {X n } and {Y n } là hai họ phân bố xác suất được đánh chỉ số bằng tham số n (thường được đề cập như là kích thước các biến ngẫu nhiên tương ứng với các phân bố đó), ta nói rằng chúng không thể phân biệt, nếu mọi thuật toán thời gian đa thức xác suất A, ta có: |P r(A(x)) x←X n −P r(A(x)) x←Y n | < ǫ(n) Trong trường hợp như vậy ta viết X c ≡ Y , ở đây c ≡ là ký hiệu không thể phân biệt. Hàm tính toán bảo mật nhiều thành viên: Trong hệ thống phân tán có n thành viên (party). Một vấn đề tính toán nhiều thành viên (n-party) bảo mật có thể phát biểu như là việc tính hàm sau: f(x 1 , x 2 , , x n ) → (f 1 (x 1 , x 2 , , x n ), , f n (x 1 , x 2 , , x n )) Ở đây, mỗi thành viên i chỉ biết giá trị input x i của nó. Việc tính toán này yêu cầu rằng thông tin riêng tư về mỗi giá trị đầu vào (input ) là được bảo vệ, và bởi vậy mỗi thành viên tham gia không thể học được bất kỳ thông tin gì khác ngoài giá trị đầu ra (output): y i = f i (x 1 , x 2 , , x n ) Bảo mật trong mô hình Semi-honest: Trong một hệ thống phân tán, gọi π là một giao thức n-party cho việc tính toán hàm f. Ký hiệu x= (x 1 , , x n ). Sự quan sát (View) của thành viên thứ i trong quá trình tính toán của π với đầu vào x (ký hiệu là view π ( x)) bao gồm x i , các thông điệp mà nó nhận được và các giá trị ngẫu 3 nhiên được tạo ra trong khi tính toán. Với mỗi I ⊂ [1, n], ký hiệu I = {i 1 , , i t }, f I ( x)=(y i 1 , , y i t ) và view π I (x) = (I, view π i 1 (x), , view π i t (x)). Gọi OUT PUT (x) là tập tất cả các output của π. Trong mô hình Semi-honest chúng ta giả thiết rằng tất cả các thành viên đều tuân thủ các bước tính toán của giao thức. Tuy nhiên, một số thành viên tham gia trong giao thức có thể thông đồng với nhau, nhằm chia sẻ thông tin nhận được trong quá trình thực thi giao thức để làm bộc lộ ra các thông tin riêng tư của thành viên khác. Định nghĩa 2.3. Một giao thức tính toán n-party cho việc tính hàm f( ) là bảo mật trong mô hình semi-honest, nếu tồn taị một thuật toán thời gian đa thức xác suất được ký hiệu là S, sao cho với mỗi I ⊂ [1, n], chúng ta có {S(x i 1 , , x i t , f I ( x)), f(x))} c ≡ {view π I (x), OUT PUT (x)} Về cơ bản, định nghĩa này phát biểu rằng sự quan sát của các thành viên trong I có thể được mô phỏng hiệu quả chỉ dựa trên các input và output của các thành viên. Luận án này thiết kế các giao thức PPDM dựa trên mô hình Semi-honest, trong luận án cũng sử dụng định lý tổng hợp (Composition Theorem) đã được chứng minh trong [Goldreich, 2004]. 2.2. Tính toán bảo mật Chia sẻ bảo mật: Chia sẻ bảo mật là các phương pháp cho phép chia một giá trị mật cho nhiều thành viên bằng một cách nào đó mà không có thành viên nào biết giá trị mật đó, nhưng nó dễ dàng tính được giá trị mật đó bằng việc kết hợp các giá trị chia sẻ cho các thành viên. Ví dụ, sơ đồ chia sẻ mật của Shamir [Shamir, 1979] hoặc giao thức chia sẻ giá trị trung bình được trình bày trong chương 5. Tính tổng bảo mật (SSC - Secure sum computation): Vấn đề SSC bao gồm n thành viên tham gia giao thức P 1 , , P n , mỗi thành viên thành viên P i có input x i . Mục đích của giao thức SSC là để mỗi thành viên đạt được  x i với không bộc lộ thông tin về mỗi x i . Nói cách khác một giao thức SSC là để tính hàm sau: (x 1 , , x n ) → x 1 + + x n Sơ đồ mã hóa ElGamal cải biên [Hirt and Sako, 2000]: Giả sử p và q là hai số nguyên tố lớn mà q|(p − 1). Các tính toán được thực hiện trong trường Z p và miền giá trị của các thông báo là Z q . Giả sử G là một nhóm con của Z ∗ p và có bậc q. Gọi g là một bộ sinh của G, f = g và x được chọn ngẫu nhiên trong [1, q − 1]. Trong sơ đồ mã hòa này thì x là khóa mật mà tương ứng với khóa công khai h = g x . Để mã hóa thông báo m sử dụng khóa công khai h, ta chọn ngẫu 4 nhiên k ∈ [1, , q −1] và tính toán C = (C 1 = f m h k , C 2 = g k ). Việc giải mã C cần sử dụng khóa mật x và tính f m = C 1 (C x 2 ) −1 , sau đó tính f từ f m . Chú ý rằng, khi m lớ n việc giải mã sẽ không hiệu quả. Tuy nhiên, trong các giao thức của luận án này, chúng ta chỉ cần kiểm tra có hay không m có nhận một giá trị cho trước không, ví dụ m = 0 hoặc m = c, ở đây c là hằng số nhỏ. Bởi vậy, nó sẽ tương đương với việc kiểm tra có hay không: C 1 C −k s 2 ≡ 1 mod p hoặc C 1 C −k s 2 ≡ f c mod p Sơ đồ mã hóa ElGamal cải biên có thuộc tính không thể phân biệt dưới giả thiết quyết định của Diffie-Hellman (DDH) [Boneh, 1998]. Sơ đồ này cũng có hai thuộc tính đồng cấu cộng và đồng cấu nhân mà chúng ta sẽ vận dụng nó trong các chương sau. Giả thiết DDH: Cho các giá trị ngẫu nhiên a, b, c ∈ [0, q −1], giả thiết DDH phát biểu rằng: {g a , g b , g ab } c ≡ {g a , g b , g c } Đánh giá đa thức bảo mật (OPE - Oblivious polynomial evaluation): Trong vấn đề này có hai thành viên tham gia, một người gửi Alice và một người nhận Bob. Input của Alice là một đa thức P (y) =  k i=0 a i y i có bậc k trên trường hữu hạn F và input của Bob là một phần tử x ∈ F (ở đây k là giá trị công khai). Một giao thức cho vấn đề OPE [Naor and Pinkas, 1999] là để Bob đạt được P (x) mà không biết được bất kỳ thông tin gì về đa thức P , và Alice không học đượ c bất kỳ thông tin gì về x. Nói cách khác, một giao thức OPE là để thực hiện tính hàm sau đây: (P (y), x) → (∅, P(x) ) Chia sẻ tích vô hướng bảo mật (SSP - Secure scalar product): Giả thiết rằng hai véc tơ A = (a 1 , , a n ) và B = (b 1 , , b n ) được sở hữu bằng hai thành viên tương ứng Alice và Bob. Một giao thức chia sẻ tích vô hướng bảo mật nhằm cho phép Alice đạt được r 1 và Bob đạt được r 2 , ở đây r 1 và r 2 là hai số nguyên, nằm trong khoảng [0, M − 1], sao cho r 1 + r 2 mod M = A · B (ở đây A · B ∈ [0, M]). Nói cách khác, một giao thức SSP là để thực hiện tính hàm sau: (A, B) → (r 1 , r 2 )|r 1 + r 2 = A ·B Tính toán hàm log cơ số tự nhiên bảo mật ln x [Kantarcioglu, 2005]: Mục đích của vấn đề này là để chia sẻ ln x, ở đây x = x 1 + x 2 với x 1 được biết bằng Alice và x 2 được biết bằng Bob, sao cho Alice đạt được y 1 và Bob nhận được y 2 , ở đây y 1 + y 2 = l n x = ln (x 1 + x 2 ). Nói cách khác, một giao thức cho việc tính toán ln (x) là để tính hàm sau: (x 1 , x 2 ) → (y 1 , y 2 )|y 1 + y 2 = ln (x 1 + x 2 ) 5 Chương 3 KHAI PHÁ DỮ LIỆU DỰA TRÊN TẦN SUẤT CÓ ĐẢM BẢO TÍNH RIÊNG TƯ TRONG TÌNH HUỐNG 2PFD 3.1. Giới thiệu Trong 2PFD, tập dữ liệu gồm n bản ghi được phân tán trên 2n người dùng, trong đó mỗi bản ghi được sở hữu bởi hai người dùng khác nhau, một người dùng biết một số giá trị thuộc tính trong khi người dùng còn lại biết các thuộc tính còn lại của bản ghi. Giả thiết rằng các thuộc tính của mỗi người dùng là nhạy cảm và mỗi người dùng không muốn bộc lộ các giá trị thuộc tính cho việc khai phá dữ liệu. Một người Miner với mục đích là học các mô hình khai phá dữ liệu dựa trên tính tần suất, ví dụ như học các luật phân lớp, trong khi đảm bảo sự riêng tư cho mỗi người dùng. Các giải pháp ngẫu nhiên [Evfimievski et al., 2002, Kargupta et al., 2003, Dowd et al., 2005] có thể giải quyết vấn đề này, tuy nhiên chúng phải cân bằng giữa mức độ duy trì tính riêng tư và mức độ chính xác. Chương này đề xuất một phương pháp dựa trên mật mã, nó đảm bảo tốt tính riêng tư cho mỗi người dùng trong khi giữ được tính chính xác. Đóng góp chính của chương này là xây dựng một phương pháp cho phép Miner tính toán tần suất có đảm bảo tính riêng tư trong 2PFD. Để minh họa khả năng ứng dụng của phương pháp, luận án đã thiết kế một giao thức học có đảm có tính riêng tư cho bộ phân lớp naive Bayes. Các kết quả đánh giá thực nghiệm chỉ ra rằng phương pháp này là tương đối hiệu quả. 3.2. Tính toán tần suất có đảm bảo tính riêng tư trong 2PFD 3.2.1. Phát biểu bài toán Vấn đề tính tần suất của một bộ giá trị thuộc tính trong tình huống 2PFD có thể đưa về vấn đề đơn giản hơn như sau: Giả thiết có n cặp người dùng (U i , V i ), mỗi U i có một số nhị phân u i và mỗi V i có số nhị phân v i . Vấn đề tính tần suất đảm bảo tính riêng tư là để cho phép người khai phá dữ liệu tính f =  u i v i trong khi thông tin về mỗi u i và v i là không bị bộc lộ. Nói cách khác, chúng ta cần một giao thức tính toán đảm bảo tính riêng tư cho hàm sau: (u 1 , v 1 , , u n , v n ) →  u i v i Ký hiệu này ngụ ý rằng mỗi cặp người dùng cung cấp các input cho giao thức và Miner chỉ nhận output f mà không biết bất kỳ thông tin gì khác. 6 3.2.2. Định nghĩa về việc đảm bảo tính riêng tư Định nghĩa chung về việc đảm bảo tính riêng tư trong mô hình semi-honest đã được giới thiệu trong chương 2. Định nghĩa đưa ra trong chương này có thể xem như trường hợp riêng của định nghĩa chung. Về cơ bản, định nghĩa phát biểu rằng việc tính toán là đảm bảo tính riêng tư nếu sự quan sát kết hợp của Miner và các người dùng không trung thực (t 1 người dùng U i và t 2 người dùng V i ) trong quá trình thực thi giao thức có thể mô phỏng hiệu quả bằng một thuật toán thời gian đa thức xác suất, việc mô phỏng dựa trên những gì mà Miner và các người dùng này đã quan sát trong giao thức, từ kết quả f, các thông tin mà chúng biết và các thông tin công khai. Do đó, Miner và các dùng không trung thực không thể đạt được bất kỳ thông tin gì ngoại trừ f 3.2.3. Giao thức tính toán tần suất Giao thức được thiết kế dựa trên các thuộc tính đồng cấu của sơ đồ mã hóa ElGamal cải biên. Giả sử p và q là hai số nguyên tố lớn mà q|(p −1), gọi G là nhóm con của Z ∗ p mà có bậc q, và g là bộ sinh của G. Tất cả các tính toán trong chương này được thực hiện trong Z p . Trong giao thức đã đề xuất, chúng ta giả thiết rằng mỗi người dùng U i có hai khóa mật x i , y i chọn ngẫu nhiên trong [1,q-1], và các khóa công khai tương ứng X i = g x i , Y i = g y i . Mỗi người dùng V i có các khóa mật p i , q i và các khóa công khai P i = g p i , Q i = g q i . Ta định nghĩa, X = n  i=1 X i P i = g x và Y = n  i=1 Y i Q i = g y Ở đây x = n  i=1 (x i + p i ) và y = n  i=1 (y i + q i ). Trong giao thức đã đề xuất, X và Y được biết trước bởi người dùng. Giao thức được trình bày trong Hình 3.1. 3.2.4. Phân tích giao thức Trong luận án đã cung cấp các chứng minh về tính đúng đắn và tính riêng tư cho giao thức. Tính riêng tư được chỉ ra dựa trên thuộc tính không thể phân biệt của sơ đồ mã hóa ElGamal dưới giả thiết DDH. Định lý 3.1. Nếu tất cả người dùng tuân thủ quy tắc của giao thức trong Hình 3.1. Miner sẽ tính chính xác f như đã định nghĩa trong phần 3.2.1. Định lý 3.2. Giả sử f < n, giao thức trong Hình 3.1 đảm bảo tính riêng tư cho mỗi người dùng trung thực chống lại Miner và lên đến 2n-2 người dùng không trung thực. Trong trường hợp với chỉ hai người dùng trung thực, kết luận trên vẫn đúng khi mà hai người dùng đó không giữ các giá trị thuộc tính của cùng một bản ghi. 7 • Phase 1. Each user U i does as follows: – Randomly choose k i from {1, , q − 1}. – Compute C (i) = (C (i) 1 , C (i) 2 ) = (g u i X k i i , g k i ) – Send C (i) to the miner • Phase 2. Each user V i does the follows: – Get C (i) from the miner – Randomly choose r i from {1, , q − 1} – if v i = 0 then compute R (i) = (R (i) 1 , R (i) 2 , R (i) 3 )=(X r i i X q i , g r i , Y p i ) – if v i = 1 then compute R (i) = (R (i) 1 , R (i) 2 , R (i) 3 )=(g u i X r i +k i i X q i , g r i +k i , Y p i ) – Send R (i) to the miner. • Phase 3. Each user U i does as follows: – Get R (i) from the miner. – Compute K(u i , v i ) = (K (i) 1 , K (i) 2 ) = (R (i) 1 (R (i) 2 ) −x i X y i , R (i) 3 Y x i ) – Send K(u i , v i ) to the miner • Phase 4. The miner does as follows: – Compute d = n  i=1 K (i) 1 K (i) 2 – Find f from {0, 1, , n} that satisfies g f = d – Output f Hình 3.1: Giao thức tính toán tần suất 3.2.5. Đánh giá hiệu quả của giao thức tính toán tần suất Độ phức tạp của mỗi U i trong bước thứ nhất và bước thứ ba là 2 và 3 phép mũ modular. Mỗi V i sử dụng 3 phép mũ modular trong bước thứ 2. Miner sử dụng 2n phép nhân modular và nhiêu nhất n phép so sánh. Để đánh giá hiệu quả của giao thức trong thực tế chúng ta xây dựng một thí nghiệm sử dụng ngôn ngữ C# trên một máy tính PC. Đo lường thời gian tính toán của giao thức với n khác nhau, từ 1000 đến 5000. Ta chọn |p| = 1024 bits và |q| = 160 bits, các cặp khóa và các giá trị X, Y được tạo ra trước khi giao thức thực thi. Kết quả chỉ ra rằng mỗi U i cần trung bình 21ms và 29ms, cho việc tính toán ở bước thứ nhất và bước thứ ba. Mỗi V i cần khoảng 32ms để tính toán. Thời gian của Miner là tương đối hiệu quả và gần tuyến tính theo n, ví dụ khi n = 5000, Miner cần khoảng 460 ms. 3.3. Khai phá dữ liệu dựa trên tính tần suất trong 2PFD Phương pháp tính toán tần suất là rất quan trọng trong các ứng dụng PPDM mà việc học của chúng dựa trên tần suất, ví dụ như học bộ phân lớp naive Bayes, 8 khai phá luật kết hợp, họ c cây quyết định ID3, phân tích tương quan Pearson, v.v. Trong luận án đã minh họa khả năng ứng dụng của phương pháp bằng việc sử dụng nó để xây dựng giao thức học bộ phân lớp naive Bayes có đảm bảo tính riêng tư. 3.4. Cải tiến giao thức tính toán tần suất 3.4.1. Giao thức cải tiến Một vấn đề của giao thức tính toán tần suất là nếu chỉ một người dùng không tham gia vào giao thức thì người Miner sẽ không tính được giá trị tần suất. Mục đích cải tiến là để cho phép Miner có thể tính được tần suất f từ dữ liệu của tập S của t cặp người dùng bất kỳ, khi t cặp người dùng này tham gia vào giao thức (t > k, ở đây k là ngưỡng cho trước). Phần này phát triển ý tưởng của hệ thống giải mã ngưỡng [Noack and Spitz, 2009] để giải quyết vấn đề trên. Cho sơ đồ ngưỡng (n, k), ý tưởng cơ bản là, một khóa mật được chia sẻ giữa n người dùng, bởi vậy chỉ tập T của k người dùng có thể giải mã dựa trên phương pháp nội suy lagrange trên mũ của thành phần thứ hai của mã hóa mà không cần biết khóa mật. Vấn đề này được giải quyết dựa trên sơ đồ chia sẻ mật (n, k)-Shamir. Trong giao thức cải tiến, hai mầm khóa x 0 và p 0 ∈ [1, q − 1] được chia sẻ bằng n người dùng U i và n người dùng V i bằng sơ đồ (n, k)-Shamir. Các giá trị chia sẻ mà U i và V i nhận được là x i = f(i) và p i = h(i) tương ứng, ở đây f(x) và h(x) là các đa thức tùy ý bậc (k-1) trong trường Z q , với f(0) = x 0 và h(0) = p 0 . Do đó, mỗi U i có các cặp khóa (x i , X i = g x i ) và V i có (p i , P i = g p i ). Trong giao thức, H = g x 0 +p 0 được thông báo như tham số chung. Giao thức được trình bày trong Hình 3.7. 3.4.2. Phân tích giao thức So với giao thức trước, giao thức này thay thế Y bằng g và X bằng H = g x 0 +p 0 , các khóa bí mật y i và q i là các khóa tạm thời được chọn tại thời điểm mã hóa. Giao thức này thêm hai bước 4 và 5 để tính thành phần thứ hai từ k cặp người dùng. Giao thức cũng chống lại sự thông đồng lên đến 2k −2 người dùng cùng với Miner. Độ phức tạp tính toán của mỗi người dùng tăng lên 1 phép tính mũ modular. Độ phức tạp tính toán của Miner thay đổi không đáng kể. 3.5. Kết luận chương Chương này đã đề xuất một phương pháp cho việc khai phá dữ liệu dựa trên tính tần suất có đảm bảo tính riêng tư trong tình huống 2PFD. Phương pháp đã đảm bảo tốt tính riêng tư cho mỗi người dùng mà vẫn giữ được tính đúng đắn. Luận án đã minh họa khả năng ứng dụng của phương pháp bằng việc áp dụng nó để thiết kế một giao thức cho việc học bộ phân lớp naive Bayes. Luận án cũng đã 9 [...]... bốn giải pháp cho bốn vấn đề trong PPDM Mỗi giải pháp đã được cung cấp các phân tích để chứng mình tính đúng đắn cũng như tính riêng tư dựa trên định nghĩa đảm bảo tính riêng tư trong mô hình semi-honest Độ phức tạp truyền thông và tính toán của mỗi giải pháp được đánh giá dựa trên phương pháp ước lượng lý thuyết Luận án cũng đã cung cấp một số thực nghiệm để đánh giá hiệu quả của các giải pháp trong. .. và mô hình bảo mật semi-honest 19 Chương 6 PHÁT HIỆN CÁC PHẦN TỬ NGOẠI LAI CÓ ĐẢM BẢO TÍNH RIÊNG TƯ 6.1 Giới thiệu Có hai phương pháp chính trong việc phát hiện các phần tử ngoại lai: phương pháp dựa trên khoảng cách Euclid và phương pháp dựa trên thống kê Tuy nhiên, hiện tại chỉ mới có các giải pháp đảm bảo tính riêng tư cho phương pháp dựa trên khoảng cách Euclid mà chưa có giải pháp đảm bảo tính riêng... sự thông đồng nào có thể làm bộc lộ thông tin riêng tư của mỗi thành viên Đóng góp thứ ba là một phương pháp mới giải bài toán phân cụm dữ liệu có đảm bảo tính riêng tự dựa trên thuật toán EM với hai đóng góp chính Một là giao thức mới cho phép số lượng tùy ý các thành viên tham gia vào việc phân cụm dữ liệu và đảm bảo tốt hơn tính riêng tư cho dữ liệu của các thành viên Hai là lời giải tốt hơn trong. .. đánh giá hiệu quả của các giải pháp trong thực tế Đóng góp thứ nhất là đề xuất một giải pháp khai phá dữ liệu dựa trên tính tần suất trong tình huống mới 2PFD Bước quan trọng của giải pháp là phương pháp tính toán tần suất có đảm bảo tính riêng tư Khả năng ứng dụng của phương pháp đã được minh họa bằng việc sử dụng nó để xây dựng giao thức cho việc học bộ phân lớp Naive Bayes Các kết quả thực nghiệm chỉ... đó, luận án đã đưa ra hai giao thức mà nó cho phép các thành viên có thể chọn một trong hai mức độ riêng tư, một giao thức không bộc lộ bất kỳ thông tin gì, giao thức còn lại chỉ bộc lộ độ hỗ trợ của mỗi tập mục 16 Chương 5 PHÂN CỤM DỮ LIỆU CÓ ĐẢM BẢO TÍNH RIÊNG TƯ 5.1 Giới thiệu Chương này trình bày phương pháp đảm bảo tính riêng tư cho việc phân cụm dựa trên thuật toán EM trong dữ liệu phân mảnh ngang... tốt hơn trong trường hợp tập dữ liệu chỉ được phân mảnh ngang thành hai phần Phương pháp này cho phép xác định được cụm của mỗi đối tượng dữ liệu mà không làm lộ các thông tin riêng tư cũng như đối tượng trung tâm của mỗi cụm dữ liệu Đóng góp thứ tư là cung cấp một giải pháp đảm bảo tính riêng tư cho việc phát hiện các phần tử ngoại lại dựa trên thống kê Về cơ bản giải pháp được đề xuất dựa trên kỹ... trong khi một số bước khác thỏa mãn định nghĩa về đảm bảo tính riêng tư trong [Du et al., 2004], mà nó là sự mở rộng của định nghĩa trong mô hình semi-honest Định nghĩa này cho phép xây dựng các giải pháp SMC hiệu quả, tuy nhiên nó có thể bộc lộ một số thông tin quan trọng, mặc dù vậy nó không xảy ra trong tình huống được áp dụng trong chương này Định nghĩa giả sử mỗi thành viên tham gia trong giao... dữ liệu trực tiếp bằng phương pháp chia sẻ bộ nhớ Chọn |p|=1024 và |q|=160 Thực hiện đo lường thời gian khi số thành viên khác nhau, từ 2 đến 10 Thời gian chi tiết được trình bày trong luận án, nó phụ thuộc vào cả n và m Ví dụ khi m = 1000, n = 10, thời gian tính toán của tất cả các thành viên là 15.1s 4.6 Sử dụng cấu trúc truyền thông nhị phân Trong [Vaidya and Clifton, 2003] đã chỉ ra rằng, nếu một. .. biến trong mô hình dữ liệu phân mảnh dọc Các giao thức này cho phép một số thành viên (mỗi thành viên giữ tập các thuộc tính của cùng tập các giao dịch) hợp tác để khai phá tập phổ biến trên tập dữ liệu liên kết của các thành viên trong khi bảo vệ các thông tin riêng tư của mỗi thành viên Một số giao thức đã được đề xuất cho vấn đề này [Zhong, 2007, Vaidya and Clifton, 2005, Han and Ng, 2007] Tuy nhiên,... thông đồng với số lượng có thể lên đến n − 2 thành viên khác Thứ hai là đề xuất một giao thức tốt hơn trong trường hợp tập dữ liệu chỉ phân mảnh thành hai phần, giao thức này cho phép tính toán kết quả cuối cùng mà không bộc lộ các thông tin riêng tư và các trung tâm của các cụm dữ liệu 5.2 Phát biểu bài toán Thuật toán EM được trình bày trong [Dempster et al., 1977] Gọi D là tập dữ liệu có m đối tượng . tiến trình khai phá dữ liệu có thể dẫn đến việc vi phạm các thông tin riêng tư và lĩnh vực khai phá dữ liệu có đảm bảo tính riêmg tư (PPDM) đã ra đời [Verykios et al., 2004]. Các nghiên cứu trong. là công bố dữ liệu có đảm bảo tính riêng tư, các nghiên cứu trong hướng này cho phép một tổ chức (thành viên-party) công bố tập dữ liệu cho các nhà nghiên cứu khai thác, trong khi đảm bảo tính. cho dữ liệu được công bố. Hướng thứ hai là khai phá dữ liệu phân tán có đảm bảo tính riêng tư, c ác nghiên cứu theo hướng này cho phép một nhóm các thành viên, mỗi thành viên có một tập dữ liệu

tóm tắt luận án nghiên cứu xây dựng một số giải pháp đảm bảo an toàn thông tin trong quá trình khai phá dữ liệu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan