Khai thác dữ liệu phân tán bảo toàn tính riêng tư

127 703 6
Khai thác dữ liệu phân tán bảo toàn tính riêng tư

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN CAO TÙNG ANH KHAI THÁC DỮ LIỆU PHÂN TÁN BẢO TOÀN TÍNH RIÊNG TƢ LUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI– 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN CAO TÙNG ANH KHAI THÁC DỮ LIỆU PHÂN TÁN BẢO TOÀN TÍNH RIÊNG TƢ Chuyên ngành: BẢO ĐẢM TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN Mã số: 62.46.35.01 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: 1. PGS.TSKH. NGUYỄN XUÂN HUY 2. PGS.TS. NGUYỄN MẬU HÂN HÀ NỘI - 2014 1 LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và chƣa từng công bố trong bất kỳ công trình nào khác. Tác giả luận án Cao Tùng Anh 2 LỜI CÁM ƠN Luận án đƣợc thực hiện và hoàn thành dƣới sự hƣớng dẫn của PGS.TSKH. Nguyễn Xuân Huy và PGS.TS. Nguyễn Mậu Hân. Trong thời gian thực hiện luận án, tác giả đã nhận đƣợc sự giúp đỡ và chỉ dẫn khoa học rất tận tình từ hai ngƣời thầy của mình để có thể hoàn thành luận án này. Nhân dịp này tác giả xin đƣợc gửi đến hai thầy: PGS.TSKH.Nguyễn Xuân Huy và PGS.TS. Nguyễn Mậu Hân lòng biết ơn sâu sắc và lời cám ơn chân thành nhất. Tác giả cũng xin đƣợc trân trọng cảm ơn PGS.TS. Thái Quang Vinh, GS.TS. Vũ Đức Thi, PGS.TS. Đoàn Văn Ban, PGS.TS. Đặng Văn Đức, PGS.TS. Ngô Quốc Tạo, PGS.TS. Đỗ Năng Toàn, PGS.TS. Lƣơng Chi Mai, PGS.TS.Nguyễn Thanh Tùng là những thầy (cô) của Viện Công Nghệ Thông Tin đã quan tâm chỉ bảo, động viên và giúp đỡ tác giả trong suốt quá trình học tập, nghiên cứu và hoàn thiện luận án. Tác giả cũng xin trân trọng cảm ơn PGS.TS. Lê Hoài Bắc và các bạn đồng nghiệp trong nhóm nghiên cứu tại TP.Hồ Chí Minh đã đọc và cho những ý kiến đóng góp quý báu cho nội dung luận án. Cuối cùng xin chân thành cảm ơn các bạn đồng nghiệp tại khoa CNTT, trƣờng Đại học Công nghệ TP.Hồ Chí Minh đã cổ vũ, động viên, giúp đỡ về nhiều mặt cho tác giả trong thời gian thực hiện luận án. 3 MỤC LỤC LỜI CAM ĐOAN 1 LỜI CÁM ƠN 2 MỤC LỤC 3 DANH MỤC CÁC HÌNH 5 DANH MỤC CÁC BẢNG 7 DANH MỤC TỪ VIẾT TẮT 8 PHẦN MỞ ĐẦU 9 CHƢƠNG 1 Một số khái niệm về cơ sở dữ liệu phân tán, khai thác dữ liệu và bảo toàn tính riêng tƣ 19 1.1. Cơ sở dữ liệu phân tán 19 1.1.1. Khái niệm cơ sở dữ liệu phân tán 19 1.1.2. Cơ sở dữ liệu phân tán ngang 19 1.1.3. Cơ sở dữ liệu phân tán dọc 21 1.2. Khai thác dữ liệu 23 1.2.1. Khái niệm khai thác dữ liệu 23 1.2.2. Một số thuật toán khai thác dữ liệu 24 1.3. Bảo đảm tính riêng tƣ 31 1.3.1. Khái niệm 31 1.3.2. Phân loại các phƣơng pháp PPDM 32 1.3.3. Đánh giá một thuật toán PPDM 34 1.4. Một số phƣơng pháp giấu dữ liệu 35 1.4.1. Xáo trộn 35 1.4.2. Ngăn chặn 36 1.4.3. Gom / trộn 36 1.4.4. Đổi chỗ 36 1.4.5. Lấy mẫu 37 1.4.6. Ứng dụng lý thuyết giàn giao 41 1.5. Một số kỹ thuật khai thác dữ liệu bảo đảm tính riêng tƣ 49 1.5.1. Kỹ thuật chỉnh sửa dữ liệu trong cơ sở dữ liệu nhị phân 49 1.5.2. Kỹ thuật thay giá trị dữ liệu thật bằng giá trị không xác định 53 1.5.3. Phƣơng pháp tái tạo 56 1.6. Kết chƣơng 58 CHƢƠNG 2 Khai thác dữ liệu trên CSDL phân tán 60 2.1. Giới thiệu 60 4 2.2. Khai thác trên cơ sở dữ liệu phân tán dọc 60 2.2.1. Cách thực hiện 60 2.2.2. Thuật toán khai thác trên CSDL phân tán dọc với phép kết ngoại 62 2.2.3. Thuật toán khai thác CSDLPT dọc với phép kết ngoại hai chiều 66 2.2.4. Thuật toán khai thác CSDLPT dọc bằng phép kết tự nhiên 68 2.3. Khai thác trên cơ sở dữ liệu phân tán ngang 73 2.3.1. Cách thực hiện 73 2.3.2. Nhận xét phƣơng pháp 75 2.4. Khai thác song song tập phổ biến trên CSDL phân tán 75 2.4.1. Đặt vấn đề 75 2.4.2. Mô hình khai thác 76 2.4.3. Thuật toán khai thác tập phổ biến trên Master 78 2.5. Khai thác tập mục có lợi ích cao 81 2.5.1. Đặt vấn đề 81 2.5.2. Khai thác tập mục có lợi ích cao 81 2.6. Kết chƣơng 86 CHƢƠNG 3 Khai thác dữ liệu phân tán bảo đảm tính riêng tƣ 87 3.1. Giới thiệu chƣơng 87 3.2. Khai thác CSDL phân tán dọc bảo đảm tính riêng tƣ 87 3.2.1. Đặt vấn đề 87 3.2.2. Thuật toán 88 3.2.3. Minh họa thuật toán: 89 3.3. Khai thác CSDL phân tán ngang bảo đảm tính riêng tƣ 94 3.3.1. Đặt vấn đề 94 3.3.2. Một số công cụ tính toán đa bên an toàn. 95 3.3.3. Giải thuật khai thác tập phổ biến đảm bảo riêng tƣ và chống thông đồng trên dữ liệu phân tán ngang. 96 3.4. Giao thức khai thác CSDL phân tán ngang bảo đảm tính riêng tƣ 107 3.4.1. Đặt vấn đề 107 3.4.2. Cơ sở lý thuyết 108 3.4.3. Giao thức khai thác 109 3.4.4. Đánh giá giao thức 113 3.4.5. Thực nghiệm giao thức 113 3.5. Kết chƣơng 114 PHẦN KẾT LUẬN 116 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 120 TÀI LIỆU THAM KHẢO 121 5 DANH MỤC CÁC HÌNH Hình 1.1. Thuật toán IT-Tree phát sinh tập phổ biến thỏa ngƣỡng minsup 30 Hình 1.2. Kết quả khai thác với ngƣỡng minsup=50% 31 Hình 1.3. Đồ thị dàn các tập mục thƣờng xuyên 43 Hình 1.4. Gian giao đầy đủ của tập Poset (ABE) 44 Hình 1.5. Thuật toán Itemhide- Ẩn tập mục nhạy cảm 46 Hình 1.6. Thuật toán 1a 51 Hình 1.7. Thuật toán 1b 51 Hình 1.8. Thuật toán 2a 52 Hình 1.9. Thuật toán 2b 52 Hình 2.1. Mô hình hoạt động khai thác luật trên CSDL phân tán 60 Hình 2.2. Thuật toán Eclat_Distribute_Left_Join 63 Hình 2.3. Biểu diễn các mục đơn của DB 1 65 Hình 2.4. Biểu diễn các mục đơn của DB 1 và DB 2 65 Hình 2.5. Kết quả khai thác trên CSDL phân tán với phép kết Left-join 66 Hình 2.6. Thuật toán Eclat_Distribut_Full_Join 67 Hình 2.7. Kết quả khai thác trên CSDLPT dọc với phép kết ngoại hai chiều 68 Hình 2.8. Thuật toán phát sinh tập phổ biến thỏa ngƣỡng minsup 69 Hình 2.9. Cây biểu diễn các mục đơn của DB 1 và DB 2 71 Hình 2.10. Cây biểu diễn khai thác tập phổ biến trên CSDL phân tán 71 Hình 2.11. Mô hình tổng quát khai thác trên CSDL phân tán ngang 77 Hình 2.12. Trao đổi thông tin và khai thác tâp phổ biến giữa Master và Slaver 77 Hình 2.13. Kết quả khai thác từ Slave 1 theo thuật toán Eclat 78 Hình 2.14. Kết quả khai thác từ Slave 2 theo thuật toán Eclat 78 Hình 2.15. Thuật toán PEclat 79 Hình 2.16. Kết quả của PEClat với minsup=50% 80 Hình 2.17. Cây WIT-Tree 82 Hình 2.18. Thuật toán TWU-Mining 83 Hình 2.19. Minh họa thuật toán TWU-Mining 84 Hình 3.1. Thuật toán phát sinh tập phổ biến 88 Hình 3.2. Sơ đồ hoạt động của thuật toán 89 Hình 3.3. Kết quả tạo ra lớp tƣơng đƣơng [] 91 Hình 3.4. Kết quả khai thác trên CSDL phân tán dọc 91 Hình 3.5. Thủ tục Create_Fitree 98 Hình 3.6. Thủ tục Secure_Support(X) 98 Hình 3.7. Thủ tục Extend_Fitree& Upper_Bound 99 6 Hình 3.8. Thủ tục Upper_Bound 100 Hình 3.9. Kết quả FITree sau khi xử lý nút gốc 101 Hình 3.10. Kết quả FITree sau khi xử lý nút A 102 Hình 3.11. Sự phụ thuộc thời gian vào số lƣợng máy trên CSDL Accident 107 Hình 3.12. Sự phụ thuộc thời gian vào số lƣợng máy trên CSDL bảo hiểm 107 Hình 3.13. Giao thức đảm bảo tính riêng tƣ 110 Hình 3.14. CSDL tập trung và CSDL phân tán 112 Hình 3.15. Các bên tính độ hỗ trợ cục bộ 112 Hình 3.16. Tính độ hỗ trợ toàn cục và tập phổ biến toàn cục 112 Hình 3.17. So sánh tổng chi phí của GTDX và GT M.Hussein 114 7 DANH MỤC CÁC BẢNG Bảng 1.1. Quan hệ dự án (DA) 19 Bảng 1.2. Kết quả phân tán ngang nguyên thủy 20 Bảng 1.3. Quan hệ chi trả 20 Bảng 1.4. Quan hệ nhân viên 20 Bảng 1.5. Kết quả phân mảnh ngang dẫn xuất quan hệ NV 21 Bảng 1.6. Quan hệ nhân viên 21 Bảng 1.7. Kết quả phân tán dọc từ bảng 1.6 22 Bảng 1.8. Cơ sở dữ liệu giao dịch 30 Bảng 1.9. CSDL T 22 giao tác đƣợc viết thành 2 mảnh 42 Bảng 1.10. Tập mục thƣờng xuyên theo ngƣỡng  = 4 42 Bảng 1.11. So sánh các thuật toán 50 Bảng 2.1. Cơ sở dữ liệu của Master 61 Bảng 2.2. Cơ sở dữ liệu của Slave 61 Bảng 2.3. Cơ sở dữ liệu sau khi kết 61 Bảng 2.4. Cơ sở dữ liệu của 2 bên tham gia khai thác 64 Bảng 2.5. Cơ sở dữ liệu kết ngoại (Left Join) 64 Bảng 2.6. CSDL với phép kết ngoại “hai chiều” 66 Bảng 2.7. Cơ sở dữ liệu của 2 bên tham gia khai thác 69 Bảng 2.8. Cơ sở dữ liệu của bên A kết với bên B 70 Bảng 2.9. Kết quả thực nghiệm trên CSDL CO-OP Mark TP.HCM 73 Bảng 2.10. Cơ sở dữ liệu của Master 74 Bảng 2.11. Cơ sở dữ liệu của Slave 74 Bảng 2.12. Cơ sở dữ liệu sau khi hội Master và Slave 74 Bảng 2.13. CSDL mẫu 76 Bảng 2.14. Cơ sở dữ liệu phân tán của bảng 2.13 76 Bảng 2.15. Bảng giá trị khách quan 82 Bảng 2.16. Bảng giá trị chủ quan 82 Bảng 2.17. Bảng CSDL thực nghiệm 85 Bảng 2.18. Bảng thực nghiệm 2 thuật toán trong CSDL BMS-POS 85 Bảng 2.19. Bảng thực nghiệm 2 thuật toán trong CSDL Retail 86 Bảng 3.1. CSDL thực của hai bên Master và Slave 89 Bảng 3.2. CSDL giả của hai bên Master và Slave 90 Bảng 3.3. Kết quả thực nghiệm trên CSDL CO-OP Mart TP.HCM 93 Bảng 3.4. Minh họa hệ thống gồm 2 bên S 1 , S 2 101 Bảng 3.5. Thời gian chạy trên CSDL Accidents 106 Bảng 3.6. Thời gian chạy trên CSDL bảo hiểm 106 Bảng 3.7. Thông tin về các CSDL thực nghiệm 114 8 DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt 1 CSDL Database Cơ sở dữ liệu 2 CSDLPT Database distributed Cơ sở dữ liệu phân tán 3 GTDX Proposed protocol Giao thức đề xuất 4 WIT-Tree Weighted Itemset-Tidset tree Cây tập mục-tập giao dịch có trọng số 5 TWU Tree Weighted Utility Cây lợi ích có trọng số 6 FI Frequent Itemsets Tập phổ biến 7 FP-tree Fast Parallel tree Cây khai thác song song nhanh 8 FDM Fast Distributed Mining Khai thác phân tán nhanh 9 SVM Support Vector machines Sử dụng vectơ trong hỗ trợ phân lớp 10 PPDM Privacy Preserving Data Mining Khai thác dữ liệu bảo toàn tính riêng tƣ 11 RSA Revest-Shamir- Adleman Hệ mã hóa RSA 12 SM Safety margin Ngƣỡng an toàn 13 MST Min support Độ hỗ trợ tối tiểu 14 MFI Maximal Frequent Itemset Tập phổ biến tối đại 15 MCT Min Confident Ngƣỡng độ tin cậy 16 TID Transaction index Chỉ mục của giao dịch 17 IT-Tree Itemset Tidset tree Cây tập mục -tập giao dịch 18 HUIs High Utility Itemsets Tập tiện ích cao 19 DBS Dynamic Bit String Chuỗi bít động 20 SH Semi Honest Trung thực một nửa [...]... kiểu cùng phối hợp dữ liệu để khai thác trên dữ liệu chung, nhƣng mỗi bên lại muốn đảm bảo tính riêng tƣ cho dữ liệu của chính mình Khai thác dữ liệu phân tán đảm bảo tính riêng tƣ là hƣớng nghiên cứu nhằm đề ra giải pháp bảo vệ tính riêng tƣ của dữ liệu lẫn tri thức trƣớc và sau khi thực hiện khai thác trên dữ liệu Ví dụ 1 Khi nhiều bệnh viện muốn cùng nhau phối hợp dữ liệu để khai thác cho ra những... thác song song trên cơ sở dữ liệu phân tán Chƣơng 3: Khai thác CSDL phân tán bảo đảm tính riêng tƣ Trình bày các thuật toán và giải thuật đề xuất nhằm khai thác dữ liệu trên CSDL phân tán dọc và phân tán ngang có quan tâm đến bảo đảm tính riêng tƣ cho dữ liệu của các bên tham gia trong quá trình khai thác Đối với mỗi thuật toán, luận án cũng đánh giá về khả năng bảo toàn tính riêng tƣ, độ phức tạp và... về cơ sở dữ liệu phân tán, khai thác dữ liệu và bảo toàn tính riêng tƣ 1.1 Cơ sở dữ liệu phân tán 1.1.1 Khái niệm cơ sở dữ liệu phân tán Cơ sở dữ liệu phân tán là tập hợp các cơ sở dữ liệu đƣợc liên kết logic trên mạng máy tính và làm việc một cách trong suốt đối với ngƣời sử dụng [3] Khái niệm “trong suốt đối với ngƣời sử dụng” hàm nghĩa ngƣời sử dụng có thể truy cập tất cả các cơ sở dữ liệu nhƣ là... ẩn dữ liệu trong quá trình khai thác CSDL có quan tâm đến bảo đảm tính riêng tƣ của các bên tham gia khai thác Chƣơng 2: Khai thác dữ liệu trên CSDL phân tán Trình bày các nghiên cứu và đề xuất của luận án về cải tiến các thuật toán khai thác dữ liệu trên CSDL phân tán, các thuật toán này nhằm tăng nhanh thời gian khai thác các tập mục lợi ích cao, tập phổ biến bằng phƣơng pháp IT-Tree và khai thác. .. ít lệch trái hơn 1.3 Bảo đảm tính riêng tƣ 1.3.1 Khái niệm Khai thác dữ liệu là phát hiện tri thức từ cơ sở dữ liệu Các dữ liệu dùng để khai thác có thể liên quan đến mô ̣t cá nhân hay m ột tổ chức Bản thân dữ liệu là thông tin nhạy cảm hoặc quá trình phân tích dữ liệu cho ra tri thức có tính nhạy cảm Ngoài ra, một số tổ chức muốn chia sẻ dữ liệu theo kiểu cùng khai thác trên dữ liệu 31 góp chung, nhƣng... nguồn CSDL khác nhau Nói cách khác, khai thác dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật nhằm hỗ trợ tích cực cho tiến trình ra quyết định Có thể chia khai thác dữ liệu thành hai dạng chính là: khai thác dữ liệu theo hƣớng kiểm tra và khai thác dữ liệu theo hƣớng khám phá khi khai thác dữ liệu theo hƣớng kiểm tra, ngƣời dùng... nêu rõ trong phần này Chƣơng 1: Một số khái niệm về CSDL phân tán, khai thác dữ liệu và bảo đảm tính riêng tƣ Trong chƣơng này, luận án trình bày một số khái niệm cơ bản về cơ sở dữ liệu phân tán bao gồm cả phân tán dọc và phân tán ngang, các lý thuyết về các thuật toán 17 khai thác dữ liệu đƣợc sử dụng nhiều nhất Trong đó tập trung vào khai thác tập phổ biến, tập mục có lợi ích cao và luật kết hợp... bên lại muốn đảm bảo tính riêng tƣ cho dữ liệu của chính mình Khai thác dữ liệu đảm bảo tính riêng tƣ (Privacy Preserving Data Mining PPDM) là hƣớng nghiên cứu nhằm đề ra giải pháp bảo vệ tính riêng tƣ của dữ liệu lẫn tri thức trƣớc và sau khi thực hiện khai thác trên dữ liệu Trong các thuật toán và giải thuật đề xuất ở chƣơng 3, với mỗi thuật toán, luận án đã đƣa ra khái niệm về tính riêng tƣ và đánh... lƣợng dữ liệu và bảo đảm tính riêng tƣ cá nhân Các nghiên cứu trong luận án có hƣớng nghiên cứu và kết quả khác với luận án này Thuật toán bảo toàn tính riêng tƣ của Tung-Shou Chen và các cộng sự [38] (2013) đƣợc xây dựng dựa trên nhận xét: các kỹ thuật bảo toàn tính riêng tƣ trong khai thác dữ liệu (PPDM) hiện nay có thể không làm tiết lộ những dữ liệu nhạy cảm 14 của các bên tham gia trong khai thác dữ. .. toán cho phép khai thác cơ sở dữ liệu phân tán dọc có 2 bên và nhiều bên (n bên) tham gia Thuật toán để xuất của các tác giả sử dụng thuật toán Apriori để khai thác và bảo đảm tính riêng tƣ cho dữ liệu của các bên tham gia bằng cách sử dụng một bên là trung gian để hỗ trợ cho n-1 bên khai thác mà không để lộ dữ liệu 12 của các bên tham gia Thuật toán cũng đã đánh giá khả năng bảo toàn tính riêng tƣ thông . niệm về cơ sở dữ liệu phân tán, khai thác dữ liệu và bảo toàn tính riêng tƣ 19 1.1. Cơ sở dữ liệu phân tán 19 1.1.1. Khái niệm cơ sở dữ liệu phân tán 19 1.1.2. Cơ sở dữ liệu phân tán ngang 19. sẻ dữ liệu theo kiểu cùng phối hợp dữ liệu để khai thác trên dữ liệu chung, nhƣng mỗi bên lại muốn đảm bảo tính riêng tƣ cho dữ liệu của chính mình. Khai thác dữ liệu phân tán đảm bảo tính riêng. 19 1.1.3. Cơ sở dữ liệu phân tán dọc 21 1.2. Khai thác dữ liệu 23 1.2.1. Khái niệm khai thác dữ liệu 23 1.2.2. Một số thuật toán khai thác dữ liệu 24 1.3. Bảo đảm tính riêng tƣ 31 1.3.1.

Ngày đăng: 27/08/2014, 11:51

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan