một số tìm hiểu về khai phá dữ liệu bảo vệ tính riêng tư

24 1.3K 9
một số tìm hiểu về khai phá dữ liệu bảo vệ tính riêng tư

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

một số tìm hiểu về khai phá dữ liệu bảo vệ tính riêng tư

11/7/2012 Hà Quang Thụy ‐ KTLab 1 Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN  Một số tìm hiểu về khai phá dữ liệu bảo vệ tính riêng Hà Quang Thụy Phòng TN Công nghệ tri thức, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Ngày 06 tháng 11 năm 2012 Nội dung Đặt vấn đề Xuất xứ Khái niệm Tình hình nghiên cứu về PPDM Một số tiếp cận và thuật toán PPDM Một số tiếp cận Thuật toán PPDM cho một vài bài toán Xu hướng nghiên cứu PPDM Tiêu đề báo cáo: “khai phá dữ liệu” “tính riêng tư” và “bảo vệ tính riêng tư” “một số tìm hiểu” November 7, 2012 11/7/2012 Hà Quang Thụy ‐ KTLab 2 Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN  1. Đặt vấn đề • Nội dung  bộ về Khai phá dữ liệu bộ về khai phá dữ liệubảovệ tính riêng Tình hình nghiên cứuvề tính riêng November 7, 2012 1a. bộ về khai phá dữ liệuKhái niệm  Khai phá dữ liệu (Data Mining: DM) ~ Phát hiệntrithứctừ CSDL (Knowledge Discovery in Databases: KDD).  Đadạng về tên gọi, đadạng về nội dung song nội dung phổ biếnnhấtlà“Tríchchọncácmẫuhoặctrithứchấpdẫn(không tầmthường, ẩn, chưabiết và hữudụng tiiềmnăng)từ mộttập hợplớndữ liệu” [FPS96]. “bấtcứ tên gọi nào, bảnchấtcủalĩnh vực khai phá dữ liệutìm kiếmtrithứcmớivàhữuíchtrong dữ liệu” “the age of Big Data”[SF11]  Mô hình quá trình khai phá dữ liệu đượccảitiến, phù hợpvới mục tiêu kinh doanh và mụctiêupháttriểntổ chức. Mộtsố mô hình thiên hướng công nghệ. November 7, 2012 [FPS96] Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996). From Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge Discovery and Data Mining 1996: 1-34. [SF11] Gregory Piatetsky-Shapiro, Usama Fayyad (2011). An Introduction to SIGKDD and A Reflection on the Term ‘Data Mining’, KDD Newsletter, July 2011, 13 (1):102- 103. Former Chair, ACM SIGKDD and Chair, ACM SIGKDD. 11/7/2012 Hà Quang Thụy ‐ KTLab 3 Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN  November 7, 2012 5 Quá trình KPDL [FPS96] November 7, 2012 6 Quá trình KPDL [HK06] [HK06] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques (2 nd edition), Morgan Kaufmann, 2006. Tiếng Việt “khai mỏ ?” 11/7/2012 Hà Quang Thụy ‐ KTLab 4 Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN  November 7, 2012 7 Chuẩn công nghiệp CRISP-DM, 2000 [CCKKR00] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer and Rüdiger Wirth (2000). CRISP-DM 1.0: Step-by- ste p data mining guide, The CRISP-DM consortium, August 2000. November 7, 2012 8 Mô hình quá trình C-KDD, 2010 [Pan10] Ding Pan (2010). An Integrative Framework for Continuous Knowledge Discovery, Journal of Convergence Information Technology (JCIT),5(3):46- 53, May 2010 11/7/2012 Hà Quang Thụy ‐ KTLab 5 Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN  November 7, 2012 9 Khai phá dữ liệu quá trình [IEEE-TFPM12] [IEEE-TFPM] The IEEE Task Force on Process Mining (2012). Process Mining Manifesto, http://www.win.tue.nl/ieeetfpm/downloads/Process%20Mining%20Manifesto.pdf KPDL : tính liên ngành [HK06] November 7, 2012 11/7/2012 HQuangThy KTLab 6 ChuiseminarAnton thụng tincaKhoaCNTT,Trng HCN,HQGHN KPDL : lnh vc hp dn November7,2012 Data Mining v Machine Learning: Tp thut ng mi lnh vc nghiờn cu ! http://www.researcherid.com/Home.action?returnCode=ROUTER.Unauthorized&SrcApp=CR&Init=Yes S bi bỏo vi tiờu cha Data Mining cụng b hng nm theo Google Scholar * KDD-2011 (San Diego, CA, USA): hn 1.100 ngi tham gia t khp ni trờn th gii[SF11] ACM-SIGKDD : T chc ngh KDD [SF11] November7,2012 ACM-SIGKDD The Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining. http://www.sigkdd.org/index.php Knowledge Discovery in Data (KDD) u tiờn, Gregory Piatetsky-Shapiro, 1989; KDD ton cu u tiờn, Usama Fayyad v Ramasamy Uthurusamy, 1998. 2006: Cụng b chng trỡnh o tov KDD Giithng thng niờn: The Innovation Award v the Service Award : Nobel prizes of data mining [SF11]. SIGKDD Doctoral Dissertation Award (T 2008) Mt s nh khoa hc Usama M. Fayyad: Chief Data Officer and Executive Vice President, Yahoo! Inc., Chair, ACM SIGKDD. Gregory Piatetsky-Shapiro: the President of KDnuggets, Former Chair, ACM SIGKDD, The Innovation Award: Dr. J. Ross Quinlan, Dr. Christos Faloutsos, Dr. Padhraic Smyth, Dr. Raghu Ramakrishnan, Dr. Usama M. Fayyad, Dr. Ramakrishnan Srikant, Dr. Leo Breiman, Dr. Jiawei Han,Dr.Heikki Manilla, Dr. Jerome H. Friedman, v Dr. Rakesh Agrawal The Service Award: Dr. Bharat Rao, Prof. Osmar R. Zaùane, Dr. Sunita Sarawagi, Dr. Robert Grossman, Dr. Won Kim, The Weka team, Dr. Xindong Wu, Dr. Usama Fayyad, Dr. Ramasamy Uthurusamy, v Dr. Gregory Piatetsky- Shapiro. 11/7/2012 Hà Quang Thụy ‐ KTLab 7 Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN  1.b. Khai phá dữ liệu bảo vệ tính riêng November 7, 2012 • Nhu cầu bảo vệ tính riêng [AS00]  Hầuhếtngườisử dụng web quan tâm bảovệ tính riêng  Theo thống kê  17% tuyệt đối không cung cấp thông tin riêng  56% cung cấp thông tin riêng nếucóbiện pháp bảovệ  27% sẵn sàng cung cấp thông tin riêng  và  86% cho rằng cung cấpthôngtincánhânđể nhậnmộtlợiíchnàođó là sự lựachọn cá nhân  82% coi trọng chính sách bào vệ tính riêng trong hệ thống  Mức độ bảomậtcácthuộctínhriêngtư khác nhau (họ tên, nghề nghiệp, lứatuổi, sở thích, nơicư trú, vị trí hiệntại…) là khác nhau [AS00] Rakesh Agrawal, Ramakrishnan Srikant (2000). Privacy-Preserving Data Mining, SIGMOD Conference 2000: 439-450 (525 chỉ dẫn – ACM Digital Labrary , 1910 chỉ dẫn- Google Scholar) KPDL vi phạm tính riêng tư: Ví dụ November 7, 2012 • Gregory Piatetsky-Shapiro [Shap95]  Phát hiệnmẫu mua hàng ⇒ gửiquảng cáo quá mứctới khách hàng ⇒ phiền toái cho khách hàng  Hãng Lotus: Kế hoạch bán đĩa CD-ROM chứadữ liệu100triệuhộ gia đình (120 triệu khách hàng) tạo ra bão phản đối. • A. Divanis & V. S. Verykios [DV09], D. O’Leary [Leary95]  Danh tính cá nhân đượcchỉ dẫntừ dữ liệuhoặctrithức liên quan tớicá nhân bị tiếtlộ cho bên thứ ba không tin cậy. Ví dụ, tri thức về nhóm người có nguy cơ cao về bệnh tậtcóthể dẫntới tình huống ngườiquản lý có hành động buộcthôiviệcmộtnhânviêncókhả năng thuộc nhóm tương ứng vớimẫu nói trên  Bí mậtthương mạinhạycảmcủa doanh nghiệp bị tiếtlộ từ dữ liệuhoặc tri thức tạolợithế cho đốithủ cạnh tranh [Shap95] Gregory Piatetsky-Shapiro (1995). Guidelines for Eating of the Tree of Knowledge, or Knowledge Discovery in Databases vs. Personal Privacy, Experts Annual Index, 10(2): 46-47. [DV09] Aris Gkoulalas-Divanis, Vassilios S. Verykios (2009). An overview of privacy preserving data mining. ACM Crossroads 15(4) (2009) [Leary95] Daniel O'Leary (1995). Some Privacy Issues in Knowledge Discovery: OECD Personal Privacy Guidelines, Experts Annual Index, 10(2): 48-52. 11/7/2012 Hà Quang Thụy ‐ KTLab 8 Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN  KPDL vi phạm tính riêng tư: Ví dụ (tiếp) November 7, 2012 • Dự án Total Information Awareness (TIA) của Bộ Quốc phòng Mỹ có khai phá dữ liệu  Phản đốicủa the ACM U.S. Public Policy Committee (USACM) : TIA có thể tạorarủi ro an ninh (Security Risks), rủiroriêngtư (Privacy Risks), rủirokinhtế (Economic Risks), rủi ro cá nhân (Personal Risks)  Dự luật S.188/2003 nghiêm cấm khai phá dữ liệu được đề xuất • Lập luận của Hiệp hội KPDL ACM-SIGKDD [Kim03]  Mộtdự án PH tri thứclớn đòi hỏi nhiềucôngnghệ mà công nghệ KPDL chỉ là một trong sốđó  Công nghệ KPDL dựatrênnềntảng lâu đời phân tích thống kê và trí tuệ nhân tạo song chưa hoàn hảo. Tính không hoàn hảocủamọi công nghệ.  Để đảmbảo riêng thì cần phát triển nghiên cứuvàtriển khai ứng dụng về KPDL liên quan (đặcbiệtlàKPDLbảomậtdữ liệuvàbảovệ tính riêng tư: data security and privacy-preserving data mining) [Kim03] Won Kim (2003). “Data Mining” Is NOT Against Civil Liberties, ACM Special Interest Group on Knowledge Discovery and Data Mining, www.acm.org/sigkdd/, June 30, 2003. Quản lý danh tiếng November 7, 2012 • Quản lý danh tiếng (Reputation Management)  Thành phần quan hệ công chúng (Public Relations: PR) quan trọng  Hệ thống quản lý danh tiếng trựctuyến trên Internet  SEM (Search Engine Marketing) và SEO (Search Engine Optima)  Hệ thống tìm kiếmthựcthể o Nhàkhoahọc: ví dụ DBLP (http://www.informatik.uni-trier.de/~ley/db/), ArnetMiner (http://www.arnetminer.org/) o Người và doanh nghiệp: ví dụ zoominfo (http://www.zoominfo.com/), iSearch (http://www.isearch.com)  Xếphạng trường đạihọc 11/7/2012 Hà Quang Thụy ‐ KTLab 9 Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN  DBLP: http://www.informatik.uni- trier.de/~ley/pers/hd/n/Nguyen:Hung_Son.html November 7, 2012 Cung cấp thông tin cá nhân: Quảng bá thông tin về nhà khoa học ArnetMiner: http://arnetminer.org/person/hung-son- nguyen-670591.html November 7, 2012 Quáng bá thông tin có cung cấptiểusử cá nhân song đảmbảo tính riêng 11/7/2012 Hà Quang Thụy ‐ KTLab 10 Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN  Quản lý danh tiếng và bảo vệ tính riêng November 7, 2012 • Quản lý danh tiếng và Bảo vệ tính riêng  Quảng bá danh tiếng rộng đảmbảo tránh tiếtlộ riêng cao  ViệtNam:MCĐan Lê “Thông tin báo chí và bí mật đờitư: Ranh giới mong manh”. http://www.tienphong.vn/Phap-Luat/598230/Thong-tin-bao-chi-va-bi-mat-doi- tu-Ranh-gioi-mong-manh-tpp.html. “Tham luậncủaMCĐan Lê về việc báo chí xâm hại đờitư”. http://www.tienphong.vn/van-nghe/598438/Tham-luan-cua-MC-Dan-Le-ve- viec-bao-chi-xam-hai-doi-tu-tpp.html  “Ranh giớimỏng manh”:  Các quy định pháp luật: Cầnchitiếtquyđịnh tình huống vi phạmkhitiếtlộ riêng bấthợp pháp  Các hướng dẫnphẩmchất nghề nghiệp:  báo chí,  khai phá dữ liệu: Hướng dẫn OECD (the Organization for Economic Cooperation and Development) về dữ liệu riêng  … Hướng dẫn OECD về dữ liệu riêng November 7, 2012 • Daniel O'Leary [Leary95]  Nội dung hướng dẫncủaOECDvề dữ liệu riêng  Liên hệ với phát hiệntrithức • Tám (8) nguyên tắc OECD  1. Nguyên tắcgiớihạnthuthậpdữ liệuDữ liệu nên đượcthuđượchợp pháp và công bằng  Dữ liệurấtnhạycảm không nên nắmbắt  2. Nguyên tắcchấtlượng dữ liệuDữ liệu liên quan đếnmục đích dùng, chính xác, đầy đủ &cậpnhật  Biện pháp thích hợpcần được thi hành để đảmbảo nguyên tắc này  3. Nguyên tắc đặctả mục đích sử dụng dữ liệu  Mục đích dùng dữ liệucần đượcxácđịnh rõ ràng  Dữ liệucầnbị hủynếu chúng không còn phụcvụ mục đích [...]... (PPDM): Khai phá dữ liệu bảo vệ tính riêng Khái quát [VBFPS04…] “KPDL trong đó thuật toán khai phá dữ liệu phải giải quyết tác dụng phụ nảy sinh từ dữ liệu riêng (KPDL BVTRT An toàn thông tin) Cụ thể hơn [DV09…]: “KPDL có liên quan với các vấn đề riêng quan hệ quá trình khai phá dữ liệu, đặc biệt: (a) bảo vệ tính riêng trong phiên bản dữ liệu (b) giữ gìn tính riêng khi một tập các... hạn sử dụng dữ liệu Dùng dữ liệu cho các mục đích khác so với đặc tả chỉ có thể được tiến hành khi có đồng ý của đối ng dữ liệu hoặc của cơ quan pháp luật 5 Nguyên tắc bảo vệ dữ liệu Cần có thủ tục bảo vệ chống lại sự mất mát, hư hỏng, tiêu hủy, hoặc sử dụng lạm dụng dữ liệu 6 Nguyên tắc mở Cần thông báo mở về việc thu thập, lưu trữ và sử dụng dữ liệu cá nhân Phát hiện tri thức từ dữ liệu cần được... bảo vệ tính riêng tại các bên và khi kết hợp • Biến đổi dữ liệu Dùng đồ sửa đổi dữ liệu từ CSDL nguồn đồ sửa đổi dữ liệu cần phù hợp với chính sách bảo mật dữ liệu của tổ chức quản lý dữ liệu gây nhiễu (perturbation): 1 ⇔ 0 hoặc nhiễu khác chặn (blocking): thay giá trị thuộc tính bằng ký hiệu kiểu “?” tổng hợp/hợp nhất: nhóm một số giá trị thuộc tính vào một lớp thô tạo độ trừu ng tráo đổi:... cho đối ng dữ liệu Nguyên tắc mở: kiểm soát hoạt động phát hiện tri thức không phù hợp 7 Nguyên tắc sự tham gia của cá nhân Đối ng DL có quyền truy cập và phản đối dữ liệu liên quan đến họ 8 Nguyên tắc trách nhiệm thi hành Cần một cơ chế thi hành (bộ điều khiển) chịu trách nhiệm thi hành tất cả các nguyên tắc trên đây November 7, 2012 Khái niệm về PPDM • Khai phá dữ liệu bảo vệ tính riêng Privacy-Preserving... ng thích (Incentive Compatibility) Giao thức khuyến khích ng thích Mỗi bên tối đa lợi ích nếu làm theo giao thức mô tả trước Phát hiện bên gian lận hoặc bên chịu thiệt thòi November 7, 2012 Năm chiều tham chiếu PPDM [VBFPS04] • Phân tán dữ liệu Phân tán dọc – ngang – cả dọc và ngang Bảo vệ tính riêng cả tác nhân cung cấp dữ liệu lẫn tác nhân KPDL Nội dung chính: Xây dựng giao thức bảo vệ tính. .. dữ liệu hoặc luật Che giấu DL nguồn hoặc DL tổng hợp đa qua biến đổi Biến đổi theo chẩn đoán chính sách chính sách che giấu • Bảo vệ đặc trưng riêng Không biến đổi toàn bộ dữ liệu mà chỉ biến đổi thuộc tính/ đặc trưng trực tiếp/gián tiếp về tính riêng Đây là chiều được khuyến khích • Một thuật toán PPDM có thể tích hợp các chiều November 7, 2012 Phân loại phương pháp PPDM [VBFPS04] • Phương pháp... phát hành dữ liệu Hà Quang Thụy ‐ KTLab 14 Chuỗi seminar “An toàn thông tin” của Khoa CNTT, Trường ĐHCN, ĐHQGHN  11/7/2012 November 7, 2012 Năm chiều tham chiếu PPDM (tiếp) [VBFPS04] • Thuật toán KPDL bảo vệ tính riêng Thuật toán che giấu dữ liệu được bao gói như một thành phần của thuật toán KPDL Mạnh: Linh hoạt sửa đổi dữ liệu Yếu: Khó khăn thi hành “nhúng” biến đổi DL vào TT KPDL • Che giấu dữ. .. tính; không có cung vào + không /một số cung ra Nút trong: tên thuộc tính; có chính xác một cung vào và một số cung ra (gắn với điều kiện kiểm tra giá trị thuộc tính của nút) Lá : giá trị lớp; có chính xác một cung vào + không có cung ra Ví dụ: xem trang tiếp theo • Xây dựng cây quyết định Phương châm: “chia để trị”, “chia nhỏ và chế ngự” Mỗi nút ng ứng với một tập các ví dụ học Gốc: toàn bộ dữ liệu. .. November 7, 2012 Khai phá luật kết hợp và tập phổ biến: bộ • Cơ sở dữ liệu giao dịch (transaction database) Giao dịch: danh mục mặt hàng (mục: item) trong một phiếu mua hàng của khách hàng Giao dịch T là một tập mục Tập toàn bộ các mục I = {i1, i2, …, ik} “tất cả các mặt hàng” Một giao dịch T là một tập con của I: T ⊆ I Mỗi giao dịch T có một định danh là TID A là một tập mục A ⊆ I và T là một giao dịch:... (Trust Third Party Mode) Tin và nhờ cậy hoàn toàn vào một bên thứ ba Mô hình lý ng Bên thứ ba: thủ lĩnh / bên thứ ba khác • Mô hình nửa tin cậy (Semi-honest Model) Dựa trên giao thức truyền thông tin của thuật toán KPDL Mỗi bên tham gia thi hành bảo vệ tính riêng theo giao thức tự do sử dụng dữ liệu đầu vào nhận được (dữ liệu này đã được biến đổi tại nơi cung cấp) Mô hình phổ biến hiện thời [Vaidya04] . bộ về Khai phá dữ liệu  Sơ bộ về khai phá dữ liệubảovệ tính riêng tư  Tình hình nghiên cứuvề tính riêng tư November 7, 2012 1a. Sơ bộ về khai phá dữ liệu. 1.b. Khai phá dữ liệu bảo vệ tính riêng tư November 7, 2012 • Nhu cầu bảo vệ tính riêng tư [AS00]  Hầuhếtngườisử dụng web quan tâm bảovệ tính riêng tư 

Ngày đăng: 30/01/2013, 15:39

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan