欢迎来到 黑吧安全网 聚焦网络安全前沿资讯,精华内容,交流技术心得!

大数据的当今怎样做好隐私的保护问题研究专题

来源:本站整理 作者:佚名 时间:2017-09-08 TAG: 我要投稿

本文概括了学术界和工业界对付用户隐衷掩护的尽力结果,此中紧张讲到了k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐衷),并对它们的优缺点结束了阐发。
数据 v.s. 隐衷
在大数据的期间,数据成为了科学研讨的基石。咱们在享用着保举算法、语音辨认、图象辨认、无人车驾驶等智能的技巧带来的方便的同时,数据在面前担负着驱动算法赓续优化迭代的脚色。在科学研讨、产物开发、数据地下的过程当中,算法必要网络、应用用户数据,在这过程当中数据就不可防止的裸露在外。历史上就有许多地下的数据裸露了用户隐衷的案例。
美国在线(AOL)是一家美国互联网办事公司,也是美国最大的互联网供给商之一。在 2006  年8月,为了学术研讨,AOL 地下了匿名的搜刮记载,此中包含  65 万个用户的数据,统共 20M 条查问记载。在这些数据中,用户的姓名被调换成为了一个个匿名的  ID,然则纽约时报经由过程这些搜刮记载,找到了 ID 匿名为 4417749的用户在实在天下中对应的人。ID 4417749 的搜刮记载里有对于“60岁的老年人”的成绩、“ Lilburn处所的景致”、另有“Arnold” 的搜刮字样。经由过程下面几条数据,纽约时报发明  Lilburn 只需14小我姓Arnold,末了颠末间接接洽这 14小我确认 ID 4417749 是一名62岁名字叫  Thelma Arnold的老奶奶。末了 AOL 紧迫撤下数据,发表声明道歉,然则曾经太晚了。因为隐衷泄漏变乱,AOL遭到了告状,终极补偿受影响用户总额高达五百万美元。
异样是 2006年,美国最大的影视公司之一 Netflix,举行了一个猜测算法的竞赛( Netflix Prize),竞赛哀求在地下数据上推想用户的片子评分 。Netflix  把数据中独一辨认用户的信息抹去,觉得如许便可以包管用户的隐衷。然则在 2007 年来自The University of Texas at Austin  的两位研讨人员表现经由过程接洽干系 Netflix 地下的数据和 IMDb(互联网片子数据库)网站上地下的记载便可以或许辨认出匿名后用户的身份。三年后,在2010年,Netflix 末了因为隐衷缘故原由发布结束这项竞赛,并是以遭到高额罚款,补偿金额共计九百万美元。
近几年各大公司均连续存眷用户的隐衷平安。比方苹果 在2016 年  6 月份的WWDC 大会上就提出了一项名为 Differential Privacy 的差分隐衷技巧。苹果宣称他能经由过程数据计算出用户群体的行动形式,然则却无奈获得每一个用户个别的数据。那末差分隐衷技巧又是怎样做的呢?
在大数据期间,若何能力包管咱们的隐衷呢?要答复这个成绩,咱们起首要晓得甚么是隐衷。
甚么是隐衷?
咱们常常评论辩论到隐衷泄漏、隐衷掩护,那末甚么是隐衷呢?举个例子,栖身在海淀区五道口的小明常常在网上购置电子产物,那小明的姓名、购置偏好和栖身地点 算不算是隐衷呢?如果某购物网站统计了用户的购物偏好并地下部门数据,地下的数据中表现北京海淀区五道口的用户更爱买电子产物,那末小明的隐衷能否被泄漏了呢?要弄清楚隐衷掩护,咱们先要评论辩论一下毕竟甚么是隐衷。
对付隐衷这个词,科学研讨上广泛接收的界说是“单个用户的某一些属性”,只需相符这一界说都可以或许被看作是隐衷。咱们在提“隐衷”的时刻,加倍夸大的是“单个用户”。那末,一群用户的某一些属性,可以或许觉得不是隐衷。咱们拿适才的例子来看,针对小明这个单个用户,“购置偏好”和“栖身地点”便是隐衷。如果地下的数听说住在五道口的小明爱买电子产物,那末这明显便是隐衷泄漏了。然则如果数据中只包含一个地区的人的购置偏好,就没有泄漏用户隐衷。如果进一步讲,人人都晓得小明住在海淀区五道口,那末是否是小明就爱买点此产物了呢?这种环境算不算事隐衷泄漏呢?谜底是不算,因为人人只是经由过程这个趋向推想,数据其实不表现小明必定爱买电子产物。
以是,从隐衷掩护的角度来讲,隐衷是针对单个用户的观点,地下群体用户的信息不算是隐衷泄漏,然则如果能从数据中能精确推想出个别的信息,那末就算是隐衷泄漏。
隐衷掩护的方法   
从信息期间开端,对于隐衷掩护的研讨就开端了。跟着数据赓续地增加,人们对隐衷愈来愈看重。咱们在评论辩论隐衷掩护的时刻包含两种环境。
第一种是公司为了学术研讨和数据交换凋谢用户数据,学术机构或许小我可以或许向数据库提议查问哀求,公司前往对应的数据时必要包管用户的隐衷。
第二种环境是公司作为办事供给商,为了进步办事质量,自动网络用户的数据,这些在客户端上网络的数据也必要包管隐衷性。学术界提出了多种掩护隐衷的方法和丈量隐衷能否泄漏的对象,比方k-anonymity(k-匿名化)、l-diversity(l-多样化)、t-closeness、 ε-differentialprivacy(差分隐衷)、同态加密(homomorphic encryption)、零常识证实(zero-knowledge proof)等等。本日紧张先容k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐衷)。 这些方法先从直观的角度去权衡一个地下数据的隐衷性,再到应用密码学、统计学等对象包管数据的隐衷性。
下面咱们逐一解读这四种隐衷掩护的方法:
k-anonymity(k-匿名化)
k-anonymity 是在 1998 年由 Latanya Sweeney 和 Pierangela Samarati 提出的一种数据匿名化方法。
咱们先看一下下面的这个表格:

 
咱们把要表格中的地下属性分为如下三类:
    -    Key attributes: 一样平常是个别的独一标示,好比说姓名、地点、德律风等等,这些内容必要在地下数据的时刻删掉。
    -    Quasi-identifier: 相似邮编、年纪、诞辰、性别等不是独一的,然则能赞助研讨人员接洽干系相干数据的标示。

[1] [2] [3] [4] [5]  下一页

【声明】:黑吧安全网(http://www.myhack58.com)登载此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,仅适于网络安全技术爱好者学习研究使用,学习中请遵循国家相关法律法规。如有问题请联系我们,联系邮箱admin@myhack58.com,我们会在最短的时间内进行处理。
  • 最新更新
    • 相关阅读
      • 本类热门
        • 最近下载