For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
随着互联网的不断发展,越来越多的用户都将自己的个人信息上传到了互联网之中,但是由于网络安全意识不到位等问题,经常我们都会听到关于个人信息安全泄露的问题。
今天,我们就一起来了解和学习一下,大数据时代下的个人信息是如何被保护的。下面我们就开始今天的主要内容吧。
数据v.s.隐私
在大数据的时代,数据成为了科学研究的基石。我们在享受着推荐算法、语音识别、图像识别、无人车驾驶等智能的技术带来的便利的同时,数据在背后担任着驱动算法不断优化迭代的角色。在科学研究、产品开发、数据公开的过程中,算法需要收集、使用用户数据,在这过程中数据就不可避免的暴露在外。历史上就有很多公开的数据暴露了用户隐私的案例。
美国在线(AOL)是一家美国互联网服务公司,也是美国最大的互联网提供商之一。在2006年8月,为了学术研究,AOL公开了匿名的搜索记录,其中包括65万个用户的数据,总共20M条查询记录。在这些数据中,用户的姓名被替换成了一个个匿名的ID,但是纽约时报通过这些搜索纪录,找到了ID匿名为4417749的用户在真实世界中对应的人。ID4417749的搜索记录里有关于“60岁的老年人”的问题、“Lilburn地方的风景”、还有“Arnold”的搜索字样。通过上面几条数据,纽约时报发现Lilburn只有14个人姓Arnold,最后经过直接联系这14个人确认ID4417749是一位62岁名字叫ThelmaArnold的老奶奶。最后AOL紧急撤下数据,发表声明致歉,但是已经太晚了。因为隐私泄露事件,AOL遭到了起诉,最终赔偿受影响用户总额高达五百万美元。
同样是2006年,美国最大的影视公司之一Netflix,举办了一个预测算法的比赛(NetflixPrize),比赛要求在公开数据上推测用户的电影评分。Netflix把数据中唯一识别用户的信息抹去,认为这样就能保证用户的隐私。但是在2007年来自TheUniversityofTexasatAustin的两位研究人员表示通过关联Netflix公开的数据和IMDb(互联网电影数据库)网站上公开的纪录就能够识别出匿名后用户的身份。三年后,在2010年,Netflix最后因为隐私原因宣布停止这项比赛,并因此受到高额罚款,赔偿金额总计九百万美元。
近几年各大公司均持续关注用户的隐私安全。例如苹果在2016年6月份的WWDC大会上就提出了一项名为DifferentialPrivacy的差分隐私技术。苹果声称他能通过数据计算出用户群体的行为模式,但是却无法获得每个用户个体的数据。那么差分隐私技术又是怎么做的呢?
在大数据时代,如何才能保证我们的隐私呢?要回答这个问题,我们首先要知道什么是隐私。
什么是隐私?
我们经常谈论到隐私泄漏、隐私保护,那么什么是隐私呢?举个例子,居住在海淀区五道口的小明经常在网上购买电子产品,那小明的姓名、购买偏好和居住地址算不算是隐私呢?如果某购物网站统计了用户的购物偏好并公开部分数据,公开的数据中显示北京海淀区五道口的用户更爱买电子产品,那么小明的隐私是否被泄漏了呢?要弄清楚隐私保护,我们先要讨论一下究竟什么是隐私。
对于隐私这个词,科学研究上普遍接受的定义是“单个用户的某一些属性”,只要符合这一定义都可以被看做是隐私。我们在提“隐私”的时候,更加强调的是“单个用户”。那么,一群用户的某一些属性,可以认为不是隐私。我们拿刚才的例子来看,针对小明这个单个用户,“购买偏好”和“居住地址”就是隐私。如果公开的数据说住在五道口的小明爱买电子产品,那么这显然就是隐私泄漏了。但是如果数据中只包含一个区域的人的购买偏好,就没有泄露用户隐私。如果进一步讲,大家都知道小明住在海淀区五道口,那么是不是小明就爱买点此产品了呢?这种情况算不算事隐私泄漏呢?答案是不算,因为大家只是通过这个趋势推测,数据并不显示小明一定爱买电子产品。
所以,从隐私保护的角度来说,隐私是针对单个用户的概念,公开群体用户的信息不算是隐私泄漏,但是如果能从数据中能准确推测出个体的信息,那么就算是隐私泄漏。
隐私保护的方法
从信息时代开始,关于隐私保护的研究就开始了。随着数据不断地增长,人们对隐私越来越重视。我们在讨论隐私保护的时候包括两种情况。
第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。
第二种情况是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。学术界提出了多种保护隐私的方法和测量隐私是否泄露的工具,例如k-anonymity(k-匿名化)、l-diversity(l-多样化)、t-closeness、ε-differentialprivacy(差分隐私)、同态加密(homomorphicencryption)、零知识证明(zero-knowledgeproof)等等。今天主要介绍k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness和ε-differentialprivacy(差分隐私)。这些方法先从直观的角度去衡量一个公开数据的隐私性,再到使用密码学、统计学等工具保证数据的隐私性。
作者:孙茗珅 韦韬
达内集团,发展15年,40万学员成功就业于80000家企业,推荐就业。就业优势无可比拟!申请先就业后付款,0基础入学,免费试听60多个实战项目,老师带你做全国145家实训校区!<姓名+电话>申请太原达内课程大讲堂免费试学的机会!限额40人先到先得!
【免责声明】:本内容转载于网络,转载目的在于传递最新信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。