选择隐私,还是一个更好的世界?

MIT的研究显示,只需四个参照要素,就足以识别95%的手机用户的真实身份。假如世界没有了匿名数据,我们就安全了吗?何种规则和技术才能在保证数据匿名的前提下,实现数据的可用性?隐私的边界决定着未来网络世界的新规则。

钛媒体注:身在一个大数据时代,匿名数据是必然产物之一。然而但硬币总有另一面,匿名数据带来的麻烦可不小。前几日,新浪微博网友曝出搜索引擎会泄露支付宝用户的转账信息,引发各路评论。央视3·15对“cookie侵害用户隐私”的曝光,也让更多的大众用户开始关注这个有些专业的词汇。钛媒体的一周观察也综述了钛媒编辑部和众多外部来稿对于互联网隐私问题的关注。然而,依赖数据的时代中,信息基本上可以等同于空气、阳光和水,没有数据寸步难行;有了数据的大量存在,却必然陷入隐私和安全的悖论。匿名化数据到底令我们更加安全还是更加忧虑?到底要不要实名化?既然匿名数据也无法保证安全,那么全部实名化又会带来怎样的后果?GigaOm作者德瑞克·哈里斯结合MIT新近发布的报告,提出,未来真正应该考虑的是,何种规则和技术能够在保证数据匿名的前提下保持数据的可用性。钛媒体编译如下:

理论上,手机端产生的数据方便我们使用地图、交通应用等工具,而网络端的用户行为数据也成为一种资源,让网络研究者等人受益,他们可以从中了解和掌握人们的网络生活踪迹。可问题是,要使数据保持匿名简直太难了!作为用户唯一能够祈祷的,仅仅是希望对潜在的敏感数据不会被非法盗用。

而事实是,匿名化处理数据非常困难。就在上周一,麻省理工学院某研究室发布了的一份报告就是最好的佐证。这份报告名为《群体中的独立性:移动化趋势中的人类隐私权界限》 (Unique in the Crowd: The privacy bounds of human mobility),研究人员跟踪了某“欧洲小国”的150万人通过手机产生的数据,进行了为期15个月的研究,得出的结论是:

我们发现,人们移动化生活的踪迹差异化很高,具有高度的“唯一性”。只需找到四个参照要素,以相当粗糙的空间和时间辨识度,就足以识别和确认95%用户的真实身份。

换句话说,要想从来自接近一百万人的匿名数据库中提取出一个人的完整位置信息,你仅仅需要将ta定位在一个手机信号发射器方圆几百码的距离范围内,每次定位大概要花上1个小时左右,一年中实现四次定位就搞定了。而一旦这个人发布的几条Twitter就包含了有关他个人身份的零散信息,那么很可能提供了你所需的全部信息。

那么,在用户已经具有隐私保护意识的前提下,会怎么样呢?情况反而会更糟:

如果上述指标的信息辨识度降低,识别出某人的概率也会降低,不过没有你想象的那么坏。只要尽可能准确的提供你每次跟踪监测的指标范围,比如把时间维度降低到15小时的误差范围内;空间维度精确到15个相邻基站范围内,在上述被调查样本中,仍将有一半以上目标者的身份被精确识别。

而在实际中,你如果真的想尝试一下类似的跟踪行为,还得拿一些数据同匿名的移动数据相对照。研究人员在报告中写道,“为了实现二次确认,可以再加上一定的外围观察,包括任何可以公开获取的信息,如个人的家庭住址、工作地地址或含有位置信息的微博和图片。”

 

隐私泄露?这种事情我们干的还少么!

这个消息可能为那些钟情于网络数据世界的人敲响警钟。而事实上,数据泄露隐私的问题已经不是一天两天了。

自2007年Netflix将发布匿名用户数据的竞争纳入Netflix大赛以来,研究人员就已经可以通过众多关联至IMDB的影评信息,将这些公开的匿名数据“解禁”——即非匿名化;而2006年,美国在线出于研究的目的,发布了大量本应匿名化处理的搜索数据,结果,很快这些数据就被复制到公共网站上,导致人们从海量匿名身份证号码中,开始疯狂的识别搜索者的真实身份。

非数字化信息的例子也不胜枚举。MIT报告的作者就举了一个医疗方面的例子:在很多地区,当局为了统计行政管辖区内居民的健康记录,常常会调用选举人名单上选民的医疗数据;2007年,安全专家Brunce Schneier在发表在《连线》上的文章中,引用了一些人口普查数据(其中包括1990年的普查数据)并指出,87%的美国人可以通过地区邮政编码、性别和生日数据被识别出来。

当然,各种各样的个人健康数据监测设备也包含潜在的风险。在GigaOm上周的数据大会上,来自的CIA的CTO艾勒·亨特就向全世界观众宣布了一个令人恐慌的“发现”,即仅仅通过一个人的走路步态就可以推断出他的身份!听到诸如此类让人警惕的消息,恐怕人们今后对那些电子计步器等健康仪器都会望而却步了。

而在社交网络时代,任何形式的“去匿名化”行为都被无限放大。德克萨斯大学的研究人员就解码了Netflix的数据,他们认为,通过Netflix数据可以推测个人的政治立场,性取向以及其他性格特征。而现实中,我们在自己的Facebook、Twitter、Foursquare页面上,正不断地、主动的免费发布我们的个人数据。如果你想虚构出一个鲜活的虚拟人,通过盗取别人的姓名、照片、个人兴趣和住所信息等,用来模仿某个人、盗取身份或者参与某种见不得人的恶意行为,在现在这个时代简直是轻而易举。

 

选择隐私,还是一个更好的世界?

不过反过来,如果我们暂且放下对个人隐私的担忧,这些集合的匿名数据库反而拥有极高的价值。谷歌、苹果和INRIX等公司,已经能借助智能手机和车载设备完成地图绘制,还能跟踪人们在城市之间移动的方式,最终尽可能的缩短通勤时间、改善城市规划。社会学家们,可以获取谷歌和Facebook提供的数据,通过它们深入了解复杂的网络行为。类似Kaggle等预测分析平台,则为各行业的优化解决方案提供了支持,从商业流程到医疗保健无所不包。

而大量的匿名数据,也是基因研究领域的武器之一,无数高质量的数据让研究人员有望攻克癌症治疗的难题。由于每一例癌症患者各自的唯一性,研究者们希望借助汇集了基因排序的相关数据,来确定传统实验室工作无法完成的共性识别和样本研究。

大量数据的存在,使得数据挖掘公司大量涌现,这让形势变得更加复杂。很多企业的赚钱方式,就是基于用户个人数据推荐最喜欢的互联网服务。不论我们喜不喜欢,精准定位的广告都在为我们免费享受的服务买单,而如果要实现更好的广告效果,就需要更多的个人数据。

可以说,席卷全球的数据科学发展,其核心就在于串联起网络中碎片化的匿名数据,最终实现整体定义用户(消费者)形象的目的。

实际上,互联网企业已经太擅长让数据“去匿名化”,乃至于美国联邦贸易委员会(FAC)差一点就废除了“个人身份信息”(PII)的说法。在2010年公布的一份《互联网隐私报告》中,FAC称,该机构提供的所有指导性内容都可能适用于“那些收集数据的商业实体”,这些企业可以合理的链接到特定的消费者、电脑或其他设备进行数据收集。这一理念得到多个领域广大参与者的支持。他们声称,传统意义上PII与“非PII”的突出差别已经逐渐失去意义。由于技术革新,已经消费者有能力重新识别假定为匿名的数据。”

MIT专家们的观点是,

从下一步发展来看,关于位置信息的数据将越来越重要。未来,网络规则如何设计、信息技术如何发展,认识到个人隐私的界限将是至关重要的一点。

其他任何一类个人数据同样如此。为了得到比局部数据组合起来规模更大的数据,数据之间彼此参照分析相对更容易。在这种情况下,上述看法更是真知灼见。

但我们必须要保有疑问,那就是,何种规则和技术,才能在保证数据匿名的前提下保持数据的可用性——即让需要数据的人随时能够获取数据?隐私固然重要,然而,如果放弃那些唯有大规模匿名数据流可以提供理想解决方案的问题,这样机会成本是否值得?如果真正的匿名化无法实现,也许最好的方法就是在安全技术上加倍下注,确保有价值的数据(无论实名还是匿名)不被非法盗用。■

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

07:02

美股收评:三大指数涨跌不一,特斯拉跌超3%,热门中概股普涨

2024-04-18 22:59

波罗的海干散货运价指数创三周多以来新高

2024-04-18 22:53

3倍做多富时中国ETF涨超5%

2024-04-18 22:51

液化石油气期货主力日内跌幅达到2.01%,报4624元/吨

2024-04-18 22:48

现货黄金继续走低,短线下挫10美元,现报2370美元/盎司

2024-04-18 22:48

美联储威廉姆斯:完全没有感觉到降息紧迫性

2024-04-18 22:40

比特币触及64000美元,日内涨超5%

2024-04-18 22:32

比特币日内涨幅达3.57%,当前报63721.41美元

2024-04-18 22:28

美晨生态:公司拟出售赛石园林

2024-04-18 22:23

台积电预估二季度认列花莲地震相关损失30亿新台币

2024-04-18 22:22

海航集团(国际)在香港被提出清盘呈请

2024-04-18 22:12

万丰奥威:与特斯拉组建eVtol的公司已共同组建项目团队

2024-04-18 22:11

东方锆业:2023年净亏损7763.3万元

2024-04-18 22:04

宁夏大部降水持续,两部门联合发布山洪灾害橙色预警

2024-04-18 22:03

美国3月成屋销售总数年化419万户,预期420万户,前值438万户

2024-04-18 21:57

深城交:2023年净利润同比增加1.11%,拟10转增3派0.31元

2024-04-18 21:54

民政部养老服务司声明从未开展所谓“颐养家园建设”

2024-04-18 21:51

东方雨虹:2023年净利润同比增长7.16%

2024-04-18 21:51

半导体概念股美股盘初普遍下跌,台积电跌超4%

2024-04-18 21:51

美国国债收益率继续攀升,10年期国债收益率现报4.63%

扫描下载App