选择隐私,还是一个更好的世界?

摘要: MIT的研究显示,只需四个参照要素,就足以识别95%的手机用户的真实身份。假如世界没有了匿名数据,我们就安全了吗?何种规则和技术才能在保证数据匿名的前提下,实现数据的可用性?隐私的边界决定着未来网络世界的新规则。

钛媒体注:身在一个大数据时代,匿名数据是必然产物之一。然而但硬币总有另一面,匿名数据带来的麻烦可不小。前几日,新浪微博网友曝出搜索引擎会泄露支付宝用户的转账信息,引发各路评论。央视3·15对“cookie侵害用户隐私”的曝光,也让更多的大众用户开始关注这个有些专业的词汇。钛媒体的一周观察也综述了钛媒编辑部和众多外部来稿对于互联网隐私问题的关注。然而,依赖数据的时代中,信息基本上可以等同于空气、阳光和水,没有数据寸步难行;有了数据的大量存在,却必然陷入隐私和安全的悖论。匿名化数据到底令我们更加安全还是更加忧虑?到底要不要实名化?既然匿名数据也无法保证安全,那么全部实名化又会带来怎样的后果?GigaOm作者德瑞克·哈里斯结合MIT新近发布的报告,提出,未来真正应该考虑的是,何种规则和技术能够在保证数据匿名的前提下保持数据的可用性。钛媒体编译如下:

理论上,手机端产生的数据方便我们使用地图、交通应用等工具,而网络端的用户行为数据也成为一种资源,让网络研究者等人受益,他们可以从中了解和掌握人们的网络生活踪迹。可问题是,要使数据保持匿名简直太难了!作为用户唯一能够祈祷的,仅仅是希望对潜在的敏感数据不会被非法盗用。

而事实是,匿名化处理数据非常困难。就在上周一,麻省理工学院某研究室发布了的一份报告就是最好的佐证。这份报告名为《群体中的独立性:移动化趋势中的人类隐私权界限》 (Unique in the Crowd: The privacy bounds of human mobility),研究人员跟踪了某“欧洲小国”的150万人通过手机产生的数据,进行了为期15个月的研究,得出的结论是:

我们发现,人们移动化生活的踪迹差异化很高,具有高度的“唯一性”。只需找到四个参照要素,以相当粗糙的空间和时间辨识度,就足以识别和确认95%用户的真实身份。

换句话说,要想从来自接近一百万人的匿名数据库中提取出一个人的完整位置信息,你仅仅需要将ta定位在一个手机信号发射器方圆几百码的距离范围内,每次定位大概要花上1个小时左右,一年中实现四次定位就搞定了。而一旦这个人发布的几条Twitter就包含了有关他个人身份的零散信息,那么很可能提供了你所需的全部信息。

那么,在用户已经具有隐私保护意识的前提下,会怎么样呢?情况反而会更糟:

如果上述指标的信息辨识度降低,识别出某人的概率也会降低,不过没有你想象的那么坏。只要尽可能准确的提供你每次跟踪监测的指标范围,比如把时间维度降低到15小时的误差范围内;空间维度精确到15个相邻基站范围内,在上述被调查样本中,仍将有一半以上目标者的身份被精确识别。

而在实际中,你如果真的想尝试一下类似的跟踪行为,还得拿一些数据同匿名的移动数据相对照。研究人员在报告中写道,“为了实现二次确认,可以再加上一定的外围观察,包括任何可以公开获取的信息,如个人的家庭住址、工作地地址或含有位置信息的微博和图片。”

 

隐私泄露?这种事情我们干的还少么!

这个消息可能为那些钟情于网络数据世界的人敲响警钟。而事实上,数据泄露隐私的问题已经不是一天两天了。

自2007年Netflix将发布匿名用户数据的竞争纳入Netflix大赛以来,研究人员就已经可以通过众多关联至IMDB的影评信息,将这些公开的匿名数据“解禁”——即非匿名化;而2006年,美国在线出于研究的目的,发布了大量本应匿名化处理的搜索数据,结果,很快这些数据就被复制到公共网站上,导致人们从海量匿名身份证号码中,开始疯狂的识别搜索者的真实身份。

非数字化信息的例子也不胜枚举。MIT报告的作者就举了一个医疗方面的例子:在很多地区,当局为了统计行政管辖区内居民的健康记录,常常会调用选举人名单上选民的医疗数据;2007年,安全专家Brunce Schneier在发表在《连线》上的文章中,引用了一些人口普查数据(其中包括1990年的普查数据)并指出,87%的美国人可以通过地区邮政编码、性别和生日数据被识别出来。

当然,各种各样的个人健康数据监测设备也包含潜在的风险。在GigaOm上周的数据大会上,来自的CIA的CTO艾勒·亨特就向全世界观众宣布了一个令人恐慌的“发现”,即仅仅通过一个人的走路步态就可以推断出他的身份!听到诸如此类让人警惕的消息,恐怕人们今后对那些电子计步器等健康仪器都会望而却步了。

而在社交网络时代,任何形式的“去匿名化”行为都被无限放大。德克萨斯大学的研究人员就解码了Netflix的数据,他们认为,通过Netflix数据可以推测个人的政治立场,性取向以及其他性格特征。而现实中,我们在自己的Facebook、Twitter、Foursquare页面上,正不断地、主动的免费发布我们的个人数据。如果你想虚构出一个鲜活的虚拟人,通过盗取别人的姓名、照片、个人兴趣和住所信息等,用来模仿某个人、盗取身份或者参与某种见不得人的恶意行为,在现在这个时代简直是轻而易举。

 

选择隐私,还是一个更好的世界?

不过反过来,如果我们暂且放下对个人隐私的担忧,这些集合的匿名数据库反而拥有极高的价值。谷歌、苹果和INRIX等公司,已经能借助智能手机和车载设备完成地图绘制,还能跟踪人们在城市之间移动的方式,最终尽可能的缩短通勤时间、改善城市规划。社会学家们,可以获取谷歌和Facebook提供的数据,通过它们深入了解复杂的网络行为。类似Kaggle等预测分析平台,则为各行业的优化解决方案提供了支持,从商业流程到医疗保健无所不包。

而大量的匿名数据,也是基因研究领域的武器之一,无数高质量的数据让研究人员有望攻克癌症治疗的难题。由于每一例癌症患者各自的唯一性,研究者们希望借助汇集了基因排序的相关数据,来确定传统实验室工作无法完成的共性识别和样本研究。

大量数据的存在,使得数据挖掘公司大量涌现,这让形势变得更加复杂。很多企业的赚钱方式,就是基于用户个人数据推荐最喜欢的互联网服务。不论我们喜不喜欢,精准定位的广告都在为我们免费享受的服务买单,而如果要实现更好的广告效果,就需要更多的个人数据。

可以说,席卷全球的数据科学发展,其核心就在于串联起网络中碎片化的匿名数据,最终实现整体定义用户(消费者)形象的目的。

实际上,互联网企业已经太擅长让数据“去匿名化”,乃至于美国联邦贸易委员会(FAC)差一点就废除了“个人身份信息”(PII)的说法。在2010年公布的一份《互联网隐私报告》中,FAC称,该机构提供的所有指导性内容都可能适用于“那些收集数据的商业实体”,这些企业可以合理的链接到特定的消费者、电脑或其他设备进行数据收集。这一理念得到多个领域广大参与者的支持。他们声称,传统意义上PII与“非PII”的突出差别已经逐渐失去意义。由于技术革新,已经消费者有能力重新识别假定为匿名的数据。”

MIT专家们的观点是,

从下一步发展来看,关于位置信息的数据将越来越重要。未来,网络规则如何设计、信息技术如何发展,认识到个人隐私的界限将是至关重要的一点。

其他任何一类个人数据同样如此。为了得到比局部数据组合起来规模更大的数据,数据之间彼此参照分析相对更容易。在这种情况下,上述看法更是真知灼见。

但我们必须要保有疑问,那就是,何种规则和技术,才能在保证数据匿名的前提下保持数据的可用性——即让需要数据的人随时能够获取数据?隐私固然重要,然而,如果放弃那些唯有大规模匿名数据流可以提供理想解决方案的问题,这样机会成本是否值得?如果真正的匿名化无法实现,也许最好的方法就是在安全技术上加倍下注,确保有价值的数据(无论实名还是匿名)不被非法盗用。■

本文系钛媒体原创,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

钛媒体
钛媒体

中国领先的财经科技信息服务提供商。关注微信公众号:钛媒体(ID:taimeiti), 旨在为创新、创业、创造人群,提供最高效、最专业,最具价值的信息交流平台,和相关的职业与资本服务。我们拥有行业内最高质量的内容、作者(意见领袖)及产品线,通过连接最具创造力的创新、创业及变革者,打造中国最大的线上影响力社群。

评论(31

  • ChesapeakeSon ChesapeakeSon 2014-05-21 10:03 via weibo

    这是小学生作文么?堆了那么多主观判断和假设却几乎找不到论据支撑。而且除了声讨运营商的邪恶几乎没有给出符合逻辑对策和建议。

    0
    0
    回复
  • 王阿凤马甲 王阿凤马甲 2013-04-28 03:30 via weibo

    //@潘军宝-TMT: @panjunbao

    0
    0
    回复
  • 2X清宁 2X清宁 2013-04-27 07:45 via weibo

    //@心脑散热器: 如果你腿上绑上两个手机的话*(手机上有加速度计),理论上在一个几百人的数据库中身份识别率可以达到90%以上。

    0
    0
    回复
  • 大魔王千鸟要 大魔王千鸟要 2013-04-27 01:15 via weibo

    //@潘军宝-TMT: @panjunbao

    0
    0
    回复
  • cs神小银 cs神小银 2013-04-27 01:15 via weibo

    //@潘军宝-TMT: @panjunbao

    0
    0
    回复
  • 宝贝冢本天满 宝贝冢本天满 2013-04-26 02:25 via weibo

    //@心脑散热器: 如果你腿上绑上两个手机的话*(手机上有加速度计),理论上在一个几百人的数据库中身份识别率可以达到90%以上。

    0
    0
    回复
  • 吴晓辉2013 吴晓辉2013 2013-04-26 02:25 via weibo

    //@心脑散热器: 如果你腿上绑上两个手机的话*(手机上有加速度计),理论上在一个几百人的数据库中身份识别率可以达到90%以上。

    0
    0
    回复
  • 11工管问筠 11工管问筠 2013-04-22 03:00 via weibo

    //@潘军宝-TMT: @panjunbao

    0
    0
    回复
  • 沈继军1314 沈继军1314 2013-04-21 02:10 via weibo

    //@心脑散热器: 如果你腿上绑上两个手机的话*(手机上有加速度计),理论上在一个几百人的数据库中身份识别率可以达到90%以上。

    0
    0
    回复
  • honey伊集院丽 honey伊集院丽 2013-04-21 00:39 via weibo

    //@潘军宝-TMT: @panjunbao

    0
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈