大数据时代,让一群脑残为你选书

摘要: 亚马逊早期雇佣了一群书评家为读者荐书,后来发现通过算法——一群对图书质量判断能力远不如专业人士的普通读者的口味的集合——推荐图书的转化率更高之后,亚马逊把书评家们都解雇了。

大数据

对“大数据”概念还搞不清的人可以松一口气了,如果你读过《大数据时代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),你会发现舍恩伯格(Viktor Mayer-Schönberger)对“大数据”的定义如此简单:所谓大数据(Big Data),就是大量的数据;它的反义词同样简单:小数据(Small Data),很少很少的数据。

相比于作者所著同样谈论大数据话题的《删除:大数据取舍之道》一书,《大数据时代》结构紧密,逻辑清晰,论证过程也更为严谨。本书在何为大数据、大数据有何典型特征、大数据的实际应用和未来以及大数据的隐忧等关键问题上,通过案例和通畅晓白的解释,梳理清楚了“大数据”这个看起来高深复杂但其实无处不在的概念。在舍恩伯格看来,以往我们因受限于工具而采用的抽样调查以及精准采样数据的分析方法需要革新,大数据时代是改变方法论和思维方式的过程。

大数据时代的到来,与信息数字化息息相关。在2000年的时候,以数字化形式存储的数据仅占全球数据量的四分之一,而到了2007年时,90%以上数据是数字化数据,剩下不到10%是存储在报纸、CD等介质上的模拟数据。我们知道,模拟数据在复制和传播过程中信息会失真、噪音叠加,比如一张纸连续复印三次之后,噪点越来越多,字迹越来越模糊,一盘音乐磁带连续翻录多次之后,令人厌烦的“嗞嗞”声越来越大。而二进制数字世界,是一个非黑即白的世界,要么1要么0,即使有噪点,灰色也会被识别黑色(1),浅白则被计算机处理为白(0),没有中间地带,也就没有了噪音的容身之处。信息在数字世界得以无损复制和传播,再加上不断廉价化的存储能力以及同时提高的计算能力,大量以前无法处理的数据,有了分析、解读它们的可能。

在模拟信息的世界,因为信息收集、信息复制、信息存储以及信息分析的工具既不够好,成本也极为高昂,我们只能收集极少量的数据(也即所谓的“结构化数据”)进行分析,由于条件所限,我们发明了统计学来通过尽可能少的数据,去推导、去证实尽可能重大的发现。当我们意识到我们已经拥有能够收集和处理大规模数据(也即所谓更多的“非结构化数据”)能力的时候,我们需要新的理念和工具去重新认识这个世界了。

新的理念运用于工具上的体现之一是光场相机Lytro。与其它数码相机不同的是,Lytro相机可以在拍摄完照片之后再对焦。因为在拍摄时,Lytro可以记录整个光场里所有的光,照片具体生成什么样,拍完之后根据需要再决定。——有没有发现这颠覆了我们做事的一贯逻辑?以往我们因为受制于工具或金钱,需要提前想好我们的目的,再去获取我们需要的信息。而大数据时代的思维方式则如Lytro的特性一样,先拍下来再说,需要什么样的照片,后期再处理。Lytro相机也算从胶片机过渡到数码相机交叠时代思维的延续,如果摄影技术不太好,先拍一堆片子再说,你总能挑出几张好的来。

对小数据而言,最重要的要求是减少错误,保证质量。而大数据对更糙的信息及冗余信息容忍度更高,也即当资源足够丰富且廉价的时候,可以先大量浪费,再来精准化,而不是预设精准的目标。

亚马逊早期雇佣了一群书评家为读者荐书,后来发现通过算法——一群对图书质量判断能力远不如专业人士的普通读者的口味的集合——推荐图书的转化率更高之后,亚马逊把书评家们都解雇了。由于自己多年积累被算法取代的愤怒,在被解雇之后,书评家发出这样的抱怨:(通过算法推荐)“那种感觉就像你和一群脑残在一起逛书店。”类似的故事也发生微软。微软机器翻译部门的统计学家们在茶余饭后闲聊中会说,每次一有语言学家离开他们团队,微软机器翻译质量就会变得更好一点。

从对信息质量的角度出发去观察,我们会发现大数据时代的特性的确越来越“脑残化”:它放弃原始数据的精确性,强调数据量的多和杂;它放弃因果关系的判断,强调相关关系;它放弃知其所以然(为什么),只需知其然(是什么)就可以了。

豆瓣阅读为什么给你推荐《中国合伙人》?背后的逻辑可能是你的朋友最近点了“想看”或“看过”。新浪微博为什么推荐李承鹏而不是李开复给你关注?背后的逻辑可能是你关注的人中更多人关注李承鹏。但为什么因为朋友喜欢,所以机器就会判定你也会喜欢呢?不知道。机器通过计算得知,如果你有很多朋友喜欢同一个事物,那么你喜欢这个事物的概率会大一些。可能对,也可能错。二者之间强相关,但不因果。

大数据最大的用途之一是预测。好的方面,它可以预测机票价格走势,为自费旅游者省钱;它能预测交通拥堵情况,帮助人们选择更好的时段和路线节省出行时间;它也可以像亚马逊做的那样,为你提供更准确的书单,帮你遇见更多好书。《麻省理工科技创业》曾报道说,英国伯明翰大学的一个研究团队甚至开发出一种算法,可以精确地预测你未来将要去哪里。

大多数人一般有规律的行为模式,但传统的预测算法——只通过用户本身的行为模式来进行预测,解决不了人们临时变更路线的情况,导致预测人们出行的平均误差高达1000米。伯明翰大学开发的算法可以通过追踪用户手机上的个人过往行为模式数据以及用户手机里的社交关系——当然,新型算法需要收集和分析大量个人信息。最后能预测用户在24小时之内会去什么地点,而平均误差减少到仅20米。

如此精准的研究结果让人惊喜——细想过后,可能给人带来更多的是惊讶,或惊恐。没有人希望自己的正常出行被别人预测——机器竟然比我自己还了解自己,我连三小时后我会干嘛都不知道呢!这提醒我们在大数据时代,我们将面临的隐私问题的严峻。

在小数据时代,数据采集者需要告知数据提供者其采集的数据用途为何;但在大数据时代,这样的信息管理方式已经失效。舍恩伯格在书中指出,“大数据”将颠覆隐私保护法当下以个人为中心的思想

比如许多公司采集用户数据时的目的与最后使用的目的往往不同,而且在未来,大数据的价值不再单纯来自它的基本用途,更多来于它的二次甚至多次利用。但有时候即使个人不同意,也会为公众带来隐私问题。

以Google街景项目为例,Google采集了街道上的几乎全部信息,如果有某个人不同意ta的数据显示在Google街景中,Google会将该信息模糊化处理。但当其他人的信息都完整呈现在街景图中时,“马赛克”(模糊化处理)的部分反倒成了焦点——本想隐藏掉的信息反倒成了此地无银三百两式的焦点。未来的个人数据采集与数据授权,需要替换掉目前的隐私保护方案。

舍恩伯格在书中举的更讽刺的案例则是,2007年,英国报纸London Evening Standard一篇报道称,乔治·奥威尔曾居住过的伦敦公寓外方圆183米范围内,有32架摄像机。如果奥威尔生活到现在,看到此情此景,他会做何感想? (本文首发纽约时报中文网) 

本文系作者 师北宸 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

师北宸
师北宸

师北宸,正阳新媒体首席内容官,曾任凤凰科技主编、LinkedIn中国公关经理。《彭博商业周刊/中文版》、腾讯大家等媒体科技专栏作家。微信公众号:「数字弥母」,ID:digital_meme。联系方式:beichenshi@gmail.com

评论(20

  • 星子的美丽 星子的美丽 2013-06-24 11:34 via weibo

    专业制造美丽

    0
    0
    回复
  • 黑喵 黑喵 回复黑喵 2013-06-21 18:25 via pc

    要理解大数据的作用,还得先要理解数据或者事件分析结果“准确度和效率的关系”。一个用户最终会购买哪本图书?这取决于诸多因素的共同作用,大数据时代让亚马逊们很容易地采集到用户的诸多详尽数据,这让它的图书推荐服务的准确度比之前更高。那么让我们换个角度来看待这个问题,如果我们可以不计代价的去采集用户的详细信息,应该也同样可以分析出更高准确度的结果,但这就涉及到效率的问题。我们做任何事情都要考虑成本和收益的对比,在大数据时代之前花费大量的成本去搜集用户详细信息用来完善网站的推荐功能,这样做值不值得?亚马逊们肯定有自己的确定答案。总结来说大数据可以看作是一种客观的必然现象(它不是某人发明出来的),而“分析方法”之类能够提高人们生产生活效率的东西才是真正的核心所在。

    0
    0
    查看对话
    回复
  • 黑喵 黑喵 2013-06-21 17:56 via pc

    大数据带来的变化绝不可以归纳为“放弃因果关系”,正如@Giliani评论中所说,一些大数据应用表面上看是“越过原因,直接得到结果”,其实它所得出的结果正是因为包含了更多的原因。我们再来仔细分析亚马逊推荐书单的例子,由书评家向用户推荐图书,效果不好的根本原因在于“它没有考虑到影响用户购买图书的其他因素”,例如:从众心理,最精细的个人需求等等,这也是“小数据相比大数据”的劣势,数据不全(或者叫样本不全)就难以作出精准的判断。Lytro相机的例子跟大数据也没有什么直接关系,它只能说明“设备性能的提升能够帮助人们更简单的得到大数据”,以前需要拍摄几十张相片来挑选最好的一张,现在只需要在一张相片里面反复校对和挑选,它的主要作用是节约了一定的资源。文章前半段也说了,信息数字化是大数据时代到来的基础(可以直接理解为数据采集成本降低),大数据的直接作用就是“让人们从更广范围理解事件发生的真实(精确)原因”,这么看来,任何时候,数据规模的大小只能影响精确度,分析方法才是提高生产生活的关键所在。

    0
    0
    回复
  • 布衣momo 布衣momo 2013-06-21 08:12 via weibo

    海量脑残推荐的陆琪表示不服~

    0
    0
    回复
  • 企鹅花花 企鹅花花 2013-06-21 07:42 via weibo

    转发微博

    0
    0
    回复
  • 康买星空联盟牙科学院 康买星空联盟牙科学院 2013-06-21 06:13 via weibo

    昨天和#上海宣宇#的郑总和#杭州牙科医院#的董老师探讨中国牙科发展,就讨论了以#大数据#为核心,发展中国的智慧牙科!改变目前畸形低效率的牙科现状!当然第一步还是从牙科培训和#洽谈iPad#入手!@牙医陈艺 ,你责任众大啊

    0
    0
    回复
  • 简瑞爹 简瑞爹 2013-06-21 06:02 via weibo

    转发微博

    0
    0
    回复
  • 林克复 林克复 2013-06-21 01:46 via weibo

    这种应用在东汉末年就有了,据历史记载:「三个臭皮匠,顶个诸葛亮」

    0
    0
    回复
  • 淇淇哎 淇淇哎 2013-06-21 01:31 via weibo

    回复@-25笔笔-:记得喝凉水不然会上火

    0
    0
    回复
  • 张江IT人 张江IT人 2013-06-21 01:31 via weibo

    每一个人每一个物体都已经成为大数据中的一部分,那还要人干嘛

    0
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈