喜马拉雅 PC端文章详情页顶部23-26

大数据时代,让一群脑残为你选书

亚马逊早期雇佣了一群书评家为读者荐书,后来发现通过算法——一群对图书质量判断能力远不如专业人士的普通读者的口味的集合——推荐图书的转化率更高之后,亚马逊把书评家们都解雇了。

对“大数据”概念还搞不清的人可以松一口气了,如果你读过《大数据时代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),你会发现舍恩伯格(Viktor Mayer-Schönberger)对“大数据”的定义如此简单:所谓大数据(Big Data),就是大量的数据;它的反义词同样简单:小数据(Small Data),很少很少的数据。

相比于作者所著同样谈论大数据话题的《删除:大数据取舍之道》一书,《大数据时代》结构紧密,逻辑清晰,论证过程也更为严谨。本书在何为大数据、大数据有何典型特征、大数据的实际应用和未来以及大数据的隐忧等关键问题上,通过案例和通畅晓白的解释,梳理清楚了“大数据”这个看起来高深复杂但其实无处不在的概念。在舍恩伯格看来,以往我们因受限于工具而采用的抽样调查以及精准采样数据的分析方法需要革新,大数据时代是改变方法论和思维方式的过程。

大数据时代的到来,与信息数字化息息相关。在2000年的时候,以数字化形式存储的数据仅占全球数据量的四分之一,而到了2007年时,90%以上数据是数字化数据,剩下不到10%是存储在报纸、CD等介质上的模拟数据。我们知道,模拟数据在复制和传播过程中信息会失真、噪音叠加,比如一张纸连续复印三次之后,噪点越来越多,字迹越来越模糊,一盘音乐磁带连续翻录多次之后,令人厌烦的“嗞嗞”声越来越大。而二进制数字世界,是一个非黑即白的世界,要么1要么0,即使有噪点,灰色也会被识别黑色(1),浅白则被计算机处理为白(0),没有中间地带,也就没有了噪音的容身之处。信息在数字世界得以无损复制和传播,再加上不断廉价化的存储能力以及同时提高的计算能力,大量以前无法处理的数据,有了分析、解读它们的可能。

在模拟信息的世界,因为信息收集、信息复制、信息存储以及信息分析的工具既不够好,成本也极为高昂,我们只能收集极少量的数据(也即所谓的“结构化数据”)进行分析,由于条件所限,我们发明了统计学来通过尽可能少的数据,去推导、去证实尽可能重大的发现。当我们意识到我们已经拥有能够收集和处理大规模数据(也即所谓更多的“非结构化数据”)能力的时候,我们需要新的理念和工具去重新认识这个世界了。

新的理念运用于工具上的体现之一是光场相机Lytro。与其它数码相机不同的是,Lytro相机可以在拍摄完照片之后再对焦。因为在拍摄时,Lytro可以记录整个光场里所有的光,照片具体生成什么样,拍完之后根据需要再决定。——有没有发现这颠覆了我们做事的一贯逻辑?以往我们因为受制于工具或金钱,需要提前想好我们的目的,再去获取我们需要的信息。而大数据时代的思维方式则如Lytro的特性一样,先拍下来再说,需要什么样的照片,后期再处理。Lytro相机也算从胶片机过渡到数码相机交叠时代思维的延续,如果摄影技术不太好,先拍一堆片子再说,你总能挑出几张好的来。

对小数据而言,最重要的要求是减少错误,保证质量。而大数据对更糙的信息及冗余信息容忍度更高,也即当资源足够丰富且廉价的时候,可以先大量浪费,再来精准化,而不是预设精准的目标。

亚马逊早期雇佣了一群书评家为读者荐书,后来发现通过算法——一群对图书质量判断能力远不如专业人士的普通读者的口味的集合——推荐图书的转化率更高之后,亚马逊把书评家们都解雇了。由于自己多年积累被算法取代的愤怒,在被解雇之后,书评家发出这样的抱怨:(通过算法推荐)“那种感觉就像你和一群脑残在一起逛书店。”类似的故事也发生微软。微软机器翻译部门的统计学家们在茶余饭后闲聊中会说,每次一有语言学家离开他们团队,微软机器翻译质量就会变得更好一点。

从对信息质量的角度出发去观察,我们会发现大数据时代的特性的确越来越“脑残化”:它放弃原始数据的精确性,强调数据量的多和杂;它放弃因果关系的判断,强调相关关系;它放弃知其所以然(为什么),只需知其然(是什么)就可以了。

豆瓣阅读为什么给你推荐《中国合伙人》?背后的逻辑可能是你的朋友最近点了“想看”或“看过”。新浪微博为什么推荐李承鹏而不是李开复给你关注?背后的逻辑可能是你关注的人中更多人关注李承鹏。但为什么因为朋友喜欢,所以机器就会判定你也会喜欢呢?不知道。机器通过计算得知,如果你有很多朋友喜欢同一个事物,那么你喜欢这个事物的概率会大一些。可能对,也可能错。二者之间强相关,但不因果。

大数据最大的用途之一是预测。好的方面,它可以预测机票价格走势,为自费旅游者省钱;它能预测交通拥堵情况,帮助人们选择更好的时段和路线节省出行时间;它也可以像亚马逊做的那样,为你提供更准确的书单,帮你遇见更多好书。《麻省理工科技创业》曾报道说,英国伯明翰大学的一个研究团队甚至开发出一种算法,可以精确地预测你未来将要去哪里。

大多数人一般有规律的行为模式,但传统的预测算法——只通过用户本身的行为模式来进行预测,解决不了人们临时变更路线的情况,导致预测人们出行的平均误差高达1000米。伯明翰大学开发的算法可以通过追踪用户手机上的个人过往行为模式数据以及用户手机里的社交关系——当然,新型算法需要收集和分析大量个人信息。最后能预测用户在24小时之内会去什么地点,而平均误差减少到仅20米。

如此精准的研究结果让人惊喜——细想过后,可能给人带来更多的是惊讶,或惊恐。没有人希望自己的正常出行被别人预测——机器竟然比我自己还了解自己,我连三小时后我会干嘛都不知道呢!这提醒我们在大数据时代,我们将面临的隐私问题的严峻。

在小数据时代,数据采集者需要告知数据提供者其采集的数据用途为何;但在大数据时代,这样的信息管理方式已经失效。舍恩伯格在书中指出,“大数据”将颠覆隐私保护法当下以个人为中心的思想

比如许多公司采集用户数据时的目的与最后使用的目的往往不同,而且在未来,大数据的价值不再单纯来自它的基本用途,更多来于它的二次甚至多次利用。但有时候即使个人不同意,也会为公众带来隐私问题。

以Google街景项目为例,Google采集了街道上的几乎全部信息,如果有某个人不同意ta的数据显示在Google街景中,Google会将该信息模糊化处理。但当其他人的信息都完整呈现在街景图中时,“马赛克”(模糊化处理)的部分反倒成了焦点——本想隐藏掉的信息反倒成了此地无银三百两式的焦点。未来的个人数据采集与数据授权,需要替换掉目前的隐私保护方案。

舍恩伯格在书中举的更讽刺的案例则是,2007年,英国报纸London Evening Standard一篇报道称,乔治·奥威尔曾居住过的伦敦公寓外方圆183米范围内,有32架摄像机。如果奥威尔生活到现在,看到此情此景,他会做何感想? (本文首发纽约时报中文网) 

本文系作者 师北宸 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持

喜马拉雅文章页评论上方

发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 大数据带来的变化绝不可以归纳为“放弃因果关系”,正如@Giliani评论中所说,一些大数据应用表面上看是“越过原因,直接得到结果”,其实它所得出的结果正是因为包含了更多的原因。我们再来仔细分析亚马逊推荐书单的例子,由书评家向用户推荐图书,效果不好的根本原因在于“它没有考虑到影响用户购买图书的其他因素”,例如:从众心理,最精细的个人需求等等,这也是“小数据相比大数据”的劣势,数据不全(或者叫样本不全)就难以作出精准的判断。Lytro相机的例子跟大数据也没有什么直接关系,它只能说明“设备性能的提升能够帮助人们更简单的得到大数据”,以前需要拍摄几十张相片来挑选最好的一张,现在只需要在一张相片里面反复校对和挑选,它的主要作用是节约了一定的资源。文章前半段也说了,信息数字化是大数据时代到来的基础(可以直接理解为数据采集成本降低),大数据的直接作用就是“让人们从更广范围理解事件发生的真实(精确)原因”,这么看来,任何时候,数据规模的大小只能影响精确度,分析方法才是提高生产生活的关键所在。

    回复 2013.06.21 · via pc

快报

更多

07:06

美股收评:三大指数集体收跌,Meta跌超10%

2024-04-25 23:02

大商所、郑商所夜盘收盘,棉纱跌超1%

2024-04-25 22:58

市场消息:马斯克将于下周一接受传讯,参与推特此前的裁员和解谈判一案

2024-04-25 22:55

transcosmos集团基于AIGC大模型构建全网舆情监控体系

2024-04-25 22:54

宋城演艺:一季度净利润2.52亿元,同比增长317.33%

2024-04-25 22:51

“美国头号房企”铁狮门正式进军上海高端长租公寓市场

2024-04-25 22:46

《上古世纪:战争》即将进军全球游戏市场

2024-04-25 22:44

本田汽车将在加拿大修建110亿美元规模的电动汽车中心

2024-04-25 22:37

字节跳动:没有任何出售TikTok的计划

2024-04-25 22:37

韩国SK Networks设立人工智能实验室PhnyX Lab

2024-04-25 22:36

现货黄金短线走高8美元,现报2331.5美元/盎司

2024-04-25 22:35

中钢协姜维:当前钢企库存处于历史同期高位,尽快降库存是行业保效益的首要任务

2024-04-25 22:32

美国至4月19日当周EIA天然气库存增加920亿立方英尺

2024-04-25 22:30

三一集团参与新西兰普伦蒂湾的道路建设项目

2024-04-25 22:28

敷尔佳:一季度净利润1.52亿元,同比下降4.77%

2024-04-25 22:27

美股内地教育概念股普涨,新东方、好未来涨超4%

2024-04-25 22:20

美国3月成屋签约销售指数环比增长3.4%,预期0.8%

2024-04-25 22:19

惠而浦跌9%,第一季度净销售额、经调整每股盈利均下滑

2024-04-25 22:18

传祺华为合作官宣落地,2025发布全新车型

2024-04-25 22:13

深圳:大力培育发展新质生产力,强化科技创新和产业创新深度融合

2

扫描下载App