喜马拉雅 PC端文章详情页顶部23-26

大数据,不乐观

大数据的广泛应用,或许会拉大中国与先进国家的差距。

大数据的热度开始逐渐起来,就仿佛几年前的云计算。

这将是一个根本性的变化。此前,我们的几乎所有研究、推理和假设,都是依赖于采样数据。虽然从统计学的角度来讲,采样分析的精确性随着采样随机性的增加而大幅提高,与样本数量的增加关系不大。但是保证采样的随机性本身就是一个巨大的挑战,同时采样会让我们忽视众多细节。所以,当我们有能力收集所有数据的时候,当“样本=总体”的时候,世界会展现出一个全新的样子。例如IBM把公司所有的财务数据和销售数据整合在一起的时候,就可以思考一下“中秋节送月饼是否对销售有促进作用”这样非常细节的问题。

但是,大数据虽然神奇,它也只是一个概念,能否释放出巨大的能量还受到诸多因素的限制。

最近我总是和朋友们谈起一个故事。话说林彪从带兵开始,身边就有个本子,每次打完仗,他就把战果记在上面,不厌其烦。不了解的人,还以为他以此为乐。

1948年辽沈战役打响后,无论战情如何紧急,多么疲惫,林彪依然每天坚持听军情汇报,而且对战报要求很细:俘虏要分清军官和士兵;缴获的枪支要统计出机枪、长枪、短枪;击毁的和还能使用的汽车要分出大小和类别,每份战报几乎都是千篇一律的枯燥数据。

1948年10月14日,东北野战军攻克锦州后,又挥师北上,与从沈阳出来增援的廖耀湘兵团20余万人迎头撞上,混战在一起,战局瞬息万变。一天深夜,值班参谋正读着一份遭遇战的战报,林彪听着听着,突然叫“停”。他问周围的人:“刚才念的在胡家窝棚那个战斗的缴获你们听到了吗?”周围的人满脸都是睡意和茫然,因为像这样的战斗每天都有几十起,只是枯燥的数字稍有不同。林彪见无人回答,便接连提出3个问题:“为什么那儿缴获的短枪与长枪的比例比其他的战斗略高?为什么那儿缴获和击毁的小车与大车的比例比其他的战场略高?为什么那儿俘获和击毙的军官与士兵的比例比一般歼敌略高?”

人们还没来得及思索,林彪已指着军用地图说:“我猜想……不,我断定!敌人的野战指挥所就在这儿!”随后,林彪命令全力追击从胡家窝棚逃走的那股敌人。廖耀湘刚刚还在庆幸自己在意外的遭遇战中幸免于难,很快就发现被漫山遍野的解放军团团围住,还不断有人高呼“矮胖子,白净脸,金丝眼镜湖南腔,不要放走廖耀湘”的顺口溜。压力如此之大,只好举手投降,辽沈战役就此尘埃落地。

这其实是个典型的大数据故事,说明了关于大数据的几个关键点:

第一,大数据并不神秘,古已有之;

第二,数据的收集最重要,但是一件长期且困难的事情;

第三,利用好大数据,依然需要敏锐的洞察和创新的思维。

对于中国企业来说,大数据的流行,挑战更大于机会。因为从文化来讲,中国历史上就不是习惯于用数字管理的国家,而美国人连飞机漆成什么颜色更容易被击落都会进行统计。这种意识上的差异,就造成了我们骨子里对于数据的重视程度远远不够,这会在数据的采集、利用和分析上,带来很多问题。

最直接的一个例子,在公开的美国政府网站Data.gov上,大约有超过40万各种原始数据文件,涵盖农业、金融、就业等近50个分类。美国官方称这么做的目的是“方便公众更便捷地获得联邦政府数据,并通过鼓励创新突破政府的围墙而创造性地使用这些数据”

这个差距就足够追赶了。

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持

喜马拉雅文章页评论上方

发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 我是一家美企的市场数据分析员。上市公司的数据创立,维护和更新。从微观说,通常一个公司的数据会分为近十个部门去做,正确率要去求极高。各个部门用不同系统,最后通过flow将数据自动整合到一个数据库中。,并且自动反应到终端产品的各个区域,相当极致。这样的差距,中外还是比较大的。

    回复 2013.05.04 · via pc
  • 就中国的体制来说,就不是依靠数据说话的,大部分都是一个人说了算,要改变这个观念,还有很长的路要走。

    回复 2013.05.04 · via pc
  • 中国政府对数据造假水平高

    回复 2013.05.04 · via pc
  • 人的素质不行数据再好也没用

    回复 2013.05.03 · via pc
  • 很多人鼓吹大数据的未来 认为结合强大的计算功能 能够开创出美好的未来.但是强大的计算能力并不意味着能发现数据之间的联系以及数据背后的现象 反而可能会被数据海洋所淹没。想起了黄爱东西对于科技的进步能造出人工智能机器人的一席话 “如果要把男性机器人做得跟真的一样,那么他们阴茎勃起的角度,应该与水平成20°——40°角,巧妙地刚好才阴道所呈的角度相同……阴茎需可测量阴道内的温度,阴道与阴茎的摩擦力、阴道壁对阴茎的压力,以及阴道分泌的滑润液体多寡,以便阴茎可能运输更多的血液到阴茎内,加强阴茎皮内刺激感受神经的程度……”

    回复 2013.05.03 · via pc
  • 我觉得过分的利用大数据,在数学上实际是一种倒退。

    回复 2013.05.03 · via pc
  • 大数据某种程度还处在概念可用的阶段

    回复 2013.05.19 · via pc
  • 我喜欢数据说事!

    回复 2013.05.11 · via pc
  • 很多概念古往今来都一直沿袭使用,只是没有为其寻得一个恰当的定义或称谓。大数据,乐不乐观,还要等时间定夺。此文,喜欢。

    回复 2013.05.10 · via pc
  • 从古到今,中国人研究的主要都是佛学之类较为飘渺的东西,数字可以说也就是随着经济发展才慢慢得到重视,所以大数据的研究还需要从业人员建立数据观念。对于大数据,我觉得还是可以持乐观态度,毕竟接受新事物是需要一定的时间的。

    回复 2013.05.08 · via pc
更多评论

快报

更多
53

扫描下载App