文章摘要:谷歌图片搜索正在变得越来越好用——这样的进步很大程度上可以归因于谷歌专门为此开发的机器学习系统。如我们所料,Google的软件架构天才Jeff Dean为这个系统作出了相当多的自己的贡献。
我们常常会问这样一个问题:“谁将成为大数据时代的‘谷歌’?” 而唯一看起来令人能够信服的答案是,依然还是谷歌。没错,谷歌从表面上来看,只是一家提供web服务的企业;可是谷歌早在十多年前,就已经站在行业前沿,试图利用数据来构建产品了。而且他们在这一领域前进的脚步看起来丝毫没有停下来的迹象。
【向楠/钛媒编译】谷歌搜索,谷歌广告,谷歌翻译,Play 音乐,谷歌趋势,以及谷歌更多的其他产品,都无法离开海量数据的支撑而存在。但这些数据本身还不足以铸就伟大的产品——相应的,数据分析的过程必须高效而可靠,并且逐渐变得更加智能化。借助强大的基础设施和优秀的信息系统,这一切成为了现实——而这也正是谷歌最为自豪的领域之一。
就在本周三,这家公司再一次向世人大显身手。谷歌在一篇博客中揭示了他们提高用户图片搜索服务质量的秘诀:他们为此专门在搜索系统中通过“训练”建立了新模型。谷歌在下文的详细解释了他们最终发现的解决方案(来自于ImageNet竞赛的获胜团队),以及建模过程的来龙去脉:
“我们构建并训练神经模型的方法,与获胜队伍使用软件系统训练由Jeff Dean和Andrew Ng主导谷歌开发的大型神经网络的方法是相似的。这些模型在评估中给我们留下了十分深刻的印象。根据我们的测试结果,我们发现使用这种方法的平均准确率几乎是之前尝试的其他方式的两倍。”“是什么带来了目前的成功?与过去不同的是,我们不论在计算机性能还是在算法上,都有了长足的进步。首先,计算机的性能正变得越来越强,这让我们使用更多数据来训练一个规模更大的神经网络成为了可能。十年之前,即使只在一张图片上运行如此复杂的神经网络也是一个大任务;而现在我们已经可以将其运行在超过10亿张图片之上了。其次,新的神经网络训练技术也使我们实现规模更大、层次更深的神经网络成为了可能,而这对图片识别来说是必需的。”
毫无疑问,谷歌已经实现了训练大规模神经网络的系统。意料之中的是,Jeff Dean也参与其中。
我也相信,Dean将是很快就要召开的Structure大会(于6月19日到20日在旧金山举行)中最耀眼的明星。届时,我准备坐在他身边和他聊聊谷歌当前构建出的很棒的系统,以及未来还将推出的创新成果。或许我们还会聊到假如成为互联网上的春哥(原文:Chunk Norris)之后,生活会变成什么模样。
从工程学的角度来说,Dean也是web网络不长的历史中最重要的人物之一。他协助发明了MapReduce——这是谷歌早期搜索引擎背后的平行计算处理引擎。他也是MapReduce论文的主要作者,而Hadoop的发明正是直接受其启发。Dean也在许多其他重要的谷歌系统研发中担任重要职位,比如BigTable分布式数据存储(这是NoSQL数据库,比如Cassandra, HBase, 美国国家安全局数据库等等的后台处理基础)和被称为Spanner的全球分布式事务型数据库。
假如你并不是一名大数据或web系统的专家,那么通过了解Dean所做的工作,你可以窥探到这些领域最核心的部分。当我向分布式系统架构Hadoop的创始人Doug Cutting提问,探讨Hadoop的未来在哪里?他希望我能关注一下谷歌这家公司:“(谷歌)他们通过发表的技术论文,已经给我们带来了明确的信号。”Cutting说,“因而我们也可以预见,即将到来的,究竟是什么。”
根据《网络安全法》实名制要求,请绑定手机号后发表评论
不知道我大百度的深度学习是否可以一战(傲慢)