深度学习科普贴:它如何工作,它将怎样改变我们与技术的互动?

摘要: 深度学习将根本地改变人们与技术交互的方式,正如操作系统改变了普通人使用电脑的方式一样。

即使热能以及声音都是能量的表现形式,但是尽管在你很小的时候,却也并不需要被教育说不要用“热对流”这门语言来讲话。每次你的孩子偶遇流浪动物的时候,他们也不需要被多次教育就能判断得出这只动物到底是猫还是狗。

人类天生就知道如何判断这些简单的差异。因为差异如此明显,对于我们来说,认识到这些差异都是非常自然的,我们将其称之为常识。相比之下,计算机则需要一步一步的学习,才能以确定性算法的形式,来呈现进而给出最基本的判断。尽管这几十年来机器在速度和处理能力方面的不断提高,但仍然无法做那些连蹒跚学步的小孩都能做的事情。

在过去的十二年中,作为受人类大脑结构启发的,作为人工智能分支的深度学习,在赋予机器感知物质世界的能力方面取得了巨大的进步。在Facebook的AI实验室里,他们建立了一个深度学习系统,这个系统能够回答以前从未公开过的简单问题。Amazon的智能音箱“Echo”便使用了深度学习技术。

三年前,微软的首席研究员在中国进行了一次演讲,而这次演讲给了参与者十分深刻的印象,这位研究员为参会者演示了深度学习语音软件,他使用了深度学习语音软件将他的口语英语翻译成中文,随后机器立刻模仿他的声音给出了国语翻译,而误差率仅仅只有7%。目前,该技术被用来改善Windows mobile和Bing上的语音搜索功能。

世界上最强大的科技公司Google一直悄悄地部署利用深度学习来改善他们的产品和服务,目前没有一家公司如Google般在此方面投入巨大。据纽约时报报道,谷歌把公司押宝在人工智能上,投入了很多资源争夺人才。

事实证明,谷歌的努力取得了成果。几年前,谷歌用训练好的神经网络进行物体识别,在1000万张未打标签的图片(猫,人脸,花,不同种类的鱼以及各种其他东西)上测试,准确率比之前所有方法几乎高两倍。当Google在Android语音搜索上部署深度学习时,错误率在一夜之间下降了25%。今年年初,另一个Google深度学习系统击败了世界上最复杂的棋盘游戏其中之一最好的玩家。

这仅仅是个开始。我相信在未来几年,创业公司和大型科技公司都将使用深度学习来升级一系列现有应用程序,并创造新的产品和服务。全新的业务线和市场将会兴起,这反过来又会带来更多的创新。深度学习系统将变得更容易使用和更广泛地可用。我预测,深度学习将根本地改变人们与技术交互的方式,正如操作系统改变了普通人使用电脑的方式一样。

深度学习

历史上,计算机通过用确定性算法编程来执行任务,这些程序详细说明了必须执行的每一步骤。这在许多情况下运作良好,比如从执行复杂的计算到击败国际象棋大师。但是在无法提供明确算法的情况下,比如识别面部或情绪,或者回答非常规的问题,计算机却表现得并不好。

以前传统机器学习的做法是,手工提取图片的特征,比如一张人脸图片,我们要手动计算比如两个眼睛之间的距离,眉毛的角度等等特征,但是这种做法鲁棒性不好。

想想现代语音助手与Siri或Alexa之间的区别,Siri和Alexa允许你使用自然语言来询问各种事情,而自动电话菜单系统只能执行那些特定的程序。相比之下,数据对于基于深度学习的系统便显得非常有意义,深度学习能够通过梯度下降的方法自动提取特征,解决了传统机器学习鲁棒性不好的问题。不同于人类大脑的不确定的灵感,这些机器的学习是来自于他们的真实世界的经验。并且,它们中有一些现在已经和人一样擅长对象和语音识别。

深度学习如何工作?

深度学习的灵感来自于大脑新皮质里面的神经网络,大脑新皮质是大脑处理高层次的感知和认识的部分的。在大脑中,神经元是传递电或化学信息的细胞。当与其他神经元连接时,它就会形成神经网络。在机器中,神经元是虚拟的——基本上是运行统计回归的代码。

当足够多的这些虚拟神经元集合在一起,将得到一个虚拟的神经网络。将神经网络中的每个神经元视为一个简单的统计模型:它接受一些输入,并且传递一些输出。

然而,为了使神经网络有用,它需要训练。训练神经网络的第一步是初始化各神经元的“权重”,各神经元的权重定义了它们怎么与新的数据交互(数字化的图片或音频)。和传统的统计学和机器学习一样,在训练的时候我们需要为神经网络提供对训练数据而言正确的输出,让它从中学习。

因此,如果网络没有准确地识别输入——例如在图像中无法识别脸部,那么系统将调整权重,即,每个神经元给予数据不同的关注程度,以产出正确的答案。最终,在充分训练之后,神经网络将一致地正确识别语音或图像。

人工神经元的想法已经存在了至少60年,当时,在20世纪50年代,弗兰克·罗森布拉特建立了一个由电机,拨号盘和光检测器组成的“感知器”,这个机器被成功训练成能够说明基本形状之间的区别。但早期的神经网络完全受限于模拟神经元的数量,这意味着他们不能识别复杂的模式。过去十年的三个发展使深入学习成为可能。

首先,多伦多大学的Geoffrey Hinton和其他研究人员开发了一个突破性的方法,软件神经元通过分层训练来教导自己。(Hinton现在把他在多伦多大学和谷歌之间的时间分割了开来。)经过百万级数据训练之后,神经网络的第一层便能学会判别基本的特征,例如物体的边缘和轮廓。

一旦该层学习如何准确地识别这些东西,它就会被馈送到下一层,训练自己以识别更复杂的特征,例如鼻子或耳朵。然后,该层又被馈送到另一个层,其训练自身以识别更高的抽象级别,这个过程将一直持续,直到系统可以可靠地识别非常复杂的现象,例如人脸。

AI最近进展的第二个发展是现在可用的大量数据。大规模的数据生产导致了快速的数字化,数据也日益成为训练深度学习系统不可或缺的东西。经过观察几次演示以后,孩子们也便能学会某些事情。然而,AI机器要学会某样东西则被一遍又一遍地训练。

深度学习本质上是一个教育机器如何做一件事情或教会其正确认知某个事物的过程。随机提供深度学习神经网络1900万张猫的图片,最终软件神经元经过统计以后将会根据猫的显著特征找出猫来。它会由此来学习如何辨别一只猫。这就是为什么大数据如此重要的原因,因为如果没有了大数据,深度学习便不能继续了。

最后,由Andrew Ng(现在在百度)领导的斯坦福团队发现,在为视频游戏的视觉处理需求而发明的芯片或GPU中,它们进行图形处理的过程可以被转用于深度学习。直至到最近,典型的计算机芯片一次也只能处理一个事件,而GPU则被设计用于并行计算。 使用这些芯片运行拥有着数百万连接触点的神经网络,能够几个数量级地加速并行提高深度学习系统的训练及能力。它能使一台机器在一天之内学会一些过去需要花费几周时间才能学会的东西。

目前最先进的深度学习网络由数百万个模拟神经元组成,它们之间有数十亿个连接,无需监督便可以自主学习训练。这是人工智能的最有效的实际应用,但至今还没有被设计出来。对于某些任务,一些被训练好的最优秀的深度学习系统甚至与人类表现相当。该技术正在从研究实验室走入产业领域。

深度学习 OS 1.0

对比起那些使人印象深刻深度学习成果,深度学习 OS 1.0的结果已经是早前的成果了。如果我把它类比到个人计算机,这个阶段的深度学习正处于初级发展的时期。

目前,大量的时间和精力都被投入进去供深度学习所用,比如数据清洗,标记和解释,而不是把深度学习利用起来。但在接下来的几年中,初创企业和成熟的公司将开始发布商业解决方案,用于构建生产就绪的深度学习应用程序。利用TensorFlow等开源框架,这些解决方案将大大降低创建复杂深度学习系统的工作量,时间和成本。它们将一起构成深度学习操作系统的基础。

深度学习操作系统将被广泛地被AI使用。Windows和Mac操作系统会以同样的方式允许普通消费者使用计算机和SaaS访问云,科技公司在未来几年将会让深度学习普及开来。 最终,深度学习操作系统将允许不是计算机科学家或自然语言处理研究者的人,使用深度学习来解决现实生活中的问题,如检测疾病而不仅仅是识别猫。

编造深度学习操作系统的第一批新公司将致力于解决数据,软件和硬件方面的问题。

数据方面,获得高质量的大规模数据是深度学习的最大障碍。但是无论是服务商店还是软件平台都会出现以解决以上障碍。公司已经创建了内部智能平台,这会帮助人们快速标记数据。未来的数据标签平台将嵌入在应用程序的设计中,这样,那些通过使用产品而产生的数据将会被抓下来以用于训练目的。那些新的服务型公司也将会把标记业务外包给低成本国家,同时通过合成手段来创建标签数据。

软件方面的创新则发生在了下面这两个主要的领域:

1)神经网络的设计和编程。不同的深度学习架构,例如CNN和RNN,支持不同类型的应用(图像,文本等)。另外一些则使用神经网络架构的组合。至于训练,许多应用程序将组合使用机器学习算法,深度学习,强化学习或无监督学习等方法来解决应用程序的不同子部分的训练。我预测有人会构建一个机器学习设计引擎解决方案,它将检查应用程序,培训数据集,基础设施资源等,并推荐使用正确的架构和算法。

2)可再用神经网络模块的市场。如上所述,神经网络中的不同层学习不同的概念,然后彼此成就。这种架构自然地创造了共享和重新使用那些受过训练的神经网络的机会。被训练以识别猫脸的虚拟神经元,其第一层的参数也同样可以被直接运用于识别人脸。目前最流行的深度学习框架Tensorflow已经支持重复使用整个子图组件。不久之后,这个由诸多机器学习专家们共同构建的开源模块,将为创造一个专注于深度学习的GitHub或StackOverflow提供可能性。

硬件方面,对于开发者来说,寻找GPU,CPU,云资源的最佳组合; 确定并行化的级别; 执行成本分析都是十分复杂的决策。这将为各类平台及服务型公司推荐正确的基础建设以良好的机会。此外,将有公司为深度学习提供有基础设施服务功能的专业硬件,比如协调,横向扩展,管理和负载平衡。此外,我非常期待老牌公司和初创公司会推出自己的深度学习优化芯片。

这些都只是一些料想性的东西。我确信创业者会有更多的想法,因为这项技术的潜力是巨大的。我们正在开始创造能够自主学习并且能有一些明智判断的机器。

【钛媒体作者:本文由「图普科技」编译,微信公众号「图普科技」(tuputech)】

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

本文系作者 图普科技 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

图普科技
图普科技

图普科技是一家将图像识别技术应用于企业服务领域的科技公司,创新打造了国内最大最全面的图像识别云平台。我们为企业提供智能审核、图片增值、图像搜索、深度定制服务。

评论(1

  • 自然醒 自然醒 2017-02-13 16:33 via pc

    Amazon的智能音箱“Echo”使用了这个深度学习技术。当机器都在学习的时候,人又为什么不学习呢?现在人工智能技术发展越来越快,现在基于人工智能分支语音识别技术的语音助手软件也越来越多,像国内的灵犀语音助手,国外的siri,我想将是下一个人工智能浪潮的宣泄口。

    0
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈