AlphaGo“功成身退”，但DeepMind并未停下脚步-钛媒体官方网站

从五月末AlphaGo退役到现在，正好经过了两个月，这两个月里DeepMind发表论文、公开新技术和讨论AI未来的次数都创下了记录，差不多每五天就会有一篇新论文面世。

一般来说，某个企业在推出一个别成功的产品后，CEO都会冠冕堂皇风轻云淡的说一句“这只是一个开始”。大家也知道，这基本是套话。

但培养出AlphaGo这个年度人工智能标签的DeepMind好像有点实诚。按理来说，AlphaGo赢了柯洁之后，DeepMind应该好好休养生息一阵，融融资招招人，过一阵再憋个大招出来——赢了李世乭之后他们确实就是这么干的。

但DeepMind这种气质奇特的公司显然不能让你猜中套路。他们的CEO在AlphaGo退役时表示”这只是个开始“，然后居然就诚实地开动了。

从五月末AlphaGo退役到现在，正好经过了两个月，这两个月里DeepMind发表论文、公开新技术和讨论AI未来的次数都创下了记录，差不多每五天就会有一篇新论文面世。而且其中干货很多，涉及到不少AI的关键领域和空白领域。

在脑极体小伙伴们经历了痛苦（真的非常痛苦）的学习过程之后，得出结论是大部分AI关注者篇篇不落地阅读这些内容近乎不可能。所以我们希望能用这篇文章总结一下DeepMind两个月中都做了哪些事，并且用相对容易理解的方式把这些事串起来。

当然，更重要的是，我们注意到DeepMind在涉及众多领域的论文背后，似乎蕴藏着一定的关联性和核心目标。这有点像围棋里的布局，每个棋子都是独立的，但他们合在一起却是一个局。

大部分棋类游戏都是一种阳谋，一切信息都是公开的，计算藏在更深的地方。DeepMind今天在做的，好像也有点这个意思。

复杂环境处理：AI走出论文的第一步

任何技术都有其目的。按照目标差异来分类，可以把DeepMind最近公布的新技术分为两种（当然不可能特别准确）：一是复杂环境处理，二是AI对人类大脑独有能力的模仿。

DeepMind最新一篇论文，是刚刚发表在ICML 2017上的。这篇名叫《强化学习的一个分布视角》的论文（这还属于比较友善的论文名）中，DeepMind提出了在强化学习系统的训练中加入一个新的变量：随机性。

此前的强化学习训练，基本是让强化学习来预测平均值。比如基于你玩游戏的数据，来预测你这一次游戏什么时候会输掉。但在游戏中，更多时候出现的是随机情况来影响结果：操作失误、忘记某些要素，甚至停电....针对这些随机现象，显然平均值的预测就没用了。

这篇论文里，DeepMind提出让强化学习来预测变体的所有可能。比如预测出行时间时，正常情况要多久、下雨了要多久、车辆出现事故要多久。一旦出现随机事件带来的峰值，AI就会针对性建模，强化学习系统也就可以重新预测结果。

（强化学习系统测算各种输掉游戏的可能性）

这种被称为“价值分布”算法的最大启发，是将强化学习放置在了充满可能性的环境里，根据每一种变化来开启不同的对应训练。而这种模式指向的核心问题就是：AI在面对复杂环境时如何应对。

相较于刚刚这篇论文，不久前DeepMind还发布了另一篇更知名的论文。之所以出名，是因为这篇名叫《丰富环境下运动行为的出现》的论文，干了一件很有意思的事：让AI学跑酷。

说是跑酷，结果却不怎么酷。根据论文中给出的结果，这些AI小人儿跑的有点像《进击的巨人》，因此有不少媒体嘲笑其结果不理想，或者说勉强凑合。

（进击的强化学习君）

但这种评价有点站在人类立场的想当然。根据DeepMind给出的资料，他们在实验中没有给出复杂的奖励机制：比如挺胸抬头加分、姿势优美加分等等，而是制定了以通过为唯一目标的简单奖励机制。在布满了落崖、障碍物，甚至墙壁的关卡里，强化学习系统完全凭借自己的分析能力来制定应对策略。结果证明，简单指令下AI也可以应对复杂的环境并且完成目标。

这个实验的目的，在于测试强化学习如何适应陌生的复杂环境。如果说上面介绍的那篇论文在于应对过程中的复杂性，这篇就是在应对瞬间出现的复杂情况。

这里面运用的一个核心技术，是多任务强化学习。而有意思的是，DeepMind也在不久前公布了新的多任务学习框架Distral。这个系统的原理是利用提取学习和迁移学习相结合，在不共享参数的前提下提取多个任务之间的共同点，然后利用迁移学习来同步处理。多任务学习是AI应对复杂环境的基础。这个新系统可以说是复杂环境处理的底层基石。

从以上内容不难看出，DeepMind目前主攻方向之一就是AI如何处理复杂的问题和环境。两个月中，他们讨论了多种复杂环境的算法和技术支撑。

这么做的意义在于，真实世界中的AI应用，是很难出现简单环境和简单目标的。AI处理复杂问题，是强化学习这种深度AI从论文走向现实的第一步。

认知、推理和想象：不像人叫什么人工智能？

上周，DeepMind老大哈萨比斯亲自出马发表了一篇论文。有意思的是该文章并不是发表在人工智能领域的期刊上，而是发表在神经医学领域的最高规格刊物《神经》当中。

这篇文章哈萨比斯讨论的核心问题是，人工智能想要发挥最大可能性，唯一的方法是回到神经科学领域，深入钻研人类大脑。

这个不妨回到那个本原命题：到底什么是人工智能？有人说机器学习是人工智能，有人说人机交互是人工智能，但这显然都是从结果去逆推初衷。从这个名字就知道，只有一种东西是人工智能，那就是模仿人类智能的智能。

哈萨比斯认为，现在虽然人工智能成果大量爆发，但这些算法和技术大多只能解决一个问题：机器学习只能承担一个任务、自然语言处理只能完成语音方面的交互、机器视觉只能辨认单一目标，这些能力水平绝不是类人的智能体。

这些所谓的人工智能，距离真正像人类大脑一样去感知、思考、分析、想象，还差着十万八千里，甚至根本还没上路。

哈萨比斯在文章中感叹，兼具神经科学和人工智能特长的人才太难得了。显然展示了DeepMind的一个核心思路：回到人类大脑，制造像人一样的人工智能。

而他们确实也是这样做的。比如在6月初，DeepMind公布了两篇论文。虽然这两篇文章研究的领域差别非常大，一篇是大体可以归于计算机视觉的《视觉互动网络》，一篇是神经网络领域的《用于关系推理的简单神经网络模块》，但这两篇文章指向的核心却是一个：让AI学会推理。

推理能力，尤其是基于人类感知方式（比如视觉资料）的推理能力，是机器培养类人智能的核心方向。

《视觉互动网络》中提出了同名网络模型 VIN，这种神经网络由一个视觉模块和一个现实推理模块组成。前者能够接受并处理视觉信息，而后者可以预测不同物体在物理规律下会发生的情况。就像人脑能够根据车辆距离的远近和行驶快慢来推理避让方式一样，VIN也能达到类似的效果。

（左边是真实结果，右边是VIN的预测）

《用于关系推理的简单神经网络模块》则描述了模块化的、具有关系推理能力的神经网络架构 RN（关系网络）。这种神经网络算法可以模拟大脑推理的过程，可以处理例如“在一堆几何图形中，灰色图形和形状相同的图形有几个？”这一类涉及关系推理的问题。更强大的地方在于，RN可以适配到其他神经网络算法中，也就是说它像游戏中的一个装备，装备它可以给其他AI提升推理能力。

在推理能力以上，人类更高级的能力叫做想象。而DeepMind也没有放过这个领域。前不久，DeepMind又又又有两篇论文，分别是《深度强化学习中的想象力增强剂》和《从零开始的学习模型规划》，这两篇论文里，DeepMind按照其不可救药的玩游戏传统。在推箱子等游戏中展示了让深度学习系统通过简单数据进行抽象推理和长期规划的能力——基本也就是人类所说的想象力。

（借助想象增强能力，AI系统可以一次性规划出推箱子的步骤）

这种解决方案的原理，是让深度学习系统通过对环境信息的内部模拟，进行粗浅的策略判断。然后通过多条想象轨迹来构思解决策略，最终选择最优解决方式。

事实上，AlphaGo在下围棋的时候就是用类似的方式来进行局面判断。但相对于围棋的规则严谨性，在游戏里关卡是随机生成的，规则自然也是相对开放和变化的，给AI想象力带来的挑战也就更大。

除了钻研推理、想象这种让AI学习人类解决问题的能力。DeepMind还借助于心理学，探索起了让AI模仿人类认知的可能性。6月末的一篇论文里，DeepMind提出利用名叫“匹配网络”（Matching Network）的神经网络模型，记忆并且提炼出AI是如何进行判断的。

这个实验的意义在于，未来可能会利用成熟的技术，让AI去解释甚至理解自己的行为，甚至阐述自身在做选择时表现出的偏好。

这种技术的未来想象空间可就厉害了，只知道能完成任务的是机器和奴隶。会思考自己为什么完成任务，甚至解释自己完成任务的方法，可就距离独立思考的人类不远了。

在认知能力之外，DeepMind还在这个月提出了名叫SCAN（符号概念关联网络）的神经网络。它的作用是模仿人类的感官，让AI从真实世界接受信息。这个网络模型有哈萨比斯亲自参与，重要程度也可见一斑。

短短两个月里，DeepMind在模拟人类大脑与神经系统工作当中，先后发布了对应感官、认知心理、推理能力、想象力的技术和算法。模拟人类大脑和神经系统，估计已经成为了这家公司一个全面战略目标。

而无论是第一步的复杂环境处理，还是升级版的类人智能，都指向着唯一的目标：通用。

通用，一切为了通用

我们知道，人工智能的最高阶形式被称为通用智能。这种形态的智能，不是解决单一目标：比如语音处理、图像处理、驾驶辅助，而是像人一样全面思考和反作用于真实世界。

这种说法可能过于科幻，但从非常现实的角度出发，人工智能想要摆脱其他智能硬件的附属者身份，走向独立完成任务，并且比人类操作机器更有优势，就必须能够像人一样判断真实世界的复杂环境，进行各种各样的判断、推理、规划和想象。

这些能力进化的终点，也许是人工智能开始质疑和思考。

但这些能力才是真正有无限商业潜力的机会。否则人工智能的作用永远是提升效率，而不是改变世界的运行规则和运行结构。

综合来看，DeepMind应该有非常复杂而且分工明细的目标规划。在多个领域同时探索人工智能进一步拟人的可能性。这些能力集合起来，就是一个完整的智能体。

就像AlphaGo其实综合了DeepMind的大量技术，才最终达成了超越所有人类棋手的目标。将大量拟人的神经网络能力进行综合，可能会得到更出色的智能体。这个智能体一定是在DeepMind另一个关注的核心领域“复杂环境”中发挥作用的——也就是现实世界当中。

总之，DeepMind在拆解和逐个攻克通用智能的达成条件，这应该是一场阳谋。虽然这场赛跑还很漫长，不知道何时才有结果面世。但它的结果，很可能是AI银行家、AI律师，甚至AI首席执行官这种可以全面应对多元环境，并且能够推理、计划、深度分析现实世界的“狠角色”，甚至可能是能够自己发明AI的AI。

到那时我们或许就会发现，人类不仅仅是在围棋上没有胜算。而是就像哈萨比斯说的：“这只是开始”。