从人机对抗到人机协作,这家公司想通过打《星际》教会AI决策智能

“目前正处于从大数据精准决策向智能决策的转型期,我们希望从游戏中开始研究决策智能,提升人工智能决策的效率和可信度。”

图片来源@视觉中国

图片来源@视觉中国

2017年4月,阿里巴巴发布的一篇paper引发了业界的广泛关注,人们惊讶地发现,原来阿里巴巴在通过打《星际争霸》来训练AI。

这篇阿里巴巴认知计算实验室和伦敦大学学院联合发布的,名为《基于双向BiCNet网络的多智能体协作在星际争霸中的应用》的论文,致力于训练智能体自主学习能力,以及多个智能体之间的沟通与协作。

这篇paper及稍后流出的对战视频,让人们看到了阿里巴巴在人工智能探索领域的冰山一角。

不久之后,这篇paper的发起人,阿里认知实验室负责人、淘宝推荐算法团队创始人袁泉和阿里搜索广告架构负责人龙海涛离开阿里,成立了启元世界(inspir.ai),一家以决策智能技术为核心的研究型公司。

4月15日至20日,启元世界赞助了在北京大学举办的第42届ACM-ICPC国际大学生程序设计竞赛全球总决赛。在大赛期间,启元世界举办了基于《星际争霸II》的AI人机协作挑战赛,选择了其中两个微观战斗场景,进行人机协作和人机对抗的比赛。

这是继去年乌镇AlphaGo和古力、连笑人机配合玩PairGo之后,今年国内首个人机协作挑战赛,试图从算法层面探索未来AI与人协作的新方式。

“这次比赛结果,让我们看到了人机协作相较于机机协作,展现了一定的优势。更重要的是AI与人在比赛中表现出了若干协作行为,如走位配合、东西分头并进,对对手的干扰和阻挡等,是协作智能的集中体现,开启了协作智能研究的新里程。”启元世界创始人兼CEO袁泉介绍说。

当被问到为什么选择出走创业时,袁泉透露,是想“在一个有深度的,开放的问题空间做一些前沿的探索”,而游戏是一个更快速、干净的算法验证平台。比原来在移动互联网、电商场景下验证算法更快,更方便。

“决策智能,尤其是以互联网个性化推荐为代表的辅助决策系统,是我和海涛过去十几年从算法到架构上研究实践最多的一个工作,目前正处于从大数据精准决策向智能决策的转型期。我们希望从游戏中开始研究决策智能,提升人工智能决策的效率和可信度,应用到各个行业。” 袁泉对钛媒体表示。

而启元世界联合创始人兼CTO龙海涛则阐述了为什么选择《星际争霸》作为研究平台。

首先,围棋的搜索空间大概在 10^170,《星际争霸》在 128×128 的地图上并且人口上限是 400 个 unit 的情况下,它的搜索空间大概在 10^1685,比围棋高出很多个数量级。其次,《星际争霸》是即时对抗类游戏,必须在42毫秒内作出反应,而且不是一个action,而是一系列action。再次,《星际争霸》最高有 400 个 unit,需要多个智能体协作,需要多个兵种去配合,不是像围棋那样的单兵作战。

不仅如此,相比于围棋这种完全信息下的博弈,《星际争霸》有战争迷雾,必须去探路、侦查、了解对手的信息,从而在不确定的情况下去做智能的决策。

相比于围棋,《星际争霸》更接近于决策智能在各个行业的应用场景:实时、高并发决策,在多信源环境中甄别、提取有效信息,在信息不完全的情况下进行推理和假设。

“我们看到研究AI前沿方向的机构如DeepMind、Facebook、伯克利等,大家都在关注AI在《星际争霸》的方向,我们也相信这是一个适合训练和验证决策智能技术的实验平台。”龙海涛补充道。

2017年8月,DeepMind联合暴雪发布了基于星际争霸 2 的人工智能研究环境 SC2LE,它允许研究者在 Linux 系统中接入游戏 API,开展自己的人工智能研究。启元世界是这个平台下第一个做出智能决策引擎的国内公司。

至于决策智能在各个行业的价值,作为淘宝个性化推荐算法团队创始人,袁泉以比较熟悉的购物场景为例,谈到决策智能的巨大潜力。在他看来,目前的算法推荐在多个行业中大规模的应用,只能称得上“精准”,还远远算不上智能。

“比如APP首页通常由多个模块构成,能不能够协同地、智能地去推荐一些物品,从而提高用户体验?”而推荐智能体之间的协同工作只是决策智能的应用场景之一。

袁泉和龙海涛过去十余年一直在算法和工程架构上进行积累,并拥有在数亿用户场景、乃至双11决策需求爆发业务中的成功经历,无疑将帮助启元世界把游戏demo快速“工程化”,变成可以大规模应用的智能决策系统。

未来,在无人驾驶车辆之间的协作、电力的智能调度乃至智能交通、城市大脑等领域,都是决策智能的用武之地。

在目前阶段,相对于电商等其他复杂的应用场景,环境更加“干净”的游戏是智能决策引擎最好的落地场景,也是启元世界主攻的应用方向之一。“不管是人机协作还是人机对战的智能,做好了之后能够给玩家带来很强的体验提升。”袁泉告诉钛媒体编辑。

比如,智能决策引擎可以解决游戏中的适配问题,通过一套智能量化智能水平的标准,大大降低你在游戏中遇到“猪队友“的概率。而千篇一律的新手教学引导,由于引入了智能协作的agent,也将变得更加妙趣横生。

据了解,启元世界已获得高榕资本数千万元人民币的天使轮融资。高榕资本创始合伙人岳斌表示:“AI领域最重要的技术方向是什么?这是值得技术专家、创业者和投资者共同思考的问题。在这个问题上,我们和启元世界团队的回答是决策智能。高榕资本是启元世界天使轮融资时唯一接触的投资机构,我们希望通过我们的工作,探索AI的极限。”

本文系作者 竹光侍 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多
112
111

扫描下载App