2024CTIS-文章详情页顶部

1亿用户在王者荣耀,为腾讯AI“打工”

钛度号
今天你为腾讯“打工”了吗?

图片来源@视觉中国

图片来源@视觉中国

文|偲睿洞察,作者|Renee,编辑|Emma

要是知道马斯克的自动驾驶系统可能是基于赛车游戏打造的,你是否会感到意外?

2017年,OpenAI 宣布旗下的开源人工智能测试环境 Universe 加入了游戏大作《侠盗猎车手5》,让AI能够在短时间内获得准确识别各种物体和突发情况的能力。

原因在于,现实生活中,无人车摄像头感知到的其实也就是一张二维图片。游戏场景里的物体如果和现实非常相似,就能通用。

我们无法知晓特斯拉自动驾驶系统“含游戏量”有多少,不过主要靠着游戏锻炼AI的Deepmind已成功为游戏“正名”:

由此,DeepMind团队成功将游戏的触角伸到了学术界。

目前,腾讯也有此意:2022.11,腾讯“开悟”平台宣布正式开放“王者荣耀AI开放研究环境”申请。它将面向非商业用途的机器学习算法研究,提供业界独有的高复杂度MOBA训练环境,助力相关学术领域的前沿探索

也就是说,你天天休闲打的王者荣耀游戏,未来很有可能会为学术领域的前沿探索贡献一份力量。

这,就不得不去思考,为何游戏能够成为AI的“训练场”?你打的王者荣耀要怎么为学术贡献力量?

01 AI工作娱乐两不误

目前,“AI+游戏”已经成为腾讯、网易等国内头部游戏企业发力的核心方向,三七、盛趣、完美、B站等,也都在探索AI+游戏的可能。

为何大家都将游戏成为AI的主要测试平台?

我们都知道,AI的终极目标是打造一个以假乱真的“真人”,这就意味着,AI要有“性格、偏好”。也就是说,研究者们需要“摸透”AI的风格,并将其打造成自己想要的模样。

DeepMind基于此,引入了联盟(League)训练概念(让AI模仿某真人打法与自己进行对抗),通过博弈对战的方式了解AI的“性情”,各个大厂也都采取该路线。

这就需要一定的指标去衡量AI或者真人的风格,也需要真人大量的数据展现自己的风格,让AI在某些方面增强,某些方面减弱,从而让AI完美复刻他人。

游戏就成为了最佳“训练场”。

第一,游戏能够提供多个指标去衡量AI表现情况,并塑造AI。

每场比赛结束,提供的游戏时间、胜负、金钱、击杀时间、击杀个数等数据能够作为模型的特征,反应智能体AI的偏好:

比如通过击杀个数可以判断其是否具有很强的战斗能力,通过短时间内的连杀数据可以判断其是否激进。基于此人们可以知道AI是个什么样的“人”,从而进行改进。

长此以往之后,玩家就能够通过配合度、激进度、防守能力等指标去“调整”AI的个性,也就是说AI能够“拥有”独特的性格。

(AI多样化和个性化在游戏中的应用 图源:腾讯游戏学堂作者Yaqing)

腾讯AI Lab游戏AI研发中心负责人付强在2021年的TGDC会议上也表明,所有的竞技游戏都是有明确的胜负指标,包括中间的核心指标,这些明确的指标会便于我们去测试和迭代,去塑造AI。

第二,游戏环境能够提供丰富的场景及任务,锻炼AI做决策的能力,并从中得到海量数据。

王者荣耀中就有对抗路、打野区、中路、游走、发育路五种发展场景,每个场景中的人都有自己的使命,例如打野区的人就需要疯狂打怪,从而为团队提升经济水平,游走的人就需要及时到达残血的队友身边为他“保驾护航”,其他区域的人就需要高强度输出伤害,守好自己的“路”。

在这场比赛中,玩家除了需要“各司其职”,也需要和团队及时沟通战略,例如何时去打怪,何时去集体推搭,是打野怪和平发育还是抢人头激进发育,这都是需要短时间内根据现状做出最优决策。

同时付强表示,游戏世界能够不管说是获取人类自己的数据,还是通过AI自己对战去生成的数据,从这个角度来说,虚拟世界比现实去获取这些数据的成本、其迭代的效率会高很多。

除此之外,游戏世界试错成本要低得多。

我们不妨设想一下,某公司的AI产品直接在你家门口道路上尝试自动驾驶,出事故的概率很难把握。而在游戏世界中试错几万次都无所谓。所以,通过构建虚实交融的环境,我们可以建设模拟城市交通的虚拟世界,将在虚拟世界中试错出来的最优策略迁移到现实世界。

目前,游戏赋能AI不再是在游戏圈里“自嗨”,也踏入了学术圈。

今年10月,DeepMind团队的AlphaTensor在没有任何现有矩阵乘法算法的知识的情况下,在团队给出的游戏场景中反复练习,从而重新演化对于矩阵乘法的算法探索,在一个有限域中改进了Strassen(历史最快算法)的二阶算法。

在该项成就的突破背后,游戏成为了它的“法宝”——据DeepMind团队透露,AlphaTensor便是从游戏系统设计中寻找灵感,通过树形搜索的方式,将矩阵乘法高效算法的问题转换为在单人游戏中寻求数学结果,而AlphaTensor的原型也是游戏出身的Alpha Go。

腾讯也在积极布局之中,目前与北京大学、清华大学、电子科技大学、中国科学技术大学四所国内高校合作开发了创新课程,希望更多学者在游戏环境中探讨和研究AI落地难题,并寻找AI新技术覆盖更多场景的可能性,服务医疗、工业、农业、交通等行业。

02 DeepMind,不只是AI游戏王

从AlphaGo到AlphaTensor,DeepMind一直走在AI的前线。那么,DeepMind为何能够开创游戏哺育AI的先河?

面对前所未有的领域,团队设立了重重门槛,去判断该AI项目是否值得研究。

在开启项目前,DeepMind团队内部重点考核了三个问题:

游戏环境能够满足第2、3个问题,棋牌策略类游戏的解法能够满足第1个问题(所有的走法都是可以归纳的)。

基于此,经过大量的棋牌策略类游戏数据训练,2016年AlphaGo击败了世界围棋冠军,同时发展出能够自我对弈的AlphaZero。

但团队的野心不止于此——成为游戏的“王者”只能证明其把某个模型玩透了,而将游戏积累的经验数据去处理真实世界的问题,才是“诗和远方”。据团队创始人透露,最开始的 AlphaGo 和 AlphaZero 都是与游戏相关,但最终目标不仅仅是破解游戏,而是使用它们来引导通用学习系统,并应对现实世界的挑战。

所以,DeepMind团队在做棋牌策略类的游戏之外,也在寻找“更具现实意义”的游戏。

一款由华盛顿大学等机构联合开发蛋白质折叠游戏Foldit进入到DeepMind的视野。该游戏能够集中所有玩家的动力和精力,为蛋白质折叠研究做贡献。

游戏的结果出乎意料:游戏玩得最好的往往不是生物学家,而是普通玩家,他们很可能比科学家更快破解出某种蛋白质的真实结构。一些由Foldit玩家破解出的重要蛋白质结构还发表到《Nature》杂志上。DeepMind团队给出的解释是,有些玩家有着非常出色的直觉。

基于此,在2016年,DeepMind团队启动AlphaFold项目,人工构建系统模拟这些玩家的“直觉”。

在今年的7月28日,欧洲生物信息学研究所(EMBL-EBI)通过 AlphaFold 成功预测了超过 100 万种生物的 2.14 亿个蛋白质的三维空间结构,涵盖了地球上几乎所有已知的蛋白质,再次突破了AI界的边界。

有了AlphaGo、AlphaFold这样“明星”产品后,DeepMind野心就藏不住了,这两个产品还不够优秀——只能是某一个领域的佼佼者,其他领域就是个小白,而DeepMind需要的是会举一反三的AI智能体。

于是在2021年,DeepMind发布了包含数十亿任务的游戏“元宇宙”XLand平台。

在这个游戏“元宇宙”中,无数的“游戏星球”组成了“游戏星系”,每个星球上的游戏按竞争性、平衡性、可选择性、探索难度四个纬度进行区分。

比如下图,左边的游戏双方需要将小球赶到自己的区域才算获胜,“不是你死就是我亡”,一点合作的机会都没有,所以它的竞争性指标直接被拉满了;而右图的游戏,则是要求将几何体按颜色归类到一起,多个智能体合作完成任意一组配对就可以,所以竞争性很低,但是可选择性很强。

(DeepMind游戏元宇宙模块详情 图源:DeepMind官网)

在锻炼竞争性、平衡性、可选择性、探索难度的综合实力的同时,为了让智能体获得更加泛化的能力,研究人员设定在学习时,每个新任务都要基于通关的旧任务生成,保持学习的连续性。

目前该项目还在苦苦内测中——第五代智能体在XLand 4000多个“星球”中共玩了70万个游戏,经历了2000亿次训练,完成了340万个独特任务。

DeepMind从一开始,就为自己的AI研究设立了明确的标准,从可行性最高的游戏开始做起,防止陷入“超前”的漩涡;同时有着更为长远、现实的目标:游戏AI并非只为了让AI更会玩,而是为了更好赋能现实世界,对医疗、交通、工业机器人等领域有所帮助。

如今,能够找到“数理化”相通性的泛化机器人,成为DeepMind下一个发展目标。

03 腾讯,跟着DeepMind过河?

与DeepMind相同,腾讯也从游戏出发,企图用AI来玩一些复杂多变的策略性游戏,以训练出接近人类智力水平的智能体,目前都在往医疗方向发展。

在2021年的TGDC会议上,腾讯AI Lab公布其具体的战略布局:

基于棋牌策略类游戏的“绝艺”平台更多从单一个体、场景,复杂博弈的角度去探索AI单独作战的能力;

基于王者荣耀打造的“绝悟”平台是从多智能体、复杂场景的角度去探索AI团队协作的能力;

“开悟”是把前两者锻炼出的能力向学术界开放,以期获得实质性的落地成果。

该布局已然明朗,“绝艺”、“绝悟”平台锻炼AI各个能力,而“开悟”是集成这两个平台的技术,与多方合作,加快AI落地。

据《王者荣耀》项目执行制作人黄蓝枭所说,开悟平台将基于《王者荣耀》游戏,集成标准接口、核心算法、脱敏的测试数据、评估工具和计算集群等,为高校老师和同学进行多智能体的机器学习算法研究提供了应用场景和验证环境。

目前,在第一个应用场景医疗上,已有“开悟”的身影。

在药物研发上,为解决制药流程耗时过长痛点(包括基础研究、药物发现、临床前沿研究、临床研究等),腾讯AI团队选择在药物发现、临床前沿研究两个环节赋能,即缩减药物发现临床前沿研究所花费的时间。比如在药物发现环节,以前需要从一万个候选药里面选一个,但现在通过算法,只要从一百个候选药里面去选。

这里就用到了“开悟”上积累的经验,特别是强化学习上的经验。目前该算法已经能够能提升一个数量级甚至两个数量级。

在医药器材方面,其AI显微镜助理也基于开悟在线加速平台打造,协助医生精准治疗。

除了医疗之外,腾讯还有其他构想:

而所有蓝图的“地基”,是忠实的王者荣耀玩家们疯狂“上分”,为系统贡献宝贵的数据,让AI暗中学习。

黄蓝枭表示,该算法便可用于现实中多个机器人或是无人机的智能协同,未来还能够迁移落地到其他产业环境中,为工业机器人、救灾机器人等提供助力。

DeepMind之后,后来者腾讯,“从游戏到医疗再到未来”。目前,缺的是一个类似于XLand的AI游戏元宇宙。

在DeepMind构想中,在其游戏元宇宙XLAND里,AI智能体能够触类旁通,即学会了玩魔兽争霸(即时战略游戏),以后就能很快上手同等类型,但玩法更多、场景更多的帝国时代(即时战略游戏)。

相比之下,DeepMind早期开发的AlphaZero, 虽然非常强大,在三大棋(西洋棋、将棋、围棋)领域中打遍天下无敌手,但是每一次都需要从零开始,学习很长时间。

也就是说,腾讯需要一个虚拟空间,让AI能够学了数学之后,再学物理化学时,不用从头再把数学书“啃”一遍。

本文系作者 偲睿洞察 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 我上次就说的,网上还有人和我较真说上了钻石就不会有,太天真了

    回复 2022.11.26 · via netease
  • 我需要一个AI女友,哈哈!

    回复 2022.11.26 · via netease
  • ai有一天可能取代人类吗

    回复 2022.11.26 · via netease
  • 配合亲密无间的基本都是AI

    回复 2022.11.26 · via netease
  • 匹配甚至排位或者巅峰赛都有,你想和人玩,却被安排跟Ai玩。没意思

    回复 2022.11.26 · via netease
  • 我就说王者荣耀人机多的一批别人都不信!虽然玩的人还是很多但 确实走下坡了

    回复 2022.11.26 · via netease
  • 哈哈,期待强力对手,经常10连胜,感觉敌人太菜了,上了50星就没玩了

    回复 2022.11.26 · via netease
  • 哈哈,期待强力对手,经常10连胜,感觉敌人太菜了,上了50星就没玩了

    回复 2022.11.26 · via qq
  • 最近打游戏感觉就是和ai打,还会说话,但是说的都是小学生语言

    回复 2022.11.25 · via qq
  • 腾讯的AI是挺强悍的

    回复 2022.11.25 · via android
更多评论
18

扫描下载App