AI 小镇之后,智能体开始模拟人类逃命

AGI
从虚拟小镇办派对,到灾难现场练逃命,AI Agent 正在变成一台人类行为仿真机。

文 | wiwi

2023 年 4 月,斯坦福大学和 Google 的研究者做了一个后来火遍全网的实验,也就是被人们叫作"AI 小镇"的那个项目。他们搭了一座像素风的虚拟小镇,往里面放进 25 个由大语言模型驱动的"虚拟居民"。这些居民自己起床、做早餐、上班、社交。其中一个叫 Isabella 的居民想办一场情人节派对,就把消息告诉了朋友,朋友又转告了朋友——几天后,真的有居民按时出现在派对现场,中间甚至冒出了"暗恋"的桥段。而这一切,没有剧本,没有人操控,全是它们自己"演"出来的。

那是 AI 圈最浪漫的时刻。人们兴奋地讨论《西部世界》和《模拟人生》,讨论游戏 NPC 的革命——大多数人都把 AI 小镇理解成游戏的未来,理所当然地以为,这类技术的第一块大市场会是游戏、社交和虚拟陪伴。

斯坦福 AI 小镇

这个判断只对了一半。

AI 小镇真正重要的地方不在于好玩,而在于它证明了一件事:大模型不只是一个聊天窗口,它还能扮演人。 只要给它一份记忆和一套日程,让它记得昨天、计划明天,它就能在一个环境里长期表现得"像一个人"。这种会自主行动的 AI,学界称之为"生成式智能体",也就是今天人人都在谈的 Agent。

但 AI 小镇终究带着一种游戏感。它模拟的是岁月静好的日常——咖啡馆、学校、派对和闲聊。而一个会"扮演人"的系统,最值钱的去处,恰恰是那些不能拿真人反复试错的地方:派对办砸了可以重来,疏散预案错了就是人命。

所以,三年过去,这个领域最前沿的研究者们在忙什么?答案有些出人意料:他们在教智能体逃命。

地铁站起火,虚拟人在浓烟中寻找出口;飓风逼近,一整座城市的智能体在决定走还是留;大学毕业典礼上出现紧急情况,人潮涌向体育场出口——这些不再是游戏关卡,而是过去一年里,卡内基梅隆大学、清华大学、天津大学等机构发表在顶会顶刊上的正经研究。如果说 AI 小镇模拟的是"人如何生活",那么这一批研究模拟的,是"人如何慌乱"。

一、逃命不是运动问题,是决策问题

要理解这个转向,得先想明白一件事:逃命看起来是个跑得快不快的问题,实际上是个决策问题。 一个人能不能从火场里活着出来,不只取决于他离出口有多远,更取决于他听到警报后的一连串选择。而麻烦在于:这些选择,几乎无法被"排练"。

真实的疏散演习贵、扰民、走过场——没有人会在演习里真的恐慌、真的推搡、真的在浓烟里走错出口。而真实灾难的数据又极其稀缺,且每一条都以生命为代价。大规模真人实验?成本高不说,伦理上也过不了关。

计算机仿真是替代方案。从上世纪 90 年代开始,学界主流是"社会力模型"(Social Force Model)一类的物理仿真:把人抽象成一个个受"力"驱动的粒子,出口是引力,人群是斥力。这套方法能算出楼梯的通行能力,却回答不了真正致命的问题——

听到警报后,人们会立刻走吗?还是先刷手机确认?会走最近的出口,还是走自己进来时那个熟悉的门?会不会有人半路折返,回去找老人、孩子、宠物和贵重物品?谣言会如何改变人流?

在真实世界里,很多伤亡并不来自灾害本身,而来自这些判断的接连失败。这些是"认知"问题,不是"力学"问题。而认知,恰恰是大语言模型的主场。

于是一个顺理成章的想法出现了:把大模型装进每一个虚拟人的脑袋里。新一代逃生模拟真正要解决的,不是让虚拟人跑得更像真人,而是让虚拟人"错"得更像真人。

2025 年,欧洲一支研究团队把这个领域的论文系统梳理了一遍,给出过一个精准概括:新一代仿真的架构是"物理—认知分离"——传统模型继续负责人群密度和碰撞,大模型负责模拟"不确定性下的恐慌与决策"。换句话说,过去的仿真里,人是粒子;现在的仿真里,人终于有了脑子。 旧仿真关心的是路径,把人看成流量;新仿真关心的是动机,把人还原成有情绪、有误判、有牵挂的活人。

就这样,一个曾经属于公共安全工程的冷门领域,突然站在了 AI 最热赛道的延长线上。也正是在这里,Agent 的意义开始变了:它不再只是替人写邮件、订机票的效率工具,而是变成一种更有价值、也更危险的东西——替现实世界预演人的反应。

二、逃命模拟,正在补齐四块拼图

过去一年,"智能体逃命"不是零星冒出来的论文热闹,而是在拼一套新的仿真基础设施。第一块拼图:这东西能不能被真实的应急团队用起来?第二块:虚拟人能不能从地图上的一个点,变成有身体、会摔倒的人?第三块:尺度能不能从一个场馆推到一座城市?第四块最关键:人在灾难里的"慌乱",能不能被拆成可计算的结构?

第一块拼图,在卡内基梅隆大学。

2025 年 9 月,卡内基梅隆大学的一支团队公开了一项持续 16 个月的研究:他们和校方的应急管理部门真刀真枪地合作,用智能体给毕业典礼这样的万人级活动推演疏散预案。

这项研究最值得玩味的不是技术,而是过程。团队从 500 个智能体的粗糙版本起步,一路做到 3000 个、再到 13000 个——足够装下一整场毕业典礼的人群,中间推倒重来了五轮。一开始,应急管理者对这套东西充满怀疑;到最后,模拟器成了他们培训协调员、优化疏散流程的日常工具。

研究者总结出一条几乎可以写进所有 AI 落地教科书的经验:模拟器赢得信任,靠的不是一上来就"准",而是先把日常小事模拟对——比如一场普通活动的散场——让专家亲眼确认它靠谱,再带着这份信任去推演真正的灾难。 甚至,模拟的"不完美"本身也有价值——当应急专家指着屏幕说"不对,真实的人不会这么走"时,那些从未被写进预案的隐性知识,第一次被逼了出来。

体育场疏散模拟

第二块拼图,在一座虚拟的地铁站。

2025 年,天津大学联合清华大学、英国卡迪夫大学的团队在计算机视觉顶会 ICCV 上发布了 RESCUE 系统——第一个能实时跑起来的大规模虚拟人逃生模拟。数百个虚拟人在地铁火灾、演唱会散场的现场同时逃命,每个虚拟人脑子里都转着一套"看—想—跑"的循环:先看清地形、烟雾和身边的人,再盘算要不要改道,最后迈开腿——连跑起来的步态,都是一人一个样。

它甚至能实时可视化每个虚拟人身体 24 个部位承受的碰撞力,用颜色标注出来——这意味着"踩踏"第一次可以被逐帧解剖。 年轻人、老人、残障人士各有各的跑法,哪类人会在哪个拐角被人流吞没,一目了然。同台较量下,老一代"粒子"模型输得很干脆:RESCUE 的虚拟人逃出来得更多,摔倒得更少。

多人 3D 逃生场景

第三块拼图,是从场馆走向社会。

这一步看似离逃生远了,其实关键:真实灾难从来不只是物理事件,更是一场社会系统的压力测试——谁相信预警、谁有车离开、谁被困在资源覆盖不到的角落、谁在传播谣言,都会改写最终的伤亡数字。清华大学电子系团队打造的大型社会模拟器 AgentSociety,正是把尺度拉到了这一层:一次典型的模拟里,上万个智能体各自过着自己的生活,累计产生 500 万次社会互动;研究的议题从舆论极化、UBI(全民基本收入)政策评估,一直到飓风灾害下的人口流动与应急响应。

不过,规模上去之后,一个更根本的问题也随之浮出水面:几十万个智能体跑出来的结果,到底可信吗?已经有研究者开始给它们"判卷"了:拿真实飓风里的疏散记录当标准答案,看智能体交出的答卷像不像真实的人类。

第四块拼图,深入到了"慌乱"的内部。

一项名为"分层生成式智能体"的最新研究,把"慌乱"本身拆出了结构。研究者搭了一座持续恶化的虚拟城市:火在蔓延,烟在扩散,道路一条条失效。城里每个智能体做决定时都分三层:最上层想的是"我要立刻撤离,还是先回去找家人";中间一层想的是"走熟悉的路,还是绕开烟雾";最底下,才是脚下的每一步怎么走。

换句话说,人在灾难里走出来的从来不是一条最短路径——他是在巨大的压力下、拿着残缺的信息,一次又一次地重新做决定。这套三层结构,第一次给了"慌乱"一个可计算的形状。

从一栋楼、一个站、一座城,再到人心里那套决策机制——四块拼图正在被一块块补上。它离成熟产业还远,但已经不是三年前那种"看个新鲜"的技术演示了。

三、谁会为"模拟人"买单?

一项技术从论文走向市场,通常只需要回答一个问题:谁会因为它少犯错、少赔钱、少担责?"逃命模拟"的答案并不难找——它真正卖的从来不是逃命,而是对人类群体行为的推演能力,买家是所有要为"万一"负责的机构。比起 AI 小镇当年指向的游戏和社交,这个市场要"重"得多,也刚需得多。

第一层是应急预案的 SaaS 化。 全球每一座体育场、机场、地铁系统、大型园区,都背着法定的应急预案义务。传统咨询公司做一份疏散评估,动辄数月、报价不菲,且做完就是一份躺在抽屉里的 PDF。而卡内基梅隆的案例已经证明,智能体疏散模拟可以变成一个"活"的工具——预案改一版,不再只是重新出一份 PDF,而是可以重新跑一轮模拟:换一种警报方式、换一个出口配置、换一批志愿者站位,看人群会被带向哪里。这是典型的"专家服务被软件吃掉"的剧本。

第二层是城市数字孪生的"补脑"。 过去十年,中国的智慧城市和数字孪生项目建了海量的"躯壳"——精细的三维建模、实时的传感器数据,但孪生体里的"人"始终是死的。过去的数字孪生复制的是建筑、道路、设备和交通流,生成式智能体恰好补上了最难复制的那一块:人。对手握城市治理预算的政府客户而言,"能推演台风来了市民怎么跑"的数字孪生,和"只能看楼宇亮灯"的数字孪生,完全是两种东西。

第三层,也是想象空间最大的一层:保险与风险定价。 保险公司关心的不是某个人从哪个出口逃出去,而是灾难中的行为变量:多少人会提前撤离,多少人拖到最后,多少人因为错误信息做出错误决定。巨灾保险的核心是风险建模,而人的行为,恰恰是巨灾损失里最不确定的变量。

斯坦福团队 2024 年的后续研究已经展示了另一种可能:通过两小时的深度访谈为 1052 个真人构建"数字分身",这些智能体在美国社会学界沿用半个世纪的权威问卷"综合社会调查"(GSS)上,复现本人回答的准确率约为 85%。85% 是什么概念?真人自己隔两周重答一遍问卷,一致率也差不多只有这个水平——也就是说,智能体模仿你,已经接近你复现你自己的程度。当"模拟一个具体的人"的精度达到这个量级,模拟一个社区在灾难面前的集体反应,就不再是科幻。而能被计算的风险,才能被定价。

把三层叠起来看,客户名单已经很清楚:政府、场馆、保险公司、大型活动主办方——这些买家的付费能力,比游戏玩家硬核得多。

四、真正危险的,不是 AI 不像人,而是它太像人

故事讲到这里都很性感,但至少有三盆冷水必须泼。

第一盆:大模型天生"太平均"。 做社会模拟的研究者们反复提醒同一个隐患:大模型捏出来的人,越捏越像同一个人——每个智能体都有点像社交媒体上那个最普通的用户。但灾难恰恰是由最不典型的那一小撮人决定的:那个不肯撤离的老人、那个逆行救人的路人、那个引发踩踏的尖叫者。如果模拟器里全是"理性的平均人",它算出来的疏散时间可能漂亮得致命。

第二盆:微观可信,不等于宏观真实。 单看每个智能体,它的每一步决策都说得头头是道——这正是大模型的强项,也是最大的陷阱。前文那篇欧洲团队的论文点得很透:逐个体的"可信",无法保证群体层面的"真实"。一万个各自合理的智能体,加总起来可能是一场根本不会在现实中发生的集体幻觉。而要验证群体结果靠不靠谱,得把各种参数换着跑成百上千遍——大模型每跑一遍都在烧钱,这笔验证账,目前几乎没人付得起。

第三盆最有讽刺意味:安全对齐,反而可能让模拟"失真"。 商用大模型被反复训练得乐于助人、拒绝伤害,可真实的灾难现场有自私、有推搡、有见死不救。一个被对齐得过分善良的模型,可能天然演不出人性的暗面——而应急预案恰恰是为人性暗面准备的。 用一个"好人"模拟器去推演最坏情况,得到的可能是一份过于乐观的预案。

三盆冷水之下,还有一层更深的暗流:"合成人群"对真实人群的替代诱惑。智能体模拟的是"看起来像人的行为",不是人的真实处境。它可以表现出犹豫、恐惧和牵挂,但这些行为来自模型、提示词和校准数据——屏幕上的"人群"没有真实的处境,没有真实的损失,也没有真实的权利。它可以帮人类发现预案盲点,但替代不了真实调查、实地演练和公共决策。它是沙盘,不是答案。

危险在于,沙盘太好用了。当"问一群 AI 用户要不要付费"比做用户调研便宜一百倍,当"让 AI 人群先看一遍广告"比投放测试快一百倍,当"用智能体预判公众对政策的反应"比听证会省事一百倍——当模拟人足够便宜,真实的人反而可能变得不那么必要。 生成式智能体真正的风险,从来不是 AI 变得像人,而是机构开始相信 AI 已经足够像人。

把场景拉回逃命模拟,这种诱惑会变成一个非常具体的问题:如果某天,一份基于智能体模拟的疏散预案在真实灾难中失效了,责任算谁的?算模型厂商的、仿真公司的、还是签字的应急官员的?卡内基梅隆的研究者们给出了行业目前最诚实的态度:推演可以交给智能体,最终签字的,必须是人。

五、结语:AI 小镇的 B 面

回头看,斯坦福 AI 小镇真正的遗产,或许不是那场情人节派对,而是它留下的那台**"人类行为的仿真引擎"**。

派对是这个引擎的 A 面——温情、巧合、自发聚起来的热闹。逃命是它的 B 面——恐慌、拥挤、生死关头的抉择。A 面负责讲故事拿融资,B 面负责签下政府和保险公司的合同。

技术史上有个反复出现的规律:一项技术真正成熟的标志,是它开始被用于处理死亡。飞行模拟器如此,碰撞测试假人如此,核爆仿真亦如此。从这个角度看,智能体开始"模拟人类逃命",恰恰说明生成式智能体正在离开玩具阶段,开始接受真实世界生死问题的检验。它会先在虚拟小镇里办派对,然后在虚拟城市里逃命,最后被用来预演现实世界的选择。

三年前,我们围观 AI 小镇时问的是:"它们像人吗?"现在,应急管理者、城市治理者和保险精算师们问的是一个更严肃的版本:"在最坏的那一天,它们像人吗?"而所有人都还没来得及问的那个问题是——当 AI 足够像人时,谁会开始拿它替代人?

这可能才是"AI 小镇"真正的下一章。

本文系作者 wiwi 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

18:58

东方财富:出资2亿元参与投资云锋元创私募基金

18:57

全球最大编程助手GitHub Copilot宣布接入首个开源模型Kimi K2.7 Code

18:53

上交所本周对中船特气、长盈通、昀冢科技等异常波动股票以及财通福鑫LOF、全球芯片LOF等溢价较高的基金进行重点监控

18:48

比特币涨至62005.2美元,日内涨1.31%

18:48

通富微电:向特定对象发行股票获证监会同意注册批复

18:42

保加利亚总理:将对欧盟对俄制裁提保留意见

18:40

市场监管总局拟出台眼镜制配计量新规:焦度计等设备强制检定,全流程可追溯

18:34

宏和科技:控股股东的一致行动人7月2日至7月3日减持875.03万股

18:21

时代新材:签署约30.34亿元风电叶片销售合同

18:12

长盛轴承:在具身智能零部件领域的收入在主营业务收入中占比低

18:06

三部门:对金融等重要行业和领域的关键信息基础设施实行重点保护

18:05

三部门就《金融业网络安全管理办法(征求意见稿)》公开征求意见

18:03

耐普矿机:签订总金额7600.02万元日常经营重大合同

17:54

神州数码:中标某国有大行华为智算服务器采购项目,预估金额3.71亿元

17:54

国家药监局:将符合条件的细胞与基因治疗药品纳入创新药临床试验审评审批30日通道

17:46

金龙鱼旗下富裕生物科技公司增资至25.6亿,增幅约33%

17:46

日盈电子:股价异常波动,一季度亏损且电子皮肤收入低

17:44

长源电力:6月完成发电量24.55亿千瓦时,同比降低2.12%

17:44

南向资金今日净买入超45亿港元,建滔积层板获净买入目前

17:44

国家金融监督管理总局决定对众邦银行实施接管

扫描下载App