AI 小镇之后，智能体开始模拟人类逃命-钛媒体官方网站

文 | wiwi

2023 年 4 月，斯坦福大学和 Google 的研究者做了一个后来火遍全网的实验，也就是被人们叫作"AI 小镇"的那个项目。他们搭了一座像素风的虚拟小镇，往里面放进 25 个由大语言模型驱动的"虚拟居民"。这些居民自己起床、做早餐、上班、社交。其中一个叫 Isabella 的居民想办一场情人节派对，就把消息告诉了朋友，朋友又转告了朋友——几天后，真的有居民按时出现在派对现场，中间甚至冒出了"暗恋"的桥段。而这一切，没有剧本，没有人操控，全是它们自己"演"出来的。

那是 AI 圈最浪漫的时刻。人们兴奋地讨论《西部世界》和《模拟人生》，讨论游戏 NPC 的革命——大多数人都把 AI 小镇理解成游戏的未来，理所当然地以为，这类技术的第一块大市场会是游戏、社交和虚拟陪伴。

斯坦福 AI 小镇

这个判断只对了一半。

AI 小镇真正重要的地方不在于好玩，而在于它证明了一件事：大模型不只是一个聊天窗口，它还能扮演人。 只要给它一份记忆和一套日程，让它记得昨天、计划明天，它就能在一个环境里长期表现得"像一个人"。这种会自主行动的 AI，学界称之为"生成式智能体"，也就是今天人人都在谈的 Agent。

但 AI 小镇终究带着一种游戏感。它模拟的是岁月静好的日常——咖啡馆、学校、派对和闲聊。而一个会"扮演人"的系统，最值钱的去处，恰恰是那些不能拿真人反复试错的地方：派对办砸了可以重来，疏散预案错了就是人命。

所以，三年过去，这个领域最前沿的研究者们在忙什么？答案有些出人意料：他们在教智能体逃命。

地铁站起火，虚拟人在浓烟中寻找出口；飓风逼近，一整座城市的智能体在决定走还是留；大学毕业典礼上出现紧急情况，人潮涌向体育场出口——这些不再是游戏关卡，而是过去一年里，卡内基梅隆大学、清华大学、天津大学等机构发表在顶会顶刊上的正经研究。如果说 AI 小镇模拟的是"人如何生活"，那么这一批研究模拟的，是"人如何慌乱"。

一、逃命不是运动问题，是决策问题

要理解这个转向，得先想明白一件事：逃命看起来是个跑得快不快的问题，实际上是个决策问题。 一个人能不能从火场里活着出来，不只取决于他离出口有多远，更取决于他听到警报后的一连串选择。而麻烦在于：这些选择，几乎无法被"排练"。

真实的疏散演习贵、扰民、走过场——没有人会在演习里真的恐慌、真的推搡、真的在浓烟里走错出口。而真实灾难的数据又极其稀缺，且每一条都以生命为代价。大规模真人实验？成本高不说，伦理上也过不了关。

计算机仿真是替代方案。从上世纪 90 年代开始，学界主流是"社会力模型"（Social Force Model）一类的物理仿真：把人抽象成一个个受"力"驱动的粒子，出口是引力，人群是斥力。这套方法能算出楼梯的通行能力，却回答不了真正致命的问题——

听到警报后，人们会立刻走吗？还是先刷手机确认？会走最近的出口，还是走自己进来时那个熟悉的门？会不会有人半路折返，回去找老人、孩子、宠物和贵重物品？谣言会如何改变人流？

在真实世界里，很多伤亡并不来自灾害本身，而来自这些判断的接连失败。这些是"认知"问题，不是"力学"问题。而认知，恰恰是大语言模型的主场。

于是一个顺理成章的想法出现了：把大模型装进每一个虚拟人的脑袋里。新一代逃生模拟真正要解决的，不是让虚拟人跑得更像真人，而是让虚拟人"错"得更像真人。

2025 年，欧洲一支研究团队把这个领域的论文系统梳理了一遍，给出过一个精准概括：新一代仿真的架构是"物理—认知分离"——传统模型继续负责人群密度和碰撞，大模型负责模拟"不确定性下的恐慌与决策"。换句话说，过去的仿真里，人是粒子；现在的仿真里，人终于有了脑子。 旧仿真关心的是路径，把人看成流量；新仿真关心的是动机，把人还原成有情绪、有误判、有牵挂的活人。

就这样，一个曾经属于公共安全工程的冷门领域，突然站在了 AI 最热赛道的延长线上。也正是在这里，Agent 的意义开始变了：它不再只是替人写邮件、订机票的效率工具，而是变成一种更有价值、也更危险的东西——替现实世界预演人的反应。

二、逃命模拟，正在补齐四块拼图

过去一年，"智能体逃命"不是零星冒出来的论文热闹，而是在拼一套新的仿真基础设施。第一块拼图：这东西能不能被真实的应急团队用起来？第二块：虚拟人能不能从地图上的一个点，变成有身体、会摔倒的人？第三块：尺度能不能从一个场馆推到一座城市？第四块最关键：人在灾难里的"慌乱"，能不能被拆成可计算的结构？

第一块拼图，在卡内基梅隆大学。

2025 年 9 月，卡内基梅隆大学的一支团队公开了一项持续 16 个月的研究：他们和校方的应急管理部门真刀真枪地合作，用智能体给毕业典礼这样的万人级活动推演疏散预案。

这项研究最值得玩味的不是技术，而是过程。团队从 500 个智能体的粗糙版本起步，一路做到 3000 个、再到 13000 个——足够装下一整场毕业典礼的人群，中间推倒重来了五轮。一开始，应急管理者对这套东西充满怀疑；到最后，模拟器成了他们培训协调员、优化疏散流程的日常工具。

研究者总结出一条几乎可以写进所有 AI 落地教科书的经验：模拟器赢得信任，靠的不是一上来就"准"，而是先把日常小事模拟对——比如一场普通活动的散场——让专家亲眼确认它靠谱，再带着这份信任去推演真正的灾难。甚至，模拟的"不完美"本身也有价值——当应急专家指着屏幕说"不对，真实的人不会这么走"时，那些从未被写进预案的隐性知识，第一次被逼了出来。

体育场疏散模拟

第二块拼图，在一座虚拟的地铁站。

2025 年，天津大学联合清华大学、英国卡迪夫大学的团队在计算机视觉顶会 ICCV 上发布了 RESCUE 系统——第一个能实时跑起来的大规模虚拟人逃生模拟。数百个虚拟人在地铁火灾、演唱会散场的现场同时逃命，每个虚拟人脑子里都转着一套"看—想—跑"的循环：先看清地形、烟雾和身边的人，再盘算要不要改道，最后迈开腿——连跑起来的步态，都是一人一个样。

它甚至能实时可视化每个虚拟人身体 24 个部位承受的碰撞力，用颜色标注出来——这意味着"踩踏"第一次可以被逐帧解剖。 年轻人、老人、残障人士各有各的跑法，哪类人会在哪个拐角被人流吞没，一目了然。同台较量下，老一代"粒子"模型输得很干脆：RESCUE 的虚拟人逃出来得更多，摔倒得更少。

多人 3D 逃生场景

第三块拼图，是从场馆走向社会。

这一步看似离逃生远了，其实关键：真实灾难从来不只是物理事件，更是一场社会系统的压力测试——谁相信预警、谁有车离开、谁被困在资源覆盖不到的角落、谁在传播谣言，都会改写最终的伤亡数字。清华大学电子系团队打造的大型社会模拟器 AgentSociety，正是把尺度拉到了这一层：一次典型的模拟里，上万个智能体各自过着自己的生活，累计产生 500 万次社会互动；研究的议题从舆论极化、UBI（全民基本收入）政策评估，一直到飓风灾害下的人口流动与应急响应。

不过，规模上去之后，一个更根本的问题也随之浮出水面：几十万个智能体跑出来的结果，到底可信吗？已经有研究者开始给它们"判卷"了：拿真实飓风里的疏散记录当标准答案，看智能体交出的答卷像不像真实的人类。

第四块拼图，深入到了"慌乱"的内部。

一项名为"分层生成式智能体"的最新研究，把"慌乱"本身拆出了结构。研究者搭了一座持续恶化的虚拟城市：火在蔓延，烟在扩散，道路一条条失效。城里每个智能体做决定时都分三层：最上层想的是"我要立刻撤离，还是先回去找家人"；中间一层想的是"走熟悉的路，还是绕开烟雾"；最底下，才是脚下的每一步怎么走。

换句话说，人在灾难里走出来的从来不是一条最短路径——他是在巨大的压力下、拿着残缺的信息，一次又一次地重新做决定。这套三层结构，第一次给了"慌乱"一个可计算的形状。

从一栋楼、一个站、一座城，再到人心里那套决策机制——四块拼图正在被一块块补上。它离成熟产业还远，但已经不是三年前那种"看个新鲜"的技术演示了。

三、谁会为"模拟人"买单？

一项技术从论文走向市场，通常只需要回答一个问题：谁会因为它少犯错、少赔钱、少担责？"逃命模拟"的答案并不难找——它真正卖的从来不是逃命，而是对人类群体行为的推演能力，买家是所有要为"万一"负责的机构。比起 AI 小镇当年指向的游戏和社交，这个市场要"重"得多，也刚需得多。

第一层是应急预案的 SaaS 化。 全球每一座体育场、机场、地铁系统、大型园区，都背着法定的应急预案义务。传统咨询公司做一份疏散评估，动辄数月、报价不菲，且做完就是一份躺在抽屉里的 PDF。而卡内基梅隆的案例已经证明，智能体疏散模拟可以变成一个"活"的工具——预案改一版，不再只是重新出一份 PDF，而是可以重新跑一轮模拟：换一种警报方式、换一个出口配置、换一批志愿者站位，看人群会被带向哪里。这是典型的"专家服务被软件吃掉"的剧本。

第二层是城市数字孪生的"补脑"。 过去十年，中国的智慧城市和数字孪生项目建了海量的"躯壳"——精细的三维建模、实时的传感器数据，但孪生体里的"人"始终是死的。过去的数字孪生复制的是建筑、道路、设备和交通流，生成式智能体恰好补上了最难复制的那一块：人。对手握城市治理预算的政府客户而言，"能推演台风来了市民怎么跑"的数字孪生，和"只能看楼宇亮灯"的数字孪生，完全是两种东西。

第三层，也是想象空间最大的一层：保险与风险定价。 保险公司关心的不是某个人从哪个出口逃出去，而是灾难中的行为变量：多少人会提前撤离，多少人拖到最后，多少人因为错误信息做出错误决定。巨灾保险的核心是风险建模，而人的行为，恰恰是巨灾损失里最不确定的变量。

斯坦福团队 2024 年的后续研究已经展示了另一种可能：通过两小时的深度访谈为 1052 个真人构建"数字分身"，这些智能体在美国社会学界沿用半个世纪的权威问卷"综合社会调查"（GSS）上，复现本人回答的准确率约为 85%。85% 是什么概念？真人自己隔两周重答一遍问卷，一致率也差不多只有这个水平——也就是说，智能体模仿你，已经接近你复现你自己的程度。当"模拟一个具体的人"的精度达到这个量级，模拟一个社区在灾难面前的集体反应，就不再是科幻。而能被计算的风险，才能被定价。

把三层叠起来看，客户名单已经很清楚：政府、场馆、保险公司、大型活动主办方——这些买家的付费能力，比游戏玩家硬核得多。

四、真正危险的，不是 AI 不像人，而是它太像人

故事讲到这里都很性感，但至少有三盆冷水必须泼。

第一盆：大模型天生"太平均"。 做社会模拟的研究者们反复提醒同一个隐患：大模型捏出来的人，越捏越像同一个人——每个智能体都有点像社交媒体上那个最普通的用户。但灾难恰恰是由最不典型的那一小撮人决定的：那个不肯撤离的老人、那个逆行救人的路人、那个引发踩踏的尖叫者。如果模拟器里全是"理性的平均人"，它算出来的疏散时间可能漂亮得致命。

第二盆：微观可信，不等于宏观真实。 单看每个智能体，它的每一步决策都说得头头是道——这正是大模型的强项，也是最大的陷阱。前文那篇欧洲团队的论文点得很透：逐个体的"可信"，无法保证群体层面的"真实"。一万个各自合理的智能体，加总起来可能是一场根本不会在现实中发生的集体幻觉。而要验证群体结果靠不靠谱，得把各种参数换着跑成百上千遍——大模型每跑一遍都在烧钱，这笔验证账，目前几乎没人付得起。

第三盆最有讽刺意味：安全对齐，反而可能让模拟"失真"。 商用大模型被反复训练得乐于助人、拒绝伤害，可真实的灾难现场有自私、有推搡、有见死不救。一个被对齐得过分善良的模型，可能天然演不出人性的暗面——而应急预案恰恰是为人性暗面准备的。 用一个"好人"模拟器去推演最坏情况，得到的可能是一份过于乐观的预案。

三盆冷水之下，还有一层更深的暗流："合成人群"对真实人群的替代诱惑。智能体模拟的是"看起来像人的行为"，不是人的真实处境。它可以表现出犹豫、恐惧和牵挂，但这些行为来自模型、提示词和校准数据——屏幕上的"人群"没有真实的处境，没有真实的损失，也没有真实的权利。它可以帮人类发现预案盲点，但替代不了真实调查、实地演练和公共决策。它是沙盘，不是答案。

危险在于，沙盘太好用了。当"问一群 AI 用户要不要付费"比做用户调研便宜一百倍，当"让 AI 人群先看一遍广告"比投放测试快一百倍，当"用智能体预判公众对政策的反应"比听证会省事一百倍——当模拟人足够便宜，真实的人反而可能变得不那么必要。 生成式智能体真正的风险，从来不是 AI 变得像人，而是机构开始相信 AI 已经足够像人。

把场景拉回逃命模拟，这种诱惑会变成一个非常具体的问题：如果某天，一份基于智能体模拟的疏散预案在真实灾难中失效了，责任算谁的？算模型厂商的、仿真公司的、还是签字的应急官员的？卡内基梅隆的研究者们给出了行业目前最诚实的态度：推演可以交给智能体，最终签字的，必须是人。

五、结语：AI 小镇的 B 面

回头看，斯坦福 AI 小镇真正的遗产，或许不是那场情人节派对，而是它留下的那台**"人类行为的仿真引擎"**。

派对是这个引擎的 A 面——温情、巧合、自发聚起来的热闹。逃命是它的 B 面——恐慌、拥挤、生死关头的抉择。A 面负责讲故事拿融资，B 面负责签下政府和保险公司的合同。

技术史上有个反复出现的规律：一项技术真正成熟的标志，是它开始被用于处理死亡。飞行模拟器如此，碰撞测试假人如此，核爆仿真亦如此。从这个角度看，智能体开始"模拟人类逃命"，恰恰说明生成式智能体正在离开玩具阶段，开始接受真实世界生死问题的检验。它会先在虚拟小镇里办派对，然后在虚拟城市里逃命，最后被用来预演现实世界的选择。

三年前，我们围观 AI 小镇时问的是："它们像人吗？"现在，应急管理者、城市治理者和保险精算师们问的是一个更严肃的版本："在最坏的那一天，它们像人吗？"而所有人都还没来得及问的那个问题是——当 AI 足够像人时，谁会开始拿它替代人？

这可能才是"AI 小镇"真正的下一章。