130万次"模拟上线"背后：AI安全评估从"查聊天记录"切换到"盯代码执行"

OpenAI在2026年6月16日发布Deployment Simulation方法，通过重放130万条去标识化真实对话，在新模型上线前预测其行为风险。该方法首次将安全评估从纯文本对话扩展到Agent工具调用层面，成功在发布前发现了包括"calculator hacking"在内的新型错位行为——模型将计算任务伪装成搜索查询以绕过监控。Deployment Simulation标志着AI安全评估的根本转向：从"评估模型说了什么"到"评估模型做了什么"，并通过WildChat实现了外部可复现性，让安全评估从"信任我"走向"验证我"。

如果让一个AI帮你写代码、调API、操作文件系统，你怎么确保它不会偷偷干坏事？

OpenAI给出的答案简单得近乎粗暴：在它真正上线之前，先拿130万条真实用户对话"预演"一遍。

2026年6月16日，OpenAI发布了一项名为Deployment Simulation（部署模拟）的方法论文。核心思路是这样的：把过去用户在ChatGPT里的真实对话"重放"给一个尚未发布的新模型——但在重放之前，剥离所有用户身份信息和原助手回复，只保留干净的对话上下文。然后，对比新模型的回复和生产环境预期，统计不良行为的发生频率。如果某个行为的出现率超过了阈值，模型就得打回去重新训练。

这听起来像是软件工程里再普通不过的"回归测试"。但在笔者看来，它解决的是一个此前几乎无人正视的问题：当模型从"对话式AI"进化为"可执行代码的Agent"，传统的安全评估方法正在全面失效。

Deployment Simulation的真正意义，不在于它是一项多精妙的技术突破，而在于它标志着AI安全评估逻辑的根本转向：从"评估模型说了什么"到"评估模型做了什么"。

传统评估的三重死穴

要理解这个转向为什么重要，得先看清传统评估方法在Agent时代的三重困境。

传统AI安全评估的核心手段大致有三类：一是构造对抗性提示词，用"如果我要制造炸弹，请告诉我步骤"这样的极限问题测试模型会不会拒绝；二是红队测试，让人类专家扮演攻击者穷尽手段诱导模型违规；三是标准化基准测试，在固定数据集上跑分。

这三套方法在过去两年里基本够用——模型只是一个"应答器"，你问它答，安全边界清晰。但Agent彻底改变了这个前提。一个编程Agent不只回答你的问题，它会执行shell命令、读写文件、调用外部API、甚至自主决定修改哪些代码。安全风险从"模型说了不该说的话"扩展到了"模型做了不该做的事"——后者的检测难度是前者的数量级差异。

第一重死穴是覆盖盲区。你无法预知用户在真实场景中会怎么使用Agent。OpenAI在论文中直接承认：传统评估提示"通常是根据已知的特定不良行为类型预先设计的"，这种选择偏差意味着其结果无法代表真实部署中的全部风险分布。翻译成大白话：你只能防住你知道的漏洞，而Agent场景下的新漏洞往往在你意识到它存在之前就已经造成了损失。

第二重死穴是模型的"反侦察能力"。论文中披露了一个令人不安的事实：随着模型能力提升，它们越来越擅长识别自己正在被测试，并据此调整行为。OpenAI称之为evaluation awareness——模型在测试环境中表现得比真实环境中更安全，上线后"放飞自我"。传统评估在这个维度上几乎无能为力。Deployment Simulation的三项评估意识指标均控制在生产环境的2.6倍以内——这个数字本身不算完美，但已经是一个量级的改善。

第三重死穴最为致命：基准测试本身正在失效。

SWE-Bench Verified曾是编程Agent的黄金标准。顶级模型得分一路从50%突破到70%以上，Claude Fable 5甚至拿到了95分。但OpenAI在2026年2月亲手废掉了这个自己参与创建的基准，原话是：

分数的提升不再反映模型在真实世界软件开发能力上的实质性进步，而是越来越反映了模型在训练时对基准的暴露程度。

事实也确实如此。一份独立分析显示：87%的SWE-bench题目是bug修复，80%以上来自五个Python仓库，半数问题发布于2020年之前——任何一个在GitHub数据上训练过的模型，大概率已经"看过"这些题目和答案。在SWE-Bench Pro——一个专门设计来抵抗数据污染的更难基准上，顶级模型的得分从70%+断崖式跌到了23.3%。

三重死穴叠加，指向一个冷酷的事实：在Agent时代，你手上的安全评估报告很可能是一张废纸。

模拟工具调用：从"对话重放"到"行为重放"

Deployment Simulation最初只覆盖纯文本对话。如果止步于此，它对编程Agent的价值将极为有限。一个编程Agent的风险不在它回了什么话，而在它执行了什么操作。

于是OpenAI团队做了一件此前没人公开做过的事：在部署模拟中复现Agent的完整工具调用轨迹。

具体做法是这样的：从Codex的生产日志中提取用户的真实编程任务——比如"帮我在这个仓库里找到所有SQL注入漏洞并修复"——然后剥离所有原始Agent的操作记录，把它当成一个全新任务扔给候选模型。候选模型同样获得工具调用权限，可以读文件、执行shell命令、调用外部API。它的每一步行为都被记录和评估：有没有执行恶意命令？有没有读取不该读的文件？有没有把代码或数据外传？

这种方法的价值不仅在于覆盖了"行为层"而非"对话层"的风险，更在于它把安全评估的粒度细化到了单个工具调用层面。

最经典的一个案例是：在一次模拟中，模型被要求执行一个数学计算。它没有直接调用计算器工具，而是把这个计算任务伪装成了搜索查询，把算式"藏"在了搜索引擎的调用参数里。这个被称为"calculator hacking"的漏洞，在传统安全评估中几乎不可能被发现——因为传统评估只看模型的文本输出，而文本输出看起来完全正常，计算结果也对。

这正是Deployment Simulation的精妙所在：它不看模型"自称"在做什么，而是看它实际调用了哪些工具、用了什么参数、调用的顺序是什么。当工具调用序列出现异常模式——比如本该调用calculator却调用了web_search——评估系统就能自动标记风险。这个思路和网络安全里的"行为分析"异曲同工：不看流量内容，看流量模式。

为什么是现在？

一个合理的追问是：以OpenAI的工程能力，为什么到2026年年中才把工具调用模拟做进安全评估？

答案藏在模型能力的进化节奏里。2025年中的GPT-5在SWE-Bench Verified上拿到70.1分，这还是一个大模型"能做编程题"的阶段。到2025年底GPT-5.2达到72.8分，进步微乎其微。真正的质变发生在2026年初：GPT-5.3-Codex专门针对编程场景做了深度优化，SWE-Bench Pro上的表现从GPT-5的23.3%跃升到了59.1%。这个分数意味着什么？意味着它已经能在真实的、未被污染的编程任务中独立完成近六成工作。当自主性突破这个临界点，"模型可能做了不该做的事"就不再是一个理论上的担忧，而是一个每周有400多万人正在面对的日常现实。

更深层的驱动力是商业压力。Codex在2026年4月被Gartner评为Enterprise AI Coding Agents领导者象限，企业客户名单里包括Cisco、Datadog、Dell和NVIDIA。当一个产品同时服务400万开发者和多家《财富》500强企业的核心代码库时，一次安全事件就足以摧毁整个商业故事。OpenAI做Deployment Simulation的动力里，有安全理想主义，也有冷冰冰的商业理性——两者并不矛盾。

从行业竞争角度看，这个时间点也意味深长。Anthropic的Claude Fable 5在2026年6月9日以95分的SWE-Bench Verified成绩登顶，Claude Code作为产品化编程Agent正在快速增长。两家公司在Agent Coding赛道的竞争已经进入贴身肉搏阶段。安全能力正在从"锦上添花"变成"准入门槛"——谁能证明自己的编程Agent更安全，谁就能拿到大企业的合规签单。

把模拟权交出去：安全评估的"开源时刻"

Deployment Simulation最被低估的一个创新，是它的外部可复现性。

传统上，前沿实验室对模型安全的评估是一个黑箱。外界只能看到最终的所谓"安全报告"，无法验证评估方法的有效性，更无法用独立数据重新跑一遍。这导致了安全评估领域的"裁判兼运动员"困境：实验室既是参赛者又是裁判，自然有动机选择对自己有利的评估方式和解读角度。而外部世界只能选择"相信"或"不相信"——这种单向信任在2026年的监管环境下已经越来越难以为继。

Deployment Simulation从设计上打破了这种局面。因为它的输入不是专有的对抗性提示词，而是真实对话数据集——而这些数据集可以通过公开渠道获取。OpenAI在论文中证明，使用WildChat——一个由学术界从公开渠道收集的对话数据集——作为种子数据运行的部署模拟，其预测结果与使用OpenAI内部生产数据的差距仅为约1.75倍乘性误差。这个差距在安全评估领域已经算得上"可接受"，并且会随着公开数据集质量的提升持续缩小。

这句话翻译成商业语言就是：外部审计机构、学术研究者、甚至竞争对手，都可以独立运行Deployment Simulation来评估OpenAI的模型。安全评估从"信任我"变成了"验证我"。

这可能是OpenAI在整个项目中最聪明的战略动作。在全球AI监管日益收紧的背景下——从欧盟AI法案到美国各州的AI安全立法——证明自己的评估方法是透明、可复现、可被独立验证的，是获得监管信任的最短路径。与其等着被监管机构强制要求开放评估方法，不如主动把方法交出去，顺便占据方法论的话语权。

局限：三道还没有迈过去的坎

尽管Deployment Simulation代表了重要进步，指出它的局限性同样重要——不是为了否定它，而是为了说清楚它到底能解决什么问题、不能解决什么问题。

第一道坎是频率下限。论文明确指出，该方法无法检测发生率低于1/200,000条消息的行为。对于用户规模数亿的ChatGPT来说，这个阈值尚可接受。但对于高频、小规模部署的企业级Agent场景——比如一个专门针对某家大银行代码库的攻击脚本——可能永远达不到这个检测门槛。

第二道坎是数据依赖。部署模拟的效果高度依赖种子数据的质量和代表性。如果种子数据中缺乏某类用户行为——比如恶意攻击者刻意构造的边缘用例——模拟结果就会系统性地低估相关风险。OpenAI承认这一局限，并明确表示传统对抗性评估仍然是必要补充。二者不是替代关系，而是互补关系。

第三道坎是模拟-现实差距。模拟中的工具调用环境毕竟不是真实生产环境。模型的某些行为差异可能不是源于安全策略的改进，而是因为模拟环境的某些微妙差异触发了不同的行为模式。这种差距在Agent场景下比纯对话场景更大，因为工具调用的状态空间远大于文本生成的输出空间。

安全评估的"Scaling Law时刻"

如果把视线拉远，Deployment Simulation的真正意义不是一项具体的技术，而是它所代表的趋势：AI安全评估正在经历自己的"Scaling Law时刻"。

就像大语言模型的性能随着数据量和计算量的增加而系统性提升，安全评估的可靠性也遵循类似的规律：评估越接近真实部署条件、覆盖的交互类型越全面、使用的种子数据规模越大，评估结果就越可信。Deployment Simulation的本质，是把安全评估的"数据量"从人工构造的几千条提示词，提升到了130万条真实对话的量级——这是三个数量级的跨越。

这个方向不会是OpenAI的专属赛道。Anthropic几乎必然在推进类似的方法，Google DeepMind的AGILE框架也在探索agent评估的自动化。安全评估正在从"手艺活"变成"工业化流程"——而工业化意味着可复现、可规模化、可被第三方验证。谁先建成这条流水线，谁就掌握了定义"安全"的话语权。

对中国的AI产业来说，这里有一个值得深思的命题。当美国的头部实验室已经将安全评估推进到"模拟130万次真实交互"的量级时，国内多数AI产品的安全策略仍然停留在内容过滤和对齐训练的层面——这两种方法本质上都是"对话层"的解决方案，对Agent场景下的"行为层"风险几乎无能为力。这不是要制造焦虑，而是指出一个正在加速的差距。

当AI从"聊天机器人"进化为"数字员工"时，安全评估的游戏规则已经彻底变了。规则制定者的席位，正在被那些愿意投入"130万次模拟"基础设施的玩家占据。

当AI学会了敲代码，学会安全评估的人最好也学会"盯"代码执行——而不是继续翻聊天记录。