当AI不再需要你一步步教

Wharton教授Ethan Mollick拿到了Anthropic首个Mythos级模型Claude 5 Fable的早期访问权限。他的测试结果令人震惊：Fable可以自主工作十几个小时，调用子Agent完成从研究到编码的全流程，而人类只需要在最初说一句模糊的指令。这不仅是能力跃迁，更意味着人与AI的关系正在从Human-in-the-Loop转向Human-in-Charge。

你给一个AI说“我想要一张等时线地图，基于真实数据，风格独特”，然后转身去忙别的事了。十几个小时后回来，它已经检索了超过2200条航班数据、从TGV到新干线的全球高铁时刻表、多篇学术论文中的各国公路车速，完成了代码编写和测试，并且让地图可以交互使用。你唯一需要做的，就是最初那句含糊的指令。

这不是科幻小说。这是Wharton商学院教授Ethan Mollick在2026年6月使用Claude 5 Fable的真实经历。Fable是Anthropic推出的第一个面向普通用户的Mythos级模型。Mollick拿到了早期访问权限，他几乎测试了Fable所有能做的事，唯独没有碰网络安全。Fable被刻意剥离了网络攻防能力，Anthropic为它设下的护栏让它在网络安全领域几乎无法发挥作用。

Mollick的结论简洁而令人不安：“Fable在我使用过的每一个模型上都领先了一大截。”但更重要的是，他开始感觉到人与AI之间的关系正在发生剧烈变化。这种变化不只关乎速度或能力，而是关乎一种根本性的协作模式重构——从“人类提问、AI回答”到“人类提需求、AI自主完成”。

一夜之间完成数周的工作

等时线地图只是冰山一角。Mollick用它做了一个又一个实验，结果都指向同一个方向：整个类别的任务，AI已经可以自主完成，不再需要人类逐级介入。

在学术领域，他用一条提示词加上一次反馈，就让Fable生成了“我见过的最复杂的AI社科论文”，完整的论证框架、图表和参考文献一应俱全，整个过程仅需两次交互。在创意领域，Fable写了一首10页长的史诗级押韵诗，主题是关于一次理发体验，而诗的每一个单词都以字母S开头。这不是简单押韵，而是需要在一个极其严格的约束条件下完成叙事，此前任何模型都无法做到这一点。

在游戏开发中，Mollick给了极其模糊的需求，Balatro，不过是抛硬币游戏。Fable就生成了一款可玩的网页游戏，所有美术和3D对象全靠数学代码生成，没有使用任何外部素材。八个提示词，一个可玩的游戏。Mollick形容这是“令人震惊的体验”。

这些实验揭示了一个关键的转变：Fable不是更快地回答问题，而是在自主执行任务。这两者之间存在本质区别。回答问题是在人类设定的框架内完成一个确定的动作；执行任务则需要理解模糊意图、自主规划路径、拆解成子任务、调用资源、验证结果、迭代优化。Fable在等时线地图的构建过程中，先是启动了多个子AI助手来帮助研究。这些子Agent共检索了超过2200条具体航班信息、全球高铁时刻表和各国公路行驶速度数据。与此同时，Fable自己开始了编码工作，然后启动更多的Agent来验证代码，全程记录着进展。整个过程持续了十几个小时。

这种工作方式，不是你在对话窗口中与AI一问一答，而是你给出一个模糊的目标，AI自主拆解、分工、执行、验证、交付，从根本上改变了人类在协作中的角色。

Mollick甚至观察到，Fable在开发过程中展现出类似人类的“项目管理能力”。它会主动记录当前进度、标出尚未完成的部分、在遇到阻碍时尝试替代方案。这些行为不是被预先编程的，而是模型自主涌现出的工作模式。当你在第二天早上查看它的工作日志时，看到的不再是一串代码片段，而是一份完整的开发报告。

从Human-in-the-Loop到Human-in-Charge

过去两年，AI的使用模式始终是输入-输出式的。你提一个问题，它给一个答案。你写一段代码，它生成一段代码。人类在回路中不只是一个术语，更是AI系统的硬约束，没有人类的逐级指令，AI什么都不会做。这种模式决定了AI的天花板就是人类提问能力的上限。

Fable打破了这种模式。Mollick描述他的使用体验时用了一个精准的词：“ungearing”，减速齿轮被卸掉了。当你不再需要把每一个需求拆解成细碎的提示词，只需要说出一个模糊的意图，AI就可以自主规划路径、拆分任务、调用子工具、验证成果，并且连续数小时不中断。

你不再是程序员或提问者，而是变成了甲方。你告诉它“我想要一个这样的东西”，它数小时后告诉你“做好了，你看看”。这个转变看似微小，实则意义深远。在传统的人机协作中，人类扮演的是“解释者”——把模糊的想法翻译成机器能理解的精确指令。在Fable代表的新的协作模式中，人类扮演的是“决策者”——只需要表达想要的方向，AI负责把方向转化为具体的执行路径。

Mollick用“delightful and unnerving”形容这种感受，既美妙又令人不安。美妙的是它执行了你说的每一句话，甚至超出了你的预期。令人不安的同样是这一点。当AI不再需要你一步步地教，你在智能生产的流程中还剩下什么不可替代的价值？

这不是一个哲学问题。对于每一位技术管理者、创作者和知识工作者来说，这是一个正在发生的职业现实。如果AI可以自主完成一个项目从理解需求到交付的全流程，那么中层执行者的角色将面临前所未有的冲击。这类似于工业革命对手工业者的冲击，但节奏更快、范围更广。工业革命用了数十年改变生产方式；AI自主工作的冲击可能只需要数年。

Mythos的能力与被锁住的怪兽

要理解Fable的真正意义，必须回到它的母体Mythos 5。Fable是Mythos的安全版本，明白了这一点，才能理解为什么Anthropic选择了一种如此谨慎的发布策略。

早在6月8日，Axios独家报道了Anthropic的研究成果：Mythos能够在31分钟内将披露的Windows内核漏洞转化为可工作的利用代码，在21个内核漏洞中有18个能成功触发蓝屏，最长的一个利用耗时约5.7小时。在Firefox测试中，Mythos针对18个安全补丁生成了8个可实现代码执行的利用程序。Anthropic估算，Mythos在API调用上花费约15700美元就完成了这些漏洞利用的生成，平均每个约2000美元。这意味着，一名攻击者只需花费不到一辆二手车的成本，就能获得自动化漏洞利用的能力。这是网络安全的福岛时刻——技术能力突然跃升至一个需要重新评估所有安全假设的水平。

正是因为这种能力，美国政府高度紧张。Fable 5于6月9日发布，仅一周后的6月12日，商务部就下达了出口管制令，要求Anthropic阻止所有非美国国民访问Fable和Mythos。Anthropic发现无法在运行时精准判断用户国籍，唯一合规的做法就是面向所有用户关闭。Fable和Mythos同时被撤下。整整18天，全球用户都无法访问这些模型。

7月1日，商务部长Howard Lutnick在X上宣布解除管制。Fable 5恢复全球访问，Mythos 5则仅限通过Project Glasswing计划向经过批准的美国企业开放。这场18天的博弈，不仅是Anthropic与政府的对抗，更是AI行业与监管体系之间的一次压力测试。结果是对峙双方各退一步：政府允许发布，但保留对最强版本的管控；公司开放通用版本，但接受对旗舰能力的出口限制。

Fable本质上是去爪版的Mythos，保留了绝大部分通用推理和编码能力，但在网络安全领域被刻意削弱。这让它成为一面镜子：它反映了Mythos级别的可怕实力，同时以安全版本的形式证明了超强AI的可控性。

Anthropic实际上正在执行一套双轨策略。6月30日发布的Sonnet 5作为低风险代理面向大众，在编码和智能体能力上逼近Opus 4.8，但刻意不在网络安全领域接受训练，从而降低监管风险。Mythos则以最严格的管控方式提供给极少数可信合作方。这是一个头部AI公司在技术和监管的双重夹缝中寻找出路的经典样本：一边是技术能力的自然演进，一边是国家安全考量的现实约束，中间是公司必须做出的妥协和取舍。

Agent经济的加速到来

Mollick的实验并非孤例。如果我们把视野放宽，可以看到多个信号同时指向同一个方向：AI的产业形态正在从“模型即产品”转向“Agent即服务”。

同月，OpenAI与哥伦比亚大学、杜克大学和宾夕法尼亚大学联合发布了一份报告，显示Codex的使用量正在加速增长。抽样数据显示，80.6%的独立用户至少提交过一项Codex请求，评估认为这些请求相当于一个经验丰富的人类超过30分钟的工作量。增长最快的用户群体不是专业开发者，而是非技术人员。这个数据点很值得玩味：当AI工具的复杂度达到一定程度后，反而是不懂技术的人用得最顺手——因为他们没有“我以为我知道怎么做”的习惯性偏见，更容易信任AI自主完成任务。

Anthropic在Sonnet 5的发布说明中也明确写道，该模型是为“自动化任务，包括浏览器操作、规划、编码和知识工作”而设计的。AI公司正在集体押注一个判断：未来人类与AI的主要交互界面，不是对话框，而是任务委托书。

还有更激进的案例。就在6月30日，加密货币交易所OKX推出了一个专门面向AI Agent的市场，让AI Agent可以互相雇佣、自主结算、建立链上信誉。这听起来像是一个疯狂的想法，直到你意识到Mollick的Fable已经在做类似的事了。Fable在构建地图时自己启动了多个子Agent，为它们分配研究任务，收集子Agent的返回结果汇入主项目。Agent与Agent之间的协作，已经在实际生产环境中发生了，尽管大多数人还没有意识到。

从更宏观的视角看，整个AI行业正在从“模型竞赛”转向“Agent竞赛”。模型能力仍然是基础，但真正的竞争壁垒正在向Agent架构、工具生态和任务完成度迁移。谁能让AI更可靠地从“理解意图”到“交付成果”，谁就能在下一阶段占据优势。这解释了为什么Anthropic不惜承受18天的下架风波也要坚持推出Fable，也解释了为什么OpenAI在Codex上投入如此之大的推广资源。

安全与开放的平衡难题

Fable和Mythos的故事还有一个无法回避的维度：AI治理。

一个能力如此强大的模型，在发布后一周内就被政府要求下架，这在科技行业历史上极为罕见。Galaxy Note 7因为电池起火被召回，Facebook因为数据丑闻被国会听证，但一个软件产品因为“太强了”而被政府禁售，这是第一次。但Mythos的威胁是真实存在的，一家头部AI公司的模型被评估为能够在数小时内自主发现并利用零日漏洞，任何政府都无法坐视不管。Anthropic的CEO Dario Amodei曾说过，最让他夜不能寐的不是AI太笨，而是AI太聪明后被滥用。Mythos的故事恰好印证了这句话。

然而，Fable的命运也揭示了一种可能的分层治理模式。Fable保留了Mythos的通用智能，但去除了最具风险的网络攻防能力；Mythos保留全部能力，但仅限可信方通过受控计划使用。这种思路类似于新药审批中的限制处方机制，最强效的药物不是谁都买得到，但也不会因为副作用而彻底被禁。这是AI治理领域极少数“既管住了风险、又没有扼杀创新”的案例。

问题在于，这种模式在全球范围内能否落地。Fable的全球恢复是在美国政府解除出口管制后才实现的。如果不同国家出台不同的AI管控标准，开源和闭源模型之间的能力落差会进一步拉大。这可能催生出一个AI能力的安全洼地：能力较低的模型在全球自由流通，顶尖能力被少数国家垄断。而更令人担忧的是，真正的对手可能根本不会遵守这些规则。AI治理的全球化困境由此显现：技术在本质上是无国界的，但监管是有边界的。

Anthropic的故事提醒我们，前沿AI的安全治理不是一个管还是不管的问题，而是一个怎么分级管理的问题。Mollick在他的Substack上一针见血地写道：“放弃Human-in-the-Loop范式的时候还没有到。”但他同时也展示了，Human-in-the-Loop正在被迅速改写成Human-in-Charge。这两个词的区别，定义了未来十年人类与AI的分工边界。在Human-in-the-Loop中，人类是流程的一个环节；在Human-in-Charge中，人类是决策的最后一环。一字之差，角色天壤之别。

当一个AI可以自主工作十几个小时，启动多个子Agent协同作战，从头到尾交付一个完整项目，而你只是在最开始说了一句“我想要这个”，接下来会发生什么？

从命令行到图形界面，从触摸屏到语音交互，每一次人机交互界面的革命都重新定义了人做什么、机器做什么。AI自主工作也许是下一场这样的革命。Fable和Mythos只是前人留下的第一块界碑。

那块界碑上写的不是“我们到了”。它写的是“才刚刚开始”。