三道防线锁住Claude Mythos,亚马逊重新定义AI安全释放规则

2026.07.01 13:09
2026年6月30日,AWS CISO Amy Herzog发表了一份名为“Safely Releasing Frontier Models to Customers”的纲领性声明。文中不仅宣布Claude Fable 5(首个Mythos-class商用模型)将在Bedrock重新上线,更披露了一套由硬件级隔离、数学可验证护栏和分级释放机制组成的“三层安全体系”。这套体系正在成为全球云AI平台竞争中最难以复制的新护城河——当前沿模型能力跨过红线,安全基础设施就不再是附加功能,而是释放的前提条件。

前沿模型越强,释放它的风险就越高——亚马逊选择了最谨慎的那条路。

2026年6月30日,AWS首席信息安全官Amy Herzog发表了一篇题为“Safely Releasing Frontier Models to Customers”的博客,措辞平淡,但信息量极大。文中宣布两件事:其一,Anthropic的Claude Fable 5模型将在Amazon Bedrock重新上线,并配备更强的安全护栏;其二,能力更前沿的Claude Mythos模型不会向公众开放,而是仅限经过筛选的防御方在受控环境中使用。

这不是一次简单的产品更新。这是全球最大云服务商在AI安全问题上的明确表态:模型越强,释放机制越不能一视同仁。而支撑这套表态的,是三层环环相扣的安全基础设施——从硬件架构到形式逻辑验证,再到分级动态释放。

两件事,一个共同信号

Claude Fable 5的故事本身就是行业大势的一个缩影。2026年6月9日,AWS宣布Fable 5在Bedrock上正式商用,这是Anthropic第一个向所有客户开放的Mythos-class模型。据AWS官方公告,Fable 5在有记录的几乎所有基准测试上均达到业界最新水平,在自主知识工作和复杂编码任务上实现了代际跃升。

但仅仅三天后的6月12日,因美国政府出口管制指令,Anthropic要求AWS撤销了对Fable 5和Mythos 5的访问权限。AWS确认了这则消息——“为了配合美国政府出口管制指令”,相关模型在Bedrock上变为“不可用”。

到了6月30日,情况出现转机。Amy Herzog宣布Fable 5将于7月1日起重新可用,同时强调新版本“配备了更强的护栏防止滥用”。同一篇博客还披露了另一个更敏感的信息:Claude Mythos——同一代际中不带安全分类限制器的模型——将继续保持受限状态,仅通过Project Glasswing定向释放给经严格筛选的防御方。

Project Glasswing是Anthropic在2026年4月7日发起的AI网络安全倡议,拥有超过45家成员组织,包括AWS、苹果、谷歌、微软、英伟达、CrowdStrike、摩根大通等,配套1亿美元的使用额度支持和400万美元的开源安全捐赠。Mythos在Glasswing内部的测试结果令人不安:它能够自主发现并利用主流操作系统和浏览器中的零日漏洞,发现的漏洞中超过99%尚未被修补。

正因如此,Fable 5与Mythos的“分轨释放”策略,成为了这篇博客的实际主题——亚马逊需要向市场和监管者证明,它有能力安全地释放它们。

第一道锁:Mantle的“零运维人员访问”设计

如果安全措施是一个人的防线,Mantle就是这套体系的骨骼:它从根本上消除了“人”这个最大风险变量。

2025年底发布的Mantle推理引擎,是亚马逊为Amazon Bedrock打造的下一代推理基础设施。它的核心设计哲学继承自AWS Nitro系统——零运维人员访问。这个概念听起来简单,但其执行之激进在行业中几乎找不到对标产品。

具体来说:Mantle系统内部没有任何SSH、AWS Systems Manager Session Manager或串行控制台的接入能力。从硬件架构上,AWS的运维人员就根本不可能登录底层计算系统,自然也就无法接触任何客户数据——包括推理提示词和模型输出。所有推理软件更新必须经过数字签名验证才能部署。Mantle还使用EC2实例证明能力和Nitro TPM的加密签名测量,构建起一个硬化、受限且不可变的计算环境。

正如Amy Herzog在博客中所写,Mantle在Bedrock已有的运营安全标准基础上“进一步提高了安全标杆”。Bedrock的基线安全已经足够严格——最小权限原则、所有推理在模型提供商无法访问的AWS自有账户中完成、客户数据绝不用于模型训练——但Mantle把标准从“人能接触但不能违规”提升到了“人从技术上就不能接触”。

对金融、医疗、政务等处理高度敏感信息的企业客户而言,这种“不需要信任任何人”的架构本身就是最强的安全背书。

第二道锁:用数学证明代替概率信任

AI安全领域长期面临一个结构性的问题:安全防护措施本身缺乏可验证性。当一家公司说“我们有内容审核”时,你只能选择信任——或不信。因为没有独立的方法来验证审核是否真的有效。

亚马逊在Bedrock Guardrails中引入的Automated Reasoning Checks,从根本上打破了这种黑箱逻辑。它不是用另一个大模型去审核大模型——那本质上是用概率对抗概率——而是用形式逻辑的数学方法,对模型输出进行可证明的验证。

具体工作方式是:运维人员定义一套形式化业务规则——比如“在金融场景中,任何涉及投资建议的回复必须附带风险提示”——然后Automated Reasoning Checks会用数学方式证明模型输出是否符合这套规则。如果不符合,它不仅会拒掉输出,还会给出具体的违反原因和修正建议。据AWS官方数据,Automated Reasoning Checks在验证模型输出是否符合预设策略时的准确率达到99%。

这项技术的商业意义远超技术层面。在金融、医疗、制药等强监管行业,AI应用的合规性往往需要可审计、可追溯的证据链。概率性的安全防护无法提供这样的证据——但数学证明可以。PwC已经与AWS合作,将Automated Reasoning Checks应用在EU AI Act合规、制药行业内容审查和公用事业故障管理等真实场景中。对PwC这样的审计机构来说,“数学可证明”意味着AI输出可以直接作为合规证据被监管机构接受——这在几乎任何其他平台上都无法做到。

2026年6月,AWS进一步为Automated Reasoning Checks推出了新的自动化策略完善工作流,包括迭代式策略改进和歧义消除工作流,让运维人员可以用更少的精力完成更可靠的护栏配置。

当客户知道模型输出的每一次合规判断背后都有一套数学证明,而不是另一套概率模型的“猜测”时,信任就从感觉变成了事实。

第三道锁:释放的分层艺术和一个回落机制

如果Mantle是骨骼、Guardrails是肌肉,那么分级释放机制就是亚马逊这套体系的神经系统——它决定了在不同的风险等级下,释放阀门应该开多大。

Amy Herzog在博客中写道:“作为防御方,我们有责任确保不赋予攻击者有意义的先进能力和可见性,而不给企业、政府和学术机构保护资产的机会。”这句话抓住了前沿模型释放的核心矛盾:模型越强大,同时被防御者和攻击者利用的双刃剑效应就越突出。

解决方案不是“不放”,而是“分层放”。AWS的分层释放体系目前在事实上形成了三个层级:

第一层是完全开放层,面向所有客户,涵盖Claude Sonnet、Haiku等能力可预测、风险较低的模型。第二层是护栏释放层,Fable 5即属于这一层——模型能力接近Mythos水平,但配备了完整的安全分类器和Guardrails约束,任何企业客户都可以通过Bedrock调用。第三层是受限释放层,只有Claude Mythos这类能力跨过安全红线的模型才被归入此层,仅限Project Glasswing等经过严格筛选的防御方在受控环境中使用。

但这套体系中还有一个关键设计常被人忽略:回落机制。

Amy Herzog在博客中明确写道,当Fable 5的Guardrails护栏被触发时,系统会自动回落到Claude Opus 4.8——这个模型本身就是一个世界级模型,早已公开可用。这意味着安全不是非黑即白的开关,而是一个可以动态调节的阀门。在极端情况下,系统不会简单地“报错然后拒绝服务”,而是顺滑地降级到一个更安全但仍具备强大能力的替代模型。

这套回落机制的设计哲学是:与其因为过度戒备而阻挡所有AI能力,不如让系统在安全受到威胁时自动退回到一个已知安全的中间态。这对企业客户来说至关重要——在关键业务流程中,完全拒绝服务可能比一个不那么完美的回答造成更大的损失。

安全正在成为云AI竞争的核心变量

将视线拉回行业竞争格局,亚马逊的这一系列动作有深远的商业含义。

2026年的企业级AI平台市场,AWS Bedrock、Azure OpenAI Service和Google Vertex AI形成了三足鼎立格局。选模型已经不是企业的主要决策——选平台才是。Azure的优势在于与微软365的深度集成和对OpenAI前沿模型的“首发”获取权。Google Vertex AI的优势在Gemini系列的原生多模态能力和最低的每Token价格。而AWS Bedrock的核心差异化正在从“模型种类最全”向“最安全的运行环境”迁移。

这不是一个次要的定位调整。在2025到2026年间,企业AI部署的最大障碍已经从“模型能力不够”变成了“合规和安全风险不可控”。当软件工程和SaaS的ROI焦虑过去之后,数据和隐私合规才是CIO们最头疼的难题。亚马逊在这方面的投入已经持续了二十多年——从第一天起就设计为零信任架构的AWS,如今把同一套哲学完整地应用到了AI推理的全链条上。

这一优势不是可以快速复制的。竞争对手要追上Mantle的零运维人员访问设计,需要从硬件架构层面重新设计整个推理引擎。要部署一套形式逻辑级的验证系统,需要重新思考安全验证的底层框架。而在Mantle和Guardrails的叠加效果下,亚马逊在AI安全上的领先优势正在从“一年”级别的技术领先,转化为“三至五年”级别的基础设施代差。

与此同时,政策层面的节奏也在加速。2026年6月2日,美国总统特朗普签署了一项名为“Promoting Advanced Artificial Intelligence Innovation and Security”的行政令,专门针对前沿模型在网络安全领域的脆弱性识别和利用能力。该行政令要求联邦机构在8月1日前完成面向AI开发者的自愿预发布参与框架设计,并指示司法部长优先起诉AI驱动的网络犯罪。亚马逊的这套安全释放体系,实际上已经走在了监管要求的前面。

结论

Claude Fable 5和Mythos的分轨释放不会是特例。随着模型能力的持续增长,安全释放机制将成为每个前沿模型的标准配置。

对AWS而言,这套“三层锁”体系正在从防守策略转变为进攻武器。当企业在对比云AI平台时,如果Azure提供的是“最快的模型”,Google提供的是“最便宜的Token”,AWS提供的是“最安全的运行环境”——这三者中,安全可能是最具长期锁定效应的那个。因为模型可以换,价格可以调,但数据安全和合规体系一旦建立,迁移成本极高。

对Anthropic而言,与AWS的深度安全合作也正在成为其差异化竞争策略的重要一环。相比OpenAI主要绑定Azure,Anthropic选择了多条腿走路——但AWS的Bedrock是其唯一一个能提供Mantle级安全防护的云平台。在Mythos这样“危险但强大”的模型上,安全基础设施的深度直接决定了模型能否被释放、能被释放给谁。

对正在评估云AI平台的企业CIO来说,一个问题值得反复思考:当AI能力越来越强,你更关心下一个模型的推理分数,还是更关心在释放它之前已经建好了多少道经得起数学证明的安全防线?

在最前沿,谨慎不是保守——它是唯一经得起数学证明的竞争力。

作品声明:内容由AI生成