美国政府以国家安全之名,要求Anthropic关闭其最先进的AI模型Claude Fable 5与Mythos 5的全球访问权限。Anthropic虽已遵从指令,却公开表达了反对立场。这项出口管制指令禁止外国公民(无论是否身处美国境内)访问这两款模型,就连Anthropic自己的外籍员工也受到限制。为符合规定,Anthropic不得不切断全球所有客户对这两个模型的访问,但其他模型仍可正常使用——这一点来自该公司的官方声明。Anthropic表示,政府的这一举措是“误解”所致,目前正全力推动恢复访问,并计划在24小时内披露更多细节。
美国政府声称发现了绕过Fable 5安全措施的途径,但Anthropic回应称,他们仅发现了少量已知的微小漏洞,且这类问题在其他公开模型中也存在——比如OpenAI的GPT-5.5,相关信息可参见此处来源。潜在的“越狱”方法是诱导模型读取特定代码库并修复软件漏洞,而Anthropic指出,这些能力早已被安全研究员用于日常工作。
颇具讽刺的是,Anthropic此前曾强调Mythos系列模型的网络安全风险,如今却不得不辩称市场上其他模型也具备类似能力。这些模型在发布前曾经过美国政府、英国AI安全研究所(UK AISI,详情见链接)等多方测试,其安全措施本被认为更有效,但用户却抱怨这些措施过于严格。Anthropic采用了“深度防御”策略,其中包括30天数据保留政策,但该公司也承认,要完全抵御“越狱”攻击是不可能的。
Anthropic警告称,如果这一标准被应用到整个行业,他们将停止所有前沿模型的部署。该公司认为,政府当前的行动不符合透明、公平的法律程序原则,这似乎暗示着它与美国政府之间的冲突将进入新篇章——相关报道可参见此处。美国近期发布的新行政令(详情见链接)允许AI开发者提交模型接受审查,但相关流程目前尚未完全落地。
“越狱”与提示注入是大语言模型(LLM)长期以来未能解决的安全问题,所有相关厂商都受其困扰。一年前,Anthropic的防御系统在一场公开挑战中被彻底破解,其中还包括通用“越狱”方法——具体结果可查看该链接。






快报