出口管制时代的"万能接口"：Sakana Fugu Ultra凭什么追平Fable和Mythos？

2026年6月22日，Sakana AI 正式发布旗舰产品 Sakana Fugu GA 版本。Fugu Ultra 在 GPQA Diamond（95.1%）、SWE-Bench Pro（54.2%）等多项基准中取得领先成绩，Sakana 更宣称其性能追平 Anthropic 的 Fable 5 和 Mythos 5。Fugu 本质上是一个学习型协调器（learned coordinator），本身是一个小规模 LLM，通过学习调用模型池中的其他模型（包括递归调用自身）来动态编排最优方案。本文从技术路径、市场窗口、地缘政治维度和潜在风险四个层面展开深度分析。

2026年6月22日，Sakana AI 正式发布旗舰产品 Sakana Fugu。核心信息只有一句：Fugu Ultra 在多项基准测试中追平了 Anthropic 当前最强的 Fable 5 和 Mythos 5——而且不受美国出口管制限制。一家东京创业公司，用一个"学会调用其他模型"的小模型，正在改写前沿 AI 的竞争规则。

一个 API，调用一切

Sakana Fugu 的用法简单到令人怀疑：它提供一个 OpenAI 兼容的 API 端点。你把任务扔进去，Fugu 自行决定是直接回答，还是把任务拆解成子任务、分发给模型池中的专家模型、收集结果后整合输出。

背后的逻辑并不简单。Sakana Fugu 本身就是一个经过专门训练的 LLM——不是更大的模型，而是更聪明的"指挥模型"。它在训练中学会了调用池中的其他 LLM，包括递归调用自己。这就是 Sakana AI 自称的"learned coordinator"（学习型协调器）。

产品分两个版本：

Fugu Mini（🐟）：面向低延迟场景，适合编码辅助、代码审查、聊天服务和交互式应用。用户可以出于数据隐私或合规原因将特定 Agent 从池中剔除。
Fugu Ultra（🐡）：质量优先版本，协调更深的专家 Agent 池，面向论文复现、网络安全分析、文献综述、专利调查和数据科学研究等高难度长任务。

Sakana AI 发布了一张关键对比表（来源：sakana.ai/fugu-beta）：

GPQA Diamond： Gemini 3.1 94.4 / GPT 5.4 90.9 / Opus 4.6 92.7 / Fugu Mini 92.4 / Fugu Ultra 95.1
LCBv6： Gemini 3.1 90.3 / GPT 5.4 92.1 / Opus 4.6 92.4 / Fugu Mini 90.4 / Fugu Ultra 93.2
SWE-Bench Pro： Gemini 3.1 48.4 / GPT 5.4 51.2 / Opus 4.6 53.4* / Fugu Mini 51.3 / Fugu Ultra 54.2

* Opus 4.6 的 SWE-Bench Pro 分数来自 Anthropic 官方报告（自定义 scaffold + 最大思考模式），因 Sakana 自身评测中频繁超时。——Sakana AI 官方脚注

三项基准全部领先。但真正让行业侧目的，是 Sakana AI 在官方 X 账号上补充的声明——"我们的 Fugu Ultra 模型性能追平 Fable 和 Mythos。"

这意味着 Fugu Ultra 在推理、编码和 Agent 能力上已经与 Anthropic 当前最强的模型梯队处于同一水平线。而且，Sakana AI 特别强调："提供前沿能力，但没有出口管制风险。"

这里有一个重要 caveat：对比表中的三个竞品是 Gemini 3.1、GPT 5.4 和 Opus 4.6——Sakana 并未将 Fugu Ultra 与 Fable 5 / Mythos 5 放在同一评测协议下比拼。Fugu 的 SWE-Bench Pro 分数（54.2%）使用 mini-swe-agent scaffold，而 Anthropic 报告的 Fable 5 分数（80.3%）使用其自定义 scaffold——两者不可直接比较。但"追平 Fable 和 Mythos"的表述，结合其独立跑出的 SOTA 成绩，构成了一个有力信号。

技术拆解：一个"会调度模型"的模型

Sakana Fugu 的技术根基可以追溯到 Sakana AI 在 ICLR 2026 上发表的两篇论文——TRINITY（Xu et al.）和 Conductor（Nielsen et al.）。

TRINITY 提出的核心思想是：用进化算法搜索出一个高效的 LLM 协调器。传统多 Agent 系统依赖人工设计的编排逻辑——开发者需要预先定义角色、分工和工作流。TRINITY 让这个编排层本身通过进化过程自动寻找最优策略。

Conductor 更进一步：它把协调问题定义为"在自然语言中学习调用其他 Agent"的任务。Conductor 模型本身是一个小规模 LLM，在训练中学习何时拆分任务、何时调用哪个模型、何时递归调用自身。这种递归能力最为关键——当 Fugu 遇到极其复杂的任务时，它可以把自己作为 Agent 投入池中，实现一种全新的 test-time scaling。

"实际的协调远比单步路由复杂。它是自适应且多层次的。"——Sakana AI 官方博客

这个技术路径带来了几个重要推论。

第一，编排层的性能天花板远高于任何单一模型。 Fugu 可以在模型池中根据任务特征动态组合最优方案，而非依赖某一个模型"全能"。这本质上是对 Scaling Law 的一种新解读——不是在单一模型上堆算力，而是在协调层面利用多样性红利。

第二，递归调用放大了推理能力。 当 Fugu 发现某一步子任务仍然太复杂时，它可以递归地再次调用自身进行二次拆解。这让它在处理长链条推理任务时具备天然优势——SWE-Bench Pro 54.2% 的成绩，已是该评测协议下公开可查的最高分之一。

第三，产品化本身就是护城河。 论文中的 7B 参数 Conductor 模型本身并不公开可用。Sakana AI 将这一架构大幅优化后商业化——这意味着竞争对手无法仅靠复现论文来复制 Fugu 的核心能力。

为什么是现在：多智能体编排市场的爆发前夜

2026 年的 AI 基础设施层正在经历一次结构性重组。两个关键变化催生了这个窗口期：

第一，前沿模型的 API 供应极度碎片化。 Anthropic 有 Fable/Mythos/Opus 三条线，OpenAI 有 GPT 5.x 系列，Google 有 Gemini 3.x。每个模型的优势领域各不相同——有的擅长编码，有的擅长推理，有的在数学上表现突出。但开发者被迫绑定在某一个生态里，或者同时管理多个 API Key。后者带来的经济和运维损耗十分可观。

第二，多 Agent 系统从研究走向商业化。 Grand View Research 的数据显示，AI Agent 市场规模从 2025 年的 76 亿美元增长至 2026 年的 109 亿美元，预计 2033 年达到 1829 亿美元（CAGR 49.6%）。其中多智能体编排细分赛道的增速更高，达到 48.4% 的 CAGR。

在这个时间窗口内，谁的编排层做得最好，谁就有可能成为 AI 基础设施的"新中间层"——类比云计算时代的 AWS 之于服务器。Sakana AI 的独特之处在于，它不是传统的"应用层编排"——不是 LangChain 式的框架，而是把编排本身做成一个 Foundation Model。用 Clanker Cloud 评论的话说："Fugu 的发布是一个清晰的信号——AI 市场正在超越只追一个模型的粉丝心态。"

地缘维度：出口管制时代的"日本选项"

这是 Fugu Ultra 最微妙、也可能是最深远的竞争优势。

Sakana AI 在官方推文中明确写道："delivering frontier capability without the risk of export controls"（提供前沿能力，没有出口管制风险）。

这句话直接指向了 2026 年 AI 地缘政治的一个核心矛盾：美国最前沿的模型——Anthropic 的 Fable 5、Mythos 5，OpenAI 的 GPT 5.4——受到严格的出口管制。 非美国企业甚至政府客户，在获取这些模型时面临合规壁垒和技术限制。

Sakana AI 总部在东京。日本不受美国 AI 出口管制政策的直接约束。因此 Fugu Ultra 可以为全球客户提供一条"绕行路径"——性能对标前沿，但不需要过合规关。

这个定位有多精准？看几个数字：

Sakana AI 已与日本最大的企业和公共部门合作，为其开发本土化 AI 解决方案。其"主权 AI"（Sovereign AI）叙事已吸引了包括日本政府在内的战略客户。
2025 年 11 月完成 1.35 亿美元 B 轮融资后，公司估值达到 26.5 亿美元。CEO David Ha 告诉 TechCrunch："全球对反映国家文化和价值观的主权 AI 解决方案有强烈需求。"
公司成立仅三年，从总计约 3.8 亿美元的融资（3000 万美元种子轮 + 2.14 亿美元 A 轮 + 1.35 亿美元 B 轮）中，吸引了 NEA、Khosla Ventures、Lux Capital 和 NVIDIA 等顶级投资方。

Sakana AI 正在变成"日本的国家级 AI 冠军企业"——不仅是技术能力上，更是在地缘政治格局中找到了一条裂缝，然后把它变成了产品定位。

必须指出的边界与风险

在叙事的高光之下，需要保持冷静审视。

基准测试的横向对比需要谨慎。 Sakana 的对比表对象是 GPT 5.4 和 Opus 4.6，而非 Fable 5。Vellum 的独立分析显示，在 Anthropic 自定义 scaffold 下，Fable 5 在 SWE-Bench Pro 上达到 80.3%，Mythos Preview 为 77.8%。关键差异在于评测协议——Fugu 使用 mini-swe-agent，而 Anthropic 使用自家 scaffold，两者不是同一把尺子。Sakana 对 Fable/Mythos 的"追平"声明，很可能基于更广泛的综合评估维度（GPQA-D 等），而非单纯的编码基准。

编排层的成本问题。 每次请求背后，Fugu 可能调用多个模型多次。这意味着 API 调用的 Token 消耗会显著高于直接使用单个模型。在简单任务上，这可能是一种"用火箭筒打蚊子"——用户需要仔细评估性价比。

对模型池的质量依赖。 Fugu 的编排能力高度依赖于池中可调用的模型质量。如果某个"专家"模型能力下降或被淘汰，Fugu 的编排效果也会波动。这是一个需要持续维护的活系统。

OpenAI 兼容接口的双刃剑。 兼容 OpenAI 接口极大降低了集成门槛，但也意味着用户切换成本几乎为零。Fugu 需要通过持续的性能优势和合理的定价策略来维持用户粘性——在 API 产品中，用户的忠诚度只有一个度量标准：你的结果是否持续比竞品好。

尾声

Sakana Fugu Ultra 的发布标志着 AI 产业进入了一个新阶段："模型编排即产品"的时代已经到来。

过去三年，行业讨论的焦点一直是"哪个模型最强"。Anthropic 出 Fable，OpenAI 出 GPT，Google 出 Gemini——比拼的是单模型的天花板。Fugu 的逻辑完全不同。它不追求成为最强的单一模型，而是成为最好的"模型调用者"。这是一个哲学层面的切换：从"造更快的马车"到"设计更好的交通系统"。

这个思路的可行性已被数据初步验证。在 GPQA Diamond 上的 95.1% 和 SWE-Bench Pro 上的 54.2%（mini-swe-agent 协议下）构成了有力的论点——在多个维度上，一个聪明的编排层比任何单一模型都更可靠。更深层的信号在于出口管制维度。Sakana AI 在东京完成了一件 Anthropic 和 OpenAI 在山景城无法完成的事：为全球客户提供一个不受地缘政治约束的前沿 AI 接口。在 2026 年的地缘环境下，这本身就是一种稀缺资源。

当 Fugu 学会了如何调用其他模型的那一天，它自己就变成了那个最不可替代的模型。