2026年6月22日,Sakana AI 正式发布旗舰产品 Sakana Fugu。核心信息只有一句:Fugu Ultra 在多项基准测试中追平了 Anthropic 当前最强的 Fable 5 和 Mythos 5——而且不受美国出口管制限制。一家东京创业公司,用一个"学会调用其他模型"的小模型,正在改写前沿 AI 的竞争规则。
一个 API,调用一切
Sakana Fugu 的用法简单到令人怀疑:它提供一个 OpenAI 兼容的 API 端点。你把任务扔进去,Fugu 自行决定是直接回答,还是把任务拆解成子任务、分发给模型池中的专家模型、收集结果后整合输出。
背后的逻辑并不简单。Sakana Fugu 本身就是一个经过专门训练的 LLM——不是更大的模型,而是更聪明的"指挥模型"。它在训练中学会了调用池中的其他 LLM,包括递归调用自己。这就是 Sakana AI 自称的"learned coordinator"(学习型协调器)。
产品分两个版本:
- Fugu Mini(🐟):面向低延迟场景,适合编码辅助、代码审查、聊天服务和交互式应用。用户可以出于数据隐私或合规原因将特定 Agent 从池中剔除。
- Fugu Ultra(🐡):质量优先版本,协调更深的专家 Agent 池,面向论文复现、网络安全分析、文献综述、专利调查和数据科学研究等高难度长任务。
Sakana AI 发布了一张关键对比表(来源:sakana.ai/fugu-beta):
GPQA Diamond: Gemini 3.1 94.4 / GPT 5.4 90.9 / Opus 4.6 92.7 / Fugu Mini 92.4 / Fugu Ultra 95.1
LCBv6: Gemini 3.1 90.3 / GPT 5.4 92.1 / Opus 4.6 92.4 / Fugu Mini 90.4 / Fugu Ultra 93.2
SWE-Bench Pro: Gemini 3.1 48.4 / GPT 5.4 51.2 / Opus 4.6 53.4* / Fugu Mini 51.3 / Fugu Ultra 54.2
* Opus 4.6 的 SWE-Bench Pro 分数来自 Anthropic 官方报告(自定义 scaffold + 最大思考模式),因 Sakana 自身评测中频繁超时。——Sakana AI 官方脚注
三项基准全部领先。但真正让行业侧目的,是 Sakana AI 在官方 X 账号上补充的声明——"我们的 Fugu Ultra 模型性能追平 Fable 和 Mythos。"
这意味着 Fugu Ultra 在推理、编码和 Agent 能力上已经与 Anthropic 当前最强的模型梯队处于同一水平线。而且,Sakana AI 特别强调:"提供前沿能力,但没有出口管制风险。"
这里有一个重要 caveat:对比表中的三个竞品是 Gemini 3.1、GPT 5.4 和 Opus 4.6——Sakana 并未将 Fugu Ultra 与 Fable 5 / Mythos 5 放在同一评测协议下比拼。Fugu 的 SWE-Bench Pro 分数(54.2%)使用 mini-swe-agent scaffold,而 Anthropic 报告的 Fable 5 分数(80.3%)使用其自定义 scaffold——两者不可直接比较。但"追平 Fable 和 Mythos"的表述,结合其独立跑出的 SOTA 成绩,构成了一个有力信号。
技术拆解:一个"会调度模型"的模型
Sakana Fugu 的技术根基可以追溯到 Sakana AI 在 ICLR 2026 上发表的两篇论文——TRINITY(Xu et al.)和 Conductor(Nielsen et al.)。
TRINITY 提出的核心思想是:用进化算法搜索出一个高效的 LLM 协调器。传统多 Agent 系统依赖人工设计的编排逻辑——开发者需要预先定义角色、分工和工作流。TRINITY 让这个编排层本身通过进化过程自动寻找最优策略。
Conductor 更进一步:它把协调问题定义为"在自然语言中学习调用其他 Agent"的任务。Conductor 模型本身是一个小规模 LLM,在训练中学习何时拆分任务、何时调用哪个模型、何时递归调用自身。这种递归能力最为关键——当 Fugu 遇到极其复杂的任务时,它可以把自己作为 Agent 投入池中,实现一种全新的 test-time scaling。
"实际的协调远比单步路由复杂。它是自适应且多层次的。"——Sakana AI 官方博客
这个技术路径带来了几个重要推论。
第一,编排层的性能天花板远高于任何单一模型。 Fugu 可以在模型池中根据任务特征动态组合最优方案,而非依赖某一个模型"全能"。这本质上是对 Scaling Law 的一种新解读——不是在单一模型上堆算力,而是在协调层面利用多样性红利。
第二,递归调用放大了推理能力。 当 Fugu 发现某一步子任务仍然太复杂时,它可以递归地再次调用自身进行二次拆解。这让它在处理长链条推理任务时具备天然优势——SWE-Bench Pro 54.2% 的成绩,已是该评测协议下公开可查的最高分之一。
第三,产品化本身就是护城河。 论文中的 7B 参数 Conductor 模型本身并不公开可用。Sakana AI 将这一架构大幅优化后商业化——这意味着竞争对手无法仅靠复现论文来复制 Fugu 的核心能力。
为什么是现在:多智能体编排市场的爆发前夜
2026 年的 AI 基础设施层正在经历一次结构性重组。两个关键变化催生了这个窗口期:
第一,前沿模型的 API 供应极度碎片化。 Anthropic 有 Fable/Mythos/Opus 三条线,OpenAI 有 GPT 5.x 系列,Google 有 Gemini 3.x。每个模型的优势领域各不相同——有的擅长编码,有的擅长推理,有的在数学上表现突出。但开发者被迫绑定在某一个生态里,或者同时管理多个 API Key。后者带来的经济和运维损耗十分可观。
第二,多 Agent 系统从研究走向商业化。 Grand View Research 的数据显示,AI Agent 市场规模从 2025 年的 76 亿美元增长至 2026 年的 109 亿美元,预计 2033 年达到 1829 亿美元(CAGR 49.6%)。其中多智能体编排细分赛道的增速更高,达到 48.4% 的 CAGR。
在这个时间窗口内,谁的编排层做得最好,谁就有可能成为 AI 基础设施的"新中间层"——类比云计算时代的 AWS 之于服务器。Sakana AI 的独特之处在于,它不是传统的"应用层编排"——不是 LangChain 式的框架,而是把编排本身做成一个 Foundation Model。用 Clanker Cloud 评论的话说:"Fugu 的发布是一个清晰的信号——AI 市场正在超越只追一个模型的粉丝心态。"
地缘维度:出口管制时代的"日本选项"
这是 Fugu Ultra 最微妙、也可能是最深远的竞争优势。
Sakana AI 在官方推文中明确写道:"delivering frontier capability without the risk of export controls"(提供前沿能力,没有出口管制风险)。
这句话直接指向了 2026 年 AI 地缘政治的一个核心矛盾:美国最前沿的模型——Anthropic 的 Fable 5、Mythos 5,OpenAI 的 GPT 5.4——受到严格的出口管制。 非美国企业甚至政府客户,在获取这些模型时面临合规壁垒和技术限制。
Sakana AI 总部在东京。日本不受美国 AI 出口管制政策的直接约束。因此 Fugu Ultra 可以为全球客户提供一条"绕行路径"——性能对标前沿,但不需要过合规关。
这个定位有多精准?看几个数字:
- Sakana AI 已与日本最大的企业和公共部门合作,为其开发本土化 AI 解决方案。其"主权 AI"(Sovereign AI)叙事已吸引了包括日本政府在内的战略客户。
- 2025 年 11 月完成 1.35 亿美元 B 轮融资后,公司估值达到 26.5 亿美元。CEO David Ha 告诉 TechCrunch:"全球对反映国家文化和价值观的主权 AI 解决方案有强烈需求。"
- 公司成立仅三年,从总计约 3.8 亿美元的融资(3000 万美元种子轮 + 2.14 亿美元 A 轮 + 1.35 亿美元 B 轮)中,吸引了 NEA、Khosla Ventures、Lux Capital 和 NVIDIA 等顶级投资方。
Sakana AI 正在变成"日本的国家级 AI 冠军企业"——不仅是技术能力上,更是在地缘政治格局中找到了一条裂缝,然后把它变成了产品定位。
必须指出的边界与风险
在叙事的高光之下,需要保持冷静审视。
基准测试的横向对比需要谨慎。 Sakana 的对比表对象是 GPT 5.4 和 Opus 4.6,而非 Fable 5。Vellum 的独立分析显示,在 Anthropic 自定义 scaffold 下,Fable 5 在 SWE-Bench Pro 上达到 80.3%,Mythos Preview 为 77.8%。关键差异在于评测协议——Fugu 使用 mini-swe-agent,而 Anthropic 使用自家 scaffold,两者不是同一把尺子。Sakana 对 Fable/Mythos 的"追平"声明,很可能基于更广泛的综合评估维度(GPQA-D 等),而非单纯的编码基准。
编排层的成本问题。 每次请求背后,Fugu 可能调用多个模型多次。这意味着 API 调用的 Token 消耗会显著高于直接使用单个模型。在简单任务上,这可能是一种"用火箭筒打蚊子"——用户需要仔细评估性价比。
对模型池的质量依赖。 Fugu 的编排能力高度依赖于池中可调用的模型质量。如果某个"专家"模型能力下降或被淘汰,Fugu 的编排效果也会波动。这是一个需要持续维护的活系统。
OpenAI 兼容接口的双刃剑。 兼容 OpenAI 接口极大降低了集成门槛,但也意味着用户切换成本几乎为零。Fugu 需要通过持续的性能优势和合理的定价策略来维持用户粘性——在 API 产品中,用户的忠诚度只有一个度量标准:你的结果是否持续比竞品好。
尾声
Sakana Fugu Ultra 的发布标志着 AI 产业进入了一个新阶段:"模型编排即产品"的时代已经到来。
过去三年,行业讨论的焦点一直是"哪个模型最强"。Anthropic 出 Fable,OpenAI 出 GPT,Google 出 Gemini——比拼的是单模型的天花板。Fugu 的逻辑完全不同。它不追求成为最强的单一模型,而是成为最好的"模型调用者"。这是一个哲学层面的切换:从"造更快的马车"到"设计更好的交通系统"。
这个思路的可行性已被数据初步验证。在 GPQA Diamond 上的 95.1% 和 SWE-Bench Pro 上的 54.2%(mini-swe-agent 协议下)构成了有力的论点——在多个维度上,一个聪明的编排层比任何单一模型都更可靠。更深层的信号在于出口管制维度。Sakana AI 在东京完成了一件 Anthropic 和 OpenAI 在山景城无法完成的事:为全球客户提供一个不受地缘政治约束的前沿 AI 接口。在 2026 年的地缘环境下,这本身就是一种稀缺资源。
当 Fugu 学会了如何调用其他模型的那一天,它自己就变成了那个最不可替代的模型。






快报