Ornith开源逼近Claude 差的是时间不是能力

DeepReinforce团队发布的开源模型Ornith-1.0-397B在SWE-Bench Verified和Terminal-Bench上双双超越Claude Opus 4.7，引发全网热议是否已追上最新版Opus 4.8。实测数据显示差距仍然存在（SWE-Bench Verified差6.2分），但一个仅有5人的团队凭借自演进脚手架训练方法论，将开源模型推到了闭源前沿的射程之内。真正的信号不是这场比较的输赢，而是开源追赶闭源的加速度已经让Anthropic不得不每41天发布一个重大版本。

一条推文在X上炸了锅。发布者Chubby写道：“This looks too good to be true. A 397B open source model on par or even outperforming Claude Opus 4.8?”配图是一张基准测试对比表，标着Ornith-1.0-397B的名字。3.9万次浏览，数百次转发。

好得不像真的。这句话精准道出了所有人的第一反应。开源模型追上甚至超越Anthropic的旗舰模型Claude Opus 4.8？如果这是真的，2026年的AI格局将迎来一次地震。

但真相往往比推文复杂。

笔者把Ornith-1.0官方公布的全部基准数据、Anthropic发布的Opus 4.7和4.8成绩、以及第三方评测平台的交叉验证拉到了一起。结论是：这条推文说对了一半，错了一半。而恰恰是那一半的偏差，揭示了当前AI竞赛中最值得关注的信号。

Ornith-1.0：一只鸟的诞生

6月25日，一家名为DeepReinforce的AI团队发布了Ornith-1.0模型家族。这个名字在行业内不算响亮。DeepReinforce此前最知名的成果是GrandCode，一个在Codeforces直播赛中击败所有人类参赛者的AI编程系统。但Ornith-1.0的发布让这家团队真正进入了全球AI圈的视野。

Ornith-1.0以四个规格亮相：9B Dense、31B Dense、35B MoE和397B MoE，均采用MIT开源协议，基于Google Gemma 4和阿里通义千问Qwen 3.5的预训练权重构建。其中旗舰版Ornith-1.0-397B在两项核心编程基准上的成绩如下：

Terminal-Bench 2.1：77.5（反映真实终端环境下的编码能力）
SWE-Bench Verified：82.4（衡量软件工程任务完成率）

与Claude Opus 4.7对比：

Terminal-Bench 2.1：70.3 → 77.5，Ornith领先7.2分
SWE-Bench Verified：80.8 → 82.4，Ornith领先1.6分

这两组数字放在一起，意义很清楚。Ornith-1.0-397B确实超越了Claude Opus 4.7，而且不是勉强超越，在Terminal-Bench上领先幅度不小。

但问题在于：Opus 4.7已经不再是Claude家族的最强者了。

5月28日，距离Opus 4.7发布仅41天，Anthropic就推出了4.8版本。Opus 4.8的成绩是SWE-Bench Verified冲到88.6%，Terminal-Bench 2.1为74.6%（Anthropic自报，使用自家脚手架）。DeepReinforce自家的全量对比表中，Opus 4.8的Terminal-Bench 2.1得分则为85。同是Terminal-Bench 2.1，分数差出10分以上。这是因为评测脚手架不同，而非模型本身在两套环境中跑出了不同能力。

对比下来：Ornith-1.0-397B的SWE-Bench成绩（82.4）与Opus 4.8（88.6）有6.2分差距。Terminal-Bench上，Ornith的77.5高于Opus 4.8自报的74.6，但低于DeepReinforce自家表中Opus 4.8的85。

那条激起热议的推文，很可能将Ornith与Opus 4.7的成绩比对，误当成了与4.8的对比。但这无关造假，是信息差，也是这个行业迭代快到让人跟不上的缩影。

真正值得追问的是：一个开源模型能追上Anthropic不到两个月前的旗舰，这件事本身意味着什么？

技术拆解：让模型学会设计自己的考试

Ornith-1.0最值得关注的技术创新，不是参数规模或架构设计，而是它的训练方法论，自演进脚手架框架（Self-Scaffolding）。

传统强化学习训练中，模型在固定的、人类设计的测试框架（harness）下生成解决方案，然后根据结果获得奖励。这个框架，用哪些测试用例验证代码、代码的运行环境配置、错误处理逻辑，都需要人力手工搭建，每类任务专门设计一套。

Ornith-1.0的做法完全不同。它将脚手架本身也变成了可学习的对象。每个RL步骤分两阶段进行：模型先根据任务和之前使用的脚手架，提出一个优化后的新脚手架；然后基于新脚手架生成解决方案。奖励信号同时回传给两个阶段。模型不仅要学会解题，还要学会设计出能引导自己解出更好答案的考试框架。

这意味着什么？

传统做法相当于一个学生只学习考试内容，而Ornith的设计逻辑类似于让学生学会自己出模拟卷。两种方式都能提高分数，但后者能探索到人类出题者从未想到的训练路径。

当然，允许模型自己设计考试框架必然会引入一个风险：reward hacking。模型可能学会读取可见的测试文件、硬编码预期输出，而不是真正解决问题。DeepReinforce团队为此设置了三层防护：固定外层信任边界防止模型篡改环境，确定性监视器拦截越权行为，冻结的LLM裁判在验证器之上做最终否决。

这套机制的效果，在基准成绩之外有更生动的证据。Ornith-1.0-35B（仅35B参数的MoE版本）在Terminal-Bench 2.1上拿下64.4分，超过了Qwen 3.5-397B的53.5分，尽管后者参数规模是它的10倍以上。9B版本在SWE-Bench Verified上拿到69.4分，追平了几个月前某些闭源中高端模型的水平。这意味着Ornith的训练方法激活了参数之外的效率增益。同等的计算资源，能压榨出更多的智能。

格局：开源追赶闭源的速度在加速

Ornith-1.0的出现不是孤例。它是2026年上半年开源大模型加速逼近闭源前沿的最新信号。

根据BenchLM.ai的2026年开源模型排行榜，DeepSeek V4 Pro Max（综合87分）、GLM-5.1（83分）、Kimi K2.6（81分）、Qwen3.5-397B（77分）已经形成了一个战斗力可观的开源第一梯队。在DeepReinforce公布的全量对比表中，Ornith-1.0-397B在多项关键基准上同时压过了MiniMax M3和DeepSeek-V4-Pro。这些模型每一个在各自的发布时间都曾被称作“开源最强”。

更重要的是成本剪刀差。Claude Opus 4.8的标准定价是每百万输入token 5美元、输出25美元。而Ornith-1.0-397B采用MIT协议开源，意味着企业可以在自有基础设施上部署，推理成本仅为API调用的零头。加州大学伯克利分校哈斯商学院在《加州管理评论》上的一项研究指出，开源模型在同等能力水平下的部署成本相比闭源API可降低约90%。这种成本优势正在推动越来越多企业和开发者从纯API消费转向模型自托管。

但必须正视的另一面是：397B MoE模型的推理部署并非人人可为。Ornith-1.0-397B需要高端GPU集群才能高效运行，这在一定程度上削弱了“开源意味着普惠”的简单叙事。真正受益于开源红利的大众开发者，更多会去使用35B甚至9B版本。

而这恰好是Ornith-1.0设计中最聪明的部分。用一个统一的训练框架贯穿9B到397B全规格，让小模型继承了旗舰模型的RL优化成果。9B版本能以极低算力成本提供接近大规模闭源模型的编码能力。31B和35B版本的实际表现已经超过了许多数月前发布的百亿级闭源模型。

风险与局限：开源的边界在哪里

Ornith-1.0的成绩亮眼，但笔者必须指出几项不容忽视的局限。

第一，评测偏差。开源领域的SOTA突破往往在热门基准上实现，但同一模型使用不同评测脚手架时得分差异巨大。仅以SWE-Bench Pro为例：Anthropic使用自家脚手架测得Opus 4.8成绩为69.2%，而Scale AI的标准化评测（统一脚手架下）中，Opus 4.6的公开集成绩为51.9%，差距近18个百分点。Ornith-1.0的高分同样需要独立第三方的标准化复现才能“转正”。

第二，多模态缺失。Ornith-1.0系列目前仅支持文本和代码输入，不具备视觉能力。在2026年这个时间点，几乎所有闭源旗舰模型都标配了多模态输入。如果企业的智能体工作流需要处理截图、图表或UI界面，Ornith并不能成为完整替代方案。

第三，生态成熟度。Anthropic的Claude Code已经支持并行子智能体动态工作流，而Ornith-1.0目前主要通过vLLM和标准推理接口提供服务，上层工具链的成熟度存在代差。MIT许可协议赋予了最大商业灵活性，但“能用”和“好用”之间还有一段需要社区补足的距离。

谁赢了，谁会输

回顾整件事，笔者的判断如下。

对Anthropic而言，Ornith-1.0的逼近是一个清晰战略预警。Opus 4.7发布仅41天就被4.8取代，这种节奏本身就在说一件事：Anthropic清楚感受到开源阵营的压力。这条赛道的竞争已经变成了“闭源靠迭代速度、开源靠能力追赶”的双轮竞速。只要闭源保持每6到8周一次重大更新的节奏，前沿优势就能维持。但一旦迭代降速，开源填平差距的时间窗口将以周为单位计算。

对DeepReinforce而言，Ornith-1.0是一次漂亮的亮相。这家团队在Hugging Face页面上列出的核心成员仅5人。他们用一套精妙的训练方法论，在关键基准上追上了全球最顶尖AI实验室的旗舰产品。这本身就证明了“小团队加聪明方法加开源基座”的路线在AI前沿仍然有效。

对整个行业而言，Ornith-1.0传递了一个更底层的信号：强化学习训练方法本身的创新空间远未被穷尽。当参数规模竞赛撞上物理极限，方法论创新正在成为新的差异化武器。Ornith证明了“用更好的训练算法，而不是更大的模型”这条路线能跑通。

那条推文说“好得不像真的”。事实上Ornith-1.0的成绩是真的，甚至在某些维度比推文暗示的更有意义。它没有超越Claude Opus 4.8，但这不重要。重要的是：一个5人团队，用开源基座和一套自演进算法，已经把最前沿的闭源模型逼到了“不得不每41天发一个新版本”的墙角。

这就够了。好的不像是真的，但它是真的。