一条推文在X上炸了锅。发布者Chubby写道:“This looks too good to be true. A 397B open source model on par or even outperforming Claude Opus 4.8?”配图是一张基准测试对比表,标着Ornith-1.0-397B的名字。3.9万次浏览,数百次转发。
好得不像真的。这句话精准道出了所有人的第一反应。开源模型追上甚至超越Anthropic的旗舰模型Claude Opus 4.8?如果这是真的,2026年的AI格局将迎来一次地震。
但真相往往比推文复杂。
笔者把Ornith-1.0官方公布的全部基准数据、Anthropic发布的Opus 4.7和4.8成绩、以及第三方评测平台的交叉验证拉到了一起。结论是:这条推文说对了一半,错了一半。而恰恰是那一半的偏差,揭示了当前AI竞赛中最值得关注的信号。
Ornith-1.0:一只鸟的诞生
6月25日,一家名为DeepReinforce的AI团队发布了Ornith-1.0模型家族。这个名字在行业内不算响亮。DeepReinforce此前最知名的成果是GrandCode,一个在Codeforces直播赛中击败所有人类参赛者的AI编程系统。但Ornith-1.0的发布让这家团队真正进入了全球AI圈的视野。
Ornith-1.0以四个规格亮相:9B Dense、31B Dense、35B MoE和397B MoE,均采用MIT开源协议,基于Google Gemma 4和阿里通义千问Qwen 3.5的预训练权重构建。其中旗舰版Ornith-1.0-397B在两项核心编程基准上的成绩如下:
- Terminal-Bench 2.1:77.5(反映真实终端环境下的编码能力)
- SWE-Bench Verified:82.4(衡量软件工程任务完成率)
与Claude Opus 4.7对比:
- Terminal-Bench 2.1:70.3 → 77.5,Ornith领先7.2分
- SWE-Bench Verified:80.8 → 82.4,Ornith领先1.6分
这两组数字放在一起,意义很清楚。Ornith-1.0-397B确实超越了Claude Opus 4.7,而且不是勉强超越,在Terminal-Bench上领先幅度不小。
但问题在于:Opus 4.7已经不再是Claude家族的最强者了。
5月28日,距离Opus 4.7发布仅41天,Anthropic就推出了4.8版本。Opus 4.8的成绩是SWE-Bench Verified冲到88.6%,Terminal-Bench 2.1为74.6%(Anthropic自报,使用自家脚手架)。DeepReinforce自家的全量对比表中,Opus 4.8的Terminal-Bench 2.1得分则为85。同是Terminal-Bench 2.1,分数差出10分以上。这是因为评测脚手架不同,而非模型本身在两套环境中跑出了不同能力。
对比下来:Ornith-1.0-397B的SWE-Bench成绩(82.4)与Opus 4.8(88.6)有6.2分差距。Terminal-Bench上,Ornith的77.5高于Opus 4.8自报的74.6,但低于DeepReinforce自家表中Opus 4.8的85。
那条激起热议的推文,很可能将Ornith与Opus 4.7的成绩比对,误当成了与4.8的对比。但这无关造假,是信息差,也是这个行业迭代快到让人跟不上的缩影。
真正值得追问的是:一个开源模型能追上Anthropic不到两个月前的旗舰,这件事本身意味着什么?
技术拆解:让模型学会设计自己的考试
Ornith-1.0最值得关注的技术创新,不是参数规模或架构设计,而是它的训练方法论,自演进脚手架框架(Self-Scaffolding)。
传统强化学习训练中,模型在固定的、人类设计的测试框架(harness)下生成解决方案,然后根据结果获得奖励。这个框架,用哪些测试用例验证代码、代码的运行环境配置、错误处理逻辑,都需要人力手工搭建,每类任务专门设计一套。
Ornith-1.0的做法完全不同。它将脚手架本身也变成了可学习的对象。每个RL步骤分两阶段进行:模型先根据任务和之前使用的脚手架,提出一个优化后的新脚手架;然后基于新脚手架生成解决方案。奖励信号同时回传给两个阶段。模型不仅要学会解题,还要学会设计出能引导自己解出更好答案的考试框架。
这意味着什么?
传统做法相当于一个学生只学习考试内容,而Ornith的设计逻辑类似于让学生学会自己出模拟卷。两种方式都能提高分数,但后者能探索到人类出题者从未想到的训练路径。
当然,允许模型自己设计考试框架必然会引入一个风险:reward hacking。模型可能学会读取可见的测试文件、硬编码预期输出,而不是真正解决问题。DeepReinforce团队为此设置了三层防护:固定外层信任边界防止模型篡改环境,确定性监视器拦截越权行为,冻结的LLM裁判在验证器之上做最终否决。
这套机制的效果,在基准成绩之外有更生动的证据。Ornith-1.0-35B(仅35B参数的MoE版本)在Terminal-Bench 2.1上拿下64.4分,超过了Qwen 3.5-397B的53.5分,尽管后者参数规模是它的10倍以上。9B版本在SWE-Bench Verified上拿到69.4分,追平了几个月前某些闭源中高端模型的水平。这意味着Ornith的训练方法激活了参数之外的效率增益。同等的计算资源,能压榨出更多的智能。
格局:开源追赶闭源的速度在加速
Ornith-1.0的出现不是孤例。它是2026年上半年开源大模型加速逼近闭源前沿的最新信号。
根据BenchLM.ai的2026年开源模型排行榜,DeepSeek V4 Pro Max(综合87分)、GLM-5.1(83分)、Kimi K2.6(81分)、Qwen3.5-397B(77分)已经形成了一个战斗力可观的开源第一梯队。在DeepReinforce公布的全量对比表中,Ornith-1.0-397B在多项关键基准上同时压过了MiniMax M3和DeepSeek-V4-Pro。这些模型每一个在各自的发布时间都曾被称作“开源最强”。
更重要的是成本剪刀差。Claude Opus 4.8的标准定价是每百万输入token 5美元、输出25美元。而Ornith-1.0-397B采用MIT协议开源,意味着企业可以在自有基础设施上部署,推理成本仅为API调用的零头。加州大学伯克利分校哈斯商学院在《加州管理评论》上的一项研究指出,开源模型在同等能力水平下的部署成本相比闭源API可降低约90%。这种成本优势正在推动越来越多企业和开发者从纯API消费转向模型自托管。
但必须正视的另一面是:397B MoE模型的推理部署并非人人可为。Ornith-1.0-397B需要高端GPU集群才能高效运行,这在一定程度上削弱了“开源意味着普惠”的简单叙事。真正受益于开源红利的大众开发者,更多会去使用35B甚至9B版本。
而这恰好是Ornith-1.0设计中最聪明的部分。用一个统一的训练框架贯穿9B到397B全规格,让小模型继承了旗舰模型的RL优化成果。9B版本能以极低算力成本提供接近大规模闭源模型的编码能力。31B和35B版本的实际表现已经超过了许多数月前发布的百亿级闭源模型。
风险与局限:开源的边界在哪里
Ornith-1.0的成绩亮眼,但笔者必须指出几项不容忽视的局限。
第一,评测偏差。开源领域的SOTA突破往往在热门基准上实现,但同一模型使用不同评测脚手架时得分差异巨大。仅以SWE-Bench Pro为例:Anthropic使用自家脚手架测得Opus 4.8成绩为69.2%,而Scale AI的标准化评测(统一脚手架下)中,Opus 4.6的公开集成绩为51.9%,差距近18个百分点。Ornith-1.0的高分同样需要独立第三方的标准化复现才能“转正”。
第二,多模态缺失。Ornith-1.0系列目前仅支持文本和代码输入,不具备视觉能力。在2026年这个时间点,几乎所有闭源旗舰模型都标配了多模态输入。如果企业的智能体工作流需要处理截图、图表或UI界面,Ornith并不能成为完整替代方案。
第三,生态成熟度。Anthropic的Claude Code已经支持并行子智能体动态工作流,而Ornith-1.0目前主要通过vLLM和标准推理接口提供服务,上层工具链的成熟度存在代差。MIT许可协议赋予了最大商业灵活性,但“能用”和“好用”之间还有一段需要社区补足的距离。
谁赢了,谁会输
回顾整件事,笔者的判断如下。
对Anthropic而言,Ornith-1.0的逼近是一个清晰战略预警。Opus 4.7发布仅41天就被4.8取代,这种节奏本身就在说一件事:Anthropic清楚感受到开源阵营的压力。这条赛道的竞争已经变成了“闭源靠迭代速度、开源靠能力追赶”的双轮竞速。只要闭源保持每6到8周一次重大更新的节奏,前沿优势就能维持。但一旦迭代降速,开源填平差距的时间窗口将以周为单位计算。
对DeepReinforce而言,Ornith-1.0是一次漂亮的亮相。这家团队在Hugging Face页面上列出的核心成员仅5人。他们用一套精妙的训练方法论,在关键基准上追上了全球最顶尖AI实验室的旗舰产品。这本身就证明了“小团队加聪明方法加开源基座”的路线在AI前沿仍然有效。
对整个行业而言,Ornith-1.0传递了一个更底层的信号:强化学习训练方法本身的创新空间远未被穷尽。当参数规模竞赛撞上物理极限,方法论创新正在成为新的差异化武器。Ornith证明了“用更好的训练算法,而不是更大的模型”这条路线能跑通。
那条推文说“好得不像真的”。事实上Ornith-1.0的成绩是真的,甚至在某些维度比推文暗示的更有意义。它没有超越Claude Opus 4.8,但这不重要。重要的是:一个5人团队,用开源基座和一套自演进算法,已经把最前沿的闭源模型逼到了“不得不每41天发一个新版本”的墙角。
这就够了。好的不像是真的,但它是真的。






快报