GPT和Claude惨败桥水金融测试,正确答案从未公开

2026.07.03 20:18
桥水基金 AIA Labs 与 Thinking Machines Lab 联合发布报告,用微调后的 Qwen3-235B 开源模型在金融文档筛选任务上以 84.7% 准确率击败 GPT-5.5(78.2%)和 Claude Opus 4.8(78.0%),成本仅为后者的十四分之一。核心原因并非技术差距,而是前沿模型从未在训练数据中见过投资者的隐性判断——那些正确的答案从未出现在互联网上。

前沿模型吃掉了整个互联网,却在桥水最基础的金融筛选任务上拿不到及格分。

全球最大对冲基金桥水联手前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab,做了一次极端的实验。他们用一套微调后的开源模型,在金融文档判断任务上正面击败了 GPT-5.5 和 Claude Opus 4.8。微调模型准确率 84.7%,最佳前沿模型仅 78.2%。成本不到后者的十四分之一。

但真正值得追问的不是“桥水怎么做到的”,而是“前沿模型为什么做不好”。

答案很残酷:因为正确答案从未出现在互联网上。

前沿模型倒在“送分题”上

桥水 AIA Labs 与 Thinking Machines Lab 于 2026 年 6 月 30 日联合发布的研究报告,设计了一套异常朴素的测试框架。六项任务全部来自投资者日常工作:判断一篇金融文章是否值得 CEO 阅读,判断一份央行文件是否暗示了未来利率方向,在一堆研究文档里找到真正有用的那篇,把常规模板内容和一次性分析区分开。对任何一位资深投资者来说,这些任务都称不上“难”。

但前沿模型的表现令人震惊。Gemini、Claude、GPT 各版本在仅给出任务描述的朴素提示词下,平均准确率只有约 50%,比抛硬币好不了多少。即使是专家级提示工程、手工优化指令、引入三级分类体系(“相关且有趣”“相关但不有趣”“不相关”)之后,最高成绩也才爬到 78.2%,始终未能越过 80% 这条作者设定的“可信部署门槛”。

GPT-5.4 在测试中的准确率为 75.8%,而后续发布的 GPT-5.5 也仅提升到 78.2%。与此同时 GPT 系列 API 价格还在持续上涨。报告指出,前沿模型在这里出现了明显的性能收益递减,投入更多算力和参数,产出的边际改善越来越薄。

报告中给出的对比案例直观说明了问题的本质。两条新闻标题,一条是“特朗普坚称格陵兰属于他”,另一条是“特朗普威胁对中国加征新关税后美股大幅收跌”。前者涉及地缘政治但对市场影响有限,后者直接指向核心风险。资深投资者一眼就能做出区分,但前沿模型在这个判断上频繁出错。

互联网上没有“正确答案”

前沿模型为什么做不好这些对人类来说几乎是直觉的任务?

根本原因不在于模型不够聪明,而在于训练数据中缺少一类关键信息:投资者的内部判断。

前沿模型的训练数据覆盖了几乎整个公开互联网,包括书籍、论文、新闻、论坛、代码库。但它缺少的是“一位分析师在读到一篇关于北卡罗来纳州区域银行监管变化的文章后,凭什么决定把它转发给投资委员会”这类信息。这种筛选能力来自数年的实战积累,包含大量不成文的经验规则,它们从未被系统性地记录在任何公开语料中。

桥水在报告中给出了一个关键洞察:这些任务对资深投资者来说是 trivial 的,几乎不需要思考就能完成,但投资者自己也很难把决策逻辑讲清楚。这是一种典型的“隐性知识”:做得到,但说不明白。

前沿模型在需要品位和判断力的窄领域任务上碰到的天花板,本质上是数据的天花板。正确答案从未公开。

三角闭环:用最少的专家时间构建高质量数据集

要让模型学会投资者的判断力,第一步不是调算法,而是先拿到高质量标注数据。

桥水没有让昂贵的分析师坐在电脑前一页页标注文档,那样成本太高,速度太慢。他们设计了一个精妙的三角闭环。

首先是廉价的众包标注员按基本规则给文档打标签。这部分成本很低,但质量也低。报告中坦诚地写道:“many of those labels were wrong”。

接着一个初始模型以这些瑕疵标签为基础学习,然后重新评估同一批文档。当模型的判断和原始标签不一致时,这个冲突点就是最有可能出错的地方。

最后,只有这些被标记为“有争议”的文档才会送到投资者手中,由真正的专家做出最终判断。

这套流程大幅降低了专家标注的负担。投资者不需要从头到尾审核每一份文档,只需要纠正模型和外包之间不可调和的那部分分歧。最终产出的是一套高质量、高度一致的专有标注数据集,完全反映了桥水投资团队的判断标准。

Qwen3-235B 的逆袭:十四分之一的成本,超越巨头

数据到位后,桥水选择了 Thinking Machines Lab 的 Tinker 平台进行微调。Tinker 是 Mira Murati 离开 OpenAI 后推出的第一款产品,定位是“微调即服务”,屏蔽 GPU 调度、分布式训练、基础设施管理等底层复杂性,让开发者可以专注于算法和数据。

基础模型选择了阿里巴巴通义千问团队的 Qwen3-235B,一款 2350 亿参数、基于 MoE(混合专家)架构的开源模型。微调过程中使用了交错批处理、CISPO 损失函数(带非对称裁剪)以及 on-policy distillation(在策略蒸馏)等前沿技术。

最终成果令人瞩目。六项金融筛选任务中,微调模型平均准确率 84.7%。最佳前沿模型 GPT-5.5 为 78.2%,Claude Opus 4.8 为 78.0%。按错误率计算,微调模型比最佳前沿模型少犯了 29.8% 的错误。更重要的是,它首次跨过了 80% 的信任门槛。在作者看来,这是投资者愿意在日常工作流程中信任一个系统的底线。

成本数据同样惊人。处理 1000 个任务的估算成本:微调模型约 5 美元,GPT-5.5 约 20 美元,Claude Opus 4.8 高达 92 美元。微调模型的运行成本仅为后者的大约十四分之一。

这不只是便宜的问题。当一个系统每天要运行数万次筛选任务时,桥水这样的大型基金每周可能要跑数十万次判断,成本差距直接决定了方案是否具备规模化部署的可能性。用前沿模型跑这个管道,成本不可持续。用微调后的轻量模型,这笔账完全可以算过来。

专有数据正在成为 AI 时代最深的护城河

桥水这个案例的意义远超一次技术试验。

它揭示了一个正在被越来越多行业验证的规律:前沿模型在通用领域的表现确实惊艳,但在需要内部知识加判断力的窄领域任务上存在结构性短板。更关键的是,这种短板不是靠更大参数、更多 GPU 就能解决的。它需要的是专有数据,而专有数据恰恰是大模型公司最难以获取的资源。

对于 OpenAI、Anthropic、Google 而言,它们能拿到几乎整个公开互联网的数据,但拿不到桥水投资团队四十多年的判断记录,拿不到某个律所对特定法域判例的内部评估体系,拿不到一家制药公司对临床前数据的筛选逻辑。这些数据从未出现在公开领域,它们只存在于企业内部的文档流转、会议讨论和专家头脑中。

报告中的另一个发现值得注意:前沿模型在改进这项金融判断任务上的速度正在放缓。新模型版本投入了更多算力,但准确率的提升幅度已经微乎其微。这意味着通用模型的性能天花板可能比想象中更近,而对专有数据的深度挖掘则可能开辟一条完全不同的提升路径。

Tinker 这类微调平台的出现,正在大幅降低将“隐性知识”转化为 AI 能力的门槛。你不必从头训练一个千亿参数的基础模型,只需要用一个开源基座,用自己的专有数据做精调,就有可能在特定任务上超越通用模型,同时成本只有后者的几分之一。

当然,这次测试是桥水和 Thinking Machines Lab 的内部评估。两家公司都有明确的商业利益:桥水想证明 AIA Labs 的能力,Thinking Machines 想推广 Tinker 平台。独立第三方的复现验证仍然是必要的。

但核心结论经得起推敲:前沿模型并没有吸尽世界上所有的数据。大量专有的企业数据和未经编码的人类经验仍然存在,它们拥有真实的提升空间。特别是在那些企业刻意保密的领域,任何人把手中的专有数据交给前沿模型供应商,都等于在帮助对方用这些数据训练出一个未来可能和自己竞争的产品。

一个时代正在转向。AI 竞赛的下半场,胜负手可能不在谁的模型参数最大,而在谁掌握了自己行业独有的“正确答案”。

那些从未公开的数据,才是真正的护城河。

作品声明:内容由AI生成