10小时测完DeepSeek-V4!北大团队终结工程师噩梦?深扒大模型评测的“千亿生意”

AGI
大模型时代的淘金热远未结束。

DeepSeek-V4发布仅仅10小时后,一份全量自动化评测报告就出炉了。

操刀的是北京大学DCAI团队。

他们刚刚开源了一个面向大模型评测的新框架——One-Eval。

很多人可能会问:10个小时,很快吗?

在真实的AI工程界,这一效率提升堪称行业范式级突破。

过去,当老板扔来一个需求:“帮我测测这个新模型在代码、数学和长文本上的能力。”工程师往往面临繁重且低效的人工操作流程。

你要自己去海量开源资源中筛选适配评测基准集(Benchmark)。

你要自己写下载脚本、耗费精力做字段适配、调试各类复杂配置参数。

跑完之后还没完,你还得在繁杂运行日志中排查解析异常问题。

简单来说:真正用来让模型跑分的时间,还不如搭测试管道花的时间多。

10小时通关的背后,其实隐匿着一个长期被大众忽视,却估值高达数百亿美元的专业产业链。

真实的商业世界里,评测绝不仅仅是一份吃瓜群众爱看的跑分排行榜。

它是一门关于标准定义、数据壁垒与行业需求的顶级生意。

算力时代的评测痛点:传统评测行业积弊已久

为什么要拼了命地评测大模型?

因为千亿参数的模型训练太烧钱了。

对于底层模型厂商来说,评测分数是企业融资、获取算力资源的重要依据。

对于B端企业客户来说,分数就是决定要不要把核心业务(比如金融风控、医疗诊断)交给这个AI来处理的重要决策依据。

这催生了OpenCompass等一批优秀的传统评测框架。但随着模型越来越复杂,传统评测的静态模式弊端被彻底暴露了。

太难用。传统评测就像静态流水线,你需要逐项手动配置各类参数。一旦遇到模型输出的格式不那么规矩,程序就会直接中断,造成测评结果误判。

太黑盒。跑完只丢给你一个单一的量化分数。至于提示词是怎么拼的?评分规则、模型打分依据均无透明可查记录。一旦出了Bug,排查起来难度极大、无从溯源。

最致命的一点是:行业榜单公信力持续下滑。

模型在训练时“偷看”了考卷,这叫数据污染。

当所有的AI在基础测试里都能考出95分的高分时,榜单就失去了公信力。为了对抗这种污染,行业内甚至被迫引入检测模型对特定数据的置信度等手段,来甄别数据污染行为。

降维突围:北大One-Eval到底做对了什么?

当传统框架还停留在高度人工依赖的老旧模式时,北大团队开源的One-Eval,直接推出了 “智能体化” 的全新解法。

它完成了一次彻底的交互降维:不再是“写配置跑脚本”,而是自然语言驱动。

你只需要在对话框里敲一句大白话:“我想测试我的模型在金融、法律、医疗领域的表现,并看看幻觉情况如何。”

接下来,One-Eval的底层调度引擎会像专业调度引擎一样,自主开展工作。

它会自动识别你的意图,并匹配工具:指令跟随用IFEval,医疗用MedQA,法律用LegalBench,金融用FinanceQA。

选好之后,结构解析、参数配置、底层数据拉取,全部由系统后台静默完成。

一行配置都不用写。

更有意思的是,它打破了黑盒。

One-Eval引入了基于全局状态(Global State)的数据总线架构。评测的完整生命周期都被记录下来,一旦报错,断点清晰可见,全链路可追溯。

同时,它又展现出了严谨合理的系统设计思路——保留了“人工在环”(Human-in-the-Loop)。

在系统给出评测方案时,它会主动停下来,把上下文展示给你,等待人工审核确认后,再继续执行。

在复杂的主观评判场景下,这种人机协同远比盲目的全自动更让人安心。

当然,作为一款新生的开源工具,它也有当前的能力边界与适配局限。

根据其文档与架构特征,目前One-Eval内置的基准主要覆盖纯文本能力。

如果你需要测试非常复杂的真实软件工程能力(比如需要独立Docker沙盒环境的代码执行测试),目前依然是它的能力盲区。

行业深层收益:评测赛道的商业逻辑

如果说One-Eval是铺设铁路的修路大军,那么在铁路上建立行业服务壁垒、提供专业商业化服务,则是深谙行业商业化与资本运作逻辑。

这绝不仅是一个“卖软件授权”的单纯工具授权生意。

这门生意的买单方,是被 AI 升级需求倒逼的 B 端企业。

一边是持续融资布局的大模型研发企业,一边是急于把AI接入业务的《财富》500强企业。

在这个千亿规模的赛道里,头部公司的盈利逻辑被极其精密地设计为三个层层联动的盈利体系:

第一重:收取基础的企业服务费用

对于企业内部日常的自动化评测需求,商业平台切入了合规刚需。提供企业级的审计日志、权限管理等服务,按API调用量或席位收取合理的商业化服务费用。这构成了他们极其稳定的现金流底座。

第二重:垄断定义权,提供私有化专业评测认证服务

既然开源考卷被污染了,高分没人信了,商业公司顺势就接管了重新定义行业评测标准体系。

比如行业巨头Scale AI,他们推出了全新的SEAL排行榜。

这个榜单不玩静态代码谜题,直接引入真实人类专家进行盲测比对,从机制上规避数据泄露与刻意刷榜行为。

逻辑瞬间质变:基础模型公司如果想向投资人证明自己比竞品强,就必须花重金购买这种不可篡改的私有评测认证。

这就如同在开展商业化落地与资本市场估值前,你必须采购专业机构的权威评测认证。

第三重:“诊断+卖药”的数据引擎终极闭环

这是这门生意最核心的护城河,也是最具核心壁垒的商业闭环。

首先,评测系统通过大规模并发,精准定位模型在细分场景的能力短板与逻辑缺陷。

紧接着,它输出专业评测诊断报告向客户输出针对性改进指导。

最后,平台顺理成章地亮出底牌:若要针对性优化模型能力?买我们独家的高质量人工微调数据集吧。

你不仅要为它指出你的弱点付费,还要采购对应的专业微调数据集。

正是依托这套系统,Scale AI在2024年实现约 8.7 亿美元可观营收,毛利率稳定在50%左右。

资本给予了较高市场估值:Meta在2025年出资143亿美元,拿下了Scale AI 49%的股份,直接将其估值推向了290亿美元的巅峰。

大模型开发商融来的巨额资金中,有相当大一部分,就这样以购买数据和评测服务的形式,悄无声息地流进了这些“卖水人”的口袋。

大模型时代的淘金热远未结束。

无论是北大团队试图用自然语言交互打破繁文缛节的开源破局,还是商业巨擘用数据服务闭环构建商业壁垒的资本布局。

都在印证商业发展中一个恒久不变的规律:

在巨头林立、竞争激烈的新兴技术赛道中,掌握最终定价权的,往往不是技术迭代最快、投入最高的企业。

而是牢牢扼住底层度量衡、负责制定游戏规则的那个“裁判”。(本文首发钛媒体App,作者| AGI-Signal,编辑|林深) 

声明:

本文分析基于开源库(如OpenDCAI/One-Eval)、公开财务数据及行业报告梳理。投资与创业存在极大不确定性,需留意大模型技术快速迭代及估值波动带来的行业不确定性。

作品声明:内容由AI生成
本文系作者 AGI-Signal 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

11:49

日经225指数跌幅扩大至1%

11:48

华为擎云发布教育AI解决方案

11:47

船只搁浅致土耳其博斯普鲁斯海峡通行暂时中断

11:46

中欧班列中通道今年以来中欧班列通行量突破1500列

11:46

科思科技推出基于昇腾910B芯片的全国产全加固智能计算模组

11:44

多家航司再度大幅上调5月航线燃油费

11:43

日元兑美元短暂走强,一度突破159水平

11:42

A股午评:创业板指半日跌0.54%,超3700股下跌,算力租赁、CRO概念逆势活跃

11:31

福耀玻璃董事长旗下企业入股博泰车联

11:28

市场监管总局局长罗文会见西班牙国家市场与竞争委员会主席卡尼・费尔南德斯・维西恩

11:26

游戏公司绕过防沉迷系统向未成年人出售网游账号被判赔80万元

11:25

美国会预算办公室:未来十年美政府赤字增加超万亿美元

11:25

中国气象局:将实施极端天气应对攻坚行动

11:21

体验区达5.6万平方米,第九届数字中国建设峰会明日开幕

11:21

国务院国资委党委:“十五五”时期接续发力新能源汽车、人工智能等重点领域,超前培育量子信息、核聚变、低空经济等前沿赛道

11:19

中国首款正向设计自转旋翼机完成首飞

11:15

桥水基金:人工智能正对传统老牌软件企业构成“生存级冲击”

11:13

联合国秘书长敦促开放霍尔木兹海峡

11:13

达利欧:滞胀环境下,下任美联储主席提名人选沃什不应降息

11:12

厄瓜多尔政府与洛阳钼业旗下公司签署17亿美元矿业项目协议

扫描下载App