0.04 vs 1.78美元:AI评测开始算经济账

2026.06.17 09:21
Artificial Analysis发布Intelligence Index v4.1,新增Cost per Task、Time per Task、Tokens per Task三项指标,标志着AI模型评估从「跑分竞赛」转向「经济学竞赛」。DeepSeek V4 Pro以0.04美元/任务的成本与Claude Opus 4.8的1.78美元/任务形成44倍价差,而两者Intelligence Index得分仅差17个百分点。在一个基准测试加速饱和的时代,衡量标准本身正在成为AI行业最被低估的基础设施。

2026年6月16日,独立AI评测机构Artificial Analysis发布了Intelligence Index v4.1。这次更新的标题很直白——「向Agentic工作负载的转移」——但真正的议程藏在三项新指标里:Cost per Task(单任务成本)、Time per Task(单任务耗时)和Tokens per Task(单任务Token消耗)

这不是一次普通的版本迭代。从v4.0到v4.1,不到6个月时间,Artificial Analysis连续砍掉了MMLU-Pro、AIME 2025、LiveCodeBench和IFBench四个曾经被视为「黄金标准」的基准测试。理由都一样:前沿模型已经把它们吃透了,无法继续区分优劣

取而代之的是GDPval-AA——一个让模型做真实经济价值任务的测试,评估维度从「知识问答」变成了「能不能干活」。而在v4.1中,这套方法论更进一步:不再只问「谁分数高」,开始问「花多少钱、用多少时间、产多少Token,才能把一件事干成」。

AI模型评估的底层逻辑,正在被重写。

一、基准测试的饱和危机:当「做题家」刷穿考卷

在AI行业,基准测试(Benchmark)的宿命往往只有一个:被模型「刷穿」。

2026年1月,Artificial Analysis在发布Intelligence Index v4.0时,做了一个在当时看来颇为激进的决定:从指标体系中一次性移除MMLU-Pro、AIME 2025和LiveCodeBench三个基准。这三个测试分别衡量通用知识、竞赛数学和竞赛编程——恰恰是过去两年AI行业最热衷于吹「超越人类」的领域。

但问题恰恰出在这里。据The Batch报道,Artificial Analysis做出这一决定的核心理由是:这些基准已经「饱和」,前沿LLM几乎已经掌握了这些考题。更棘手的是,可能存在训练数据污染——模型在训练阶段就「见过」测试集的答案,测试成绩反映的不是推理能力而是记忆力。

这不是一家之言。整个行业都在经历类似的困境。AI Index报告指出,前沿模型在多个传统基准上的表现正在趋同,区分度持续下降。以MMLU-Pro为例——这个曾经被视为通用知识「高考」的基准,在两年间从区分度最好的测试之一,变成了几乎无法区分GPT-5、Claude Opus和Gemini 3 Pro的「送分题」。

VentureBeat在2026年1月报道v4.0发布时直言不讳:「Artificial Analysis从根本上改变了行业衡量AI进步的方式。」

而v4.1的发布证明,v4.0只是开始。在v4.0砍掉三个饱和基准的基础上,v4.1又砍掉了IFBench——理由完全一样。饱和—替换—再饱和—再替换,这个循环本身就是当前AI评估的底层困境。

一句话概括这个局面:考卷不够难了,但题目本身只是问题的一部分。更大的问题是,过去的考卷压根考的不是「能不能干活」。

二、从「刷分」到「干活」:Agentic评估的三重升级

v4.1的核心逻辑,可以用一句话概括:评估重心从知识提取转向行动能力。

第一重升级:Task维度的全面Agent化

v4.1对三项关键评估进行了升级:Terminal-Bench Hard升级为Terminal-Bench 2.1,τ²-Bench Telecom升级为τ³-Bench Banking,GDPval-AA升级为v2版本。三个升级的共同方向都是——更难的Agentic场景,更长的任务轨迹,更逼真的真实世界条件。

尤其是GDPval-AA v2,这是Intelligence Index中权重最高的单项评估。三个关键变化:将ELO基线重置为人类表现=1000分,让人类基准成为一个可量化的参照系而非抽象概念;引入前沿模型作为轮换评委,替代固定的人类评分以降低主观偏差;将任务轮次上限从100轮提高到250轮——这相当于把「考一场试」变成了「完成一个项目」。

结果很有冲击力。Anthropic的Claude Fable 5(带回退机制)以1818分领跑GDPval-AA v2,Claude Opus 4.8以1638分紧随其后——但Claude Fable 5目前尚未对外开放使用。OpenAI的GPT-5.5(xhigh推理模式)得分1531,位列第三。

在整个Intelligence Index v4.1综合排名中,Claude Opus 4.8以61.4%的得分领先公开可用模型,GPT-5.5以60.2%紧随其后,差距仅1.2个百分点。据Artificial Analysis在6月10日的独立评估,如果算上尚未开放的Claude Fable 5,Anthropic的领先优势将扩大到「接近5个百分点」——但Fable 5目前3.25美元的单任务成本也是所有模型中最高的。

同时,v4.1还做了一个更干脆的动作:直接删除IFBench(指令遵循基准)。Artificial Analysis在发布说明中写道:「该基准不再能充分区分前沿模型,因此我们将其从Intelligence Index中移除。」

第二重升级:引入「经济账」——Cost per Task

这是v4.1最具行业冲击力的创新。Artificial Analysis把运行整个Intelligence Index的总成本、总时间和总输出Token数,除以评估任务总数,得出每个任务的平均成本、平均耗时和平均Token消耗。

这个逻辑的颠覆性在于:它把AI模型从一个「评分游戏」拉进了「性价比游戏」。

直接看数字。在Cost per Task这条线上,格局极具戏剧性:

DeepSeek V4 Pro(max推理模式)以每个任务0.04美元的成本,拿到Intelligence Index 44分。 作为对比,OpenAI的GPT-5.5(xhigh)每个任务需要0.99美元,贵了将近25倍;Anthropic的Claude Opus 4.8(max)每个任务高达1.78美元,贵了超过44倍——而后两者的Intelligence Index得分分别为60.2和61.4。

简单算一笔账:Claude Opus 4.8比DeepSeek V4 Pro高约17个点(61.4 vs 44),但成本是后者的44.5倍。每多拿1个Intelligence Index百分点,要多花大约2.6倍的成本。如果把Claude Fable 5的3.25美元/task也算进来,这个边际成本曲线只会更陡。

这不是简单的「便宜 vs 贵」,而是一个质的差异。DeepSeek V4 Pro的价格策略也在配合这一叙事——InfoWorld报道,DeepSeek在V4-Pro发布仅一个月后,就宣布降价75%,API价格砍至原来的四分之一,该促销价将持续到2026年5月31日。

Artificial Analysis在v4.1中还首次引入了缓存输入Token的报告机制——在计算运行Intelligence Index的总成本时,计入输入Token缓存的成本节约效应,以更真实反映模型的实际运行成本。这意味着性价比的计算本身也在变得更精确。

第三重升级:Time per Task——快慢之间的大分流

如果说Cost per Task揭示了价格鸿沟,Time per Task则暴露了速度鸿沟。

前沿模型的单个任务耗时从xAI的Grok 4.3(high)的1.5分钟到Anthropic的Claude Sonnet 4.6(max)的13.5分钟,跨度接近9倍。值得注意的是,Claude Sonnet 4.6的耗时甚至超过了Claude Opus 4.8的6.4分钟——因为Sonnet 4.6倾向于输出更多Token来完成每个任务,而非思考得更久。

而真正的「速度+智能」平衡点在Google的Gemini 3.1 Pro Preview上:1.6分钟完成一个任务,Intelligence Index得分46。在时间效率维度上,它是目前所有前沿模型中最突出的选择。GPT-5.5(xhigh)每个任务耗时3.7分钟,处于中游水平。

第三个新指标Tokens per Task则将上述成本和时间的来源可视化:模型完成任务用了多少输出Token。这不仅关乎API计费——每1000个输出Token的定价是各厂商最敏感的竞争维度——更直指一个深层问题:模型的高分到底靠的是「真聪明」还是「拼命写」?

三、为什么「性价比」正在取代「排行榜第一」?

Artificial Analysis v4.1的三个新指标共同指向一个判断:AI模型市场正在从「技术竞赛」进入「经济学竞赛」。

这个判断有三层含义。

第一,前沿模型的智力差距正在缩小,但成本差距持续拉大。 Claude Opus 4.8和GPT-5.5之间的Intelligence Index只有1.2个百分点的分差,但单任务成本可以相差80%(1.78 vs 0.99美元)。当模型的实际表现趋于收敛,采购决策的天平自然向成本倾斜。

第二,Agentic场景放大了经济账的重要性。 一个传统的Chatbot场景,用户问一个问题,模型回答一次,单次成本差异可能无关痛痒。但在Agent场景下,一个任务可能涉及几十甚至上百轮API调用——250轮的任务轨迹上限意味着成本差异会被放大数十到数百倍。Claude Opus 4.8跑完一个Agentic任务的成本可能飙升至DeepSeek V4 Pro的44倍,这个差额足以覆盖一个小型工程团队一个月的云服务开支。

白宫经济顾问委员会(CEA)在2026年1月发布的《人工智能与大分流》报告中提供了一个宏观经济注脚:从2016年到2024年,训练前沿模型的能源和硬件摊销成本以年均2.4倍的速度增长,云算力成本以年均2.5倍增长。Epoch AI测算,训练Grok 4的成本约为4.9亿美元。这些数字共同描绘了一个「越贵越强」的线性叙事——而DeepSeek V4 Pro的0.04美元/task正是在用极端性价比挑战这个叙事。

第三,「饱和—替换」循环是常态,不是意外。 从MMLU-Pro到AIME到LiveCodeBench到IFBench——几乎每一个曾经被奉为圭臬的基准测试,都逃不过被模型征服然后被替换的命运。这不是Artificial Analysis的失误,而是评估本身的结构性困境:静态题库永远追不上动态进化的模型。 v4.1引入的「轮换评委」机制、对Agentic长轨迹的侧重以及新增的Cached Input Token报告,正是试图从根源上缓解这一问题。

这意味着什么?未来最受投资人、企业采购和技术决策者关注的指标,不会再是「在XX基准上超越人类XX%」,而是「在你的具体任务上,每花1美元能产出多少有效结果」。

四、谁是赢家?

如果以Artificial Analysis v4.1的评估框架为坐标系,当前的竞争格局出现了清晰的阵营分化:

最高分阵营:Anthropic。 Claude Fable 5和Claude Opus 4.8在Intelligence Index和GDPval-AA v2上包揽前两名,但成本也是最高的——Opus 4.8的1.78美元/task和Fable 5的3.25美元/task意味着对成本不敏感的场景(前沿研究、高价值决策辅助)仍是首选。

平衡阵营:OpenAI和Google。 GPT-5.5(xhigh)的0.99美元/task处于中等水平,3.7分钟的耗时也有竞争力。Gemini 3.1 Pro Preview则在「速度-智能」曲线上独占鳌头——1.6分钟/task、46分——在时效敏感场景中极具吸引力。

性价比阵营:DeepSeek。 0.04美元/task是一个让所有竞争对手窒息的数字。结合75%的降价和开放API生态,DeepSeek V4 Pro的定位非常清晰:让Agent化部署的经济门槛降到近乎为零。这不是「追赶最优」,而是「用够用的智能换极致的成本优势」——一种在中国互联网行业被验证过无数次的策略。

Grok 4.3(high)以1.5分钟/task拿下最快速度,暗示了xAI在推理优化上的持续投入。但速度最快不等于综合最优——Grok 4.3的Intelligence Index得分并未出现在v4.1的关键对比图表中,暗示其「快但不够聪明」的定位。

但真正的赢家,可能不是任何一个模型厂商。

在Artificial Analysis宣布v4.1发布的同一周,他们在Luma上组织了一场线下活动,邀请AI前沿从业者讨论「如何衡量语言模型智能以及模型之间的权衡」。活动面向「正在构建、研究或部署AI系统的人」,注册需审核——这意味着门槛和筛选。

在一个所有模型都在趋同、所有基准都在饱和的时代,谁掌握衡量标准,谁就掌握市场话语权。Artificial Analysis正在从「独立评测机构」变成一个行业基础设施——就像MSCI之于金融市场,或者FICO之于信贷。这不是比喻,而是正在发生的产业重组。

在巨头林立、竞争激烈的新兴技术赛道中,掌握最终定价权的,往往不是技术迭代最快、投入最高的企业,而是牢牢扼住底层度量衡、负责制定游戏规则的那个「裁判」。而Artificial Analysis Intelligence Index v4.1,刚刚把自己的游戏规则升级到了成本经济学版本。

作品声明:内容由AI生成