0.04 vs 1.78美元：AI评测开始算经济账

Artificial Analysis发布Intelligence Index v4.1，新增Cost per Task、Time per Task、Tokens per Task三项指标，标志着AI模型评估从「跑分竞赛」转向「经济学竞赛」。DeepSeek V4 Pro以0.04美元/任务的成本与Claude Opus 4.8的1.78美元/任务形成44倍价差，而两者Intelligence Index得分仅差17个百分点。在一个基准测试加速饱和的时代，衡量标准本身正在成为AI行业最被低估的基础设施。

2026年6月16日，独立AI评测机构Artificial Analysis发布了Intelligence Index v4.1。这次更新的标题很直白——「向Agentic工作负载的转移」——但真正的议程藏在三项新指标里：Cost per Task（单任务成本）、Time per Task（单任务耗时）和Tokens per Task（单任务Token消耗）。

这不是一次普通的版本迭代。从v4.0到v4.1，不到6个月时间，Artificial Analysis连续砍掉了MMLU-Pro、AIME 2025、LiveCodeBench和IFBench四个曾经被视为「黄金标准」的基准测试。理由都一样：前沿模型已经把它们吃透了，无法继续区分优劣。

取而代之的是GDPval-AA——一个让模型做真实经济价值任务的测试，评估维度从「知识问答」变成了「能不能干活」。而在v4.1中，这套方法论更进一步：不再只问「谁分数高」，开始问「花多少钱、用多少时间、产多少Token，才能把一件事干成」。

AI模型评估的底层逻辑，正在被重写。

一、基准测试的饱和危机：当「做题家」刷穿考卷

在AI行业，基准测试（Benchmark）的宿命往往只有一个：被模型「刷穿」。

2026年1月，Artificial Analysis在发布Intelligence Index v4.0时，做了一个在当时看来颇为激进的决定：从指标体系中一次性移除MMLU-Pro、AIME 2025和LiveCodeBench三个基准。这三个测试分别衡量通用知识、竞赛数学和竞赛编程——恰恰是过去两年AI行业最热衷于吹「超越人类」的领域。

但问题恰恰出在这里。据The Batch报道，Artificial Analysis做出这一决定的核心理由是：这些基准已经「饱和」，前沿LLM几乎已经掌握了这些考题。更棘手的是，可能存在训练数据污染——模型在训练阶段就「见过」测试集的答案，测试成绩反映的不是推理能力而是记忆力。

这不是一家之言。整个行业都在经历类似的困境。AI Index报告指出，前沿模型在多个传统基准上的表现正在趋同，区分度持续下降。以MMLU-Pro为例——这个曾经被视为通用知识「高考」的基准，在两年间从区分度最好的测试之一，变成了几乎无法区分GPT-5、Claude Opus和Gemini 3 Pro的「送分题」。

VentureBeat在2026年1月报道v4.0发布时直言不讳：「Artificial Analysis从根本上改变了行业衡量AI进步的方式。」

而v4.1的发布证明，v4.0只是开始。在v4.0砍掉三个饱和基准的基础上，v4.1又砍掉了IFBench——理由完全一样。饱和—替换—再饱和—再替换，这个循环本身就是当前AI评估的底层困境。

一句话概括这个局面：考卷不够难了，但题目本身只是问题的一部分。更大的问题是，过去的考卷压根考的不是「能不能干活」。

二、从「刷分」到「干活」：Agentic评估的三重升级

v4.1的核心逻辑，可以用一句话概括：评估重心从知识提取转向行动能力。

第一重升级：Task维度的全面Agent化

v4.1对三项关键评估进行了升级：Terminal-Bench Hard升级为Terminal-Bench 2.1，τ²-Bench Telecom升级为τ³-Bench Banking，GDPval-AA升级为v2版本。三个升级的共同方向都是——更难的Agentic场景，更长的任务轨迹，更逼真的真实世界条件。

尤其是GDPval-AA v2，这是Intelligence Index中权重最高的单项评估。三个关键变化：将ELO基线重置为人类表现=1000分，让人类基准成为一个可量化的参照系而非抽象概念；引入前沿模型作为轮换评委，替代固定的人类评分以降低主观偏差；将任务轮次上限从100轮提高到250轮——这相当于把「考一场试」变成了「完成一个项目」。

结果很有冲击力。Anthropic的Claude Fable 5（带回退机制）以1818分领跑GDPval-AA v2，Claude Opus 4.8以1638分紧随其后——但Claude Fable 5目前尚未对外开放使用。OpenAI的GPT-5.5（xhigh推理模式）得分1531，位列第三。

在整个Intelligence Index v4.1综合排名中，Claude Opus 4.8以61.4%的得分领先公开可用模型，GPT-5.5以60.2%紧随其后，差距仅1.2个百分点。据Artificial Analysis在6月10日的独立评估，如果算上尚未开放的Claude Fable 5，Anthropic的领先优势将扩大到「接近5个百分点」——但Fable 5目前3.25美元的单任务成本也是所有模型中最高的。

同时，v4.1还做了一个更干脆的动作：直接删除IFBench（指令遵循基准）。Artificial Analysis在发布说明中写道：「该基准不再能充分区分前沿模型，因此我们将其从Intelligence Index中移除。」

第二重升级：引入「经济账」——Cost per Task

这是v4.1最具行业冲击力的创新。Artificial Analysis把运行整个Intelligence Index的总成本、总时间和总输出Token数，除以评估任务总数，得出每个任务的平均成本、平均耗时和平均Token消耗。

这个逻辑的颠覆性在于：它把AI模型从一个「评分游戏」拉进了「性价比游戏」。

直接看数字。在Cost per Task这条线上，格局极具戏剧性：

DeepSeek V4 Pro（max推理模式）以每个任务0.04美元的成本，拿到Intelligence Index 44分。 作为对比，OpenAI的GPT-5.5（xhigh）每个任务需要0.99美元，贵了将近25倍；Anthropic的Claude Opus 4.8（max）每个任务高达1.78美元，贵了超过44倍——而后两者的Intelligence Index得分分别为60.2和61.4。

简单算一笔账：Claude Opus 4.8比DeepSeek V4 Pro高约17个点（61.4 vs 44），但成本是后者的44.5倍。每多拿1个Intelligence Index百分点，要多花大约2.6倍的成本。如果把Claude Fable 5的3.25美元/task也算进来，这个边际成本曲线只会更陡。

这不是简单的「便宜 vs 贵」，而是一个质的差异。DeepSeek V4 Pro的价格策略也在配合这一叙事——InfoWorld报道，DeepSeek在V4-Pro发布仅一个月后，就宣布降价75%，API价格砍至原来的四分之一，该促销价将持续到2026年5月31日。

Artificial Analysis在v4.1中还首次引入了缓存输入Token的报告机制——在计算运行Intelligence Index的总成本时，计入输入Token缓存的成本节约效应，以更真实反映模型的实际运行成本。这意味着性价比的计算本身也在变得更精确。

第三重升级：Time per Task——快慢之间的大分流

如果说Cost per Task揭示了价格鸿沟，Time per Task则暴露了速度鸿沟。

前沿模型的单个任务耗时从xAI的Grok 4.3（high）的1.5分钟到Anthropic的Claude Sonnet 4.6（max）的13.5分钟，跨度接近9倍。值得注意的是，Claude Sonnet 4.6的耗时甚至超过了Claude Opus 4.8的6.4分钟——因为Sonnet 4.6倾向于输出更多Token来完成每个任务，而非思考得更久。

而真正的「速度+智能」平衡点在Google的Gemini 3.1 Pro Preview上：1.6分钟完成一个任务，Intelligence Index得分46。在时间效率维度上，它是目前所有前沿模型中最突出的选择。GPT-5.5（xhigh）每个任务耗时3.7分钟，处于中游水平。

第三个新指标Tokens per Task则将上述成本和时间的来源可视化：模型完成任务用了多少输出Token。这不仅关乎API计费——每1000个输出Token的定价是各厂商最敏感的竞争维度——更直指一个深层问题：模型的高分到底靠的是「真聪明」还是「拼命写」？

三、为什么「性价比」正在取代「排行榜第一」？

Artificial Analysis v4.1的三个新指标共同指向一个判断：AI模型市场正在从「技术竞赛」进入「经济学竞赛」。

这个判断有三层含义。

第一，前沿模型的智力差距正在缩小，但成本差距持续拉大。 Claude Opus 4.8和GPT-5.5之间的Intelligence Index只有1.2个百分点的分差，但单任务成本可以相差80%（1.78 vs 0.99美元）。当模型的实际表现趋于收敛，采购决策的天平自然向成本倾斜。

第二，Agentic场景放大了经济账的重要性。 一个传统的Chatbot场景，用户问一个问题，模型回答一次，单次成本差异可能无关痛痒。但在Agent场景下，一个任务可能涉及几十甚至上百轮API调用——250轮的任务轨迹上限意味着成本差异会被放大数十到数百倍。Claude Opus 4.8跑完一个Agentic任务的成本可能飙升至DeepSeek V4 Pro的44倍，这个差额足以覆盖一个小型工程团队一个月的云服务开支。

白宫经济顾问委员会(CEA)在2026年1月发布的《人工智能与大分流》报告中提供了一个宏观经济注脚：从2016年到2024年，训练前沿模型的能源和硬件摊销成本以年均2.4倍的速度增长，云算力成本以年均2.5倍增长。Epoch AI测算，训练Grok 4的成本约为4.9亿美元。这些数字共同描绘了一个「越贵越强」的线性叙事——而DeepSeek V4 Pro的0.04美元/task正是在用极端性价比挑战这个叙事。

第三，「饱和—替换」循环是常态，不是意外。 从MMLU-Pro到AIME到LiveCodeBench到IFBench——几乎每一个曾经被奉为圭臬的基准测试，都逃不过被模型征服然后被替换的命运。这不是Artificial Analysis的失误，而是评估本身的结构性困境：静态题库永远追不上动态进化的模型。 v4.1引入的「轮换评委」机制、对Agentic长轨迹的侧重以及新增的Cached Input Token报告，正是试图从根源上缓解这一问题。

这意味着什么？未来最受投资人、企业采购和技术决策者关注的指标，不会再是「在XX基准上超越人类XX%」，而是「在你的具体任务上，每花1美元能产出多少有效结果」。

四、谁是赢家？

如果以Artificial Analysis v4.1的评估框架为坐标系，当前的竞争格局出现了清晰的阵营分化：

最高分阵营：Anthropic。 Claude Fable 5和Claude Opus 4.8在Intelligence Index和GDPval-AA v2上包揽前两名，但成本也是最高的——Opus 4.8的1.78美元/task和Fable 5的3.25美元/task意味着对成本不敏感的场景（前沿研究、高价值决策辅助）仍是首选。

平衡阵营：OpenAI和Google。 GPT-5.5（xhigh）的0.99美元/task处于中等水平，3.7分钟的耗时也有竞争力。Gemini 3.1 Pro Preview则在「速度-智能」曲线上独占鳌头——1.6分钟/task、46分——在时效敏感场景中极具吸引力。

性价比阵营：DeepSeek。 0.04美元/task是一个让所有竞争对手窒息的数字。结合75%的降价和开放API生态，DeepSeek V4 Pro的定位非常清晰：让Agent化部署的经济门槛降到近乎为零。这不是「追赶最优」，而是「用够用的智能换极致的成本优势」——一种在中国互联网行业被验证过无数次的策略。

Grok 4.3（high）以1.5分钟/task拿下最快速度，暗示了xAI在推理优化上的持续投入。但速度最快不等于综合最优——Grok 4.3的Intelligence Index得分并未出现在v4.1的关键对比图表中，暗示其「快但不够聪明」的定位。

但真正的赢家，可能不是任何一个模型厂商。

在Artificial Analysis宣布v4.1发布的同一周，他们在Luma上组织了一场线下活动，邀请AI前沿从业者讨论「如何衡量语言模型智能以及模型之间的权衡」。活动面向「正在构建、研究或部署AI系统的人」，注册需审核——这意味着门槛和筛选。

在一个所有模型都在趋同、所有基准都在饱和的时代，谁掌握衡量标准，谁就掌握市场话语权。Artificial Analysis正在从「独立评测机构」变成一个行业基础设施——就像MSCI之于金融市场，或者FICO之于信贷。这不是比喻，而是正在发生的产业重组。

在巨头林立、竞争激烈的新兴技术赛道中，掌握最终定价权的，往往不是技术迭代最快、投入最高的企业，而是牢牢扼住底层度量衡、负责制定游戏规则的那个「裁判」。而Artificial Analysis Intelligence Index v4.1，刚刚把自己的游戏规则升级到了成本经济学版本。