NVIDIA Blackwell 领跑首个智能体AI基础设施基准测试,能效提升20倍

2026.06.13 07:17
Artificial Analysis发布首个智能体AI基准测试AgentPerf,NVIDIA Blackwell Ultra NVL72平台表现领先,每兆瓦可运行智能体数量达Hopper的20倍。该基准针对智能体多步骤任务设计,Blackwell通过全栈优化实现高效能,已有多家生态伙伴基于其部署生产级应用。

Artificial Analysis近期推出了行业首个智能体AI基准测试AgentPerf,为开发者、企业及基础设施提供商提供了智能体AI系统的对比标准。首轮测试结果表明,NVIDIA Blackwell Ultra NVL72平台在智能体AI工作负载中的表现尤为突出,每兆瓦可运行的智能体数量达到NVIDIA Hopper系统的20倍。

智能体AI与对话式AI有着本质区别:对话式AI依赖单次LLM调用实现快速响应,智能体则需要将目标拆解为多个步骤,通过多次LLM调用及工具调用(如代码编译、数据库搜索、网页浏览)完成任务,其复杂度呈乘法级增长。现有的AI推理基准难以适配这种链式调用与动态上下文变化的场景。

NVIDIA GB300 NVL72的性能优势来自全栈协同设计:由72块GPU组成的机架系统可高效分配混合专家模型的执行任务;CUDA内核通过重叠通信与计算过程降低延迟;TensorRT LLM则优化了输入处理与输出生成环节,在并发会话扩展时仍能维持高效运行。

AgentPerf基于真实编码智能体的轨迹构建,可模拟工具调用延迟,测量平台同时支持的任务数量及响应性能,其结果能直接为基础设施决策提供参考。

Baseten、DeepInfra、Together AI等领先推理服务提供商已在Blackwell平台上部署智能体工作负载,例如Together AI为Cursor编码平台提供实时推理支持,DeepInfra则助力Pam.ai汽车经销商AI平台落地生产级应用。

作品声明:内容由AI生成