S-Agent:8B模型用"工具箱"碾压GPT-5.4,空间智能的捷径被找到了

2026.06.19 13:16
南洋理工、清华、字节跳动联合团队提出S-Agent,一种空间工具使用智能体范式。不给模型加参数,而是给它一套空间"工具箱"——在MMSI-Bench上以46.4%超越Gemini 3 Pro(45.2%)和GPT-5.4(41.9%),蒸馏版S-Agent-8B仅靠29.2万条轨迹微调即逼近闭源大模型。核心洞见:空间智能不是学出来的,是用工具用出来的。

2026年6月,一篇来自南洋理工大学、清华大学、字节跳动和西北工业大学的论文在arXiv上悄然上线。它没有惊艳的参数量,没有动辄数万张H100的训练账单,却在一个公认的"硬骨头"任务——空间推理——上,以8B参数的智能体成绩,与GPT-5.4和Gemini 3 Pro正面过招。

这篇名为《S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence》的论文,提出的核心问题直击当前多模态大模型的阿喀琉斯之踵:为什么一个能写诗、能编程的模型,面对"摄像头左边第三个物体离门有多远"这种问题,会表现得像个路痴?

答案可能比你想象的更简单,也更反直觉:不是模型不够聪明,而是它不会使用"工具"。

S-Agent的解法——不给模型"加脑容量",而是给它一套类似人类用尺子、指南针和地图的空间工具箱——在MMSI-Bench上取得46.4%的平均准确率,超越Gemini 3 Pro(45.2%),领先GPT-5.4(41.9%)。在ReVSI基准上以58.8分领跑。其蒸馏版本S-Agent-8B,仅靠292K条空间推理轨迹微调,就从Qwen3-VL-8B的31.1%跃升至41.6%,逼近GPT-5.4。

空间推理:大模型最后的"盲区"

空间推理要求模型不仅"看见"物体,还要理解距离、方向、大小和视角一致性——这恰好是大模型训练范式的天然盲区。当前主流VLM的训练是"看图说话"的被动学习:模型知道"椅子"是什么,但要知道"椅子在桌子哪个方向?距离多远?"——这种需要从2D像素中重建3D几何的任务——几乎没有接受过专门训练。

这就是论文定义的"语义-几何鸿沟"(semantic-to-geometric gap)。没有工具辅助时,InternVL3.5-8B在MMSI-Bench上的零样本准确率仅29.0%——超过七成的答案是错的。

全线压制:8B模型如何打赢千亿参数

S-Agent在多个主流空间推理基准上形成了清晰的碾压态势。MMSI-Bench零样本排名:S-Agent 46.4%、Gemini 3 Pro 45.2%、GPT-5.4 41.9%、Grok 4 37.8%。ViewSpatial-Bench:S-Agent 60.0%,VST-7B-SFT 50.5%,Gemini 3 Pro 50.4%,GPT-5.4 45.6%。

更大的冲击来自分维度分析。S-Agent最大提升集中在相机运动推理(+31.1百分点)多步推理(+8.0)相机-区域关系(+38.6)——这些恰恰是需要"累积几何证据"而非"单帧语义猜测"的类别。

S-Agent-8B的数字更具商业冲击力:在MMSI-Bench上,GPT-5.4仅41.9%,而S-Agent-8B以8B参数达到41.6%,差距仅0.3个百分点;在ViewSpatial上甚至以46.8%反超GPT-5.4的45.6%。292K条轨迹——这个数据量在今天的AI训练中几乎可以忽略不计——就让一个8B模型与千亿参数闭源模型站在同一水平线上。

核心机制:VLM做"项目经理",工具做"施工队"

S-Agent的架构可以用一句话概括:让VLM做项目经理,让工具做施工队。它将VLM定位为语义规划器(semantic planner),不负责直接输出空间关系,而是决定"需要什么证据"以及"下一步调用哪个工具"。在其之下,是三层空间工具层次:

第一层:2D视觉证据采集。通过vlm_ground、detect(GDINO)、depth和keyframe,从多帧图像中提取有效线索——相当于"从一堆照片里找出有用的那张"。

第二层:2D到3D几何提升。通过metric_3d(DA3)、camera pose、BEV,将平面线索转化为3D坐标,让散落在各帧的观察在同一个共享空间中对齐。

第三层:空间知识聚合。通过measure、count、relpos、vis_orient、obj_view,将几何线索转化为可直接回答问题的空间知识。

每一层都在做一件事:把"不确定的猜测"变成"确定的计算"

双记忆系统:便签本加工作日志

如果说工具是S-Agent的"手",那么双记忆系统就是它的"便签本"和"工作日志"。

场景记忆(Scene Memory)将分散在多个帧中的同一物体绑定,渐进式积累3D证据——只记录问题需要的部分,不做全场景扫描。智能体记忆(Agent Memory)保留完整的推理过程——想法、工具调用、结果、失败和部分结论,让规划器知道"还缺什么",避免重复或矛盾。

这个设计将空间推理变成了结构化的侦查过程:规划器提出问题→工具收集证据→记忆整合线索→规划器判断是否足够→不足则继续——直到证据充分才输出答案。这与人类解决空间问题的方式惊人地相似:找一个地标→确认方向→测量距离→核实一致性→得出结论。

为什么"工具优先"比"参数优先"更有效?

S-Agent的成功触及了一个更深层的问题:空间智能的本质是什么?

一个简单的思想实验可以说明问题:给你一张陌生城市的航拍照片,让你回答"中央公园东门到时代广场的距离"。如果你只有眼睛,需要目测估算;但如果你有地图、尺子和GPS,几秒钟就能给出精确答案。人类解决空间问题从来不是"凭直觉背诵",而是借助工具和外部表征

传统路线的做法是:用更多3D数据和更大参数让模型"内化"空间知识——训练成本极高,且泛化有限。S-Agent的路子是:VLM只需具备"判断能力"——知道什么时候该调用什么工具——精确计算交给工具完成。这本质上是一个分工的胜利

论文数据提供了有力支撑:S-Agent在不需要任何空间微调(training-free)的条件下,仅通过推理时的工具增强,就让InternVL3.5-8B的MMSI准确率从29.0%跃升至46.4%,提升17.4个百分点。

工具箱的边界

S-Agent并非没有短板。首先,多步工具调用导致推理延迟显著高于端到端模型——benchmark第一,但成本更高。其次,效果高度依赖底层工具精度——GDINO的检测、DA3的深度估计、位姿估计——任一环节失效,整个链条断裂。其三,蒸馏版S-Agent-8B与完整版仍有近5个百分点的差距(MMSI: 41.6% vs 46.4%)。其四,目前主要在静态场景验证,对高度动态场景——快速移动物体、剧烈光照变化——尚未充分测试。

产业启示

S-Agent与AI领域近年趋势一脉相承:不要在模型里"塞"能力,让模型学会用工具获取能力。从ChatGPT代码解释器到Anthropic的computer use,工具增强智能体正在从"锦上添花"变成"核心范式"。S-Agent将这个趋势带入空间推理这个长期被认为"只能靠更大模型硬啃"的领域。

对AI芯片厂商:空间智能瓶颈不是算力而是工具设计,推理侧需求可能比预想中来得更快——每个智能体都需要实时调用多步工具链,推理芯片需要低延迟的工具编排能力。

对机器人公司:S-Agent天然适用于具身智能——机器人在持续变化的3D环境中实时推理,S-Agent的证据积累+双记忆机制恰好呼应这一需求。S-300K轨迹蒸馏可用于生成机器人操作策略。

对自动驾驶:S-Agent暗示了一种混合架构:感知网络负责低延迟环境理解,"空间规划器"在更高层级进行几何推理和路径验证——形成"快慢双轨"系统。

回到那个核心问题:空间智能到底是学出来的,还是用工具用出来的?S-Agent的答案倾向后者。当8B模型借助一套精密工具就能与千亿参数模型正面竞争时,"更大"就不再是最优解。最终,聪明不是背下所有答案,而是知道该用什么工具去找答案——以及,知道什么时候该用。

作品声明:内容由AI生成