2026年6月,一篇来自南洋理工大学、清华大学、字节跳动和西北工业大学的论文在arXiv上悄然上线。它没有惊艳的参数量,没有动辄数万张H100的训练账单,却在一个公认的"硬骨头"任务——空间推理——上,以8B参数的智能体成绩,与GPT-5.4和Gemini 3 Pro正面过招。
这篇名为《S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence》的论文,提出的核心问题直击当前多模态大模型的阿喀琉斯之踵:为什么一个能写诗、能编程的模型,面对"摄像头左边第三个物体离门有多远"这种问题,会表现得像个路痴?
答案可能比你想象的更简单,也更反直觉:不是模型不够聪明,而是它不会使用"工具"。
S-Agent的解法——不给模型"加脑容量",而是给它一套类似人类用尺子、指南针和地图的空间工具箱——在MMSI-Bench上取得46.4%的平均准确率,超越Gemini 3 Pro(45.2%),领先GPT-5.4(41.9%)。在ReVSI基准上以58.8分领跑。其蒸馏版本S-Agent-8B,仅靠292K条空间推理轨迹微调,就从Qwen3-VL-8B的31.1%跃升至41.6%,逼近GPT-5.4。
空间推理:大模型最后的"盲区"
空间推理要求模型不仅"看见"物体,还要理解距离、方向、大小和视角一致性——这恰好是大模型训练范式的天然盲区。当前主流VLM的训练是"看图说话"的被动学习:模型知道"椅子"是什么,但要知道"椅子在桌子哪个方向?距离多远?"——这种需要从2D像素中重建3D几何的任务——几乎没有接受过专门训练。
这就是论文定义的"语义-几何鸿沟"(semantic-to-geometric gap)。没有工具辅助时,InternVL3.5-8B在MMSI-Bench上的零样本准确率仅29.0%——超过七成的答案是错的。
全线压制:8B模型如何打赢千亿参数
S-Agent在多个主流空间推理基准上形成了清晰的碾压态势。MMSI-Bench零样本排名:S-Agent 46.4%、Gemini 3 Pro 45.2%、GPT-5.4 41.9%、Grok 4 37.8%。ViewSpatial-Bench:S-Agent 60.0%,VST-7B-SFT 50.5%,Gemini 3 Pro 50.4%,GPT-5.4 45.6%。
更大的冲击来自分维度分析。S-Agent最大提升集中在相机运动推理(+31.1百分点)、多步推理(+8.0)和相机-区域关系(+38.6)——这些恰恰是需要"累积几何证据"而非"单帧语义猜测"的类别。
S-Agent-8B的数字更具商业冲击力:在MMSI-Bench上,GPT-5.4仅41.9%,而S-Agent-8B以8B参数达到41.6%,差距仅0.3个百分点;在ViewSpatial上甚至以46.8%反超GPT-5.4的45.6%。292K条轨迹——这个数据量在今天的AI训练中几乎可以忽略不计——就让一个8B模型与千亿参数闭源模型站在同一水平线上。
核心机制:VLM做"项目经理",工具做"施工队"
S-Agent的架构可以用一句话概括:让VLM做项目经理,让工具做施工队。它将VLM定位为语义规划器(semantic planner),不负责直接输出空间关系,而是决定"需要什么证据"以及"下一步调用哪个工具"。在其之下,是三层空间工具层次:
第一层:2D视觉证据采集。通过vlm_ground、detect(GDINO)、depth和keyframe,从多帧图像中提取有效线索——相当于"从一堆照片里找出有用的那张"。
第二层:2D到3D几何提升。通过metric_3d(DA3)、camera pose、BEV,将平面线索转化为3D坐标,让散落在各帧的观察在同一个共享空间中对齐。
第三层:空间知识聚合。通过measure、count、relpos、vis_orient、obj_view,将几何线索转化为可直接回答问题的空间知识。
每一层都在做一件事:把"不确定的猜测"变成"确定的计算"。
双记忆系统:便签本加工作日志
如果说工具是S-Agent的"手",那么双记忆系统就是它的"便签本"和"工作日志"。
场景记忆(Scene Memory)将分散在多个帧中的同一物体绑定,渐进式积累3D证据——只记录问题需要的部分,不做全场景扫描。智能体记忆(Agent Memory)保留完整的推理过程——想法、工具调用、结果、失败和部分结论,让规划器知道"还缺什么",避免重复或矛盾。
这个设计将空间推理变成了结构化的侦查过程:规划器提出问题→工具收集证据→记忆整合线索→规划器判断是否足够→不足则继续——直到证据充分才输出答案。这与人类解决空间问题的方式惊人地相似:找一个地标→确认方向→测量距离→核实一致性→得出结论。
为什么"工具优先"比"参数优先"更有效?
S-Agent的成功触及了一个更深层的问题:空间智能的本质是什么?
一个简单的思想实验可以说明问题:给你一张陌生城市的航拍照片,让你回答"中央公园东门到时代广场的距离"。如果你只有眼睛,需要目测估算;但如果你有地图、尺子和GPS,几秒钟就能给出精确答案。人类解决空间问题从来不是"凭直觉背诵",而是借助工具和外部表征。
传统路线的做法是:用更多3D数据和更大参数让模型"内化"空间知识——训练成本极高,且泛化有限。S-Agent的路子是:VLM只需具备"判断能力"——知道什么时候该调用什么工具——精确计算交给工具完成。这本质上是一个分工的胜利。
论文数据提供了有力支撑:S-Agent在不需要任何空间微调(training-free)的条件下,仅通过推理时的工具增强,就让InternVL3.5-8B的MMSI准确率从29.0%跃升至46.4%,提升17.4个百分点。
工具箱的边界
S-Agent并非没有短板。首先,多步工具调用导致推理延迟显著高于端到端模型——benchmark第一,但成本更高。其次,效果高度依赖底层工具精度——GDINO的检测、DA3的深度估计、位姿估计——任一环节失效,整个链条断裂。其三,蒸馏版S-Agent-8B与完整版仍有近5个百分点的差距(MMSI: 41.6% vs 46.4%)。其四,目前主要在静态场景验证,对高度动态场景——快速移动物体、剧烈光照变化——尚未充分测试。
产业启示
S-Agent与AI领域近年趋势一脉相承:不要在模型里"塞"能力,让模型学会用工具获取能力。从ChatGPT代码解释器到Anthropic的computer use,工具增强智能体正在从"锦上添花"变成"核心范式"。S-Agent将这个趋势带入空间推理这个长期被认为"只能靠更大模型硬啃"的领域。
对AI芯片厂商:空间智能瓶颈不是算力而是工具设计,推理侧需求可能比预想中来得更快——每个智能体都需要实时调用多步工具链,推理芯片需要低延迟的工具编排能力。
对机器人公司:S-Agent天然适用于具身智能——机器人在持续变化的3D环境中实时推理,S-Agent的证据积累+双记忆机制恰好呼应这一需求。S-300K轨迹蒸馏可用于生成机器人操作策略。
对自动驾驶:S-Agent暗示了一种混合架构:感知网络负责低延迟环境理解,"空间规划器"在更高层级进行几何推理和路径验证——形成"快慢双轨"系统。
回到那个核心问题:空间智能到底是学出来的,还是用工具用出来的?S-Agent的答案倾向后者。当8B模型借助一套精密工具就能与千亿参数模型正面竞争时,"更大"就不再是最优解。最终,聪明不是背下所有答案,而是知道该用什么工具去找答案——以及,知道什么时候该用。






快报