S-Agent：8B模型用"工具箱"碾压GPT-5.4，空间智能的捷径被找到了

南洋理工、清华、字节跳动联合团队提出S-Agent，一种空间工具使用智能体范式。不给模型加参数，而是给它一套空间"工具箱"——在MMSI-Bench上以46.4%超越Gemini 3 Pro（45.2%）和GPT-5.4（41.9%），蒸馏版S-Agent-8B仅靠29.2万条轨迹微调即逼近闭源大模型。核心洞见：空间智能不是学出来的，是用工具用出来的。

2026年6月，一篇来自南洋理工大学、清华大学、字节跳动和西北工业大学的论文在arXiv上悄然上线。它没有惊艳的参数量，没有动辄数万张H100的训练账单，却在一个公认的"硬骨头"任务——空间推理——上，以8B参数的智能体成绩，与GPT-5.4和Gemini 3 Pro正面过招。

这篇名为《S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence》的论文，提出的核心问题直击当前多模态大模型的阿喀琉斯之踵：为什么一个能写诗、能编程的模型，面对"摄像头左边第三个物体离门有多远"这种问题，会表现得像个路痴？

答案可能比你想象的更简单，也更反直觉：不是模型不够聪明，而是它不会使用"工具"。

S-Agent的解法——不给模型"加脑容量"，而是给它一套类似人类用尺子、指南针和地图的空间工具箱——在MMSI-Bench上取得46.4%的平均准确率，超越Gemini 3 Pro（45.2%），领先GPT-5.4（41.9%）。在ReVSI基准上以58.8分领跑。其蒸馏版本S-Agent-8B，仅靠292K条空间推理轨迹微调，就从Qwen3-VL-8B的31.1%跃升至41.6%，逼近GPT-5.4。

空间推理：大模型最后的"盲区"

空间推理要求模型不仅"看见"物体，还要理解距离、方向、大小和视角一致性——这恰好是大模型训练范式的天然盲区。当前主流VLM的训练是"看图说话"的被动学习：模型知道"椅子"是什么，但要知道"椅子在桌子哪个方向？距离多远？"——这种需要从2D像素中重建3D几何的任务——几乎没有接受过专门训练。

这就是论文定义的"语义-几何鸿沟"（semantic-to-geometric gap）。没有工具辅助时，InternVL3.5-8B在MMSI-Bench上的零样本准确率仅29.0%——超过七成的答案是错的。

全线压制：8B模型如何打赢千亿参数

S-Agent在多个主流空间推理基准上形成了清晰的碾压态势。MMSI-Bench零样本排名：S-Agent 46.4%、Gemini 3 Pro 45.2%、GPT-5.4 41.9%、Grok 4 37.8%。ViewSpatial-Bench：S-Agent 60.0%，VST-7B-SFT 50.5%，Gemini 3 Pro 50.4%，GPT-5.4 45.6%。

更大的冲击来自分维度分析。S-Agent最大提升集中在相机运动推理（+31.1百分点）、多步推理（+8.0）和相机-区域关系（+38.6）——这些恰恰是需要"累积几何证据"而非"单帧语义猜测"的类别。

S-Agent-8B的数字更具商业冲击力：在MMSI-Bench上，GPT-5.4仅41.9%，而S-Agent-8B以8B参数达到41.6%，差距仅0.3个百分点；在ViewSpatial上甚至以46.8%反超GPT-5.4的45.6%。292K条轨迹——这个数据量在今天的AI训练中几乎可以忽略不计——就让一个8B模型与千亿参数闭源模型站在同一水平线上。

核心机制：VLM做"项目经理"，工具做"施工队"

S-Agent的架构可以用一句话概括：让VLM做项目经理，让工具做施工队。它将VLM定位为语义规划器（semantic planner），不负责直接输出空间关系，而是决定"需要什么证据"以及"下一步调用哪个工具"。在其之下，是三层空间工具层次：

第一层：2D视觉证据采集。通过vlm_ground、detect（GDINO）、depth和keyframe，从多帧图像中提取有效线索——相当于"从一堆照片里找出有用的那张"。

第二层：2D到3D几何提升。通过metric_3d（DA3）、camera pose、BEV，将平面线索转化为3D坐标，让散落在各帧的观察在同一个共享空间中对齐。

第三层：空间知识聚合。通过measure、count、relpos、vis_orient、obj_view，将几何线索转化为可直接回答问题的空间知识。

每一层都在做一件事：把"不确定的猜测"变成"确定的计算"。

双记忆系统：便签本加工作日志

如果说工具是S-Agent的"手"，那么双记忆系统就是它的"便签本"和"工作日志"。

场景记忆（Scene Memory）将分散在多个帧中的同一物体绑定，渐进式积累3D证据——只记录问题需要的部分，不做全场景扫描。智能体记忆（Agent Memory）保留完整的推理过程——想法、工具调用、结果、失败和部分结论，让规划器知道"还缺什么"，避免重复或矛盾。

这个设计将空间推理变成了结构化的侦查过程：规划器提出问题→工具收集证据→记忆整合线索→规划器判断是否足够→不足则继续——直到证据充分才输出答案。这与人类解决空间问题的方式惊人地相似：找一个地标→确认方向→测量距离→核实一致性→得出结论。

为什么"工具优先"比"参数优先"更有效？

S-Agent的成功触及了一个更深层的问题：空间智能的本质是什么？

一个简单的思想实验可以说明问题：给你一张陌生城市的航拍照片，让你回答"中央公园东门到时代广场的距离"。如果你只有眼睛，需要目测估算；但如果你有地图、尺子和GPS，几秒钟就能给出精确答案。人类解决空间问题从来不是"凭直觉背诵"，而是借助工具和外部表征。

传统路线的做法是：用更多3D数据和更大参数让模型"内化"空间知识——训练成本极高，且泛化有限。S-Agent的路子是：VLM只需具备"判断能力"——知道什么时候该调用什么工具——精确计算交给工具完成。这本质上是一个分工的胜利。

论文数据提供了有力支撑：S-Agent在不需要任何空间微调（training-free）的条件下，仅通过推理时的工具增强，就让InternVL3.5-8B的MMSI准确率从29.0%跃升至46.4%，提升17.4个百分点。

工具箱的边界

S-Agent并非没有短板。首先，多步工具调用导致推理延迟显著高于端到端模型——benchmark第一，但成本更高。其次，效果高度依赖底层工具精度——GDINO的检测、DA3的深度估计、位姿估计——任一环节失效，整个链条断裂。其三，蒸馏版S-Agent-8B与完整版仍有近5个百分点的差距（MMSI: 41.6% vs 46.4%）。其四，目前主要在静态场景验证，对高度动态场景——快速移动物体、剧烈光照变化——尚未充分测试。

产业启示

S-Agent与AI领域近年趋势一脉相承：不要在模型里"塞"能力，让模型学会用工具获取能力。从ChatGPT代码解释器到Anthropic的computer use，工具增强智能体正在从"锦上添花"变成"核心范式"。S-Agent将这个趋势带入空间推理这个长期被认为"只能靠更大模型硬啃"的领域。

对AI芯片厂商：空间智能瓶颈不是算力而是工具设计，推理侧需求可能比预想中来得更快——每个智能体都需要实时调用多步工具链，推理芯片需要低延迟的工具编排能力。

对机器人公司：S-Agent天然适用于具身智能——机器人在持续变化的3D环境中实时推理，S-Agent的证据积累+双记忆机制恰好呼应这一需求。S-300K轨迹蒸馏可用于生成机器人操作策略。

对自动驾驶：S-Agent暗示了一种混合架构：感知网络负责低延迟环境理解，"空间规划器"在更高层级进行几何推理和路径验证——形成"快慢双轨"系统。

回到那个核心问题：空间智能到底是学出来的，还是用工具用出来的？S-Agent的答案倾向后者。当8B模型借助一套精密工具就能与千亿参数模型正面竞争时，"更大"就不再是最优解。最终，聪明不是背下所有答案，而是知道该用什么工具去找答案——以及，知道什么时候该用。