一个正在生产环境中运行的AI Agent,需要调用天气API获取实时数据,然后按JSON Schema格式化输出。任务很简单,模型也是主流的开源大参数。但诡异的事情发生了:工具调用完全没有执行。Agent直接输出了一个没有数据的空壳回复,格式倒是完全合规。
这不是一次偶然故障。当研究者重复这个实验,在6个不同的开源模型上切换,用不同的工具和Schema组合反复测试,同样的现象稳定复现。更耐人寻味的是,同一个闭源模型在同一实验条件下,表现完全正常。
问题不在模型的能力,而在Agent架构里一个被行业集体忽略的设计盲区。
六个模型同时归零
2026年6月,一篇来自生产环境Agent系统的实证论文登上arXiv,标题直指一个此前几乎无人系统性叩问的问题:“Constraint Tax in Open-Weight LLMs: An Empirical Study of Tool Calling Suppression Under Structured Output Constraints”。
论文作者的发现,可以浓缩为一张看似平淡实则令人不安的数据表。
研究者设置了三种实验条件:T1(仅工具调用,无Schema约束)、T2(工具调用和Schema约束同时启用)、T3(仅Schema约束,无工具调用)。在T1条件下,所有7个被测模型的工具调用率均为100%。在T3条件下,Schema合规率也全部达标。
但在T2这个生产环境中最常见的配置下,6个开源权重模型的工具调用率全部归零。
被“击中”的模型覆盖了当前主流开源阵营:Qwen3.6-35B-A3B(MoE架构,35B参数,3B活跃参数)、Qwen3.5-122B-A10B(122B参数,10B活跃)、GPT-OSS-20B(20B参数,3.6B活跃)、Nemotron 3 Super(120B参数,Hybrid MoE-Mamba)、Qwen3.5-397B-A17B(397B参数,17B活跃)、以及Qwen3-VL-235B-Thinking(235B参数,视觉语言模型)。两个最重要的推理框架,SGLang 0.5.9和vLLM 0.22.0,均复现了完整现象。
唯一的例外是闭源模型GPT-5.4-mini。在T2条件下,它的工具调用率仍然保持在100%。
论文作者将这一现象定义为“Tool Suppression”(工具抑制)。它既不是单模型缺陷,也不是API配置错误,而是一类开源模型在双重约束下的系统性行为模式。论文用14张表格、2张图表和200余次T2查询验证了统计显著性。两种不同的工具调用检测方法,API结构化解析和内容级XML标签扫描,给出了一致的结果:零次调用。
根因:Token的交通管制出了问题
问题不在模型的“意愿”,而在解码器的“规则”。
当前主流的Agent推理框架,包括论文实验中所用的SGLang和vLLM,在处理结构化输出时采用一种被称为Grammar-based Constrained Decoding的技术。系统会根据JSON Schema预先构建一个语法状态机,在模型逐token解码时,每一步只允许生成符合Schema约束的token,其余token全部被掩码遮蔽。
这套机制的初衷无疑值得肯定:确保模型输出格式严格可控,不会被下游API拒绝。
但一个副作用被忽略了。工具调用的触发token,那些包含函数名、参数占位符的特定token序列,在语法状态机的视角里不属于任何符合JSON Schema的合法路径。于是,它们被干净利落地遮蔽了。
论文将此机制命名为“Constraint Priority Inversion”(约束优先级反转)假说:在双重约束的解码过程中,Schema满足在Token选择层面获得了压倒性的优先级。不是模型觉得格式比调用工具更重要,而是工具调用在解码阶段就成为了一个技术上不可达的选项。
一个更关键的技术细节是:这个mask是在模型产生logits之后、在采样之前施加的。这意味着常规的模型微调手段,无论是监督微调还是强化学习,都无法绕过这道屏障,因为从mask到模型权重之间不存在梯度路径。论文用一组控制实验验证了这一点:无论是经过200条工具使用SFT数据微调的变体,还是经过6000条大规模SFT数据训练的变体,在T2条件下的工具调用率全部为零。
尽管在T1条件下,经过微调的模型在指令遵循和工具使用行为上有所改善,但在T2条件下抑制现象依然存在。常规微调手段无法消除这个Bug。
一个在生产环境潜伏已久的Bug
这项研究的冲击力恰恰在于它揭示的不是一个刁钻的边缘案例,而是生产环境中最常见配置下的系统性缺陷。
当前Agent系统的标准流水线几乎总是同时启用工具调用和结构化输出。MCP协议和OpenAI兼容的工具调用API已经成为事实标准,JSON Schema约束几乎是任何需要与下游系统集成的Agent的标配。
一个典型的真实场景:运行在客服系统里的Agent,需要先调用CRM系统查询用户信息,再将结果按特定字段格式组织后返回。如果双重约束下工具调用被抑制,Agent给出的就是一份格式完美但内容空白的回答。下游系统收到后不会报错,Schema验过了,但关键字段里没有真实数据。
更棘手的是这个问题极难通过传统监控手段发现。标准的Agent评测流程通常将工具调用、结构化生成和任务完成率分开评估,隐式假设“分开测都没问题,合在一起也不会有事”。论文用实验数据直接证明这个假设不成立,而且微调也无法修复。
在之前的学术讨论中,“Constraint Tax”这个概念主要被用于描述结构化输出对文本生成质量的负面影响,比如降低回答准确性、增加Token消耗量。但几乎没有研究关注过它在Agent执行层面引发的更严重的问题。论文作者明确指出,这是“首次对双重约束下Agent执行行为进行系统性实证研究”。
解药:把一件事拆成两步做
问题诊断起来复杂,但解决方案反而简洁。
论文提出的“Transparent Two-Pass Execution”(透明双阶段执行)策略,核心思路就是把工具调用和Schema约束解耦到两个独立的推理阶段。第一阶段,模型在没有JSON Schema约束的条件下自由调用工具获取外部信息。第二阶段,将获取到的真实数据注入上下文,让模型在Schema约束下生成格式化回复。
实验结果显示,这个方案在不降低Schema合规率的前提下,成功恢复了6个开源模型的工具调用行为。所有关键指标全部回归正常。
这个方案最大的优势是无需模型重训练,也无需修改推理框架底层逻辑,仅靠推理阶段的策略调整即可生效。对于已经在生产环境中运行Agent系统的团队来说,这是一个可以快速部署的紧急修复。
但两阶段执行更像一个应急补丁,而非终极方案。更深层的改进方向应该是让解码器层面的约束系统能够“感知”工具调用的存在,不再把工具触发token视作非法字符。这需要SGLang、vLLM等推理框架在架构层面做出调整。让Grammar Mask能够理解“在某些情况下,允许工具调用token通过”本身就是符合约束的行为。
开源模型的代理困境
这篇论文最耐人寻味的发现,或许不是技术细节本身,而是闭源模型GPT-5.4-mini的免疫表现。
为什么同一个约束,闭源模型不受影响而开源模型全线崩溃?论文没有给出确定答案,但两种猜测各有道理。
一种可能性是,闭源模型的后端推理系统采用了不同的约束执行机制。或许不是Grammar-based Token Masking,而是某种更灵活的约束注入方式,不会在解码层面硬性限制token选择。
另一种可能性是,闭源模型在训练阶段已经针对“同时处理工具调用和结构化输出”的场景做了专门的数据配比或对齐训练,而当前的开源模型训练流程通常将这两项能力分别训练,然后在推理阶段通过外部工具组合。
如果第二种猜测成立,那就指向了一个更深层的行业问题:开源模型的“Agent ready”程度,可能远低于行业目前极度乐观的预期。今年以来,几乎每周都有新的开源Agent框架和工具涌现,社区热情和迭代速度令人叹为观止。但论文用实验数据提醒我们:跑通一个Demo和稳定运行一个生产级Agent系统之间,存在一条被严重低估了的技术鸿沟。
更令人警惕的是,论文发现常规微调手段也无法修复这个问题。因为mask施加在logits之后、采样之前,微调产生的权重变化根本无法触及这个层面的约束。这意味着即使社区投入大量资源对开源模型进行Agent能力增强训练,只要推理框架仍然使用Grammar-based Constrained Decoding,这个Bug就会自动继承。
未必是Bug,但一定是红灯
把这篇论文的发现放在2026年AI行业的大坐标里看,它给三个群体分别发出了明确的信号。
对Agent开发者而言,这是一个立即可用的技术洞见。如果你在生产系统中同时启用了工具调用和结构化输出,两阶段执行是值得立即实施的防御性方案。不要假设你的Agent真的在调用工具。去查一下日志,确认工具调用事件是否实际发生。
对推理框架开发者而言,这是一个架构层面的技术债。Grammar-based Constrained Decoding的当前实现方式需要重新审视。让约束系统能够感知并兼容工具调用的token序列,应该成为SGLang、vLLM等框架的优先改进方向。当一种约束技术的副作用直接导致Agent的核心动作机制失效,这个技术本身就进入了需要被重新设计的倒计时。
对行业观察者而言,这面镜子照出的是一个更大的问题:在Agent快速走向生产化的今天,行业对Agent行为可靠性的理解还远不够成熟。Benchmark上的漂亮分数,和Agent在真实场景中的行为可靠性之间,存在巨大的落差。这篇论文只是撕开了这道裂缝的一角。
Agent的可靠性不是在Benchmark上跑出来的。它是在真实约束的碰撞中,一个一个被揪出来的。
六款主流开源模型同时归零,这是今天最诚实的告示牌。






快报