六款主流开源模型同时归零，一篇论文揭开Agent系统的隐藏Bug

一篇来自生产环境Agent系统的实证论文发现，当工具调用和JSON Schema结构化输出约束同时启用时，6个主流开源权重模型的工具调用率全部归零，而GPT-5.4-mini不受影响。根因在于Grammar-based Token Masking在解码层面对工具触发token的遮蔽，且常规微调手段完全无法修复。两阶段执行是眼下唯一有效的解药。

一个正在生产环境中运行的AI Agent，需要调用天气API获取实时数据，然后按JSON Schema格式化输出。任务很简单，模型也是主流的开源大参数。但诡异的事情发生了：工具调用完全没有执行。Agent直接输出了一个没有数据的空壳回复，格式倒是完全合规。

这不是一次偶然故障。当研究者重复这个实验，在6个不同的开源模型上切换，用不同的工具和Schema组合反复测试，同样的现象稳定复现。更耐人寻味的是，同一个闭源模型在同一实验条件下，表现完全正常。

问题不在模型的能力，而在Agent架构里一个被行业集体忽略的设计盲区。

六个模型同时归零

2026年6月，一篇来自生产环境Agent系统的实证论文登上arXiv，标题直指一个此前几乎无人系统性叩问的问题：“Constraint Tax in Open-Weight LLMs: An Empirical Study of Tool Calling Suppression Under Structured Output Constraints”。

论文作者的发现，可以浓缩为一张看似平淡实则令人不安的数据表。

研究者设置了三种实验条件：T1（仅工具调用，无Schema约束）、T2（工具调用和Schema约束同时启用）、T3（仅Schema约束，无工具调用）。在T1条件下，所有7个被测模型的工具调用率均为100%。在T3条件下，Schema合规率也全部达标。

但在T2这个生产环境中最常见的配置下，6个开源权重模型的工具调用率全部归零。

被“击中”的模型覆盖了当前主流开源阵营：Qwen3.6-35B-A3B（MoE架构，35B参数，3B活跃参数）、Qwen3.5-122B-A10B（122B参数，10B活跃）、GPT-OSS-20B（20B参数，3.6B活跃）、Nemotron 3 Super（120B参数，Hybrid MoE-Mamba）、Qwen3.5-397B-A17B（397B参数，17B活跃）、以及Qwen3-VL-235B-Thinking（235B参数，视觉语言模型）。两个最重要的推理框架，SGLang 0.5.9和vLLM 0.22.0，均复现了完整现象。

唯一的例外是闭源模型GPT-5.4-mini。在T2条件下，它的工具调用率仍然保持在100%。

论文作者将这一现象定义为“Tool Suppression”（工具抑制）。它既不是单模型缺陷，也不是API配置错误，而是一类开源模型在双重约束下的系统性行为模式。论文用14张表格、2张图表和200余次T2查询验证了统计显著性。两种不同的工具调用检测方法，API结构化解析和内容级XML标签扫描，给出了一致的结果：零次调用。

根因：Token的交通管制出了问题

问题不在模型的“意愿”，而在解码器的“规则”。

当前主流的Agent推理框架，包括论文实验中所用的SGLang和vLLM，在处理结构化输出时采用一种被称为Grammar-based Constrained Decoding的技术。系统会根据JSON Schema预先构建一个语法状态机，在模型逐token解码时，每一步只允许生成符合Schema约束的token，其余token全部被掩码遮蔽。

这套机制的初衷无疑值得肯定：确保模型输出格式严格可控，不会被下游API拒绝。

但一个副作用被忽略了。工具调用的触发token，那些包含函数名、参数占位符的特定token序列，在语法状态机的视角里不属于任何符合JSON Schema的合法路径。于是，它们被干净利落地遮蔽了。

论文将此机制命名为“Constraint Priority Inversion”（约束优先级反转）假说：在双重约束的解码过程中，Schema满足在Token选择层面获得了压倒性的优先级。不是模型觉得格式比调用工具更重要，而是工具调用在解码阶段就成为了一个技术上不可达的选项。

一个更关键的技术细节是：这个mask是在模型产生logits之后、在采样之前施加的。这意味着常规的模型微调手段，无论是监督微调还是强化学习，都无法绕过这道屏障，因为从mask到模型权重之间不存在梯度路径。论文用一组控制实验验证了这一点：无论是经过200条工具使用SFT数据微调的变体，还是经过6000条大规模SFT数据训练的变体，在T2条件下的工具调用率全部为零。

尽管在T1条件下，经过微调的模型在指令遵循和工具使用行为上有所改善，但在T2条件下抑制现象依然存在。常规微调手段无法消除这个Bug。

一个在生产环境潜伏已久的Bug

这项研究的冲击力恰恰在于它揭示的不是一个刁钻的边缘案例，而是生产环境中最常见配置下的系统性缺陷。

当前Agent系统的标准流水线几乎总是同时启用工具调用和结构化输出。MCP协议和OpenAI兼容的工具调用API已经成为事实标准，JSON Schema约束几乎是任何需要与下游系统集成的Agent的标配。

一个典型的真实场景：运行在客服系统里的Agent，需要先调用CRM系统查询用户信息，再将结果按特定字段格式组织后返回。如果双重约束下工具调用被抑制，Agent给出的就是一份格式完美但内容空白的回答。下游系统收到后不会报错，Schema验过了，但关键字段里没有真实数据。

更棘手的是这个问题极难通过传统监控手段发现。标准的Agent评测流程通常将工具调用、结构化生成和任务完成率分开评估，隐式假设“分开测都没问题，合在一起也不会有事”。论文用实验数据直接证明这个假设不成立，而且微调也无法修复。

在之前的学术讨论中，“Constraint Tax”这个概念主要被用于描述结构化输出对文本生成质量的负面影响，比如降低回答准确性、增加Token消耗量。但几乎没有研究关注过它在Agent执行层面引发的更严重的问题。论文作者明确指出，这是“首次对双重约束下Agent执行行为进行系统性实证研究”。

解药：把一件事拆成两步做

问题诊断起来复杂，但解决方案反而简洁。

论文提出的“Transparent Two-Pass Execution”（透明双阶段执行）策略，核心思路就是把工具调用和Schema约束解耦到两个独立的推理阶段。第一阶段，模型在没有JSON Schema约束的条件下自由调用工具获取外部信息。第二阶段，将获取到的真实数据注入上下文，让模型在Schema约束下生成格式化回复。

实验结果显示，这个方案在不降低Schema合规率的前提下，成功恢复了6个开源模型的工具调用行为。所有关键指标全部回归正常。

这个方案最大的优势是无需模型重训练，也无需修改推理框架底层逻辑，仅靠推理阶段的策略调整即可生效。对于已经在生产环境中运行Agent系统的团队来说，这是一个可以快速部署的紧急修复。

但两阶段执行更像一个应急补丁，而非终极方案。更深层的改进方向应该是让解码器层面的约束系统能够“感知”工具调用的存在，不再把工具触发token视作非法字符。这需要SGLang、vLLM等推理框架在架构层面做出调整。让Grammar Mask能够理解“在某些情况下，允许工具调用token通过”本身就是符合约束的行为。

开源模型的代理困境

这篇论文最耐人寻味的发现，或许不是技术细节本身，而是闭源模型GPT-5.4-mini的免疫表现。

为什么同一个约束，闭源模型不受影响而开源模型全线崩溃？论文没有给出确定答案，但两种猜测各有道理。

一种可能性是，闭源模型的后端推理系统采用了不同的约束执行机制。或许不是Grammar-based Token Masking，而是某种更灵活的约束注入方式，不会在解码层面硬性限制token选择。

另一种可能性是，闭源模型在训练阶段已经针对“同时处理工具调用和结构化输出”的场景做了专门的数据配比或对齐训练，而当前的开源模型训练流程通常将这两项能力分别训练，然后在推理阶段通过外部工具组合。

如果第二种猜测成立，那就指向了一个更深层的行业问题：开源模型的“Agent ready”程度，可能远低于行业目前极度乐观的预期。今年以来，几乎每周都有新的开源Agent框架和工具涌现，社区热情和迭代速度令人叹为观止。但论文用实验数据提醒我们：跑通一个Demo和稳定运行一个生产级Agent系统之间，存在一条被严重低估了的技术鸿沟。

更令人警惕的是，论文发现常规微调手段也无法修复这个问题。因为mask施加在logits之后、采样之前，微调产生的权重变化根本无法触及这个层面的约束。这意味着即使社区投入大量资源对开源模型进行Agent能力增强训练，只要推理框架仍然使用Grammar-based Constrained Decoding，这个Bug就会自动继承。

未必是Bug，但一定是红灯

把这篇论文的发现放在2026年AI行业的大坐标里看，它给三个群体分别发出了明确的信号。

对Agent开发者而言，这是一个立即可用的技术洞见。如果你在生产系统中同时启用了工具调用和结构化输出，两阶段执行是值得立即实施的防御性方案。不要假设你的Agent真的在调用工具。去查一下日志，确认工具调用事件是否实际发生。

对推理框架开发者而言，这是一个架构层面的技术债。Grammar-based Constrained Decoding的当前实现方式需要重新审视。让约束系统能够感知并兼容工具调用的token序列，应该成为SGLang、vLLM等框架的优先改进方向。当一种约束技术的副作用直接导致Agent的核心动作机制失效，这个技术本身就进入了需要被重新设计的倒计时。

对行业观察者而言，这面镜子照出的是一个更大的问题：在Agent快速走向生产化的今天，行业对Agent行为可靠性的理解还远不够成熟。Benchmark上的漂亮分数，和Agent在真实场景中的行为可靠性之间，存在巨大的落差。这篇论文只是撕开了这道裂缝的一角。

Agent的可靠性不是在Benchmark上跑出来的。它是在真实约束的碰撞中，一个一个被揪出来的。

六款主流开源模型同时归零，这是今天最诚实的告示牌。