OpenAI修复GPT-5系列模型“哥布林”异常输出偏差奖励信号为核心诱因

2026.04.30 16:20

2026年4月29日，OpenAI发布声明修复GPT-5.1及后续模型高频使用“哥布林”等生物隐喻的问题。该问题源于“书呆子”人格训练中的偏差奖励信号，团队已采取移除偏差奖励、清洗数据等措施，GPT-5.5通过指令提示缓解，但尚未完全根除。

2026年4月29日，人工智能巨头OpenAI发布声明，宣布正对旗下GPT-5.1及后续系列模型的异常输出问题展开修复。这一问题的核心表现是，模型在各类场景的回复中高频使用“哥布林”“小魔怪”等生物隐喻词汇，引发了用户对模型输出一致性的关注。

OpenAI的调查结果显示，该异常现象的根源在于“书呆子”人格定制功能的训练过程中出现了奖励信号偏差。具体数据表明，该功能训练使用的奖励数据集中，76.2%的样本偏好包含生物词汇的输出内容，这种偏向性通过强化学习算法泛化到了模型的全场景回复中。值得注意的是，尽管“书呆子”人格定制功能仅占模型总回复量的2.5%，却贡献了66.7%的“哥布林”等相关词汇使用量，成为异常输出的主要来源。

针对这一问题，OpenAI团队已采取多项技术措施：首先清除了训练数据中的偏差奖励信号，并对相关训练数据集进行了清洗；其次在最新推出的GPT-5.5模型中，通过新增指令提示机制限制生物隐喻词汇的过度使用。不过，OpenAI也明确表示，目前该问题尚未完全根除，后续仍需持续优化模型的奖励函数设计与数据校准流程。

从行业视角来看，此次事件暴露出大型语言模型训练中奖励函数偏差这一共性挑战。麦肯锡2026年第一季度人工智能行业报告显示，全球范围内大型语言模型因奖励信号偏差导致的输出异常发生率约为3.2%，其中人格定制类功能是高风险领域。在竞争对手中，Anthropic在2026年3月曾披露其Claude 4模型存在类似的特定词汇过度使用问题，通过引入多模态奖励校准机制成功解决了这一问题，为行业提供了参考案例。

作品声明：内容由AI生成

OpenAI修复GPT-5系列模型“哥布林”异常输出 偏差奖励信号为核心诱因

OpenAI修复GPT-5系列模型“哥布林”异常输出偏差奖励信号为核心诱因