GRPO+RLVR模型在数学推理任务上实现3.7倍准确率提升

2026.05.08 07:10

本文介绍结合GRPO与RLVR的模型训练方法，用于数学推理任务。该方法采用双奖励系统，无需人工标注即可提供客观反馈。在GSM8K数据集上，训练后的Qwen2.5-0.5B模型准确率达41%，较基础模型提升3.7倍，且可扩展至代码生成等领域。

传统强化学习训练大语言模型时，容易出现“奖励黑客”问题——模型会通过非预期的方式最大化奖励，却没有真正达成目标。为此，研究人员尝试将GRPO（组相对策略优化）与RLVR（可验证奖励强化学习）结合，利用可验证的奖励信号指导训练，整个过程无需人工标注。

这套方法设计了双奖励机制：一方面，格式奖励函数会检查输出是否符合特定结构（如“#### The final answer is [number]”），符合则给予0.5分；另一方面，正确性奖励函数会提取数值答案并与真实结果对比，正确则加1.0分，两项全对最高可得1.5分。

训练过程以Qwen2.5-0.5B模型为基础，借助QLoRA技术降低资源消耗，并在Amazon SageMaker平台上开展分布式训练；同时，团队采用8-shot提示方式，引导模型生成符合要求的输出。

在GSM8K数据集上的实验结果表明，经GRPO训练后的模型准确率达到41%，相比基础模型的11%提升了3.7倍。其中8-shot提示的效果最佳，0-shot和2-shot表现则相对逊色——这说明模型需要一定数量的示例来激活其推理能力。

这套方法还能扩展到代码生成（通过执行结果验证正确性）、医疗文本生成（通过关键词语义匹配验证）等场景，应用潜力较为广泛。

作品声明：内容由AI生成