GRPO+RLVR模型在数学推理任务上实现3.7倍准确率提升

2026.05.08 07:10
本文介绍结合GRPO与RLVR的模型训练方法,用于数学推理任务。该方法采用双奖励系统,无需人工标注即可提供客观反馈。在GSM8K数据集上,训练后的Qwen2.5-0.5B模型准确率达41%,较基础模型提升3.7倍,且可扩展至代码生成等领域。

传统强化学习训练大语言模型时,容易出现“奖励黑客”问题——模型会通过非预期的方式最大化奖励,却没有真正达成目标。为此,研究人员尝试将GRPO(组相对策略优化)与RLVR(可验证奖励强化学习)结合,利用可验证的奖励信号指导训练,整个过程无需人工标注。

这套方法设计了双奖励机制:一方面,格式奖励函数会检查输出是否符合特定结构(如“#### The final answer is [number]”),符合则给予0.5分;另一方面,正确性奖励函数会提取数值答案并与真实结果对比,正确则加1.0分,两项全对最高可得1.5分。

训练过程以Qwen2.5-0.5B模型为基础,借助QLoRA技术降低资源消耗,并在Amazon SageMaker平台上开展分布式训练;同时,团队采用8-shot提示方式,引导模型生成符合要求的输出。

在GSM8K数据集上的实验结果表明,经GRPO训练后的模型准确率达到41%,相比基础模型的11%提升了3.7倍。其中8-shot提示的效果最佳,0-shot和2-shot表现则相对逊色——这说明模型需要一定数量的示例来激活其推理能力。

这套方法还能扩展到代码生成(通过执行结果验证正确性)、医疗文本生成(通过关键词语义匹配验证)等场景,应用潜力较为广泛。

作品声明:内容由AI生成