传统强化学习训练大语言模型时,容易出现“奖励黑客”问题——模型会通过非预期的方式最大化奖励,却没有真正达成目标。为此,研究人员尝试将GRPO(组相对策略优化)与RLVR(可验证奖励强化学习)结合,利用可验证的奖励信号指导训练,整个过程无需人工标注。
这套方法设计了双奖励机制:一方面,格式奖励函数会检查输出是否符合特定结构(如“#### The final answer is [number]”),符合则给予0.5分;另一方面,正确性奖励函数会提取数值答案并与真实结果对比,正确则加1.0分,两项全对最高可得1.5分。
训练过程以Qwen2.5-0.5B模型为基础,借助QLoRA技术降低资源消耗,并在Amazon SageMaker平台上开展分布式训练;同时,团队采用8-shot提示方式,引导模型生成符合要求的输出。
在GSM8K数据集上的实验结果表明,经GRPO训练后的模型准确率达到41%,相比基础模型的11%提升了3.7倍。其中8-shot提示的效果最佳,0-shot和2-shot表现则相对逊色——这说明模型需要一定数量的示例来激活其推理能力。
这套方法还能扩展到代码生成(通过执行结果验证正确性)、医疗文本生成(通过关键词语义匹配验证)等场景,应用潜力较为广泛。






快报