GRPO+RLVR模型在数学推理任务上实现3.7倍准确率提升

2026.05.08 07:10
本文介绍结合GRPO与RLVR的模型训练方法,用于数学推理任务。该方法采用双奖励系统,无需人工标注即可提供客观反馈。在GSM8K数据集上,训练后的Qwen2.5-0.5B模型准确率达41%,较基础模型提升3.7倍,且可扩展至代码生成等领域。

传统强化学习训练大语言模型时,容易出现“奖励黑客”问题——模型会通过非预期的方式最大化奖励,却没有真正达成目标。为此,研究人员尝试将GRPO(组相对策略优化)与RLVR(可验证奖励强化学习)结合,利用可验证的奖励信号指导训练,整个过程无需人工标注。

这套方法设计了双奖励机制:一方面,格式奖励函数会检查输出是否符合特定结构(如“#### The final answer is [number]”),符合则给予0.5分;另一方面,正确性奖励函数会提取数值答案并与真实结果对比,正确则加1.0分,两项全对最高可得1.5分。

训练过程以Qwen2.5-0.5B模型为基础,借助QLoRA技术降低资源消耗,并在Amazon SageMaker平台上开展分布式训练;同时,团队采用8-shot提示方式,引导模型生成符合要求的输出。

在GSM8K数据集上的实验结果表明,经GRPO训练后的模型准确率达到41%,相比基础模型的11%提升了3.7倍。其中8-shot提示的效果最佳,0-shot和2-shot表现则相对逊色——这说明模型需要一定数量的示例来激活其推理能力。

这套方法还能扩展到代码生成(通过执行结果验证正确性)、医疗文本生成(通过关键词语义匹配验证)等场景,应用潜力较为广泛。

作品声明:内容由AI生成

快报

更多

2026-06-23 23:06

国内部分商品期货夜盘收盘,油脂油料涨幅居前表现突出

2026-06-23 23:00

Meta推出299美元智能眼镜新系列,加倍押注AI硬件平台

2026-06-23 22:56

中国短剧行业走向精品化,一季度AI短剧占比达95%

2026-06-23 22:52

最新一批灯塔工厂一半在中国

2026-06-23 22:50

安德利:收购标的甬强科技市占率不足1%,但已具备M8级别及以上高速覆铜板产品的研发及生产能力

2026-06-23 22:49

孩子王公司递表港交所

2026-06-23 22:49

欧洲议会推进数字欧元计划,试图摆脱美国支付体系依赖

2026-06-23 22:34

滨化股份向港交所提交上市申请书

2026-06-23 22:33

2025年度审计工作报告发布,中央财政赤字与预算持平

2026-06-23 22:31

误报“北京海淀地震”预警,小米电视致歉:研发人员测试时操作失误

2026-06-23 22:28

英伟达市值跌破5万亿美元

2026-06-23 22:27

以色列与黎巴嫩新一轮会谈在美国启动

2026-06-23 22:18

微软美国威斯康星州数据中心投运

2026-06-23 22:17

何立峰在河南调研时指出:加快完善产业创新体系 持续推动外贸稳规模优结构

2026-06-23 22:15

美股量子计算概念股普涨,Infleqtion涨逾14%

2026-06-23 22:15

伊朗代表:霍尔木兹海峡已免费开放

2026-06-23 22:10

商务部副部长兼国际贸易谈判副代表凌激会见空客公司执行副总裁哈里森

2026-06-23 22:08

世界钢铁协会:5月全球粗钢产量同比下降0.3%

2026-06-23 22:05

SpaceX股价拉升涨超2%

2026-06-23 22:03

富时A50中国指数期货逆势走高