当前代码智能体在软件开发自动化领域的应用正持续深化,但现有训练框架往往要求修改智能体的执行外壳才能接入新的强化学习算法——这种方式适配成本高、兼容性差,直接制约了模型性能的快速迭代。2026年5月28日,英伟达研究团队正式开源强化学习训练框架Polar,针对性地解决了这一行业痛点。
Polar框架的核心优势在于,无需修改Codex、Claude Code、Qwen Code等主流代码智能体的执行外壳,就能无缝集成GRPO(广义相对策略优化)训练,大幅降低开发者的适配门槛。它的设计思路是将模型与智能体的接口设定为训练边界,在推理服务器与执行框架之间插入轻量数据采集层,自动记录提示词输入、token采样过程及响应轨迹等关键数据,为GRPO算法提供精准的反馈信号——既保留了智能体原有的全部功能,又实现了与新算法的高效对接。
实验数据充分验证了Polar的性能提升效果:在SWE-Bench Verified基准测试中,Qwen3.5-4B模型经过Polar+GRPO训练后,pass@1分数最高提升594.74%,解决真实软件开发问题的能力显著增强;同时训练效率大幅优化,墙钟时间缩短约5.4倍,极大减少了模型迭代的时间成本。
开源仅一周,Polar框架在GitHub平台的star数量就突破了5000,超过100个代码智能体项目宣布集成该框架,覆盖金融、自动驾驶等多个领域的软件开发场景。从行业竞争来看,谷歌DeepMind于2026年6月1日推出AlphaCode Train v2工具包,虽同样针对代码智能体的强化学习训练,但需要修改智能体核心代码,兼容性弱于Polar,目前仅支持自家AlphaCode系列智能体接入。
Polar框架的开源有望推动代码智能体训练的标准化进程,降低中小开发者的技术门槛,加速AI驱动的软件开发自动化普及,为行业提供更高效、更便捷的模型训练解决方案。






快报