阿里通义实验室智能计算团队推出新算法FIPO

推荐
快报
广场
科股宝VIP
视频
直播

阿里通义实验室智能计算团队推出新算法FIPO

2026.04.07 22:34

钛媒体App 4月7日消息，阿里通义实验室智能计算团队宣布推出新算法FIPO（Future-KL Influenced Policy Optimization），引入Future-KL机制，奖励关键Token，解决纯强化学习（Pure RL）训练中“推理长度停滞”难题。据该团队介绍，在32B规模的纯RL设定下，率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。（广角观察）

HK阿里巴巴-W

US阿里巴巴

本文内容仅供参考，不构成投资建议，请谨慎对待。

0 / 300

根据《网络安全法》实名制要求，请绑定手机号后发表评论

请登录后输入评论内容

投资日历