全国服务热线
400-100-9187、0731-84444840

阿里通义实验室智能计算团队推出新算法FIPO

2026-04-10 1105

核心提示：近日，阿里通义实验室智能计算团队宣布推出新算法FIPO（Future-KL Influenced Policy Optimization），引入Future-KL机制，奖励

近日，阿里通义实验室智能计算团队宣布推出新算法FIPO（Future-KL Influenced Policy Optimization），引入Future-KL机制，奖励关键Token，解决纯强化学习（Pure RL）训练中“推理长度停滞”难题。据该团队介绍，在32B规模的纯RL设定下，率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

点赞 0举报收藏 0打赏 0

更多>同类资讯

猎人
加关注0
~~没有留下签名~~~~

推荐图文

赛默飞新品LabServ活	ibidi推出Silver Line
百林科推出全新 CytoL	赛默飞于第四届进博会

推荐资讯

• 深耕科研场景实验室陶瓷台面品牌优瑞斯面市	• 华大智造联合上海人工智能实验室发布AI成果锚
• 上海长兴海洋实验室正式启用，一批硬核平台集中	• Anyty（艾尼提）便携式显微镜一机多能赋能实验
• 安捷伦新一代ICP-MS/MS与气相色谱系统正式登陆	• 清华工程师携手哈佛Lukin实验室，无问清芯探索
• 燕赵实验室已突破关键技术63项	• 山东黄金集团选冶实验室一项成果获国家发明专利
• 天津首个汽车制造具身智能实验室上线	• 珞珈实验室高精度融合感知系统加速落地