4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed和复旦大学开发的Polaris方法通过700步的RL训练使4B模型在数学推理任务上的表现超越了Claude-4等大模型,并且可以在消费级显卡上部署。

Polaris的成功秘诀在于围绕待训练模型进行参数配置,包括训练数据及超参数设置,并通过动态更新采样温度策略来平衡模型的性能与多样性。

该研究展示了RL训练在提升模型性能方面的巨大潜力,特别是对于大模型的轻量化版本。

[原文链接]

上一篇:

下一篇:

微信