[快讯] 4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能

香港大学NLP团队联合字节跳动Seed和复旦大学开发的Polaris方法通过700步的RL训练使4B模型在数学推理任务上的表现超越了Claude-4等大模型，并且可以在消费级显卡上部署。

Polaris的成功秘诀在于围绕待训练模型进行参数配置，包括训练数据及超参数设置，并通过动态更新采样温度策略来平衡模型的性能与多样性。

该研究展示了RL训练在提升模型性能方面的巨大潜力，特别是对于大模型的轻量化版本。

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦