香港大学NLP团队联合字节跳动Seed和复旦大学开发的Polaris方法通过700步的RL训练使4B模型在数学推理任务上的表现超越了Claude-4等大模型,并且可以在消费级显卡上部署。
Polaris的成功秘诀在于围绕待训练模型进行参数配置,包括训练数据及超参数设置,并通过动态更新采样温度策略来平衡模型的性能与多样性。
该研究展示了RL训练在提升模型性能方面的巨大潜力,特别是对于大模型的轻量化版本。
香港大学NLP团队联合字节跳动Seed和复旦大学开发的Polaris方法通过700步的RL训练使4B模型在数学推理任务上的表现超越了Claude-4等大模型,并且可以在消费级显卡上部署。
Polaris的成功秘诀在于围绕待训练模型进行参数配置,包括训练数据及超参数设置,并通过动态更新采样温度策略来平衡模型的性能与多样性。
该研究展示了RL训练在提升模型性能方面的巨大潜力,特别是对于大模型的轻量化版本。