1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

微软亚洲研究院副院长沈向洋、阶跃星辰创始人姜大昕等学者联合发布了开源推理模型ORZ(Open Reasoner Zero),通过简化训练方法,在相同尺寸模型下仅需1/30的训练步骤就能达到与DeepSeek-R1-Zero相当的性能。

研究发现,在训练步骤约680步时,模型出现类似“顿悟时刻”的显著提升,且证明了简单的奖励函数足以实现高效扩展,无需复杂设置。

ORZ的训练数据、代码、论文和模型均采用MIT License开源,仅48小时就获得了700颗星。

[原文链接]

上一篇:

下一篇:

微信