微软亚洲研究院副院长沈向洋、阶跃星辰创始人姜大昕等学者联合发布了开源推理模型ORZ(Open Reasoner Zero),通过简化训练方法,在相同尺寸模型下仅需1/30的训练步骤就能达到与DeepSeek-R1-Zero相当的性能。
研究发现,在训练步骤约680步时,模型出现类似“顿悟时刻”的显著提升,且证明了简单的奖励函数足以实现高效扩展,无需复杂设置。
ORZ的训练数据、代码、论文和模型均采用MIT License开源,仅48小时就获得了700颗星。
微软亚洲研究院副院长沈向洋、阶跃星辰创始人姜大昕等学者联合发布了开源推理模型ORZ(Open Reasoner Zero),通过简化训练方法,在相同尺寸模型下仅需1/30的训练步骤就能达到与DeepSeek-R1-Zero相当的性能。
研究发现,在训练步骤约680步时,模型出现类似“顿悟时刻”的显著提升,且证明了简单的奖励函数足以实现高效扩展,无需复杂设置。
ORZ的训练数据、代码、论文和模型均采用MIT License开源,仅48小时就获得了700颗星。