DeepSeek R1的研究表明,大型语言模型(LLMs)的推理能力可以通过大规模的强化学习(Reinforcement Learning,RL)来提升,甚至不需要使用监督微调(SFT)。少量的监督微调可以在冷启阶段提升模型性能,使后续的RL训练更有效。
DeepSeek-R1-Zero展示了在没有监督数据的情况下,通过纯强化学习过程自我进化的能力。研究中采用了Group Relative Policy Optimization(GRPO)算法来优化模型训练过程,通过奖励建模来引导模型学习。
DeepSeek R1的研究表明,大型语言模型(LLMs)的推理能力可以通过大规模的强化学习(Reinforcement Learning,RL)来提升,甚至不需要使用监督微调(SFT)。少量的监督微调可以在冷启阶段提升模型性能,使后续的RL训练更有效。
DeepSeek-R1-Zero展示了在没有监督数据的情况下,通过纯强化学习过程自我进化的能力。研究中采用了Group Relative Policy Optimization(GRPO)算法来优化模型训练过程,通过奖励建模来引导模型学习。