由UCLA等机构的研究团队在全球首次在20亿参数非SFT模型上实现了多模态推理的DeepSeek-R1「啊哈时刻」,并在未经监督微调的2B模型上成功复现了这一成就,展示了强化学习在提升模型推理能力方面的潜力。
研究团队通过直接在未经监督微调的Qwen2-VL-2B基础模型上应用强化学习,实现了显著的性能提升,并开源了训练代码,希望加速多模态推理的研究。这种方法不仅提高了模型的准确率,还展示了模型在训练过程中展现出的自我反思能力。
由UCLA等机构的研究团队在全球首次在20亿参数非SFT模型上实现了多模态推理的DeepSeek-R1「啊哈时刻」,并在未经监督微调的2B模型上成功复现了这一成就,展示了强化学习在提升模型推理能力方面的潜力。
研究团队通过直接在未经监督微调的Qwen2-VL-2B基础模型上应用强化学习,实现了显著的性能提升,并开源了训练代码,希望加速多模态推理的研究。这种方法不仅提高了模型的准确率,还展示了模型在训练过程中展现出的自我反思能力。