强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

近期关于语言模型推理性能的研究发现,尽管强化学习(RL)在一些蒸馏模型中显示出显著的性能提升,但来自图宾根大学和剑桥大学的研究者指出,许多所谓的“改进”可能只是噪音。研究强调了评估过程中随机种子、硬件差异和评估框架等因素对结果的影响,并提出标准化评估环境以提高推理基准的可重复性和严谨性。

研究还表明,通过强化学习训练的方法通常能显著改善基础模型的性能,但指令调优依然优于强化学习训练的方法。相比之下,监督微调(SFT)模型表现出更强的泛化能力和韧性,且在较大模型的推理轨迹上进行监督微调可在基准测试中获得显著且可推广的提升。

[原文链接]

上一篇:

下一篇:

微信