仅需1个数据,就能让大模型的数学推理性能大大增强?

华盛顿大学和微软的研究人员发现,使用一个训练数据(1-shot RLVR)就能显著提升大型语言模型在数学推理任务上的表现,甚至超过使用大量数据集的模型。

研究显示,仅用一个数学训练数据,模型在MATH500上的表现从36.0%提升到73.6%,并能应用于多种数学和非数学推理任务。

该研究还揭示了1-shot RLVR在训练过程中的多个有趣现象,如饱和后泛化和增强的自我反思能力。

[原文链接]

上一篇:

下一篇:

微信