SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

一项来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校的研究发现,监督微调(SFT)可能阻碍视觉语言模型(LVLM)的多模态推理能力,而强化学习(RL)则有助于促进真正的多模态推理。研究团队构建了首个支持SFT与RL的高质量图文推理数据集VLAA-Thinking,并通过实验表明,SFT与RL结合的训练范式在多模态推理中并不总是有效,甚至可能导致性能下降。

[原文链接]

上一篇:

下一篇:

微信