中科院自动化所、清华大学、快手和南京大学的研究团队提出了R1-Reward模型,通过改进的强化学习方法解决了多模态奖励模型的长期推理能力问题,实现了在多模态奖励模型基准上的显著提升。
R1-Reward模型通过重新定义问题、提出StableReinforce算法和采用渐进式训练策略,克服了现有强化学习方法的局限性,提高了模型的稳定性和效率。
实验结果显示,R1-Reward模型在多个评测基准上表现优异,相比当前最先进的模型提升了5%-15%,并在推理时通过多次采样进一步提升了性能。
中科院自动化所、清华大学、快手和南京大学的研究团队提出了R1-Reward模型,通过改进的强化学习方法解决了多模态奖励模型的长期推理能力问题,实现了在多模态奖励模型基准上的显著提升。
R1-Reward模型通过重新定义问题、提出StableReinforce算法和采用渐进式训练策略,克服了现有强化学习方法的局限性,提高了模型的稳定性和效率。
实验结果显示,R1-Reward模型在多个评测基准上表现优异,相比当前最先进的模型提升了5%-15%,并在推理时通过多次采样进一步提升了性能。