首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

腾讯混元与多家机构联合提出全新研究工作UnifiedReward-Think,构建出首个具备长链式推理能力的统一多模态奖励模型,显著提升了复杂视觉任务的评估准确性与泛化能力。

该模型通过三阶段训练框架逐步进化推理能力,包括冷启动激发、拒绝采样巩固和GRPO强化,展现出更强的可解释性和隐式推理能力。

实验结果表明,UnifiedReward-Think在多个图像生成与理解任务中全面超越现有方法,验证了深度推理对复杂视觉任务的重要性。

[原文链接]

上一篇:

下一篇:

微信