[快讯] 首个多模态统一CoT奖励模型来了，模型、数据集、训练脚本全开源

腾讯混元与多家机构联合提出全新研究工作UnifiedReward-Think，构建出首个具备长链式推理能力的统一多模态奖励模型，显著提升了复杂视觉任务的评估准确性与泛化能力。

该模型通过三阶段训练框架逐步进化推理能力，包括冷启动激发、拒绝采样巩固和GRPO强化，展现出更强的可解释性和隐式推理能力。

实验结果表明，UnifiedReward-Think在多个图像生成与理解任务中全面超越现有方法，验证了深度推理对复杂视觉任务的重要性。