首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

香港中文大学、快手可灵等团队联合提出 Flow-GRPO,首次将在线强化学习引入流匹配模型,显著提升了图像生成的准确率和组合式生图能力,特别是在 GenEval 基准测试中,SD3.5 Medium 的准确率从 63% 提升到 95%。

Flow-GRPO 通过 ODE 到 SDE 的等价转换和去噪步数「减负」提效两项关键策略,解决了在线 RL 与流匹配模型之间的矛盾,实现了高效训练和高质量生成。

实验结果显示,Flow-GRPO 在复杂组合生成、文字渲染和人类偏好对齐等任务上均取得了显著进步,为未来利用 RL 进一步提升流匹配生成模型的性能开辟了新路径。

[原文链接]

上一篇:

下一篇:

微信