[快讯] DanceGRPO：首个统一视觉生成的强化学习框架

字节跳动 Seed 和香港大学联合推出名为 DanceGRPO 的创新框架，该框架旨在统一视觉生成强化学习，覆盖文本到图像、文本到视频和图像到视频三大任务，支持多种基础模型和奖励模型，显著提升了生成效果。

DanceGRPO 基于最近在 LLM 中流行的 GRPO 方案，通过优化生成算法，解决了传统方法在显存压力和数据集大小上的限制，实现了在多种生成范式和任务中的全面覆盖。

该研究在多个基础模型和奖励模型上进行了测试，结果显示 DanceGRPO 在提升生成质量方面表现出色，特别是在视频生成任务中，显著改善了视频的动态质量和美感。