字节跳动 Seed 和香港大学联合推出名为 DanceGRPO 的创新框架,该框架旨在统一视觉生成强化学习,覆盖文本到图像、文本到视频和图像到视频三大任务,支持多种基础模型和奖励模型,显著提升了生成效果。
DanceGRPO 基于最近在 LLM 中流行的 GRPO 方案,通过优化生成算法,解决了传统方法在显存压力和数据集大小上的限制,实现了在多种生成范式和任务中的全面覆盖。
该研究在多个基础模型和奖励模型上进行了测试,结果显示 DanceGRPO 在提升生成质量方面表现出色,特别是在视频生成任务中,显著改善了视频的动态质量和美感。