近期,MIT团队发布了一篇名为《History-guided Video Diffusion》的新论文,提出了一种名为Diffusion Forcing Transformer(DFoT)的算法,显著提升了视频扩散模型的质量、生成长度、鲁棒性和可组合性,能够在不改动原有架构的情况下生成近1000帧的长视频。
该算法通过在去噪过程中混合长历史模型和短历史模型的不同预测,引入了「历史引导」算法,使得视频生成质量大幅提升。该工作受到了广泛赞誉,谷歌研究科学家George Kopanas评论称这项工作令人印象深刻。
论文提供了开源实现,读者可以在Huggingface上直接验证论文效果。