13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”

浙大上海AI Lab等提出了一种新的视觉生成范式——邻近自回归建模(NAR),通过“下一个邻域预测”机制显著提升了生成效率,同时保持了高质量生成。

NAR模型在多个视觉生成任务中表现出色,相比传统方法实现了13.8倍的吞吐提升,并在ImageNet和UCF-101数据集上取得了更好的FID和FVD指标。

该模型通过引入维度导向的解码头,能够在每一步中并行生成多个token,适用于图像和视频生成任务,展现出高效且高质量的生成能力。

[原文链接]

上一篇:

下一篇:

微信