图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理

华为盘古多模态生成团队提出了一种名为Selftok的新技术,通过反向扩散过程将自回归先验融入视觉token,实现了视觉数据的离散化表示,突破了传统自回归范式在视觉生成任务中的瓶颈。该技术在图像重建和跨模态生成任务中表现出色,超越了现有的基于空间token的自回归模型。

Selftok技术的核心在于通过扩散过程的时序分解,让视觉表达彻底遵循自回归的本质,同时通过强化学习优化生成性能,实现了统一的多模态自回归训练范式,显著提升了生成质量和推理效率。

该技术不仅在实验中展示了卓越的性能,还入选了CVPR 2025最佳论文候选,为未来统一多模态AI架构的发展提供了新的思路。

[原文链接]

上一篇:

下一篇:

微信