[快讯] 图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型，触发像素自主推理

华为盘古多模态生成团队提出了一种名为Selftok的新技术，通过反向扩散过程将自回归先验融入视觉token，实现了视觉数据的离散化表示，突破了传统自回归范式在视觉生成任务中的瓶颈。该技术在图像重建和跨模态生成任务中表现出色，超越了现有的基于空间token的自回归模型。

Selftok技术的核心在于通过扩散过程的时序分解，让视觉表达彻底遵循自回归的本质，同时通过强化学习优化生成性能，实现了统一的多模态自回归训练范式，显著提升了生成质量和推理效率。

该技术不仅在实验中展示了卓越的性能，还入选了CVPR 2025最佳论文候选，为未来统一多模态AI架构的发展提供了新的思路。