SSM+扩散模型,竟造出一种全新的「视频世界模型」

这项研究提出了一种新的“视频世界模型”,结合了状态空间模型(SSM)和扩散模型,旨在实现对视觉世界的交互式模拟。该模型通过逐块扫描和帧局部注意力机制增强了时间记忆和空间一致性,同时通过长上下文训练方案改善了对长期依赖性的学习。此外,该模型在推理过程中保持了恒定的速度和内存使用率。

[原文链接]

上一篇:

下一篇:

微信