[快讯] 字节音效生成模型来了，一键生成大片感音效！已上线即梦

字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型，通过端到端架构实现了视频音效的智能生成，推动了AI视频创作进入“有声时代”。用户在即梦中使用“AI音效”功能，可生成3个专业级音效方案。

SeedFoley模型通过融合时空视频特征与扩散生成模型，实现了音效与视频的高度同步，支持可变长度视频输入，并在音效准确性、同步性和匹配度上取得了领先水平。

该模型采用Diffusion Transformer框架，通过优化概率路径上的连续映射关系，实现了从高斯噪声分布到目标音频表征空间的概率匹配，提升了音效与视频画面在时序上的一致性。