字节音效生成模型来了,一键生成大片感音效!已上线即梦

字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,推动了AI视频创作进入“有声时代”。用户在即梦中使用“AI音效”功能,可生成3个专业级音效方案。

SeedFoley模型通过融合时空视频特征与扩散生成模型,实现了音效与视频的高度同步,支持可变长度视频输入,并在音效准确性、同步性和匹配度上取得了领先水平。

该模型采用Diffusion Transformer框架,通过优化概率路径上的连续映射关系,实现了从高斯噪声分布到目标音频表征空间的概率匹配,提升了音效与视频画面在时序上的一致性。

[原文链接]

上一篇:

下一篇:

微信