空间音频技术正逐渐提升沉浸式体验,但现有技术多基于固定视角视频,缺乏对360°全景视频中空间信息的充分利用。OmniAudio团队提出了一项创新研究,能够直接从360°视频生成3D空间音频,为虚拟现实和沉浸式娱乐带来了新的可能性。
OmniAudio通过自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调方法,显著改善了模型对空间特征的泛化能力和生成质量,在Sphere360-Bench和YT360-Test测试集上均优于现有基线。
空间音频技术正逐渐提升沉浸式体验,但现有技术多基于固定视角视频,缺乏对360°全景视频中空间信息的充分利用。OmniAudio团队提出了一项创新研究,能够直接从360°视频生成3D空间音频,为虚拟现实和沉浸式娱乐带来了新的可能性。
OmniAudio通过自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调方法,显著改善了模型对空间特征的泛化能力和生成质量,在Sphere360-Bench和YT360-Test测试集上均优于现有基线。