加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同开发了 MoCha,一种新的视频生成方法,能够基于语音和文本输入生成完整角色的对话视频,突破了现有技术仅限于面部区域生成的局限,支持多角色动态对话和交互。
MoCha 通过创新的 Speech-Video Window Attention 机制实现精准的音视频对齐,并通过联合语音-文本训练策略提升模型的泛化能力,同时设计了结构化提示模板以实现多角色对话生成。
该研究为自动化叙事视频生成提供了全新解决方案,展示了高度准确的唇动同步效果、情绪可控性和动作可控性,并在多角色多轮对话生成方面取得了显著成果。