[快讯] MoCha：开启自动化多轮对话电影生成新时代

加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同开发了 MoCha，一种新的视频生成方法，能够基于语音和文本输入生成完整角色的对话视频，突破了现有技术仅限于面部区域生成的局限，支持多角色动态对话和交互。

MoCha 通过创新的 Speech-Video Window Attention 机制实现精准的音视频对齐，并通过联合语音-文本训练策略提升模型的泛化能力，同时设计了结构化提示模板以实现多角色对话生成。

该研究为自动化叙事视频生成提供了全新解决方案，展示了高度准确的唇动同步效果、情绪可控性和动作可控性，并在多角色多轮对话生成方面取得了显著成果。