HeyGen 发布的 Avatar IV 模型能够通过一张照片、一段脚本和一段声音,在几秒内生成以假乱真的数字人,支持多角度图像输入,并且不仅能说还能唱,具备高度的细节和情感表达能力。
该模型的核心升级在于基于扩散模型的音频驱动表情引擎,能够根据语音的节奏、语气和情绪自动生成对应的表情与动作,应用场景广泛,包括动画视频制作、虚拟宠物拟人化、游戏角色配音等。
用户可通过 HeyGen 官网上传照片和脚本生成动态数字人视频,订阅用户可生成更长的视频,免费用户则有限制。
HeyGen 发布的 Avatar IV 模型能够通过一张照片、一段脚本和一段声音,在几秒内生成以假乱真的数字人,支持多角度图像输入,并且不仅能说还能唱,具备高度的细节和情感表达能力。
该模型的核心升级在于基于扩散模型的音频驱动表情引擎,能够根据语音的节奏、语气和情绪自动生成对应的表情与动作,应用场景广泛,包括动画视频制作、虚拟宠物拟人化、游戏角色配音等。
用户可通过 HeyGen 官网上传照片和脚本生成动态数字人视频,订阅用户可生成更长的视频,免费用户则有限制。