字节AI和浙大合作研发的Loopy项目能通过图像和音频生成自然的视频,具有良好的生成效果和视觉一致性。Loopy由ReferenceNet、DenoisingNet、Apperance和Audio四部分构成,能处理各种场景和细节。此前还有类似的项目CyberHost,但CyberHost是一个音频驱动的人类动画模型。
本文介绍了多种基于扩散模型的人体动画生成方法,如“Dancing Avatar”、“FaceTalk”、“DREAM-Talk”、“VLOGGER”、“AniPortrait”、“LoopAnimate”、“UniAnimate”和“CyberHost”。这些方法利用音频、文本和图像输入生成高质量动态视频,提升了面部表情、姿势多样性和时间一致性,展现了在视频编辑和个性化应用中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。