一款可以读唇语的AI软件在国外火了,通过分析嘴部运动识别人物所说的内容。然而,该软件在人物不正脸对着镜头或语速过快的情况下识别效果不佳。开发团队Symphonic Labs表示会尽快解决这些问题。
本文介绍了一种基于2D口型视频和3D面部重构的3D面部动画模型,具有高保真度和良好的泛化能力,能够捕捉个体讲话风格,生成个性化的3D说话头像。通过实验验证了其有效性,并提出了新方法以提高口型同步和面部动画表现。
Wav2Lip是一个开源项目,旨在实现视频唇语的高精度同步,适用于不同身份和语言。该项目提供完整的训练和推断代码,并发布多个评估基准,具有无需用户干预的唇语同步处理能力,适合研究和学术用途。
完成下面两步后,将自动完成登录并继续当前操作。