该研究提出了StyleSync框架,通过音频调制卷积精确修改嘴形,实现高保真的唇部同步。StyleLipSync模型能够从音频生成与身份无关的唇形视频,并采用姿态感知掩蔽和少量样本适应方法,显著提升同步效果。实验结果表明,该模型在唇形同步和视觉信息保留方面表现优异。
完成下面两步后,将自动完成登录并继续当前操作。