小红花·文摘

该研究提出了StyleSync框架，通过音频调制卷积精确修改嘴形，实现高保真的唇部同步。StyleLipSync模型能够从音频生成与身份无关的唇形视频，并采用姿态感知掩蔽和少量样本适应方法，显著提升同步效果。实验结果表明，该模型在唇形同步和视觉信息保留方面表现优异。