小红花·文摘

本研究提出了一种基于NeRF的网络，通过自监督学习提取音频特征，并采用对比学习方法，确保音频特征与口部运动的对齐，同时拆分与面部其他肌肉运动无关的部分。研究结果表明，该方法能够合成高保真度的谈话面孔视频，并在面部表情转移和口型同步方面达到最新的技术水平。