本文介绍了一种新的视觉导向说话者嵌入提取器,使用自监督预训练模型和提示调整技术,从输入的视觉信息中生成说话者嵌入信息。基于这些嵌入和从输入视频中提取的视觉表示,开发了一种基于扩散的视频到语音合成模型DiffV2S,取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。