小红花·文摘

本文介绍了一种新的视觉导向说话者嵌入提取器，使用自监督预训练模型和提示调整技术，从输入的视觉信息中生成说话者嵌入信息。基于这些嵌入和从输入视频中提取的视觉表示，开发了一种基于扩散的视频到语音合成模型DiffV2S，取得了最先进的性能。