本文提出了一项新任务——从视频和转录文本生成语音(VTTS),旨在推动多模态语音生成技术的发展。我们介绍了Visatronic解码器模型,该模型将视觉、文本和语音嵌入统一的变换器中,通过自回归损失进行学习,简化了传统方法的复杂性,并在多模态语音生成中表现优越。相关代码和数据集将发布以促进进一步研究。
完成下面两步后,将自动完成登录并继续当前操作。