Visatronic:一种用于语音合成的多模态解码器模型

Visatronic:一种用于语音合成的多模态解码器模型

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

本文提出了一项新任务——从视频和转录文本生成语音(VTTS),旨在推动多模态语音生成技术的发展。我们介绍了Visatronic解码器模型,该模型将视觉、文本和语音嵌入统一的变换器中,通过自回归损失进行学习,简化了传统方法的复杂性,并在多模态语音生成中表现优越。相关代码和数据集将发布以促进进一步研究。

🎯

关键要点

  • 提出了一项新任务——从视频和转录文本生成语音(VTTS),旨在推动多模态语音生成技术的发展。
  • VTTS任务比从剪辑的嘴唇视频生成语音的任务更复杂,也比从视频和文本生成通用音频片段的任务更具挑战性。
  • 多语言版本的VTTS任务可能会促进跨语言配音的新技术。
  • 介绍了Visatronic解码器模型,该模型将视觉、文本和语音嵌入统一的变换器中。
  • Visatronic模型通过自回归损失学习生成离散的梅尔谱图,条件是说话者的视频和他们的转录文本。
  • 该模型在多模态语音生成中表现优越,简化了传统方法的复杂性。
  • Visatronic模型灵活,能够适应不同的输入顺序,探索不同策略以更好地传播信息。
  • 将发布相关代码、VoxCeleb2数据集的干净转录和标准化的VTTS评估协议,以促进进一步研究。
➡️

继续阅读