SpiRit-LM: 交叉融合的口语和书面语言模型

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

SPIRIT-LM是一个混合文本与语音的多模态语言模型,通过在文本和语音单元上进行连续训练来实现。它展示了文本模型的语义能力和语音模型的表达能力,并能够跨多模态学习新任务。

🎯

关键要点

  • SPIRIT-LM是一个混合文本与语音的基础多模态语言模型。
  • 该模型基于预训练的文本语言模型扩展到语音模态。
  • 通过在文本和语音单元上进行连续训练来实现模型的功能。
  • 语音和文本序列被连接为一组单词,并使用小型自动化筛选的语音-文本平行语料库进行训练。
  • SPIRIT-LM有两个版本:基础版本和富有表现力版本。
  • 基础版本使用语音语义单元,富有表现力版本还使用音调和风格单元。
  • 文本使用子词BPE单元进行编码。
  • 模型展示了文本模型的语义能力和语音模型的表达能力。
  • SPIRIT-LM能够跨多模态(如ASR,TTS,语音分类)以几次学习的方式学习新任务。
➡️

继续阅读