BESTOW: GPT 和 T5 中最佳的两种世界的高效和可流式语音语言模型
📝
内容提要
将语音理解能力整合到预训练的大型语言模型已成为一个重要的研究方向。我们提出了 BESTOW 架构,将两个世界中的最佳特征整合到一个单一的模型中,具有高效和强大的多任务能力。同时,我们改进了可流式处理的 SpeechLLM,并展示了在广泛的语音任务上取得了非常强的性能。
➡️
将语音理解能力整合到预训练的大型语言模型已成为一个重要的研究方向。我们提出了 BESTOW 架构,将两个世界中的最佳特征整合到一个单一的模型中,具有高效和强大的多任务能力。同时,我们改进了可流式处理的 SpeechLLM,并展示了在广泛的语音任务上取得了非常强的性能。