连接语音编码器和大型语言模型用于 ASR

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该论文比较了三种连接结构,包括全连接层、多头交叉注意力和 Q-Former,并在语音编码器和大语言模型上进行了实验。结果表明,基于 Q-Former 的大语言模型在多个数据集上取得了显著的词错误率降低。此外,还提出了一种新的片段级 Q-Former,可以识别超过编码器限制的语音片段,相比其他连接结构取得了17%的词错误率降低。

🎯

关键要点

  • 该论文比较了三种连接结构:全连接层、多头交叉注意力和 Q-Former。

  • 实验对象包括 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型。

  • 基于 Q-Former 的大语言模型在 LibriSpeech、Common Voice 和 GigaSpeech 数据集上显著降低了词错误率。

  • 提出了一种新颖的片段级 Q-Former,能够识别超过编码器限制的语音片段。

  • 在 90 秒长的语音数据上,片段级 Q-Former 相比其他连接结构降低了 17% 的词错误率。

➡️

继续阅读