连接语音编码器和大型语言模型用于 ASR
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该论文比较了三种连接结构,包括全连接层、多头交叉注意力和 Q-Former,并在语音编码器和大语言模型上进行了实验。结果表明,基于 Q-Former 的大语言模型在多个数据集上取得了显著的词错误率降低。此外,还提出了一种新的片段级 Q-Former,可以识别超过编码器限制的语音片段,相比其他连接结构取得了17%的词错误率降低。
🎯
关键要点
-
该论文比较了三种连接结构:全连接层、多头交叉注意力和 Q-Former。
-
实验对象包括 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型。
-
基于 Q-Former 的大语言模型在 LibriSpeech、Common Voice 和 GigaSpeech 数据集上显著降低了词错误率。
-
提出了一种新颖的片段级 Q-Former,能够识别超过编码器限制的语音片段。
-
在 90 秒长的语音数据上,片段级 Q-Former 相比其他连接结构降低了 17% 的词错误率。
➡️