连接语音编码器和大型语言模型的全面解决方案用于语音识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该论文比较了三种连接结构,并对语音编码器和语言模型进行了实验。结果显示,基于Q-Former的语言模型在多个数据集上都取得了显著的词错误率降低。研究还提出了一种新的片段级Q-Former,能够识别超过编码器限制的语音片段,并取得了17%的词错误率降低。
🎯
关键要点
- 该论文比较了三种连接结构:全连接层、多头交叉注意力和 Q-Former。
- 实验对象为 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型。
- 基于 Q-Former 的大语言模型在 LibriSpeech、Common Voice 和 GigaSpeech 数据集上显著降低了词错误率。
- 提出了一种新颖的片段级 Q-Former,能够识别超过编码器限制的语音片段。
- 在 90 秒长的语音数据上,片段级 Q-Former 实现了 17% 的词错误率降低。