通过上下文化提高基于大语言模型的语音识别能力以识别稀有和模糊词汇
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该论文比较了三种连接结构,并发现基于Q-Former的大语言模型在多个数据集上显著降低了词错误率。同时,提出了片段级Q-Former,能够识别超过编码器限制的语音片段,并取得了17%的词错误率降低。
🎯
关键要点
- 该论文比较了三种连接结构:全连接层、多头交叉注意力和Q-Former。
- 基于Q-Former的大语言模型在LibriSpeech、Common Voice和GigaSpeech数据集上显著降低了词错误率。
- 提出了片段级Q-Former,能够识别超过编码器限制的语音片段。
- 在90秒长的语音数据上,片段级Q-Former相比其他连接结构降低了17%的词错误率。
➡️