连接语音编码器和大型语言模型的全面解决方案用于语音识别
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出了一个综合解决方案,包括更加细致的微调方案、匹配损失用于增强模态对齐、以及训练和推理方法来减少插入错误,实验证明部分微调语音编码器和语言模型,以及使用诸如 LoRA 的参数高效方法是最具成本效益的方法,匹配损失能够提升模态对齐,而所提出的训练和推理方法则显著减少了插入错误。
该论文比较了三种连接结构,并对语音编码器和语言模型进行了实验。结果显示,基于Q-Former的语言模型在多个数据集上都取得了显著的词错误率降低。研究还提出了一种新的片段级Q-Former,能够识别超过编码器限制的语音片段,并取得了17%的词错误率降低。