如何连接语音基础模型和大型语言模型?重要因素与非重要因素
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对将语音基础模型(SFM)与大型语言模型(LLM)结合的过程中,缺乏关于各组件对下游任务性能影响的研究。通过评估不同的适配器模块与SFM和LLM的组合,发现SFM在下游性能中起着关键作用,而适配器的选择仅在一定程度上影响性能,并依赖于具体的SFM和LLM选择。
该研究比较了全连接层、多头交叉注意力和Q-Former三种结构,结果显示Q-Former在LibriSpeech、Common Voice和GigaSpeech数据集上显著降低了词错误率。特别是片段级Q-Former在处理超长语音时表现出色,在90秒语音数据上词错误率降低了17%。