小红花·文摘

该研究比较了全连接层、多头交叉注意力和Q-Former三种结构，结果显示Q-Former在LibriSpeech、Common Voice和GigaSpeech数据集上显著降低了词错误率。特别是片段级Q-Former在处理超长语音时表现出色，在90秒语音数据上词错误率降低了17%。