本研究提出了一种小型连接模块(Q-Former),有效对齐预训练的自动语音识别(ASR)和机器翻译(MT)模型,显著提升翻译效果,具备良好的可扩展性和实用性。
该研究比较了全连接层、多头交叉注意力和Q-Former三种结构,结果显示Q-Former在LibriSpeech、Common Voice和GigaSpeech数据集上显著降低了词错误率。特别是片段级Q-Former在处理超长语音时表现出色,在90秒语音数据上词错误率降低了17%。
该论文比较了三种连接结构,并发现基于Q-Former的大语言模型在多个数据集上显著降低了词错误率。同时,提出了片段级Q-Former,能够识别超过编码器限制的语音片段,并取得了17%的词错误率降低。
该论文比较了三种连接结构,并对语音编码器和语言模型进行了实验。结果显示,基于Q-Former的语言模型在多个数据集上都取得了显著的词错误率降低。研究还提出了一种新的片段级Q-Former,能够识别超过编码器限制的语音片段,并取得了17%的词错误率降低。
研究推出METER多模态端到端Transformer框架,探讨完全基于Transformer的视听模型设计与预训练。该模型在VQAv2测试集上准确率达77.64%,最高可达80.54%,超越基于区域特征模型。
该论文比较了三种连接结构,包括全连接层、多头交叉注意力和 Q-Former,并在语音编码器和大语言模型上进行了实验。结果表明,基于 Q-Former 的大语言模型在多个数据集上取得了显著的词错误率降低。此外,还提出了一种新的片段级 Q-Former,可以识别超过编码器限制的语音片段,相比其他连接结构取得了17%的词错误率降低。
完成下面两步后,将自动完成登录并继续当前操作。