本研究提出了一种小型连接模块(Q-Former),有效对齐预训练的自动语音识别(ASR)和机器翻译(MT)模型,显著提升翻译效果,具备良好的可扩展性和实用性。
本文探讨了将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中的方法,以提高转录准确性。研究表明,使用LLMs和新颖的训练方法可以显著降低词错误率,特别是在特定领域词汇识别方面表现优异。实验结果显示,基于Q-Former的模型在多个数据集上取得了显著的性能提升。
本文介绍了多种创新的端对端语音摘要(E2E SSum)模型,包括利用合成语音和音素序列进行训练,集成预训练语言模型以应对数据稀缺,以及使用Q-Former连接音频和文本。实验结果表明,这些方法在How2数据集上显著提升了摘要质量和模型性能。
研究推出METER多模态端到端Transformer框架,探讨完全基于Transformer的视听模型设计与预训练。该模型在VQAv2测试集上准确率达77.64%,最高可达80.54%,超越基于区域特征模型。
该论文比较了三种连接结构,包括全连接层、多头交叉注意力和 Q-Former,并在语音编码器和大语言模型上进行了实验。结果表明,基于 Q-Former 的大语言模型在多个数据集上取得了显著的词错误率降低。此外,还提出了一种新的片段级 Q-Former,可以识别超过编码器限制的语音片段,相比其他连接结构取得了17%的词错误率降低。
完成下面两步后,将自动完成登录并继续当前操作。