小红花·文摘

本研究提出了一种小型连接模块（Q-Former），有效对齐预训练的自动语音识别（ASR）和机器翻译（MT）模型，显著提升翻译效果，具备良好的可扩展性和实用性。

对齐预训练模型用于口语翻译

BriefGPT - AI 论文速递 ·

本文探讨了将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中的方法，以提高转录准确性。研究表明，使用LLMs和新颖的训练方法可以显著降低词错误率，特别是在特定领域词汇识别方面表现优异。实验结果显示，基于Q-Former的模型在多个数据集上取得了显著的性能提升。

通过上下文化提高基于大语言模型的语音识别能力以识别稀有和模糊词汇

BriefGPT - AI 论文速递 ·

本文介绍了多种创新的端对端语音摘要（E2E SSum）模型，包括利用合成语音和音素序列进行训练，集成预训练语言模型以应对数据稀缺，以及使用Q-Former连接音频和文本。实验结果表明，这些方法在How2数据集上显著提升了摘要质量和模型性能。

基于句子的语音摘要：任务、数据集和带有语言模型知识蒸馏的端到端建模

BriefGPT - AI 论文速递 ·

研究推出METER多模态端到端Transformer框架，探讨完全基于Transformer的视听模型设计与预训练。该模型在VQAv2测试集上准确率达77.64%，最高可达80.54%，超越基于区域特征模型。

语言主导 QFormer 用于高效的视觉语言理解

BriefGPT - AI 论文速递 ·

该论文比较了三种连接结构，包括全连接层、多头交叉注意力和 Q-Former，并在语音编码器和大语言模型上进行了实验。结果表明，基于 Q-Former 的大语言模型在多个数据集上取得了显著的词错误率降低。此外，还提出了一种新的片段级 Q-Former，可以识别超过编码器限制的语音片段，相比其他连接结构取得了17%的词错误率降低。

连接语音编码器和大型语言模型用于 ASR

BriefGPT - AI 论文速递 ·