BriefGPT - AI 论文速递 ·

基于 Branchformers 的定制音视频语音识别模型设计

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本文介绍了一种基于AV-HuBERT模型的自监督音视频语音识别框架，利用LRS3数据集在噪音环境中显著提升性能。通过多语种模型和跨模态注意力模块，增强了音视频识别的准确性，尤其在背景噪声下表现优异。研究提出的多层交叉注意力融合方法取得了新的最先进性能，验证了多模态学习在音视频识别中的有效性。

🎯

❓

该框架在噪音环境中性能提升超过50%，并且比基于音频的模型将词错误率减少了75%以上。

引入多语种模型显著提升了音视频识别的准确性，尤其在多语种数据集上训练时表现优异。

跨模态注意力模块丰富了视频特征，增强了视频数据的时序动态，从而提高了识别性能。

该方法在MISP2022-AVSR挑战数据集上达到了新的最先进性能，cpCER为30.57%，相较于前期系统有3.17%的相对改进。

通过学习视频数据的时序动态和引入跨模态注意力模块，模型在背景噪声下表现优异，能够区分语音信号。

该方法可以轻松推广到其他多模态任务中，显示出其广泛的应用潜力。

🏷️