本文介绍了一种名为AV-CPL的连续伪标签方法,用于音视频语音识别(AVSR)。该方法通过结合标记和未标记视频,持续生成伪标签来训练模型。在LRS3数据集上,AV-CPL显著提升了视觉语音识别(VSR)性能,同时保持了自动语音识别(ASR)和AVSR的实用性。此外,该方法利用未标记的视觉语音数据改善VSR表现。
该研究提出了一种基于多模态注意力的音视频语音识别方法,使用Seq2seq架构,在不同信噪比下相对于单独的音频模态获得2%到36%的提高,适用于清洁和嘈杂的条件下,可推广到其他多模态任务中。
该研究提出了一种基于多模态注意力的音视频语音识别方法,使用了最先进的Seq2seq架构,相对于单独的音频模态获得了2%到36%的提高。该方法在不同信噪比下,无论是清洁还是嘈杂的条件下,都能获得更好的识别性能,并可推广到其他多模态任务中。
完成下面两步后,将自动完成登录并继续当前操作。