小红花·文摘 - 小红花技术领袖俱乐部

AV-CPL：用于音视频语音识别的连续伪标签方法

AV-CPL：用于音视频语音识别的连续伪标签方法

Apple Machine Learning Research ·

该研究提出了一种基于多模态注意力的音视频语音识别方法，使用Seq2seq架构，在不同信噪比下相对于单独的音频模态获得2%到36%的提高，适用于清洁和嘈杂的条件下，可推广到其他多模态任务中。

音视频说话人验证基于联合交叉注意力

BriefGPT - AI 论文速递 ·

该研究提出了一种基于多模态注意力的音视频语音识别方法，使用了最先进的Seq2seq架构，相对于单独的音频模态获得了2%到36%的提高。该方法在不同信噪比下，无论是清洁还是嘈杂的条件下，都能获得更好的识别性能，并可推广到其他多模态任务中。

SCANet: 自我和交叉注意网络用于音视频语音分离

BriefGPT - AI 论文速递 ·