BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

SCANet: 自我和交叉注意网络用于音视频语音分离

提出了一种名为自注意力网络(SCANet)的模型,通过利用注意机制实现有效的音频 - 视觉特征融合,其中包含了自注意力块(SA)和交叉注意力块(CA),能够从音频 - 视觉特征中提取不同的语义信息,并在三个标准音频 - 视觉分离基准上得到了更好的效果。

该研究提出了一种基于多模态注意力的音视频语音识别方法,使用了最先进的Seq2seq架构,相对于单独的音频模态获得了2%到36%的提高。该方法在不同信噪比下,无论是清洁还是嘈杂的条件下,都能获得更好的识别性能,并可推广到其他多模态任务中。

Seq2seq架构 信噪比 多模态注意力 识别性能 音视频语音识别

相关推荐 去reddit讨论

热榜 Top10

eolink
eolink
Dify.AI
Dify.AI
观测云
观测云
LigaAI
LigaAI

推荐或自荐