LSTMSE-Net:用于音视频语音增强的长短时记忆语音增强网络

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

AV-CrossNet是一种音视系统,用于语音增强、目标说话人提取和多说话人分离。它通过添加视觉线索和利用全局注意力和位置编码来提高语音分离性能。评估结果表明,AV-CrossNet在音视任务上具有最先进的性能。

🎯

关键要点

  • AV-CrossNet是一种音视系统,用于语音增强、目标说话人提取和多说话人分离。
  • 添加视觉线索可以提高基于音频的语音分离性能。
  • AV-CrossNet扩展自CrossNet架构,利用全局注意力和位置编码进行复杂的频谱映射。
  • 该系统结合了预先提取的视觉嵌入和时间卷积层组成的视觉编码器。
  • 音频和视觉特征在早期融合层中融合后馈送到AV-CrossNet块。
  • AV-CrossNet在多个数据集上进行评估,包括LRS、VoxCeleb和COG-MHEAR挑战。
  • 评估结果表明,AV-CrossNet在所有音视任务上具有最先进的性能,尤其是在未经训练和不匹配的数据集上。
➡️

继续阅读