透视对话:基于扩散模型的音频 - 视觉语音分离

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种基于扩散机制的音视频语音分离模型AVDiffuSS,能够从声音混合中提取目标发言者的声音,并提出了一种基于交叉注意力的特征融合机制。该模型在语音生成中集成语音视觉对应的语音信息,在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果,生成的语音音质更好。

🎯

关键要点

  • 本文介绍了一种基于扩散机制的音视频语音分离模型AVDiffuSS。
  • AVDiffuSS能够通过视觉线索从声音混合中提取目标发言者的声音。
  • 该模型在保持自然性方面具有挑战。
  • 提出了一种基于交叉注意力的特征融合机制,以实现两种模态的有效融合。
  • 在语音生成中集成语音视觉对应的语音信息。
  • 在VoxCeleb2和LRS3这两个基准测试上取得了最先进的结果。
  • 生成的语音具有显著更好的自然音质。
➡️

继续阅读