透视对话:基于扩散模型的音频 - 视觉语音分离
原文中文,约300字,阅读约需1分钟。发表于: 。本文介绍了 AVDiffuSS,一种基于扩散机制的音视频语音分离模型,通过视觉线索从声音混合中提取目标发言者的声音,该模型在保持自然性方面具有挑战,并提出了一种基于交叉注意力的特征融合机制,以实现两种模态的有效融合,并在语音生成中集成语音视觉对应的语音信息,通过该提出的框架在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果,生成的语音具有显著更好的自然音质。
本文介绍了一种基于扩散机制的音视频语音分离模型AVDiffuSS,能够从声音混合中提取目标发言者的声音,并提出了一种基于交叉注意力的特征融合机制。该模型在语音生成中集成语音视觉对应的语音信息,在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果,生成的语音音质更好。