本文介绍了一种基于扩散机制的音视频语音分离模型AVDiffuSS,能够从声音混合中提取目标发言者的声音,并提出了一种基于交叉注意力的特征融合机制。该模型在语音生成中集成语音视觉对应的语音信息,在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果,生成的语音音质更好。
本文介绍了一种新颖的音视频语音分离方法:递归时频分离网络(RTFS-Net)。该方法利用算法对音频的时间和频率进行建模,并引入了基于注意力的融合技术,以整合音频和视觉信息。RTFS-Net 在参数和计算量方面都比先前的方法更优秀,是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。
完成下面两步后,将自动完成登录并继续当前操作。