本研究提出了一种新方法LocDiffusion,通过扩散机制解决图像地理定位中的空间分布不一致问题。该方法采用球面位置编码-解码框架,显著增强了未见位置的泛化能力,并在基准测试中表现出竞争力。
本文介绍了一种基于扩散机制的音视频语音分离模型AVDiffuSS,能够从声音混合中提取目标发言者的声音,并提出了一种基于交叉注意力的特征融合机制。该模型在语音生成中集成语音视觉对应的语音信息,在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果,生成的语音音质更好。
完成下面两步后,将自动完成登录并继续当前操作。