小红花·文摘

本研究提出了一种新方法LocDiffusion，通过扩散机制解决图像地理定位中的空间分布不一致问题。该方法采用球面位置编码-解码框架，显著增强了未见位置的泛化能力，并在基准测试中表现出竞争力。

BriefGPT - AI 论文速递 ·

本文介绍了一种基于扩散机制的音视频语音分离模型AVDiffuSS，能够从声音混合中提取目标发言者的声音，并提出了一种基于交叉注意力的特征融合机制。该模型在语音生成中集成语音视觉对应的语音信息，在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果，生成的语音音质更好。

BriefGPT - AI 论文速递 ·