本文介绍了一种名为Cross Pseudo-Labeling(XPL)的新方法,用于半监督AVSL中的伪标签方法。XPL通过交互学习和交叉精炼机制避免了偏见积累,并结合软伪标签和课程数据选择模块以实现稳定训练。实验证明XPL在性能上优于现有方法,并减轻了确认偏见。
该文介绍了一个跨模态对齐任务,以促进音频和视觉模态之间的交互学习,实现了声源定位和跨模态检索的高性能和语义理解。
完成下面两步后,将自动完成登录并继续当前操作。