小红花·文摘

本文介绍了一种多模态感知跟踪器（MPT），利用声音和视觉模态进行讲话者跟踪。通过声学地图、多模态感知注意力网络和跨模态自我监督学习方法实现异构信号融合和模态互补性。实验结果表明，MPT在标准和遮挡数据集上的跟踪精度分别达到98.6%和78.3%，鲁棒性优于最新技术。