AUD-TGN:在野外音频视觉环境中借助时间卷积和 GPT-2 推进动作单位检测
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文介绍了一种多模态感知跟踪器(MPT),利用声音和视觉模态进行讲话者跟踪。通过声学地图、多模态感知注意力网络和跨模态自我监督学习方法实现异构信号融合和模态互补性。实验结果表明,MPT在标准和遮挡数据集上的跟踪精度分别达到98.6%和78.3%,鲁棒性优于最新技术。
🎯
关键要点
- 提出了一种多模态感知跟踪器(MPT),利用声音和视觉模态进行讲话者跟踪。
- 使用基于空时全局相干字段(stGCF)的声学地图进行异构信号融合。
- 引入多模态感知注意力网络来导出可靠性和效益的知觉权重。
- 采用跨模态自我监督学习方法模拟不同模态之间的互补性和一致性。
- 实验结果显示,MPT在标准数据集和遮挡数据集上的跟踪精度分别为98.6%和78.3%。
- MPT在不利条件下的鲁棒性优于目前的最新技术。
➡️