小红花·文摘

多视角多人联合追踪和跟踪（MvMHAT）是多人场景视频监视的重要问题。研究提出了一种自监督学习感知的端到端网络，利用空间-时间自一致性解决问题，并构建了两个大规模数据集。