该研究提出了一种新的多目标跟踪框架LG-MOT,结合语言和视觉特征,通过注释语言描述并用于训练,提高了跟踪性能。实验结果显示该方法在多个测试集上达到了最先进水平,并在舞蹈跟踪测试集上相对于基线方法有2.2%的增益。该方法还表现出良好的跨领域泛化能力。
本文提出了一种新的方法,用于单视角RGBD图像的三维视觉定位。该方法通过融合语言和视觉特征生成热图来粗略定位相关区域,然后通过自适应特征学习和对象级匹配,结合另一种视觉语言融合来最终定位被引用的对象。实验证明,该方法在ScanRefer数据集和SUNRefer数据集上相比现有方法有较大的性能提升(分别提升11.2%和15.6%)。
完成下面两步后,将自动完成登录并继续当前操作。