小红花·文摘

该研究提出了一种新的多目标跟踪框架LG-MOT，结合语言和视觉特征，通过注释语言描述并用于训练，提高了跟踪性能。实验结果显示该方法在多个测试集上达到了最先进水平，并在舞蹈跟踪测试集上相对于基线方法有2.2%的增益。该方法还表现出良好的跨领域泛化能力。