小红花·文摘

本文研究了使用预训练视觉-语言模型进行开放词汇的时序动作定位，并通过自训练和引入伪标签数据集来提高动作定位器的泛化能力。同时提出了新的评估协议来解决现有评估方案的问题。