本文研究了使用预训练视觉-语言模型进行开放词汇的时序动作定位,并通过自训练和引入伪标签数据集来提高动作定位器的泛化能力。同时提出了新的评估协议来解决现有评估方案的问题。
完成下面两步后,将自动完成登录并继续当前操作。