自我训练在开放词汇时间行为定位中的可扩展性探索
原文中文,约300字,阅读约需1分钟。发表于: 。本文研究了在缺乏大规模注释数据集的情况下,使用先进的预训练视觉 - 语言模型(如 CLIP)进行开放词汇的时序动作定位(OV-TAL),并提出了一种利用未标记的 YouTube 视频进行自训练的可扩展方法,通过在自训练中引入大规模的伪标签数据集,显著提高了动作定位器的泛化能力,并提出了新的评估协议来解决现有 OV-TAL 评估方案存在的问题。
本文研究了使用预训练视觉-语言模型进行开放词汇的时序动作定位,并通过自训练和引入伪标签数据集来提高动作定位器的泛化能力。同时提出了新的评估协议来解决现有评估方案的问题。