本文提出了一种新颖的开放词汇动作识别任务,通过动词编码器和物体编码器将动词和物体预测分离,使用CLIP表示预测相互作用的对象的开放词汇。在EPIC-KITCHENS-100和Assembly101数据集上创建了开放词汇基准,方法有效且物体编码器优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。