本文提出了一种新颖的开放词汇动作识别任务,通过动词编码器和物体编码器将动词和物体预测分离,借助CLIP表示来预测一组相互作用的对象的开放词汇。方法在EPIC-KITCHENS-100和Assembly101数据集上有效,并在识别新的相互作用物体方面优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。