PREGO:PRocedural EGOcentric 视频中的在线错误检测
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种新颖的开放词汇动作识别任务,通过动词编码器和物体编码器将动词和物体预测分离,借助CLIP表示来预测一组相互作用的对象的开放词汇。方法在EPIC-KITCHENS-100和Assembly101数据集上有效,并在识别新的相互作用物体方面优于现有方法。
🎯
关键要点
-
提出了一种新颖的开放词汇动作识别任务。
-
通过动词编码器和物体编码器将动词和物体预测分离。
-
使用CLIP表示来预测一组相互作用的对象的开放词汇。
-
在EPIC-KITCHENS-100和Assembly101数据集上创建了开放词汇基准。
-
提出的方法在识别新的相互作用物体方面优于现有方法。
➡️