PREGO:PRocedural EGOcentric 视频中的在线错误检测

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种新颖的开放词汇动作识别任务,通过动词编码器和物体编码器将动词和物体预测分离,借助CLIP表示来预测一组相互作用的对象的开放词汇。方法在EPIC-KITCHENS-100和Assembly101数据集上有效,并在识别新的相互作用物体方面优于现有方法。

🎯

关键要点

  • 提出了一种新颖的开放词汇动作识别任务。

  • 通过动词编码器和物体编码器将动词和物体预测分离。

  • 使用CLIP表示来预测一组相互作用的对象的开放词汇。

  • 在EPIC-KITCHENS-100和Assembly101数据集上创建了开放词汇基准。

  • 提出的方法在识别新的相互作用物体方面优于现有方法。

➡️

继续阅读