ORMNet: 基于对象的关系建模用于自我中心手 - 物分割
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文章介绍了一种面向对象的解码器,通过预测手部位置、物体位置和物体的语义标签来增强模型的对象感知能力。实验证明,该模型学到的对象感知表示在视频理解任务中的性能优于现有技术水平。同时,通过使用嘈杂的图像级别检测作为伪标签进行训练,该模型可以提供更好的边界框,并在关联文本描述中进行词的定位,从而提高自我中心视频模型的性能。
🎯
关键要点
- 引入一种面向对象的解码器,通过预测手部位置、物体位置和物体的语义标签来增强模型的对象感知能力。
- 该模型在自我中心视频中提高时空表示的性能。
- 实验证明,该模型在视频理解任务中的性能优于现有技术水平。
- 模型使用嘈杂的图像级别检测作为伪标签进行训练,提供更好的边界框。
- 模型能够在关联文本描述中进行词的定位,提高自我中心视频模型的性能。
➡️