STUPD: 用于空间和时间关系推理的合成数据集
原文中文,约200字,阅读约需1分钟。发表于: 。提出了 Spatial and Temporal Understanding of Prepositions Dataset (STUPD) - 一个用于理解静态和动态空间关系的大规模视频数据集,旨在帮助模型在真实世界场景中更好地进行视觉关系检测。在该数据集中,我们提供了关于对象交互的 3D 信息,包括逐帧坐标和对象的描述。通过在 STUPD 数据集上进行预训练,与其他预训练数据集相比,在...
本文介绍了一种使用弱监督判别式聚类模型从仅具有图像级标签的数据中学习关系的新建模视觉关系方法,并在新引入的 UnRel 数据集上验证了该方法的有效性。实验结果表明,该模型在视觉关系数据集上取得了显著的提高。