本研究提出了一种利用图像标题和对象边界框注释的弱监督学习方法,用于预测图像中实体之间的关系。通过关注机制和标题的语法结构,训练关系分类网络,获得基于现实的字幕和稠密的关系。在 Visual Genome 数据集上展示了模型的有效性,成功预测了与字幕中不存在的关系,关系召回率达到15%(@50)和25%(@100)。
完成下面两步后,将自动完成登录并继续当前操作。