基于图像和描述之间的结构相似性的零样本指称表达理解
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种利用图像标题和对象边界框注释的弱监督学习方法,用于预测图像中实体之间的关系。通过关注机制和标题的语法结构,训练关系分类网络,获得基于现实的字幕和稠密的关系。在 Visual Genome 数据集上展示了模型的有效性,成功预测了与字幕中不存在的关系,关系召回率达到15%(@50)和25%(@100)。
🎯
关键要点
- 本研究提出了一种弱监督学习方法,利用图像标题和对象边界框注释预测实体之间的关系。
- 采用自上而下的关注机制将标题中的实体对齐到图像中的对象。
- 利用标题的语法结构将关系对齐,训练关系分类网络。
- 模型在 Visual Genome 数据集上展示了有效性,关系召回率达到15%(@50)和25%(@100)。
- 模型成功预测了与字幕中不存在的关系。
🏷️
标签
➡️