具有共现知识和可学习的术语频率的场景图生成策略

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文介绍了多种创新的场景图生成方法,包括综合连续场景图生成(CSEGG)、边缘双场景图生成(EdgeSGG)和终身场景图生成(LSGG)。研究表明,这些方法在对象关系预测和长尾问题上取得显著提升,尤其在视觉语言任务中表现优异。此外,空间-时间知识嵌入变压器(STKET)和Text-Image结合模型(TISGG)在生成视频场景图和解决长尾问题方面也展现了优势。

🎯

关键要点

  • 综合连续场景图生成(CSEGG)数据集引入了三个学习场景和八个评估指标,探索了现有SGG方法在学习新对象时对先前对象实体和关系的保留情况。
  • 边缘双场景图生成(EdgeSGG)和双消息传递神经网络(DualMPNN)提出了一种新方法,能够准确预测对象之间的详细关系,并显著提升了各个场景图生成子任务的性能,同时缓解了长尾分布问题。
  • 终身场景图生成(LSGG)框架通过流式展开任务,展示了在连续学习和传统设置方面的优势,实验结果表明其在各种度量标准上优于现有方法。
  • 空间-时间知识嵌入变压器(STKET)模型用于生成视频场景图,经过实验表明其在不同设置下相对于当前算法的mR@50提升了8.1%、4.7%和2.1%。
  • Text-Image结合的场景图生成(TISGG)模型通过联合特征学习和基于事实知识的精细调整,解决了SGG模型中的长尾问题,实验显示其在Visual Genome数据集上的zero-shot recall提升了11.7%。
  • 开放词汇的场景图生成框架通过视觉语言预训练模型和显式关系建模知识,实现了优质性能,并增强了下游视觉语言任务。
  • 全景分割生成全景场景图(PSG)任务的提出,创建了高质量PSG数据集用于基准测试,并探讨了未来的挑战和发展方向。
  • 统一框架OvSGTR实现完全开放词汇的场景图生成,通过知识蒸馏保留视觉-概念对齐,实验结果证明了其有效性和优越性。
  • 通过因果推断进行对象关系预测的场景图生成方法,结合对象增强模块,在Visual Gnome 150数据集上取得了有效的实验结果。
  • 环境不变课程关系学习方法通过构建不同分布环境来平衡主-客体对的不平衡,实验证明该方法实现了重要的改进。

延伸问答

综合连续场景图生成(CSEGG)数据集的主要特点是什么?

CSEGG数据集引入了三个学习场景和八个评估指标,探索现有SGG方法在学习新对象时对先前对象实体和关系的保留情况。

边缘双场景图生成(EdgeSGG)如何改善对象关系预测?

EdgeSGG通过双消息传递神经网络提出了一种新方法,能够准确预测对象之间的详细关系,并显著提升了各个场景图生成子任务的性能。

终身场景图生成(LSGG)框架的优势是什么?

LSGG框架通过流式展开任务,展示了在连续学习和传统设置方面的优势,实验结果表明其在各种度量标准上优于现有方法。

空间-时间知识嵌入变压器(STKET)模型的应用是什么?

STKET模型用于生成视频场景图,并在不同设置下相对于当前算法的mR@50提升了8.1%、4.7%和2.1%。

Text-Image结合的场景图生成(TISGG)模型解决了什么问题?

TISGG模型通过联合特征学习和基于事实知识的精细调整,解决了SGG模型中的长尾问题,实验显示其在Visual Genome数据集上的zero-shot recall提升了11.7%。

开放词汇的场景图生成框架的主要特点是什么?

该框架通过视觉语言预训练模型和显式关系建模知识,实现了优质性能,并增强了下游视觉语言任务。

➡️

继续阅读