LLaVA-SpaceSGG: Visual Instruct Tuning for Open-Vocabulary Scene Graph Generation with Enhanced Spatial Relations

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了LLaVA-SpaceSGG模型,解决了现有场景图生成模型在开放词汇环境中忽视空间关系的问题。通过增强空间关系建模和利用新数据集进行训练,LLaVA-SpaceSGG在召回率上显著提高,实验结果显示召回率提升8.6%,平均召回率提升28.4%。

🎯

关键要点

  • LLaVA-SpaceSGG模型解决了现有场景图生成模型在开放词汇环境中忽视空间关系的问题。
  • 该模型通过增强空间关系建模和结合多模态大语言模型进行训练。
  • 研究使用新收集的SpaceSGG指令调优数据集进行模型训练。
  • 实验结果显示,LLaVA-SpaceSGG在召回率上提高了8.6%,平均召回率提高了28.4%。
➡️

继续阅读