LLaVA-SpaceSGG:具有增强空间关系的开放词汇场景图生成的视觉指令调优

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了LLaVA-SpaceSGG模型,解决了现有场景图生成模型在开放词汇环境中忽视空间关系和泛化能力不足的问题。实验结果表明,该模型的召回率提高了8.6%。

🎯

关键要点

  • 本研究提出了LLaVA-SpaceSGG模型。
  • LLaVA-SpaceSGG模型解决了现有场景图生成模型在开放词汇环境中忽视空间关系的问题。
  • 该模型增强了空间关系建模能力。
  • 结合了开放词汇场景图生成的多模态大语言模型。
  • 利用新收集的SpaceSGG指令调优数据集进行训练。
  • 实验结果显示,LLaVA-SpaceSGG的召回率提高了8.6%。
  • 平均召回率提高了28.4%。
➡️

继续阅读