Scene Graph Generation with Enhanced Data Transfer and Human Triplet Collaboration

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文介绍了多种场景图生成(SGG)模型的改进方法,包括TISGG模型、IETrans方法和自我训练框架(ST-SGG)。这些方法旨在解决长尾问题和三元组识别困难,实验结果表明它们在性能上有显著提升。

🎯

关键要点

  • 提出了一种 Text-Image 结合的场景图生成 (TISGG) 模型,解决了长尾问题和三元组识别困难,实验结果显示其在 Visual Genome 数据集上的 zero-shot recall 提升了 11.7%。
  • 提出了一种内外数据传输(IETrans)方法,通过自动创建增强的数据集,解决长尾分布和语义歧义问题,最终使宏性能翻倍。
  • 介绍了一种自我训练框架(ST-SGG),利用未标注的三元组缓解长尾问题,并提出了适用于现有模型的伪标记技术,验证了其在细粒度谓词类的性能提升。
  • 提出了一种组合特征增强(CFA)策略,增加三元组特征的多样性,能无缝集成于各种场景图生成框架中,并在不同指标上取得最优性能。
  • 提出了一种双粒度关系建模网络,利用粗粒度和细粒度的三元组线索促进关系识别,并通过双粒度知识传递策略解决长尾问题。
  • Triplet Graph Transformer (TGT) 通过三元关注机制和聚合机制提高训练效率和模型性能,在多个分子性质预测基准上达到了新的最先进结果。
  • 引入三元组监督和数据增强训练场景图嵌入向量,发现三元组监督显著提高了嵌入向量的分离能力,进而提升布局预测模型性能。
  • 提出了一种采用嵌入式增强的三元组贝叶斯网络,解决长尾关系及其父对象的质量问题,实现了较好的平衡。
  • 提出了一种名为 Trico 的方法,通过探索三种互补的时空相关性补充缺失的谓词,验证了其在 VidSGG 数据集上的卓越性能。
  • 提出了一种 Triplet Calibration and Reduction (T-CAR) 框架,提高模型对未见三元组的组合泛化能力,在零样本场景图生成任务中取得明显改进。

延伸问答

TISGG模型的主要优势是什么?

TISGG模型在Visual Genome数据集上的zero-shot recall提升了11.7%,有效解决了长尾问题和三元组识别困难。

IETrans方法是如何改善场景图生成的?

IETrans方法通过自动创建增强的数据集,解决了长尾分布和语义歧义问题,使宏性能翻倍。

自我训练框架(ST-SGG)是如何缓解长尾问题的?

ST-SGG利用未标注的三元组和新型伪标记技术,提升了细粒度谓词类的性能,缓解了长尾问题。

组合特征增强(CFA)策略的目的是什么?

CFA策略通过增加三元组特征的多样性,解决现有偏差问题,并在多种场景图生成框架中取得最优性能。

Triplet Graph Transformer (TGT)的创新点是什么?

TGT通过三元关注机制和聚合机制提高训练效率和模型性能,并在多个分子性质预测基准上达到了新的最先进结果。

Trico方法如何补充缺失的谓词?

Trico方法通过探索三种互补的时空相关性来补充缺失的谓词,验证了其在VidSGG数据集上的卓越性能。

➡️

继续阅读