BriefGPT - AI 论文速递 ·

Scene Graph Generation with Enhanced Data Transfer and Human Triplet Collaboration

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本文介绍了多种场景图生成（SGG）模型的改进方法，包括TISGG模型、IETrans方法和自我训练框架（ST-SGG）。这些方法旨在解决长尾问题和三元组识别困难，实验结果表明它们在性能上有显著提升。

🎯

关键要点

提出了一种 Text-Image 结合的场景图生成 (TISGG) 模型，解决了长尾问题和三元组识别困难，实验结果显示其在 Visual Genome 数据集上的 zero-shot recall 提升了 11.7%。
提出了一种内外数据传输（IETrans）方法，通过自动创建增强的数据集，解决长尾分布和语义歧义问题，最终使宏性能翻倍。
介绍了一种自我训练框架（ST-SGG），利用未标注的三元组缓解长尾问题，并提出了适用于现有模型的伪标记技术，验证了其在细粒度谓词类的性能提升。
提出了一种组合特征增强（CFA）策略，增加三元组特征的多样性，能无缝集成于各种场景图生成框架中，并在不同指标上取得最优性能。
提出了一种双粒度关系建模网络，利用粗粒度和细粒度的三元组线索促进关系识别，并通过双粒度知识传递策略解决长尾问题。
Triplet Graph Transformer (TGT) 通过三元关注机制和聚合机制提高训练效率和模型性能，在多个分子性质预测基准上达到了新的最先进结果。
引入三元组监督和数据增强训练场景图嵌入向量，发现三元组监督显著提高了嵌入向量的分离能力，进而提升布局预测模型性能。
提出了一种采用嵌入式增强的三元组贝叶斯网络，解决长尾关系及其父对象的质量问题，实现了较好的平衡。
提出了一种名为 Trico 的方法，通过探索三种互补的时空相关性补充缺失的谓词，验证了其在 VidSGG 数据集上的卓越性能。
提出了一种 Triplet Calibration and Reduction (T-CAR) 框架，提高模型对未见三元组的组合泛化能力，在零样本场景图生成任务中取得明显改进。

❓

延伸问答

TISGG模型的主要优势是什么？

TISGG模型在Visual Genome数据集上的zero-shot recall提升了11.7%，有效解决了长尾问题和三元组识别困难。

IETrans方法是如何改善场景图生成的？

IETrans方法通过自动创建增强的数据集，解决了长尾分布和语义歧义问题，使宏性能翻倍。

自我训练框架（ST-SGG）是如何缓解长尾问题的？

ST-SGG利用未标注的三元组和新型伪标记技术，提升了细粒度谓词类的性能，缓解了长尾问题。

组合特征增强（CFA）策略的目的是什么？

CFA策略通过增加三元组特征的多样性，解决现有偏差问题，并在多种场景图生成框架中取得最优性能。

Triplet Graph Transformer (TGT)的创新点是什么？

TGT通过三元关注机制和聚合机制提高训练效率和模型性能，并在多个分子性质预测基准上达到了新的最先进结果。

Trico方法如何补充缺失的谓词？

Trico方法通过探索三种互补的时空相关性来补充缺失的谓词，验证了其在VidSGG数据集上的卓越性能。

🏷️