BriefGPT - AI 论文速递 ·

CYCLO: 高空视频中多物体关系建模的循环图变换方法

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了多种基于 Transformer 的场景图生成方法，包括 STKET、DSGG 和 TEMPURA。这些方法通过空间-时间知识、图感知查询和无偏差关系表示，提升了视频场景图生成的性能。研究表明，这些方法在不同数据集上均取得了显著的性能提升，推动了视频对象分割和图像描述的进展。

🎯

❓

STKET模型将空间-时间知识嵌入多头交叉注意力机制中，显著提升了视频场景图生成性能，mR@50提升了8.1%。

DSGG方法将场景图检测视为图预测问题，通过图感知查询和关系蒸馏策略，显著提高了mR@50和mR@100的性能。

TEMPURA框架通过序列建模学习无偏差关系表示，减少了视觉关系预测的不确定性，提升了场景图生成质量。

CyCo框架连接视觉定位和图像描述，实现协同训练，提升全监督和半弱监督模型的性能。

SceneSayer方法通过神经微分方程分析视频中的时空场景图，预测对象之间的未来关系，提升了关系建模的能力。

CSEGG数据集用于探索现有场景图生成方法在学习新对象时的表现，帮助评估模型对先前对象和关系的保留情况。

🏷️