小红花·文摘

本文介绍了一种基于双向关系的两阶段框架，旨在生成结构化的图像语义摘要，以提升类人事件理解。该框架在SWiG基准测试中表现优异，超越了其他方法。同时，SituFormer方法和Grounded Situation Recognition模型在地面情境识别方面也取得了显著进展，展示了其在视觉与语言模型中的应用潜力。