本文介绍了一种基于双向关系的两阶段框架,旨在生成结构化的图像语义摘要,以提升类人事件理解。该框架在SWiG基准测试中表现优异,超越了其他方法。同时,SituFormer方法和Grounded Situation Recognition模型在地面情境识别方面也取得了显著进展,展示了其在视觉与语言模型中的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。