小红花·文摘

ClipSitu方法利用CLIP模型预测满足动词关联的名词，并提供全面的场景理解。ClipSitu XTF通过跨注意力Transformer模型建立了语义角色查询和视觉令牌表示之间的连接，表现出卓越性能。还提出了基于动词的角色预测模型，并在生成超领域图像的情境摘要方面展示了准确性。在视频情境识别方面，取得了与最先进方法相当的性能。