ClipSitu方法利用CLIP模型预测满足动词关联的名词,并提供全面的场景理解。ClipSitu XTF通过跨注意力Transformer模型建立了语义角色查询和视觉令牌表示之间的连接,表现出卓越性能。还提出了基于动词的角色预测模型,并在生成超领域图像的情境摘要方面展示了准确性。在视频情境识别方面,取得了与最先进方法相当的性能。
完成下面两步后,将自动完成登录并继续当前操作。