通过丰富的上下文和区分特征嵌入检索拼接视频

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

COVR是一个用于基于真实图像的组合通用化的新测试平台。它使用场景图注释的实际图像和生成问题答案的过程来创建相关的场景图像集。COVR可以在测试时间零或少量训练数据的情况下进行新概念和组合的通用化。使用COVR构建的组合划分展示了许多情况,其中最先进的预训练语言和视觉模型难以进行组合通用化。

🎯

关键要点

  • COVR是一个用于基于真实图像的组合通用化的新测试平台。
  • COVR使用场景图注释的实际图像和自动生成的问题答案对来创建相关的场景图像集。
  • COVR便于组合划分的生成,支持在测试时间零或少量训练数据的情况下进行新概念和组合的通用化。
  • 使用COVR构建的组合划分展示了许多情况下,最先进的预训练语言和视觉模型难以进行组合通用化。
➡️

继续阅读