VELOCITI:视频语言模型能否通过时间连接语义概念?

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

VELOCITI是用于测试视频语言模型的新基准,结果显示当前最先进的模型在感知测试上表现良好,但在绑定测试上准确性接近随机,表明它们在绑定测试中失败。

🎯

关键要点

  • VELOCITI是用于测试视频语言模型的新基准。
  • VELOCITI基于复杂电影剪辑和密集的语义角色标签注释。
  • 当前最先进的模型在感知测试上表现良好。
  • 在绑定测试中,模型的准确性接近随机。
  • 这表明当前模型在绑定测试中失败。
➡️

继续阅读