视觉语言模型时代的开放集识别

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章讨论了视觉语言模型在开放集识别中的问题,提出了修订定义和评估协议以促进标准化评估和研究。同时,还评估了一些基线方法。

🎯

关键要点

  • 视觉语言模型 (VLMs) 不是开放集模型,因其通过有限的查询集引入闭合集假设。
  • VLMs 在开放集识别中表现不佳,常错误分类不在查询集中的对象。
  • 在高召回率和高精度调优时,VLMs 显示出令人担忧的低精度。
  • 简单增加查询集的大小并不能解决问题,反而可能导致性能下降。
  • 文章提出了开放集问题的修订定义,建立了新的基准和评估协议。
  • 研究旨在促进开放集识别领域的标准化评估和研究。
  • 评估了一系列 VLM 分类器和物体检测器的有前景基线方法,基于预测不确定性和专用负向嵌入。
➡️

继续阅读