视觉语言模型时代的开放集识别
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章讨论了视觉语言模型在开放集识别中的问题,提出了修订定义和评估协议以促进标准化评估和研究。同时,还评估了一些基线方法。
🎯
关键要点
- 视觉语言模型 (VLMs) 不是开放集模型,因其通过有限的查询集引入闭合集假设。
- VLMs 在开放集识别中表现不佳,常错误分类不在查询集中的对象。
- 在高召回率和高精度调优时,VLMs 显示出令人担忧的低精度。
- 简单增加查询集的大小并不能解决问题,反而可能导致性能下降。
- 文章提出了开放集问题的修订定义,建立了新的基准和评估协议。
- 研究旨在促进开放集识别领域的标准化评估和研究。
- 评估了一系列 VLM 分类器和物体检测器的有前景基线方法,基于预测不确定性和专用负向嵌入。
➡️