评估 VLMs 用于基于分数的、多探针注释三维物体
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种方法来边际化通过 VLM 查询变化的任何因素,利用采样响应的 VLM 分数。我们展示了这种概率整合可以在摘要中胜过语言模型(如 GPT4),避免了在响应之间存在对比细节时的幻觉。此外,我们展示了聚合注释对于 Prompt-Chaining 是有用的;它们有助于改进下游 VLM...
我们提出了一种方法来边际化通过VLM查询变化的任何因素,利用采样响应的VLM分数。我们展示了这种概率整合可以在摘要中胜过语言模型,避免了在响应之间存在对比细节时的幻觉。此外,我们展示了聚合注释对于Prompt-Chaining是有用的;它们有助于改进下游VLM的预测,例如当在提示中将对象类型指定为辅助输入时,提高了对物体材料的预测质量。利用这些评估,我们展示了VLM可以在大规模Objaverse数据集上接近人工验证的类型和材料注释的质量,而无需额外的训练或上下文学习。