评估 VLMs 用于基于分数的、多探针注释三维物体

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

我们提出了一种方法来边际化通过VLM查询变化的任何因素,利用采样响应的VLM分数。我们展示了这种概率整合可以在摘要中胜过语言模型,避免了在响应之间存在对比细节时的幻觉。此外,我们展示了聚合注释对于Prompt-Chaining是有用的;它们有助于改进下游VLM的预测,例如当在提示中将对象类型指定为辅助输入时,提高了对物体材料的预测质量。利用这些评估,我们展示了VLM可以在大规模Objaverse数据集上接近人工验证的类型和材料注释的质量,而无需额外的训练或上下文学习。

🎯

关键要点

  • 提出了一种方法来边际化通过VLM查询变化的因素,利用采样响应的VLM分数。
  • 这种概率整合在摘要中胜过语言模型,避免了对比细节时的幻觉。
  • 聚合注释对于Prompt-Chaining是有用的,能改进下游VLM的预测。
  • 在提示中将对象类型指定为辅助输入时,提高了对物体材料的预测质量。
  • VLM在大规模Objaverse数据集上接近人工验证的类型和材料注释的质量,无需额外的训练或上下文学习。
➡️

继续阅读