高分辨率开放词汇对象 6D 姿态估计

Horyon 是一种基于开放词汇量的 Vision-Language Model 架构，通过使用自然语言描述来解决视觉中六维位姿估计任务中未见过对象之间的相对位姿估计问题，并在四个数据集上实现了最先进的性能，优于之前的方法。

我们提出了一种方法来边际化通过VLM查询变化的任何因素，利用采样响应的VLM分数。我们展示了这种概率整合可以在摘要中胜过语言模型（如GPT4），避免了在响应之间存在对比细节时的幻觉。此外，我们展示了聚合注释对于Prompt-Chaining是有用的；它们有助于改进下游VLM的预测，例如当在提示中将对象类型指定为辅助输入时，提高了对物体材料的预测质量。利用这些评估，我们展示了VLM可以在大规模Objaverse数据集上接近人工验证的类型和材料注释的质量，而无需额外的训练或上下文学习。

Objaverse数据集 VLM 概率整合聚合注释语言模型