PViT-6D:使用置信水平预测和姿态令牌超频视觉变换器的 6D 位姿估计

原文约400字,阅读约需1分钟。发表于:

我们的研究将 6D 姿态估计问题转化为直接的回归任务,利用 Vision Transformers 的能力进行探索,通过对分类标记的定制使用来进行姿态估计。我们还引入了一种简单的方法来确定姿态的置信度,这可以很容易地集成到大多数 6D 姿态估计框架中。我们的方法 PViT-6D 在实现简单和端到端可学习的同时,表现优于当前最先进方法,在 Linemod-Occlusion 数据集上提高 0.3% ADD (-S),在 YCB-V 数据集上提高 2.7% ADD (-S)。此外,我们的方法提高了模型的可解释性和推理性能的可靠性。

研究将6D姿态估计问题转化为回归任务,利用Vision Transformers进行探索,并引入了确定姿态置信度的简单方法。方法PViT-6D在Linemod-Occlusion和YCB-V数据集上表现优于最先进方法,提高了可解释性和推理性能的可靠性。

相关推荐 去reddit讨论