DEF-oriCORN:无演示的鲁棒性语言引导操控的高效三维场景理解
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了 DEF-oriCORN,这是一个面向语言引导的操控任务的框架,通过利用一种新颖的基于对象的场景表示和扩散模型的状态估计算法,我们的框架能够在回应口头指令时实现高效且稳健的操控规划,即使在摄像机视野稀疏且环境密集的情况下,也不需要任何演示。与传统的表示方式不同,我们的表示方式提供了高效的碰撞检查和语言落地。与最先进的基线模型相比,在稀疏的 RGB...
DEF-oriCORN是一个面向语言引导的操控任务的框架,通过利用新颖的场景表示和状态估计算法,实现高效且稳健的操控规划。DEF-oriCORN在稀疏的RGB图像上表现出优越的估计和运动规划性能,并能够零样本推广到现实场景。