Transcrib3D是一种结合了3D检测和大型语言模型的方法,能够解释机器人在3D环境中的物体的自然语言指示。该方法通过使用文本作为统一介质,避免了需要大量注释3D数据的学习连接多模态输入的共享表示的需求。它在3D参考解析基准上取得了最先进的结果,并通过自我校正方法进行微调,使得性能接近于大模型的性能。该方法使真实的机器人能够在具有挑战性的指代表达的查询下进行拾取和放置任务。
完成下面两步后,将自动完成登录并继续当前操作。