该研究提出了一种基于transformer的3D密集描述方法,结合空间感知机制,实现了对3D场景对象的目标检测和自然语言描述生成。该方法在ScanRefer和ReferIt3D数据集上优于基线模型Scan2Cap,并提供了3D密集图像描述的全面综述,包括任务定义、架构分类和未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。