小红花·文摘

该研究提出了一种基于transformer的3D密集描述方法，结合空间感知机制，实现了对3D场景对象的目标检测和自然语言描述生成。该方法在ScanRefer和ReferIt3D数据集上优于基线模型Scan2Cap，并提供了3D密集图像描述的全面综述，包括任务定义、架构分类和未来研究方向。