小红花·文摘

本文介绍了多种基于视觉-语言模型的3D场景理解方法，包括无标签数据的伪监督训练、视觉-LiDAR融合和新颖的3D预训练方法。这些技术在3D语义分割、物体检测和姿态估计等任务中显著提升了性能，展示了跨模态知识交流和多模态对齐能力。