FM-Fusion: 基于视觉 - 语言基础模型的实例感知语义映射增强
原文中文,约300字,阅读约需1分钟。发表于: 。基于视觉 - 语言基础模型,本研究提出了一种概率标签融合方法,用于从开放集标签测量中预测闭合集语义类别,以增强基于实例感知的语义映射;通过整合各模块构建一个统一的语义映射系统,并通过 ScanNet 和 SceneNN 数据集评估了方法的零样本性能,取得了显著优于传统方法的 40.3 均值平均精度(mAP)的结果。
该论文介绍了一种名为Bridge3D的创新方法,通过预训练使用基础模型的特征、语义掩码和说明来增强3D场景表示学习。该方法在3D对象检测和语义分割任务中优于现有方法,在ScanNet数据集上的最佳结果超过之前的最优方法PiMAE 5.3%。