本研究提出了一种新颖的基于图的框架,能够从未校准的多视角图像中自动提取语义对象并生成二维地图,解决了手动标注效率低和准确性差的问题。在强视角变化下,该方法仍能保持4米以内的平均精度。
本文研究了使用对比式语言 - 图像预训练框架 (CLIP) 在一组图像中共同分割共同语义对象的任务。通过优化图像集的全局一致语义信息和引导CLIP朝向共同分割任务,我们的方法在实验证明性能优于最先进的方法。
完成下面两步后,将自动完成登录并继续当前操作。