近期,语义场景理解方面的进展主要得益于具有语义注释的双模态数据集的可用性。我们介绍了WildScenes数据集,包括自然环境下的语义注释和姿态信息,并引入了关于2D和3D语义分割的基准。我们评估了深度学习技术在自然环境中的挑战。该数据集将在2023年发布。
通过研究人类注视和深度神经网络注意力机制之间的相互作用,提出了一种新的注视辅助图像字幕模型,能够改善图像字幕性能,并提高语义场景理解的任务。
本文介绍了基于LiDAR的语义场景理解在自动驾驶感知系统中的重要性,提出了一种基于避免惩罚的解决方案,通过强大的合成流程来近似无限的OOD样本,并在SemanticKITTI和nuScenes上进行了基准测试,取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。