本研究提出了NuPlanQA-Eval评估基准,旨在提升多模态大型语言模型在驾驶场景理解中的表现。构建了包含100万个视觉问答对的NuPlanQA-1M数据集,发现集成鸟瞰视图特征的模型在多个子任务中表现优异,强调了鸟瞰视图对模型适应性的提升。
本研究提出了MV-MOS模型,通过融合不同2D点云表示中的运动-语义特征,结合鸟瞰视图和范围视图的运动特征,提高了动态物体分割的准确性。
本文介绍了通过多视图聚合在鸟瞰视图中进行跟踪的性能突破,提高了检测和跟踪的准确性。在鸟瞰视图中进行早期融合,学习强大的重新识别特征。
完成下面两步后,将自动完成登录并继续当前操作。