本研究提出了NuPlanQA-Eval评估基准,旨在提升多模态大型语言模型在驾驶场景理解中的表现。构建了包含100万个视觉问答对的NuPlanQA-1M数据集,发现集成鸟瞰视图特征的模型在多个子任务中表现优异,强调了鸟瞰视图对模型适应性的提升。
本研究针对驾驶场景中的认知与决策问题,优化训练了多模态模型InternVL-2.0,显著提升了任务协调能力,获得0.6064分,赢得比赛一等奖。
本研究提出了一种图像事件融合点跟踪器FE-TAP,解决了高速场景下基于图像帧的任意点跟踪的不稳定性和有限泛化能力的问题。实验结果显示,该方法在真实驾驶场景中表现优越。
本文介绍了一个国际性对抗合作运动数据集(INTERACTION),用于研究驾驶场景中的行为预测和建模。研究者利用图神经网络等方法提出多种模型,以提高车辆未来动向的预测准确性和效率,为自动驾驶技术的发展提供了重要支持。
本文提出了一种基于STD方法的图像特征三角描述符(IFTD),用于提高驾驶场景中地点识别的效率和准确性。通过从点云的BEV投影图像中提取关键点并构造三角描述符,实现了精确的地点识别和位姿估计。实验结果表明,IFTD具有更强的稳健性和准确性,计算开销较低。
SAM4UDASS是一种结合SAM和自训练的无监督域自适应方法的新颖驾驶场景语义分割方法。经实验证明其有效性,mIoU提升超过3%,达到SOTA水平。
本文提出了一个统一的视频任务评估方法,包括字幕、问答、检索和行动识别。基于 GPT 的评估方法在多个方面与人类表现相似,同时展示了一种优于现有方法的基准方法 Video-LLaVA。实际驾驶场景中评估视频 LLMs 的有效性,展示了令人鼓舞的识别和推理能力。希望该工作能为视频 LLMs 提供统一评估方法,并扩展实际应用场景。
GAIA-1是一个生成性世界模型,利用视频、文本和动作输入生成逼真的驾驶场景,提供对自我车辆行为和场景特征的细粒度控制,解决了自动驾驶中预测结果的挑战。该模型创新了自动驾驶技术,实现了增强和加速训练。
本论文介绍了奖励增强模仿学习(RAIL)方法,将奖励增强集成到多智能体模仿学习框架中,允许设计者以原则性方式指定先前的知识。该方法在驾驶场景中验证,并在复杂的多智能体设置中展示了单个智能体的局部行动和出现性质的行为性能提高。
DriveSceneGen是一种数据驱动的驾驶场景生成方法,能够高保真度和多样性生成新型驾驶场景。实验结果表明,DriveSceneGen具有生成质量、多样性和可扩展性等优点。
完成下面两步后,将自动完成登录并继续当前操作。