本研究提出了NuPlanQA-Eval评估基准,旨在提升多模态大型语言模型在驾驶场景理解中的表现。构建了包含100万个视觉问答对的NuPlanQA-1M数据集,发现集成鸟瞰视图特征的模型在多个子任务中表现优异,强调了鸟瞰视图对模型适应性的提升。
本研究针对驾驶场景中的认知与决策问题,优化训练了多模态模型InternVL-2.0,显著提升了任务协调能力,获得0.6064分,赢得比赛一等奖。
本研究提出了一种图像事件融合点跟踪器FE-TAP,解决了高速场景下基于图像帧的任意点跟踪的不稳定性和有限泛化能力的问题。实验结果显示,该方法在真实驾驶场景中表现优越。
本文介绍了一个国际性对抗合作运动数据集(INTERACTION),用于研究驾驶场景中的行为预测和建模。研究者利用图神经网络等方法提出多种模型,以提高车辆未来动向的预测准确性和效率,为自动驾驶技术的发展提供了重要支持。
GAIA-1是一个生成性世界模型,利用视频、文本和动作输入生成逼真的驾驶场景,提供对自我车辆行为和场景特征的细粒度控制,解决了自动驾驶中预测结果的挑战。该模型创新了自动驾驶技术,实现了增强和加速训练。
本论文介绍了奖励增强模仿学习(RAIL)方法,将奖励增强集成到多智能体模仿学习框架中,允许设计者以原则性方式指定先前的知识。该方法在驾驶场景中验证,并在复杂的多智能体设置中展示了单个智能体的局部行动和出现性质的行为性能提高。
DriveSceneGen是一种数据驱动的驾驶场景生成方法,能够高保真度和多样性生成新型驾驶场景。实验结果表明,DriveSceneGen具有生成质量、多样性和可扩展性等优点。
完成下面两步后,将自动完成登录并继续当前操作。