多模态大语言模型驱动的自动驾驶场景测试
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了现有自动驾驶汽车测试方法在生成多样化和通用场景时的不足。提出的OmniTester框架利用多模态大语言模型,能够高效生成逼真且具有挑战性的测试场景。实验表明,该方法在生成高度复杂场景时表现出良好的可控性和现实性,显著提高了自动驾驶汽车的测试效果。
基于多模态大型语言模型的研究进展引起了对自动驾驶代理的兴趣。研究提出了一个全面框架,使用3D MLLM架构和OmniDrive-nuScenes数据集,以改进规划行为。研究结果显示了该框架在复杂3D场景中的有效性和VQA任务的重要性。