如何构建一个同时具备聊天和决策能力的预训练多模态模型?
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了现有大规模预训练模型在文本生成与动作决策之间的局限性,提出了一种新的模型架构VLA4CD,能够在动态开放场景中同时提供语言交互和精准决策能力。通过利用LoRA对多模态数据进行微调,VLA4CD在复杂的自主驾驶任务中展示了其卓越性能,相比于现有的VLA模型,能够实现更为准确的实时决策。
研究评估了多模态大型语言模型在自动驾驶中的应用,发现其在动态驾驶环境中的推理和解释能力不足。通过DriveSim模拟器生成多样化驾驶情景,实验评估了这些模型作为驾驶世界模型的能力,并提供了开源代码和新数据集“Eval-LLM-Drive”。结果显示,当前模型在真实动态环境中的应用存在重要差距,需要改进以提高适用性。