本研究提出VLM-E2E框架,旨在解决现有自主驾驶系统在复杂环境中无法有效利用语义信息的问题。该方法通过融合视觉语言模型与文本表示,提高了语义监督,模拟人类驾驶行为,并在nuScenes数据集上显著提升了性能。
完成下面两步后,将自动完成登录并继续当前操作。