迷你驱动:通过多层2D特征作为文本标记提升自主驾驶的视觉-语言模型效率
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对现有视觉-语言模型在自主驾驶中的高计算成本和缺乏处理多图像能力的问题,提出了迷你驱动(MiniDrive)框架。该框架利用特征工程专家混合(FE-MoE)模块和动态指令适配器(DI-Adapter),显著提高了模型的响应效率和性能,最小版本参数仅为83M。此工作为自主驾驶系统的实际应用提供了更高效的解决方案。
CODA-LM是一个用于自动驾驶的新兴视觉-语言基准测试,通过利用文本评估LVLM在自动驾驶场景中的能力,并揭示了与人类偏好的一致性。商用LVLM在处理路上的特殊情况时表现不佳,需要改进。希望CODA-LM能推动未来发展。