利用远程车辆的车载大语言模型补充自车视野
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该编码器-解码器框架解决了自动驾驶车辆中的视觉 grounding 问题,通过多模态解码器集成文本、图像、上下文和跨模态编码器,全面理解口头指令和视觉场景相关性。实证评估显示该模型准确性高、操作效率好,具有强健性和适应性。
🎯
关键要点
- 自动驾驶车辆中准确识别指挥者意图和执行语言指令是一个巨大挑战。
- 提出了一个复杂的编码器-解码器框架,解决视觉 grounding 问题。
- Context-Aware Visual Grounding (CAVG) 模型集成了文本、图像、上下文和跨模态的五个核心编码器。
- 模型通过多头跨模态注意力机制和区域特定动态层高效处理跨模态输入。
- CAVG 在 Talk2Car 数据集上的实证评估显示其预测准确性和操作效率达到新标准。
- 即使在有限训练数据下,CAVG 仍表现出色,显示其在实际应用中的潜力。
- CAVG 在长文本命令、低光条件、模糊上下文、恶劣天气和城市环境中展现强健性和适应性。
- 模型代码可在 Github 上获取。
➡️