小红花·文摘

本文介绍了一个复杂的编码器-解码器框架，用于解决自动驾驶车辆中的视觉 grounding 问题。CAVG 模型通过多模态解码器集成文本、图像、上下文和跨模态的五个核心编码器，能够全面理解口头指令和视觉场景之间的相关性。实证评估表明，CAVG 在预测准确性和操作效率方面树立了新的标准，并在挑战性场景中展现出了强健性和适应性。