该编码器-解码器框架解决了自动驾驶车辆中的视觉 grounding 问题,通过多模态解码器集成文本、图像、上下文和跨模态编码器,全面理解口头指令和视觉场景相关性。实证评估显示该模型准确性高、操作效率好,具有强健性和适应性。
本文介绍了一个复杂的编码器-解码器框架,用于解决自动驾驶车辆中的视觉 grounding 问题。CAVG 模型通过多模态解码器集成文本、图像、上下文和跨模态的五个核心编码器,能够全面理解口头指令和视觉场景之间的相关性。实证评估表明,CAVG 在预测准确性和操作效率方面树立了新的标准,并在挑战性场景中展现出了强健性和适应性。
完成下面两步后,将自动完成登录并继续当前操作。