BEV-CLIP: 复杂场景下自动驾驶的多模态 BEV 检索方法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们提出了一种多模式Bird's-Eye View(BEV)检索方法BEV-CLIP。它利用描述性文本作为输入来检索相应的场景,并结合语言模型和知识图的信息来提高语义丰富性和嵌入的多样性。在实验中,我们的方法在NuScenes数据集上达到了87.66%的准确率。

🎯

关键要点

  • 提出了一种多模式Bird's-Eye View(BEV)检索方法BEV-CLIP。

  • 该方法利用描述性文本作为输入来检索相应的场景。

  • 通过大型语言模型(LLM)实现零样本检索,提取语义特征。

  • 结合知识图的半结构化信息,提高语义丰富性和嵌入的多样性。

  • 在NuScenes数据集上,方法达到了87.66%的准确率。

  • 示例案例支持该方法有效识别某些长尾场景。

🏷️

标签

➡️

继续阅读