BEV-CLIP: 复杂场景下自动驾驶的多模态 BEV 检索方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了一种多模式Bird's-Eye View(BEV)检索方法BEV-CLIP。它利用描述性文本作为输入来检索相应的场景,并结合语言模型和知识图的信息来提高语义丰富性和嵌入的多样性。在实验中,我们的方法在NuScenes数据集上达到了87.66%的准确率。
🎯
关键要点
-
提出了一种多模式Bird's-Eye View(BEV)检索方法BEV-CLIP。
-
该方法利用描述性文本作为输入来检索相应的场景。
-
通过大型语言模型(LLM)实现零样本检索,提取语义特征。
-
结合知识图的半结构化信息,提高语义丰富性和嵌入的多样性。
-
在NuScenes数据集上,方法达到了87.66%的准确率。
-
示例案例支持该方法有效识别某些长尾场景。
🏷️
标签
➡️