小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了NuPlanQA-Eval评估基准，旨在提升多模态大型语言模型在驾驶场景理解中的表现。构建了包含100万个视觉问答对的NuPlanQA-1M数据集，发现集成鸟瞰视图特征的模型在多个子任务中表现优异，强调了鸟瞰视图对模型适应性的提升。

NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models

BriefGPT - AI 论文速递 ·

本文介绍了通过多视图聚合在鸟瞰视图中进行跟踪的性能突破，提高了检测和跟踪的准确性。在鸟瞰视图中进行早期融合，学习强大的重新识别特征。

EarlyBird：鸟瞰视角多视角追踪中的早期融合

BriefGPT - AI 论文速递 ·