AYDIV: 可适应的基于集成上下文的视觉 Transformer 的三维物体检测

融合激光雷达和摄像头数据在自动驾驶系统中提高近距离物体检测的潜力，但由于激光雷达稀疏数据和摄像头高分辨率图像之间的对比度差异，融合在远距离检测上遇到困难，该研究引入 AYDIV 框架，通过全局上下文融合对齐变换器（GCFAT）、稀疏融合特征注意力（SFFA）和体积网格注意力（VGA）来改进融合方法，实验结果在 Waymo Open 数据集和 Argoverse2...

该研究通过引入AYDIV框架和多种融合方法，提高了自动驾驶系统中近距离物体检测的效果。实验结果在两个数据集上表现优于其他方法，mAPH值提升1.24%，AP值提升7.40%。

AYDIV框架 transformer 实验结果自动驾驶系统融合方法近距离物体检测