WidthFormer: 高效基于 Transformer 的 BEV 视角转换

通过提出的 WidthFormer 模型，本研究将 Bird's-Eye-View（BEV）3D 检测方法应用于实时自动驾驶应用，其具有计算效率高、有效、无需特殊工程部署等特点，并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息，从而实现生成高质量 BEV 表示的目标。

本研究提出了一种高效的基于BEV的3D检测框架BEVENet，通过仅采用卷积架构设计，克服了ViT模型的局限性，同时保持了BEV方法的有效性。实验证明，BEVENet在NuScenes挑战赛中比当代最先进方法快3倍，同时在NuScenes验证数据集上获得0.456的平均精确度（mAP）和0.555的nuScenes检测分数（NDS），推断速度为47.6帧每秒。突显了BEV方法在实际自动驾驶应用中的可行性提升。

3D检测框架 BEV BEVENet transformer 卷积架构设计自动驾驶应用