WidthFormer: 高效基于 Transformer 的 BEV 视角转换
原文中文,约400字,阅读约需1分钟。发表于: 。通过提出的 WidthFormer 模型,本研究将 Bird's-Eye-View(BEV)3D 检测方法应用于实时自动驾驶应用,其具有计算效率高、有效、无需特殊工程部署等特点,并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息,从而实现生成高质量 BEV 表示的目标。
本研究提出了一种高效的基于BEV的3D检测框架BEVENet,通过仅采用卷积架构设计,克服了ViT模型的局限性,同时保持了BEV方法的有效性。实验证明,BEVENet在NuScenes挑战赛中比当代最先进方法快3倍,同时在NuScenes验证数据集上获得0.456的平均精确度(mAP)和0.555的nuScenes检测分数(NDS),推断速度为47.6帧每秒。突显了BEV方法在实际自动驾驶应用中的可行性提升。