改善 Transformer 中的深度梯度连续性:以卷积神经网络为基础的单目深度估计的比较研究
原文中文,约500字,阅读约需1分钟。发表于: 。通过对比分析 Transformer 模型和 CNN 在处理 2D 图像中不同区域以及对深度估计性能的影响方面的差异,我们发现 Transformer 在处理全局上下文和复杂纹理方面表现出色,但在保持深度梯度连续性方面落后于 CNN。为了进一步提高 Transformer...
通过对比分析Transformer模型和CNN在处理2D图像中不同区域以及对深度估计性能的影响方面的差异,发现Transformer在处理全局上下文和复杂纹理方面表现出色,但在保持深度梯度连续性方面落后于CNN。为了提高Transformer模型在单目深度估计中的性能,提出了深度梯度精炼(DGR)模块,通过高阶微分、特征融合和重新校准来提升深度估计。利用最优输运理论将深度图像视为空间概率分布,并采用最优输运距离作为损失函数对模型进行优化。实验结果表明,DGR模块和提出的损失函数集成的模型在不增加复杂性和计算成本的情况下提高了性能。这项研究为新的深度估计方法铺平了道路。