深度至关重要：探索RGB-D在交通场景语义分割中的深层交互

该研究解决了RGB-D数据中深度图的空间特性在先前研究中被忽视的问题，导致注意力表征的错误。提出的深度交互金字塔变换器（DiPFormer）通过深度空间感知优化和深度线性交叉注意力的方法，有效提升了道路检测和语义分割任务的性能，显著降低了注意力错位的问题。

DFormer是一种创新的RGB-D预训练框架，通过使用一系列RGB-D块进行编码，将RGB和深度信息编码成可转移的表示，并避免了现有方法中RGB预训练的主干网络对深度图中的三维几何关系进行不匹配的编码问题。该方法在两个RGB-D分割数据集和五个RGB-D显着性数据集上以较低的计算成本实现了最佳性能。

DFormer RGB-D预训练框架可转移的表示最佳性能编码