增强数据增强的单目深度估计

本研究解决了现有数据集质量不足导致的单目深度估计效果不佳的问题。提出的EDADepth方法结合了Swin2SR超分辨率模型、BEiT语义分割模型及BLIP-2分词器，在不增加额外训练数据的情况下显著提升了输入图像的质量和文本嵌入的提取。该模型在NYUv2和KITTI数据集上的{\delta}3指标达到目前最佳结果，同时在RMSE和REL指标中也表现出与最先进模型相当的水平。

扩散模型是一种生成模型，可用于改善视觉任务，具有文本到图像合成能力。研究发现，自动生成的描述可以提高文本图像对齐和模型的交叉注意力图，从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型，并在跨领域环境中适用于目标检测和分割任务。

单目扩散模型文本到图像合成生成模型知觉性能视觉任务