本研究通过训练紧凑的卷积解码器和微小可学习的嵌入矩阵,将视觉-语言基础模型的先验知识推广到学习预训练期间具有挑战性的领域,提高了单目深度估计的性能,并通过实验证明了所提出的方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。