蚂蚁灵波科技开源了LingBot-Depth模型,提升机器人和自动驾驶的三维视觉能力。该模型利用“掩码深度建模”技术,解决透明和反光物体的深度感知问题,显著提高深度图的完整性和清晰度。
多模态大语言模型(MLLMs)在2D视觉理解方面表现优异,但在3D空间推理上仍存在局限。本文提出了新的监督微调数据集CA-VQA及评估基准,专注于室内场景,展示了其在训练MM-Spatial模型方面的有效性,显著提升了3D空间理解能力,并与专用单目深度估计模型的深度感知能力相当。
本研究提出了Splatter-360框架,解决了实时合成宽基线全景图像新视图的挑战,显著提升了深度感知和几何估计能力,实验结果优于现有方法。
本研究针对家庭场景中操控关节物体的挑战,构建了大规模数据集,提升了深度感知和交互姿势预测的性能,推动了关节物体操控的研究进展。
本文提出了StereoCrafter-Zero框架,通过噪声重启和迭代优化,显著改善了立体视频生成中的深度感知和时序一致性问题。
本研究评估了17个视觉语言模型,发现它们在深度和高度感知方面存在挑战,并提供了增强几何理解能力的方向。
该研究介绍了一种新的基于深度感知的隐蔽目标检测模型(DSAM),通过利用深度特征与RGB特征的互补性,DSAM实现了精确的分割和纠正错误部分,同时探索深度视角以精确分割高度伪装目标。DSAM在隐蔽目标检测方面取得了卓越的性能,并以更少的训练资源消耗达到了当前最先进的状态。
该研究提出了一种基于深度学习的鲁棒SLAM方法,解决了内窥镜手术中的深度感知和器械操作挑战。该方法在三种不同场景中展示了其鲁棒性和潜在改进内窥镜手术精度和效率的能力。
该研究介绍了一种新的基于深度感知的隐蔽目标检测模型(DSAM),通过利用深度特征与RGB特征的互补性,DSAM实现了精确的分割和纠正错误部分,同时探索深度视角精确分割高度伪装目标。DSAM在隐蔽目标检测方面取得了卓越的性能,并以更少的训练资源消耗达到了当前最先进的状态。
完成下面两步后,将自动完成登录并继续当前操作。