蚂蚁灵波科技开源了LingBot-Depth模型,提升机器人和自动驾驶的三维视觉能力。该模型利用“掩码深度建模”技术,解决透明和反光物体的深度感知问题,显著提高深度图的完整性和清晰度。
多模态大语言模型(MLLMs)在2D视觉理解方面表现优异,但在3D空间推理上仍存在局限。本文提出了新的监督微调数据集CA-VQA及评估基准,专注于室内场景,展示了其在训练MM-Spatial模型方面的有效性,显著提升了3D空间理解能力,并与专用单目深度估计模型的深度感知能力相当。
本研究提出了Splatter-360框架,解决了实时合成宽基线全景图像新视图的挑战,显著提升了深度感知和几何估计能力,实验结果优于现有方法。
本研究针对家庭场景中操控关节物体的挑战,构建了大规模数据集,提升了深度感知和交互姿势预测的性能,推动了关节物体操控的研究进展。
本文提出了StereoCrafter-Zero框架,通过噪声重启和迭代优化,显著改善了立体视频生成中的深度感知和时序一致性问题。
本文介绍了一个用于6自由度姿态估计的新数据集,包含玩具物品的3D模型和RGBD图像,旨在提升机器人抓取和操控能力。同时,研究提出了新的姿态评估指标ADD-H,并探讨了基于视觉的机器人操作学习和透明物体深度感知的解决方案。
本文介绍了多种基于视觉的手术器械分割和追踪方法,强调深度学习在器械分割中的优势及其临床应用潜力。同时,提出了一种创新的单目视觉SLAM方法,解决了内窥镜手术中的深度感知问题,显著提升了手术的准确性和效率。
该研究提出了一种统一的深度感知无监督域自适应框架,利用源领域的深度信息来提升目标领域的语义分割性能。文章涵盖了无监督领域适应的最新进展,展示了在自动驾驶等场景中的应用效果。
本文研究视频中的重复性问题,采用小波变换处理动态视频,提出三种基本运动类型和18种周期性运动情况。通过QUVA Repetition数据集验证理论,结果优于深度学习方法。同时探讨事件相机技术在深度感知、极化成像和3D动作捕捉中的应用,提出多种新方法和工具,显示出高效性和准确性。
本文提出了一种新颖的深度感知注意力融合网络,通过特定编码器提取色彩和深度信息,并引入深度加权交叉注意力融合模块,动态调整特征图融合权重。实验结果表明,该方法在伪装物体检测中显著优于其他方法,验证了深度信息的重要性。
本研究提出了一种深度感知的单目视觉楼梯建模方法,通过深度传感器获取楼梯表面点云,显著提升了楼梯几何特征的学习效果。同时,利用深度学习模型优化复杂地面的人机行走效果。
完成下面两步后,将自动完成登录并继续当前操作。