字节Seed的康炳易团队推出Depth Anything 3(DA3),该模型利用单一Transformer实现任意视图的3D重建,提升了相机定位和几何重建的准确性。通过简化架构和核心预测,DA3能够从单图、多图或视频中提取深度和光线信息,展现出强大的性能和广泛的应用潜力。
本研究提出了一种新型密集视觉SLAM方案MBA-SLAM,针对运动模糊图像的挑战,通过集成运动模糊感知跟踪器,显著提高了相机定位精度和地图重建质量。实验结果显示,MBA-SLAM在多个数据集上优于现有方法。
本文探讨了三维室内场景中人类动作预测的建模技术,提出了多种方法以提高动作合成的自然度和多样性,包括异常值感知的相机定位算法、从单图生成新视角的方法,以及基于强化学习的虚拟人类与环境交互技术。同时,引入了新的数据集和基准,推动了室内场景分析的进展。
完成下面两步后,将自动完成登录并继续当前操作。