GigaBrain-0是一种新型视觉-语言-动作(VLA)模型,旨在通过整合视觉输入、自然语言指令和运动控制,提升机器人在多样环境中的操作能力。该模型利用生成的数据,降低对真实世界数据的依赖,提高泛化能力和数据效率。GigaBrain-0采用混合架构,增强空间感知能力,并通过生成中间推理步骤,模拟人类问题解决过程,实现更精确的操作和决策。
本文提出了GeoFlow-SLAM,一种针对动态环境的RGBD-惯性SLAM方法。通过结合几何一致性和四足里程计约束,显著提升了特征匹配效果,改善了传统SLAM在纹理稀缺环境中的表现,并在多个公开数据集上取得最佳结果。
本研究提出了SurgSora框架,旨在解决现有医疗视频生成模型在可控性和真实性方面的不足。该框架通过三个模块实现手术视频的精确控制,实验结果表明其优于现有方法,具有推动医疗教育和研究的潜力。
本研究提出了FloorNet算法,利用深度神经网络技术重建室内地图,通过RGBD流图像数据提取特征,提升室内平面图重建的准确性,并探讨了多种方法解决房间布局重建问题,显著提高了重建质量和性能。
使用单个低成本 RGBD 摄像头的生物力学方法,可提供高精度的上肢运动学重建和全面上肢生物力学研究的潜力。
本文介绍了一种新型点云配准算法,通过多尺度双向融合实现更准确的对应估计,显著提升了在ScanNet和3DMatch数据集上的性能,尤其在室内外场景中表现优异。
本文介绍了一种名为GS-SLAM的算法,该算法首次在SLAM系统中应用3D高斯表示,提升了效率与准确性。GS-SLAM通过自适应扩张策略重构场景几何并优化相机姿态,在多个数据集上表现出竞争力,实现了高质量的3D重建和语义分割,具备实时渲染能力,推动了SLAM技术的发展。
本文介绍了基于去噪扩散概率模型的深度估计技术,如MonoDiffusion和RenderDiffusion。这些模型通过自监督学习和合成数据,提高了深度估计的准确性和鲁棒性,尤其在KITTI和Make3D数据集上表现突出。此外,研究还探讨了其在虚拟现实和增强现实中的应用潜力。
本文介绍了一种从野外拍摄的单目RGB视频学习高质量隐式三维头像的方法,通过参数化人脸模型驱动头像,实现用户控制的面部表情和头部姿态。该方法结合几何先验、3DMM的动态跟踪和神经辐射场,实现细粒度控制和光线真实感。实验结果表明,该方法能够重建高质量的头像,具有更准确的表情依赖细节,并在训练之外的表情和数量上具有优秀的渲染效果。
完成下面两步后,将自动完成登录并继续当前操作。