该项目介绍了一种低成本开源的单目三维扫描系统,结合了计算机视觉算法与硬件控制,旨在降低三维扫描技术的使用门槛。系统利用普通工业相机和投影仪,实现高精度三维重建,功能多样,适合研究人员和开发者使用。
本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
本研究针对单目设置中3D多物体追踪面临的挑战,提出了三种创新技术以增强异构线索的融合与利用。提出的匈牙利状态空间模型(HSSM)和全卷积单阶段嵌入(FCOE)等方法,显著提升了物体重识别的准确性和6自由度姿态估计的效果,实现了在KITTI公共测试基准上76.86 HOTA的新性能,展现了对单目3D物体追踪任务的强大有效性。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
本研究解决了单目视频摄像机轨迹重定向的精确控制问题。我们提出了一种新的双流条件视频扩散模型,能够有效整合点云渲染和源视频,确保准确的视图转换和连贯的4D内容生成。实验结果表明,该方法在多视角和大规模单目视频上表现优越,具有广泛的应用潜力。
本研究解决了迷你无人机在复杂环境中高效导航的难题,提出了一种无地图的视觉导航方法,结合实时深度学习门检测和经典视觉控制。实验结果表明,该系统在真实场景中成功完成了门穿越,展示出优良的导航能力和高效的计算性能,具有广泛的应用潜力。
本研究解决了视觉同步定位与地图构建(SLAM)在动态环境、恶劣成像条件等多种环境挑战下表现不佳的问题。论文提出了一个全面的SLAM流程框架,并对几何与深度学习两种框架下的SLAM实施进行了分类与评估。研究结果显示,不同SLAM方法在面临不同条件时的适应性差别,为未来SLAM实施提供了宝贵的改进方向。
本文提出了一种用于海洋环境中无人机深度单目姿态估计的视觉环路仿真环境,解决了传统GPS方法的局限性。通过利用高斯点云技术,构建出一个逼真的3D虚拟环境,从而实现经济有效的无人机飞行测试和验证,提高了视觉控制和估计算法的实用性。
本文解决了基于学习的单目定位中的挑战,提出了VKFPos,这一新方法通过扩展卡尔曼滤波器整合绝对姿态回归(APR)和相对姿态回归(RPR),在变分贝叶斯推断框架下。研究表明,单目定位问题的后验概率可以分解为APR和RPR组件,利用深度学习模型的协方差预测来应对不确定性,从而提升了定位精度。
本研究将五种不确定性量化方法与DepthAnythingV2模型结合,通过高斯负对数似然损失微调,提高单目深度估计的可靠性和效率。
本文针对从稀疏的二维图像重建高质量三维模型的难题,提出了一种高效的框架,该框架不依赖于深度或匹配模型,利用结构光法(SfM)快速获取粗略相机姿态并进行精细化。研究表明,该方法将训练时间从数小时缩短至数分钟,同时在新视图合成和相机姿态估计方面取得了更高的准确性。
该研究提出了一种新方法V$^2$-SfMLearner,通过结合振动信号与视觉信号,解决胶囊内窥镜视频中的振动干扰问题,从而提高运动估计的准确性,具有临床应用潜力。
本研究解决了从普通设备拍摄的单目视频中重建可动画的三维高斯头像这一挑战,由于观察限制,导致未观察区域缺乏约束,容易产生伪影。提出的多视图头部扩散模型利用先验信息填补缺失区域,确保在高斯渲染中的视图一致性,其结果在新视图合成中比现有最先进的方法提高了5.34%的SSIM分数。
本文研究了如何从单目视频中合成新视图的问题,尤其是在场景动态和缺乏多视角线索的情况下。提出的SplineGS框架引入了运动自适应样条(MAS)方法,通过少量控制点表示动态3D高斯轨迹,并使用运动自适应控制点修剪(MACP)技术保持动态建模的完整性。实验证明,SplineGS在动态场景的新视图合成质量上显著优于现有方法,并实现了高速渲染。
本研究提出了一种新颖高效的单目RGB SLAM系统SLAM3R,旨在实现实时高质量的稠密3D重建,具有优越的重建精度和完整性。
本研究提出了一种新的4D高斯散射框架Deblur4DGS,旨在提升现有4D重建方法在模糊视频处理中的效果。通过将动态表示的估计转化为曝光时间的估计,实验证明该方法优于现有技术,具有广泛的应用潜力。
本研究针对资源受限机器人实时学习的计算效率问题,通过优化对比最大化学习流程,提升了事件基础深度估计任务的时间和内存效率,并验证了所学深度在障碍物避免中的有效性。
本研究提出了一种新方法,解决单目深度估计中的噪声和相机参数束缚问题,提升了跨数据集的泛化能力。实验结果表明,该方法在自主驾驶数据集上的深度估计精度与现有方法相当。
本研究针对现有二维和三维平面表示的局限性,提出了一种新颖的3D平面表示方法——AlphaTablets。研究通过引入可微分光栅化技术,从单目视频中进行3D平面重建,准确地重建出具有完整表面和明确边界的3D平面,展现了在3D平面重建领域的领先性能和广阔应用前景。
完成下面两步后,将自动完成登录并继续当前操作。