该项目介绍了一种低成本开源的单目三维扫描系统,结合了计算机视觉算法与硬件控制,旨在降低三维扫描技术的使用门槛。系统利用普通工业相机和投影仪,实现高精度三维重建,功能多样,适合研究人员和开发者使用。
本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
本研究针对单目设置中3D多物体追踪面临的挑战,提出了三种创新技术以增强异构线索的融合与利用。提出的匈牙利状态空间模型(HSSM)和全卷积单阶段嵌入(FCOE)等方法,显著提升了物体重识别的准确性和6自由度姿态估计的效果,实现了在KITTI公共测试基准上76.86 HOTA的新性能,展现了对单目3D物体追踪任务的强大有效性。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
本研究解决了单目视频摄像机轨迹重定向的精确控制问题。我们提出了一种新的双流条件视频扩散模型,能够有效整合点云渲染和源视频,确保准确的视图转换和连贯的4D内容生成。实验结果表明,该方法在多视角和大规模单目视频上表现优越,具有广泛的应用潜力。
本研究解决了迷你无人机在复杂环境中高效导航的难题,提出了一种无地图的视觉导航方法,结合实时深度学习门检测和经典视觉控制。实验结果表明,该系统在真实场景中成功完成了门穿越,展示出优良的导航能力和高效的计算性能,具有广泛的应用潜力。
本研究解决了视觉同步定位与地图构建(SLAM)在动态环境、恶劣成像条件等多种环境挑战下表现不佳的问题。论文提出了一个全面的SLAM流程框架,并对几何与深度学习两种框架下的SLAM实施进行了分类与评估。研究结果显示,不同SLAM方法在面临不同条件时的适应性差别,为未来SLAM实施提供了宝贵的改进方向。
本文提出了一种用于海洋环境中无人机深度单目姿态估计的视觉环路仿真环境,解决了传统GPS方法的局限性。通过利用高斯点云技术,构建出一个逼真的3D虚拟环境,从而实现经济有效的无人机飞行测试和验证,提高了视觉控制和估计算法的实用性。
本文解决了基于学习的单目定位中的挑战,提出了VKFPos,这一新方法通过扩展卡尔曼滤波器整合绝对姿态回归(APR)和相对姿态回归(RPR),在变分贝叶斯推断框架下。研究表明,单目定位问题的后验概率可以分解为APR和RPR组件,利用深度学习模型的协方差预测来应对不确定性,从而提升了定位精度。
本文针对从稀疏的二维图像重建高质量三维模型的难题,提出了一种高效的框架,该框架不依赖于深度或匹配模型,利用结构光法(SfM)快速获取粗略相机姿态并进行精细化。研究表明,该方法将训练时间从数小时缩短至数分钟,同时在新视图合成和相机姿态估计方面取得了更高的准确性。
本研究解决了从普通设备拍摄的单目视频中重建可动画的三维高斯头像这一挑战,由于观察限制,导致未观察区域缺乏约束,容易产生伪影。提出的多视图头部扩散模型利用先验信息填补缺失区域,确保在高斯渲染中的视图一致性,其结果在新视图合成中比现有最先进的方法提高了5.34%的SSIM分数。
本文研究了如何从单目视频中合成新视图的问题,尤其是在场景动态和缺乏多视角线索的情况下。提出的SplineGS框架引入了运动自适应样条(MAS)方法,通过少量控制点表示动态3D高斯轨迹,并使用运动自适应控制点修剪(MACP)技术保持动态建模的完整性。实验证明,SplineGS在动态场景的新视图合成质量上显著优于现有方法,并实现了高速渲染。
本研究提出了一种基于概率线索融合的零-shot单目深度估计方法,解决了噪声和相机参数束缚问题。通过自适应融合物体大小和垂直位置线索,实验结果表明该方法在不同自主驾驶数据集上实现了良好的深度估计精度,具有重要的应用潜力。
本研究针对现有二维和三维平面表示的局限性,提出了一种新颖的3D平面表示方法——AlphaTablets。研究通过引入可微分光栅化技术,从单目视频中进行3D平面重建,准确地重建出具有完整表面和明确边界的3D平面,展现了在3D平面重建领域的领先性能和广阔应用前景。
本文研究了自监督单目深度估计(MDE)中缺乏深度尺度信息的问题,提出了一种仅需单目视频数据和相机安装位置的新型度量缩放MDE模型。该方法利用平面视差几何重建场景结构,并在KITTI基准测试中实现了最先进的度量缩放深度预测效果,特别是在复杂的Cityscapes数据集上展现了其有效性和多样性。
本文提出了一种新型自回归模型,作为有效的单目深度估计器,克服了现有方法的局限性。该模型通过不同分辨率的深度图和自回归目标,在KITTI和NYU Depth v2数据集上显著提升了性能,并实现了最佳RMSE,为深度估计提供了新的思路。
本研究解决了在个性化头像建模中,衣物与身体分离不足的问题。提出的GGAvatar模型通过单目视频和独特的分阶段训练,能够实现衣物与人体的解耦和真实重建,展示了在服装编辑中的应用潜力。实验证明,该模型在质量和效率上优于其他复杂模型。
本研究解决了单目3D物体检测中深度估计的不确定性问题,提出了一种基于Transformer的MonoDGP方法,通过引入与视角无关的几何误差改进投影公式。该方法通过解耦深度引导解码器,使其仅依赖于视觉特征,从而有效提高3D检测的准确性,并在KITTI基准测试中展示了最先进的性能。
本研究针对单目开放域图像的3D几何恢复问题,提出了一种新颖的模型MoGe。该模型通过采用不受全局尺度和偏移影响的仿射不变表示,从单幅图像直接预测3D点图,使训练监督更加明确,从而提升几何学习的效果。实验证明,MoGe在各种未见数据集上显著超越了现有最先进的方法,展现出较强的泛化能力和高精确度。
完成下面两步后,将自动完成登录并继续当前操作。