该项目介绍了一种低成本开源的单目三维扫描系统,结合了计算机视觉算法与硬件控制,旨在降低三维扫描技术的使用门槛。系统利用普通工业相机和投影仪,实现高精度三维重建,功能多样,适合研究人员和开发者使用。
本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。
该研究在YOLOv8框架中引入新技术,提升了对多尺度、小型和远程物体的检测准确率,达65%。
该研究提出了一种基于前视单目相机的无人机自主着陆方法,通过强化学习算法优化高度和深度估计,展示了其经济有效的着陆潜力。
本文提出了一种自监督学习方案,解决无人机在无GPS环境下的自我运动估计问题,特别是在高速飞行和接近障碍物时。通过训练神经网络并改进遮挡处理,显著提升了运动估计的准确性。
本研究针对单目设置中3D多物体追踪面临的挑战,提出了三种创新技术以增强异构线索的融合与利用。提出的匈牙利状态空间模型(HSSM)和全卷积单阶段嵌入(FCOE)等方法,显著提升了物体重识别的准确性和6自由度姿态估计的效果,实现了在KITTI公共测试基准上76.86 HOTA的新性能,展现了对单目3D物体追踪任务的强大有效性。
本研究提出了一种可扩展的单目视频三维重建系统,有效提升了乒乓球预测系统的性能。实验结果显示,在高速击球情况下,回球率从49.9%提高至59.0%。
本研究提出了一种仅使用RGB图像生成目标解剖结构的3D映射流程,满足手术自动化中的引导和理解需求。结果表明,该流程在某些情况下优于RGB-D摄像头,展示了单目相机在微创手术中的应用潜力。
本研究解决了单目视频摄像机轨迹重定向的精确控制问题。我们提出了一种新的双流条件视频扩散模型,能够有效整合点云渲染和源视频,确保准确的视图转换和连贯的4D内容生成。实验结果表明,该方法在多视角和大规模单目视频上表现优越,具有广泛的应用潜力。
本研究解决了迷你无人机在复杂环境中高效导航的难题,提出了一种无地图的视觉导航方法,结合实时深度学习门检测和经典视觉控制。实验结果表明,该系统在真实场景中成功完成了门穿越,展示出优良的导航能力和高效的计算性能,具有广泛的应用潜力。
本研究提出了一种上下文感知的弱监督方法CA-W3D,解决了弱监督单目3D检测中全局上下文捕捉不足的问题。通过区域级物体对比匹配和伪标签训练,显著提升了模型对场景特征的理解,实验结果表明该方法优于现有技术。
本研究解决了视觉同步定位与地图构建(SLAM)在动态环境、恶劣成像条件等多种环境挑战下表现不佳的问题。论文提出了一个全面的SLAM流程框架,并对几何与深度学习两种框架下的SLAM实施进行了分类与评估。研究结果显示,不同SLAM方法在面临不同条件时的适应性差别,为未来SLAM实施提供了宝贵的改进方向。
本文提出了一种用于海洋环境中无人机深度单目姿态估计的视觉环路仿真环境,解决了传统GPS方法的局限性。通过利用高斯点云技术,构建出一个逼真的3D虚拟环境,从而实现经济有效的无人机飞行测试和验证,提高了视觉控制和估计算法的实用性。
本文解决了基于学习的单目定位中的挑战,提出了VKFPos,这一新方法通过扩展卡尔曼滤波器整合绝对姿态回归(APR)和相对姿态回归(RPR),在变分贝叶斯推断框架下。研究表明,单目定位问题的后验概率可以分解为APR和RPR组件,利用深度学习模型的协方差预测来应对不确定性,从而提升了定位精度。
本研究将五种不确定性量化方法与DepthAnythingV2模型结合,通过高斯负对数似然损失微调,提高单目深度估计的可靠性和效率。
本文针对从稀疏的二维图像重建高质量三维模型的难题,提出了一种高效的框架,该框架不依赖于深度或匹配模型,利用结构光法(SfM)快速获取粗略相机姿态并进行精细化。研究表明,该方法将训练时间从数小时缩短至数分钟,同时在新视图合成和相机姿态估计方面取得了更高的准确性。
该研究提出了一种新方法V$^2$-SfMLearner,通过结合振动信号与视觉信号,解决胶囊内窥镜视频中的振动干扰问题,从而提高运动估计的准确性,具有临床应用潜力。
本研究解决了从普通设备拍摄的单目视频中重建可动画的三维高斯头像这一挑战,由于观察限制,导致未观察区域缺乏约束,容易产生伪影。提出的多视图头部扩散模型利用先验信息填补缺失区域,确保在高斯渲染中的视图一致性,其结果在新视图合成中比现有最先进的方法提高了5.34%的SSIM分数。
完成下面两步后,将自动完成登录并继续当前操作。