本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。
长沙具身团队正在扩招,分为三个项目组,专注于电源、USB插拔及人形机器人技术。CLONE系统通过闭环遥操作解决了人形机器人长时任务中的位置反馈问题,提升了人机协作能力。
本研究提出了一种基于课程学习的单目视觉里程计模型,旨在解决几何问题并提升性能。实验结果表明,该模型在复杂环境中的表现优于现有方法,验证了课程学习在视觉里程计中的有效性。
本文介绍了一种新方法,通过将场景分为静态背景和动态前景,排除动态元素,并扩展八叉树结构以支持多分辨率表示,解决了激光雷达在动态户外环境中定位与建图效果不佳的问题。该方法在多个数据集上表现优于现有技术。
本研究提出了一种名为ORB-SfMLearner的自监督视觉里程计方法,利用ORB特征进行自我运动估计,提高结果的稳健性和准确性。该方法在KITTI和vKITTI数据集上的表现优于现有的深度视觉里程计方法。
本研究针对深度视觉惯性里程计中位姿估计精度不足的问题,提出了一种因果视觉惯性融合变换器(VIFT)。该方法通过利用变换器的注意力机制来更好地利用历史数据,从而改善位姿估计的准确性,实验结果表明,VIFT在KITTI数据集上相较于传统方法显著提高了单目视觉惯性网络的精度。
本研究解决了视觉里程计系统在光照变化显著环境中图像质量下降的问题。通过深度强化学习框架训练代理进行曝光控制,显著提升了在挑战性条件下的成像性能。研究表明,所提出的方法使视觉里程计系统在精度和稳定性上优于传统的反馈控制方案。
本文探讨了深度学习和计算机视觉技术在葡萄园中进行葡萄检测、分割和计数的方法。研究提出了多种算法和模型,如卷积神经网络和Triple-S Network,以提高葡萄收成预测的准确性和自动化修剪的效率。此外,利用无人机图像和Segment Anything Model (SAM)进行浆果分割,展示了高准确性和潜在应用。
FAST-LIVO2是一个快速直接的激光雷达-惯性-视觉里程计框架,通过ESIKF融合IMU、激光雷达和图像测量,解决SLAM任务中的状态估计问题,实现高精度和鲁棒性的大规模映射和导航。
本文提出了两种深度学习模型,用于实时姿态估计。模型基于惯性传感器测量,适用于多种运动模式和环境干扰情况。研究结果表明,该方法在精度和稳健性方面优于最先进的方法,并且具有更好的泛化性。
本文介绍了一种创新的单目视觉里程计方法CodedVO,通过自定义光学将度量深度信息物理编码到图像中,克服了尺度歧义问题,并在已知尺度下实现了最新性能。在多样的室内环境中进行评估,展示了其稳健性和适应性。在ICL-NUIM室内里程计数据集的评估中,获得了0.08m的平均轨迹误差。
本研究描述了一个包含335k图像的数据集,用于研究七种不同降水情况下环境扰动对视觉测距系统性能的影响。通过训练深度神经网络模型,实现对这些降水条件的高效准确分类。该模型可作为自主飞行控制器中的扰动估计组件的输入,并实现毫秒级的分类延迟。
本研究提出了一种无监督深度神经网络方法,用于融合RGB-D图像和惯性测量进行绝对轨迹估计。该方法通过学习整合IMU测量并生成假设轨迹,然后根据空间像素坐标的缩放图像投影误差的雅可比矩阵进行在线更正。在KITTI Odometry数据集上与最先进的视觉惯性测距、视觉测距和VSLAM方法进行了比较,表现出有竞争力的测距性能。
通过分析主要的失败案例并揭示优化过程的各种缺点,我们诊断了一种流行的学习型 SLAM 模型(DROID-SLAM)的关键弱点。然后,我们提出使用自监督先验,利用冻结的大规模预训练单眼深度估计初始化稠密捆绑调整过程,从而实现鲁棒的视觉里程计,无需对 SLAM 骨干进行微调。尽管方法简单,但在 KITTI 里程计和具有挑战性的 DDAD 基准上,我们的方法显示出显著的改进。代码和预训练模型将在发表后发布。
本文提出了一种基于立体相机系统的3D语义映射流程,通过时间投票方案提高了3D点标签的质量和一致性。在KITTI-360数据集上评估了该流程的有效性和流水线的能力,并展示了由车队收集的数据生成的大规模语义地图。
本研究利用Ackermann转向平台的约束非完整运动模型,实现了可靠的纯事件型视觉测距。通过将常规帧摄像机的单特征非线性扩展到准时间连续事件轨迹,并通过变量程度泰勒展开实现多项式形式,实现对多个事件轨迹的鲁棒平均值。实验结果表明,该算法在准确性和稳健性方面表现良好,并在具有挑战性的照明场景中优于传统方法。
COMO系统是实时单目建图和里程计系统,通过锚点编码密集几何信息,实现位姿和密集几何的联合优化,引入前端来跟踪和初始化三维点。
本文介绍了一种自监督的LiDAR测距法SelfVoxeLO,通过使用3D卷积网络对点云数据进行特征提取,并设计了多种新颖的损失函数,引入了不确定性感知机制来减轻干扰。该方法在KITTI和Apollo-SouthBay数据集上性能优于现有无监督方法,可通过添加未标记的训练数据进一步提高性能,与有监督方法相媲美。
本文提出了一种新方法,使用LiDAR测量重建大规模三维语义场景,并采用隐式表示进行建模。通过MLPs解码隐式特征,得到语义信息和距离值,并采用自监督和伪监督策略进行优化。最后使用Marching Cubes算法进行推断和可视化。在三个真实数据集上表现出高效果和效率。
本文介绍了一种方法,用于在静态和动态环境下单个图像的三维立方体物体检测和多视图对象 SLAM。通过生成高质量的 cuboid 提议和联合优化相机、对象和点的姿态,提高了准确性和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。