本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。
长沙具身团队正在扩招,分为三个项目组,专注于电源、USB插拔及人形机器人技术。CLONE系统通过闭环遥操作解决了人形机器人长时任务中的位置反馈问题,提升了人机协作能力。
本研究提出了一种基于课程学习的单目视觉里程计模型,旨在解决几何问题并提升性能。实验结果表明,该模型在复杂环境中的表现优于现有方法,验证了课程学习在视觉里程计中的有效性。
本文介绍了一种新方法,通过将场景分为静态背景和动态前景,排除动态元素,并扩展八叉树结构以支持多分辨率表示,解决了激光雷达在动态户外环境中定位与建图效果不佳的问题。该方法在多个数据集上表现优于现有技术。
本研究提出了一种名为ORB-SfMLearner的自监督视觉里程计方法,利用ORB特征进行自我运动估计,提高结果的稳健性和准确性。该方法在KITTI和vKITTI数据集上的表现优于现有的深度视觉里程计方法。
本研究针对深度视觉惯性里程计中位姿估计精度不足的问题,提出了一种因果视觉惯性融合变换器(VIFT)。该方法通过利用变换器的注意力机制来更好地利用历史数据,从而改善位姿估计的准确性,实验结果表明,VIFT在KITTI数据集上相较于传统方法显著提高了单目视觉惯性网络的精度。
本研究解决了视觉里程计系统在光照变化显著环境中图像质量下降的问题。通过深度强化学习框架训练代理进行曝光控制,显著提升了在挑战性条件下的成像性能。研究表明,所提出的方法使视觉里程计系统在精度和稳定性上优于传统的反馈控制方案。
本文探讨了深度学习和计算机视觉技术在葡萄园中进行葡萄检测、分割和计数的方法。研究提出了多种算法和模型,如卷积神经网络和Triple-S Network,以提高葡萄收成预测的准确性和自动化修剪的效率。此外,利用无人机图像和Segment Anything Model (SAM)进行浆果分割,展示了高准确性和潜在应用。
本文介绍了一种新型视觉惯性同时定位与建图系统,利用惯性测量单元实现零漂移定位,测试结果显示其准确性优于现有方法。同时,提出了基于深度学习的LiDAR测距算法和实时稠密建图方法,在复杂环境中表现出色,提升了移动机器人导航的精确性和鲁棒性。
本文提出了一种基于深度学习的姿态估计模型,利用惯性传感器数据进行实时估计,具有高精度和稳健性。模型结合卷积神经网络和长短时记忆网络,经过评估显示在多种运动模式和环境干扰下表现优越。此外,研究探讨了深度学习在惯性导航和传感器融合中的应用,推动相关领域发展。
本文介绍了多种单目视觉里程计(VO)方法,重点在于通过深度学习和几何方法提高深度估计精度,解决尺度漂移问题。D3VO框架利用三个层次的深度网络实现了优于传统方法的性能,而UnDeepVO系统结合无监督学习和绝对尺度恢复,展现出良好的姿态精度。这些方法在KITTI及其他数据集上均取得显著改进。
本文探讨了计算机视觉和深度学习在无人机检测中的应用,特别是在复杂天气条件下的表现。研究评估了一阶段和二阶段探测器在不同降水条件下的性能,并提出了改进的算法和数据集,以提高物体检测的准确性和鲁棒性。结果表明,选择感兴趣区域和使用新数据集对检测性能有显著影响。
本文介绍了多种视觉惯性测距(VIO)技术,包括通过摄像头和惯性测量单元实现姿态和速度估计的方法。研究提出了新颖的传感器融合框架、无监督深度学习方法及自适应策略网络,并在多个数据集上测试,显示出在动态环境和复杂场景中的优越性能。
通过分析主要的失败案例并揭示优化过程的各种缺点,我们诊断了一种流行的学习型 SLAM 模型(DROID-SLAM)的关键弱点。然后,我们提出使用自监督先验,利用冻结的大规模预训练单眼深度估计初始化稠密捆绑调整过程,从而实现鲁棒的视觉里程计,无需对 SLAM 骨干进行微调。尽管方法简单,但在 KITTI 里程计和具有挑战性的 DDAD 基准上,我们的方法显示出显著的改进。代码和预训练模型将在发表后发布。
本文提出了一种基于车载摄像头的道路布局推断模型,结合深度学习和多模态数据,以提升自动驾驶的安全性和准确性。研究表明,合成数据在训练中的有效性,并提出了一种高效的3D语义映射流程,能够生成大规模的语义地图,改善道路感知系统的性能。
本文介绍了一种基于事件相机的实时视觉里程计解决方案,结合视觉一致性和三维场景重建,能够在高速动态场景中有效运行。研究提出了运动补偿图像重建和视觉惯性导航融合等方法,显著提高了姿态估计的准确性。实验结果表明,该系统在多个数据集上优于现有技术。
本文介绍了一种基于单张图像的密集场景几何表示方法,适用于单目稠密SLAM系统,具有优异性能。研究提出了结合学习的深度图估计和相机跟踪算法,能够在复杂环境中实现实时三维重建,适用于机器人和增强现实等应用。
本文介绍了多种基于激光雷达和视觉的自监督学习方法,旨在提升3D物体检测和姿态估计的性能。这些方法通过特征融合和新颖的损失函数,在多个数据集上表现出色,证明了其在动态环境中的有效性和鲁棒性。
本文介绍了一种基于三维激光雷达和神经网络的建图与定位方法,能够有效滤波运动物体并提取语义信息。实验结果表明,该方法在性能上优于传统几何约束方法。此外,提出的多传感器语义定位算法在鲁棒性和存储空间上也有显著提升,展示了其在实际应用中的有效性。
本文介绍了一种方法,用于在静态和动态环境下单个图像的三维立方体物体检测和多视图对象 SLAM。通过生成高质量的 cuboid 提议和联合优化相机、对象和点的姿态,提高了准确性和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。