小红花·文摘

本研究提出了一种新的粗到细自回归策略学习框架（CARP），旨在提高机器人视觉运动策略学习的效率和灵活性。该框架通过多尺度表示学习和细化预测两个阶段，显著提升了动作生成的精度和流畅性，推理速度提高了10倍，并实现了竞争性的成功率。

CARP: Visuomotor Policy Learning Based on Coarse-to-Fine Autoregressive Prediction

BriefGPT - AI 论文速递 ·

本文介绍了扩散策略在机器人视觉运动中的应用，强调其在多模态动作分布、高维输出空间和稳定训练方面的优势。扩散策略通过条件去噪生成机器人行为，结合闭环动作序列和视觉条件化，提升了动作一致性和实时推理能力。同时，文章探讨了Diff-Control的背景及其通过ControlNet整合状态信息以增强动作生成一致性的技术架构。

Diffusion Policy——斯坦福UMI所用的动作预测算法：基于扩散模型的扩散策略(从原理到其编码实现)

结构之法算法之道 ·

本文探讨了机器人视觉表征学习的局限性，提出利用语义三维关键点和半监督训练的方法，以提升精度至毫米级。介绍了DIAL和Voltron等新方法，通过语言标签和多模态模型改善机器人学习能力，增强其在新指令和复杂任务中的表现。此外，研究了结合模仿与强化学习的方法，以提高机器人在新环境中的适应性和技能优化。

使用大型模型进行物体相关模仿学习的关键点抽象

BriefGPT - AI 论文速递 ·

本文探讨了自监督学习在机器人视觉预训练中的应用，提出了Mask3D和M$^{3}$3D等方法，通过多视角视频和动态加权重构损失，提升模型对3D结构的理解，从而改善动作识别等任务的表现。

3D-MVP：用于机器人操纵的三维多视角预训练

BriefGPT - AI 论文速递 ·

本文提出了一种基于Octree结构和神经网络的LiDAR大规模三维重建方法，优化局部特征以提高精确性和内存效率。通过隐式表示和自监督策略，重建三维语义场景，并在动态环境中提升神经SLAM性能。该方法在多个数据集上表现优异，适用于自动驾驶和机器人视觉感知。

使用 4D 隐式神经表示在动态环境中进行的 3D LiDAR 地图构建

BriefGPT - AI 论文速递 ·

本文介绍了NeSLAM框架，结合神经辐射场和RGB-D SLAM系统，实现了准确的深度估计和鲁棒的相机跟踪。该系统在室内数据集上验证了重建和新视图合成的有效性，并提出了基于不确定性的深度损失和动态场景重建方法，显著提高了3D重建的精度和效率，为机器人视觉感知提供了新解决方案。

SLAIM：鲁棒稠密神经 SLAM 用于在线跟踪和建图

BriefGPT - AI 论文速递 ·

该研究基于Ego4D数据集，提出了多种目标检测与跟踪的新方法，包括VQL框架、EasyLabel工具和PCL方法，显著提高了精度和效率。同时，研究介绍了视觉查询检测任务和大规模的自我中心数据集，推动了机器人视觉和手物交互的应用。

BioVL-QR：使用微型 QR 码的以自我的生化视频与语言数据集

BriefGPT - AI 论文速递 ·

本文介绍了一种基于深度学习的同步定位与建图（SLAM）方法，利用神经网络和RGB-D图像序列实现高效的地图重建和相机跟踪。该方法在多个数据集上表现优越，优化了运行时间和内存使用，提升了精度和一致性，适用于机器人视觉感知等应用。

GlORIE-SLAM：全局优化的基于 RGB 的隐式编码点云 SLAM

BriefGPT - AI 论文速递 ·

本文提出了一种可解释的3D视觉定位框架，通过锚点预测将3D定位问题转化为序列任务，提升了性能和数据效率。研究结合空间语言模型与Transformer架构，应用于机器人视觉任务，并在ReferIt3D数据集上展示了竞争性表现。此外，提出了多个新数据集和方法，推动了3D视觉定位的研究进展。

DOrA：具有顺序感的三维视觉连接

BriefGPT - AI 论文速递 ·