小红花·文摘

$RL-100——基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL$

RL-100——基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL

结构之法算法之道 ·

$NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹：一方面模仿专家，一方面被做价值评估预测」，到含仅使用RGB的点目标导航$

NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹：一方面模仿专家，一方面被做价值评估预测」，到含仅使用RGB的点目标导航

结构之法算法之道 ·

$StageACT——基于CVAE的多阶段ACT：把开门任务分为五个阶段，且做好分段标注以引导低层策略逐一执行$

StageACT——基于CVAE的多阶段ACT：把开门任务分为五个阶段，且做好分段标注以引导低层策略逐一执行

结构之法算法之道 ·

$DuoCore-WB——视觉驱动的全身行走-操作：让轮式人形自主开门后给会议室的客户递杯水$

DuoCore-WB——视觉驱动的全身行走-操作：让轮式人形自主开门后给会议室的客户递杯水

结构之法算法之道 ·

AI 论文周报丨递归推理方法/轻量级解码器架构/深度卷积神经网络架构……多领域前沿动态一览

HyperAI超神经 ·

RaC——挂衬衫且打包外卖盒：如果机器人将失败，则人类让其先回退后纠正，以减缓IL中的误差累积(让数据的增长对任务促进的效率更高)

结构之法算法之道 ·

EgoDex：从大规模自我中心视频中学习灵巧操作

Apple Machine Learning Research ·

本文介绍了R2S2和OpenWBT项目，旨在通过构建多技能的现实世界技能空间，提升类人机器人在复杂任务中的表现。研究者结合模仿学习与强化学习，优化技能协调与切换，以确保机器人在真实环境中的稳定性与有效性。

从R2S2到OpenWBT——提高人形的到达能力：模仿教师策略下RL探索新行为，最终实现技能之间的协调与切换(含OpenWBC移动抓娃娃简介)

结构之法算法之道 ·

本文提出了一种新方法IN-RIL，旨在解决模仿学习与强化学习结合中的不稳定性和样本效率低下的问题。通过定期注入模仿学习更新，IN-RIL提高了探索效率，实验结果表明其在多任务中显著提升了样本效率，并减少了性能崩溃现象。

IN-RIL：用于策略微调的交替强化学习与模仿学习

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过构建分解缩放曲线(FSC)来解决通用模仿学习政策的数据收集问题，使得在新环境中的任务成功率提高了26%。

通过分解缩放曲线指导数据收集

BriefGPT - AI 论文速递 ·

本研究提出了一种新的离线数据增强方法D-CODA，旨在提升双手操作中的眼手协调模仿学习表现。通过合成手腕摄像机图像和动作标签，D-CODA在模拟和现实任务中均优于基线方法，推动了数据增强技术的发展。

协调双臂数据增强中的扩散方法（D-CODA）

BriefGPT - AI 论文速递 ·

本研究提出了一种遍历生成流（EGF），旨在解决生成流网络在模仿学习中的训练难题，并优化了流匹配损失和奖励模型。实验结果表明其在2D任务和NASA数据集上有效。

Traversing Generative Flow

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的潜变量扩散规划（LDP）方法，旨在减少模仿学习对大量专家示范的依赖。该方法通过学习潜变量空间和训练规划器，利用无动作示范和次优数据，在模拟视觉机器人操作任务中显著超越现有模仿学习方法。

Latent Diffusion Planning for Imitation Learning

BriefGPT - AI 论文速递 ·

该研究提出了一种新型闭环仿真器，解决了模仿学习在自动驾驶规划中的局限性。通过引入Waymo数据集的因果基准，评估模仿问题的影响，并结合模仿学习与强化学习，显著提升了模型的泛化能力。

Revealing the Imitation Issues of Imitation-Based Planners: A Novel Closed-Loop Simulator, Causal Benchmarks, and Combined IL-RL Framework

BriefGPT - AI 论文速递 ·

本文介绍了京东研究团队在真实场景下开发的具身智能技术架构，重点在咖啡机器人任务的技术突破。通过模仿/强化学习和“视觉-语言-动作”大模型，提升了机器人操作能力，解决了通信延迟和系统稳定性问题。该架构具备高扩展性，能快速适应新任务，实现了咖啡制作的高成功率。未来将继续优化系统，提升泛化能力。

RL-100——基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL

NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹：一方面模仿专家，一方面被做价值评估预测」，到含仅使用RGB的点目标导航

StageACT——基于CVAE的多阶段ACT：把开门任务分为五个阶段，且做好分段标注以引导低层策略逐一执行

DuoCore-WB——视觉驱动的全身行走-操作：让轮式人形自主开门后给会议室的客户递杯水

AI 论文周报丨递归推理方法/轻量级解码器架构/深度卷积神经网络架构……多领域前沿动态一览

RaC——挂衬衫且打包外卖盒：如果机器人将失败，则人类让其先回退后纠正，以减缓IL中的误差累积(让数据的增长对任务促进的效率更高)

EgoDex：从大规模自我中心视频中学习灵巧操作

从R2S2到OpenWBT——提高人形的到达能力：模仿教师策略下RL探索新行为，最终实现技能之间的协调与切换(含OpenWBC移动抓娃娃简介)

IN-RIL：用于策略微调的交替强化学习与模仿学习

通过分解缩放曲线指导数据收集

协调双臂数据增强中的扩散方法（D-CODA）

Traversing Generative Flow

Latent Diffusion Planning for Imitation Learning

Revealing the Imitation Issues of Imitation-Based Planners: A Novel Closed-Loop Simulator, Causal Benchmarks, and Combined IL-RL Framework

【前瞻技术布局】咖啡机器人：具身智能技术首阶段探索与实践

Adapting World Models for Trajectory Following in 3D Games

Teacher Motion Priors: Enhancing Robot Locomotion over Challenging Terrain

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

Bi-LAT：基于双边控制的模仿学习，通过自然语言和动作分块与变换器结合

Neuro-Symbolic Imitation Learning: Discovering Symbolic Abstractions for Skill Learning