小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
RL-100——基于真实世界RL的高性能灵巧操作:先基于人类演示做模仿学习预训练,再做迭代式离线RL,最后真机在线RL

本文介绍了RL-100,一个结合模仿学习与强化学习的机器人学习框架。该框架通过模仿学习、离线强化学习和在线微调三个阶段提升机器人操作能力,旨在提高机器人在真实环境中的可靠性和效率,支持多种控制方式,并通过一致性蒸馏技术实现高频控制,以满足工业应用需求。

RL-100——基于真实世界RL的高性能灵巧操作:先基于人类演示做模仿学习预训练,再做迭代式离线RL,最后真机在线RL

结构之法 算法之道
结构之法 算法之道 · 2026-02-20T08:46:30Z
NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹:一方面模仿专家,一方面被做价值评估预测」,到含仅使用RGB的点目标导航

本文介绍了NavDP(导航扩散策略),一种结合模仿学习和强化学习的端到端Transformer架构,旨在实现从仿真到现实的导航策略迁移。NavDP通过仿真数据生成高效的导航轨迹,克服传统方法的局限性,提升机器人在动态环境中的导航能力。研究者开发了高效的数据引擎,显著提高了数据生成效率,并构建了覆盖多样化场景的导航经验数据集。

NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹:一方面模仿专家,一方面被做价值评估预测」,到含仅使用RGB的点目标导航

结构之法 算法之道
结构之法 算法之道 · 2026-01-13T16:06:39Z
StageACT——基于CVAE的多阶段ACT:把开门任务分为五个阶段,且做好分段标注以引导低层策略逐一执行

本文探讨了StageACT,一种基于人类示范的自主行走-操作策略,旨在解决人形机器人开门任务的复杂性。通过将任务分解为多个阶段并引入阶段条件化,该方法显著提高了成功率,尤其在处理观察歧义和失败恢复方面表现优异。此方法无需依赖外部感知或门的特定信息,展示了模仿学习在长时域任务中的潜力。

StageACT——基于CVAE的多阶段ACT:把开门任务分为五个阶段,且做好分段标注以引导低层策略逐一执行

结构之法 算法之道
结构之法 算法之道 · 2026-01-12T16:47:03Z
DuoCore-WB——视觉驱动的全身行走-操作:让轮式人形自主开门后给会议室的客户递杯水

本文介绍了一种名为DuoCore-WB的全身视觉运动策略学习方法,旨在提升机器人在日常环境中的自主操作能力。该方法通过模仿学习算法,利用RGB观测数据进行训练,支持多种任务,如递送饮料和整理鞋子。系统结合高性能机器人平台和低延迟遥操作接口,确保用户能够直观控制机器人,提高操作精度和安全性。

DuoCore-WB——视觉驱动的全身行走-操作:让轮式人形自主开门后给会议室的客户递杯水

结构之法 算法之道
结构之法 算法之道 · 2026-01-05T09:00:50Z
AI 论文周报丨递归推理方法/轻量级解码器架构/深度卷积神经网络架构……多领域前沿动态一览

语言智能体旨在通过自身经验学习超越人类,但目前依赖专家数据微调,导致扩展性和泛化能力不足。Meta提出“早期经验”范式,通过智能体自身行为生成交互数据,作为监督信号,促进强化学习与模仿学习的结合。

AI 论文周报丨递归推理方法/轻量级解码器架构/深度卷积神经网络架构……多领域前沿动态一览

HyperAI超神经
HyperAI超神经 · 2025-10-17T08:28:04Z
RaC——挂衬衫且打包外卖盒:如果机器人将失败,则人类让其先回退后纠正,以减缓IL中的误差累积(让数据的增长对任务促进的效率更高)

CMU研究者提出RaC方法,通过人类干预改善机器人模仿学习,解决长时序任务中的失败问题。RaC结合恢复与纠正行为,提升机器人在复杂任务中的效率与鲁棒性,克服传统模仿学习的局限性。

RaC——挂衬衫且打包外卖盒:如果机器人将失败,则人类让其先回退后纠正,以减缓IL中的误差累积(让数据的增长对任务促进的效率更高)

结构之法 算法之道
结构之法 算法之道 · 2025-10-04T16:43:33Z
EgoDex:从大规模自我中心视频中学习灵巧操作

模仿学习在操作中面临数据稀缺问题,现有数据集如Ego4D缺乏手势标注。为此,我们使用Apple Vision Pro收集了EgoDex,这是最大的人类灵巧操作数据集,包含829小时自我中心视频和3D手指追踪数据,涵盖194种日常操作任务。我们在该数据集上训练和评估了模仿学习策略,以推动机器人和计算机视觉的发展。

EgoDex:从大规模自我中心视频中学习灵巧操作

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-01T00:00:00Z

本文介绍了R2S2和OpenWBT项目,旨在通过构建多技能的现实世界技能空间,提升类人机器人在复杂任务中的表现。研究者结合模仿学习与强化学习,优化技能协调与切换,以确保机器人在真实环境中的稳定性与有效性。

从R2S2到OpenWBT——提高人形的到达能力:模仿教师策略下RL探索新行为,最终实现技能之间的协调与切换(含OpenWBC移动抓娃娃简介)

结构之法 算法之道
结构之法 算法之道 · 2025-06-24T14:12:37Z

本文提出了一种新方法IN-RIL,旨在解决模仿学习与强化学习结合中的不稳定性和样本效率低下的问题。通过定期注入模仿学习更新,IN-RIL提高了探索效率,实验结果表明其在多任务中显著提升了样本效率,并减少了性能崩溃现象。

IN-RIL:用于策略微调的交替强化学习与模仿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了一种新方法,通过构建分解缩放曲线(FSC)来解决通用模仿学习政策的数据收集问题,使得在新环境中的任务成功率提高了26%。

通过分解缩放曲线指导数据收集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了一种新的离线数据增强方法D-CODA,旨在提升双手操作中的眼手协调模仿学习表现。通过合成手腕摄像机图像和动作标签,D-CODA在模拟和现实任务中均优于基线方法,推动了数据增强技术的发展。

协调双臂数据增强中的扩散方法(D-CODA)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种遍历生成流(EGF),旨在解决生成流网络在模仿学习中的训练难题,并优化了流匹配损失和奖励模型。实验结果表明其在2D任务和NASA数据集上有效。

Traversing Generative Flow

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本文提出了一种新颖的潜变量扩散规划(LDP)方法,旨在减少模仿学习对大量专家示范的依赖。该方法通过学习潜变量空间和训练规划器,利用无动作示范和次优数据,在模拟视觉机器人操作任务中显著超越现有模仿学习方法。

Latent Diffusion Planning for Imitation Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

该研究提出了一种新型闭环仿真器,解决了模仿学习在自动驾驶规划中的局限性。通过引入Waymo数据集的因果基准,评估模仿问题的影响,并结合模仿学习与强化学习,显著提升了模型的泛化能力。

Revealing the Imitation Issues of Imitation-Based Planners: A Novel Closed-Loop Simulator, Causal Benchmarks, and Combined IL-RL Framework

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z

本文介绍了京东研究团队在真实场景下开发的具身智能技术架构,重点在咖啡机器人任务的技术突破。通过模仿/强化学习和“视觉-语言-动作”大模型,提升了机器人操作能力,解决了通信延迟和系统稳定性问题。该架构具备高扩展性,能快速适应新任务,实现了咖啡制作的高成功率。未来将继续优化系统,提升泛化能力。

【前瞻技术布局】咖啡机器人:具身智能技术首阶段探索与实践

京东科技开发者
京东科技开发者 · 2025-04-18T06:58:58Z

本研究解决了现代3D视频游戏中模仿学习的环境复杂性问题。通过逆动力学模型和未来对齐策略,展示了在多样化数据环境中训练的策略头能够有效跟随轨迹,且模型配置依赖于具体设置。

Adapting World Models for Trajectory Following in 3D Games

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z

本文提出了一种基于教师-学生范式的教师先验框架,旨在提高机器人在复杂地形上的运动稳定性。通过模仿学习和辅助任务学习,该框架显著提升了人形机器人的运动能力,并降低了开发成本。

Teacher Motion Priors: Enhancing Robot Locomotion over Challenging Terrain

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出统一世界模型(UWM),通过结合视频和动作扩散,解决大规模机器人基础模型中模仿学习的扩展问题。UWM在统一变换器架构中整合这两种数据,显著提升了策略学习的通用性与鲁棒性。

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了Bi-LAT,一个结合双边控制与自然语言处理的模仿学习框架,旨在实现机器人操作中的精确力调节。该方法通过多模态变换器模型编码人类指令,有效区分真实任务中的微妙力需求。

Bi-LAT:基于双边控制的模仿学习,通过自然语言和动作分块与变换器结合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了一种神经-符号模仿学习框架,旨在解决现有模仿学习在长时间和多步骤任务中的不足。该框架通过示范学习符号表示,将任务分解为子任务并生成抽象计划,从而提高数据效率和泛化能力。实验结果表明,该方法在模拟机器人环境中显著优于基线,且具有更好的可解释性。

Neuro-Symbolic Imitation Learning: Discovering Symbolic Abstractions for Skill Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码