研究者提出了优势奖励建模(ARM)框架,以解决长时间跨度机器人任务中的稀疏奖励问题。ARM通过三态标注策略(前进、后退、停滞)降低人类标注负担,并自动生成进度标注。在毛巾折叠任务中,该方法实现了99.4%的成功率,显著提高了强化学习的效率和稳定性。
具身智能领域最近发布了GEN-1,成功率超过99%,速度提升2-3倍,微调成本降低至1/10。CEO Pete Florence强调,未来的世界模型应关注机器人任务的成功率,而非仅追求视觉质量。研究表明,高视觉质量与具身任务能力相关性较低,DexWorldModel通过改进表示、记忆、推理和数据引擎,提升了机器人在真实环境中的表现,展示了具身世界模型的潜力。
本文介绍了GigaBrain-0.5M*模型,该模型通过世界模型增强了视觉-语言-动作(VLA)系统的能力。GigaBrain-0.5M*在GigaBrain-0.5的基础上,采用了基于世界模型的强化学习方法RAMP,显著提升了机器人在复杂任务中的表现,尤其在长时程任务中的前瞻性规划能力。
自2023年大模型兴起以来,博客影响力迅速增长,吸引了国内外博士生的关注。PI公司提出的训练时实时分块(training-time RTC)方法,通过模拟推理延迟,显著降低计算成本并提升机器人任务执行性能。该方法无需修改模型架构,仅需少量代码实现,已在实际任务中验证有效性。
Evo-0模型通过隐式注入3D几何先验,提升机器人对三维空间的理解,成功率提高31%。该方法无需额外传感器,利用VGGT提取3D信息,显著增强空间感知,训练效率高,适用于多种机器人任务。
本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT,旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段,利用人类示范数据和一致性策略,解决了传统方法在真实环境中的挑战,增强了智能机械臂的精准性和泛化能力。
本研究提出了一种基于蒙特卡洛概率推理的学习控制方法(MC-PILCO),旨在提升复杂机器人任务的控制效率。研究表明,MC-PILCO在物理系统中优于传统方法,有效解决了控制欠驱动系统的问题。
本文提出了一种基于方向修正的框架,以解决机器人任务中的最优控制问题(OCP)设计挑战。该方法通过分析不理想解的成本组件与专家修正方向的一致性,优化OCP目标函数,提高解决方案的可行性。
本研究提出SAFER框架,旨在解决大语言模型在机器人任务规划中的安全性问题。通过引入安全代理和LLM评判者,实时评估风险并主动修正错误,从而显著降低安全违规,同时保持任务效率。
本研究提出了一种新方法,通过自监督强化学习提高非线性系统中李雅普诺夫函数的推导效率,结果表明其在机器人任务中收敛速度更快、近似精度更高。
本研究提出了一种新颖的离线算法,利用范德瓦尔斯力和功能奖励编码,显著提高机器人任务中的学习效率和稳定性,同时增强了多样性和处理非平稳奖励的能力。
本研究提出了一种基于大型语言模型的用户代理,旨在降低收集多样化人机对话数据集的成本和劳动强度。该代理能够在虚拟环境中模拟用户行为,从而提高数据集生成的效率和可扩展性,增强机器人完成任务的能力。
本文研究了在机器人任务中通过自主互动学习和半监督学习动态生成奖励函数的方法。提出的中继策略学习和Optimal Transport Reward算法显著提升了机器人在复杂任务中的表现,尤其是在厨房模拟和手术机器人领域,实验结果表明这些方法在学习稠密奖励和策略优化方面具有明显优势。
本文介绍了多个机器人任务与动作规划的基准测试,如ManiSkill2、FurnitureBench和COLOSSEUM,旨在评估不同算法在复杂环境中的表现。研究发现,现有算法在环境扰动下的成功率显著下降,强调了提高操作泛化能力的重要性。此外,RobotScript平台和Manipulate-Anything方法展示了基于大型语言模型的机器人操作策略生成的潜力。
本文探讨了通过可视化和自监督学习在视频中识别动作的深度时空表示。研究表明,交叉流融合能够有效学习时空特征,预训练视觉表示在控制任务中表现优异。提出的离线视觉表示学习方法在图像导航和目标导航任务上显著提升性能,并展示了物体感知表征学习在机器人任务中的应用潜力。
本研究提出了一种新的离线强化学习框架,解决信息路径规划中的风险和成本问题。通过批约束强化学习从预先收集的数据中学习,减少外推误差。实验表明,该方法在性能和速度上优于现有方法,展示了其在机器人任务中的应用潜力。
本文介绍了RoboBrain知识引擎及其在机器人任务中的应用,涵盖自然语言处理和规划。研究了自动操作求解器、视觉与语言操作基准、RoboAgent和RoboTool等系统,提升了机器人自主控制和任务执行能力。同时探讨了人机协作与扩展现实在工业中的应用,强调数字生态系统的重要性及未来研究方向。
本文介绍了一种基于自监督回归学习的深度强化学习算法(SSRL),该算法无需策略梯度或价值估计,通过监督回归数据提升策略表现。同时探讨了目标条件强化学习的挑战,提出了Weighted GCSL和DGRL等新方法,以优化目标达成和探索效率。此外,研究了无监督框架在无标签数据中的应用,展示了其在模拟机器人任务中的优越性能。
本文介绍了TrMRL,一种基于元强化学习的代理,结合了Transformer架构和记忆机制,提升了高维控制环境中的表现。研究探讨了模仿学习和自监督学习在机器人任务中的应用,强调了transformers在强化学习中的潜力与局限性,并提出了跨机器人策略转移的新方法。
该研究探讨了大型语言模型(LLMs)和多模态 LLMs 在机器人任务中的应用,提出了结合自然语言和视觉感知的框架,以提升机器人任务规划的表现。研究表明,GPT-4V 在多种编码任务中表现优异,显示其在机器人教育和人机交互中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。