研究者提出了优势奖励建模(ARM)框架,以解决长时间跨度机器人任务中的稀疏奖励问题。ARM通过三态标注策略(前进、后退、停滞)降低人类标注负担,并自动生成进度标注。在毛巾折叠任务中,该方法实现了99.4%的成功率,显著提高了强化学习的效率和稳定性。
具身智能领域最近发布了GEN-1,成功率超过99%,速度提升2-3倍,微调成本降低至1/10。CEO Pete Florence强调,未来的世界模型应关注机器人任务的成功率,而非仅追求视觉质量。研究表明,高视觉质量与具身任务能力相关性较低,DexWorldModel通过改进表示、记忆、推理和数据引擎,提升了机器人在真实环境中的表现,展示了具身世界模型的潜力。
本文介绍了GigaBrain-0.5M*模型,该模型通过世界模型增强了视觉-语言-动作(VLA)系统的能力。GigaBrain-0.5M*在GigaBrain-0.5的基础上,采用了基于世界模型的强化学习方法RAMP,显著提升了机器人在复杂任务中的表现,尤其在长时程任务中的前瞻性规划能力。
自2023年大模型兴起以来,博客影响力迅速增长,吸引了国内外博士生的关注。PI公司提出的训练时实时分块(training-time RTC)方法,通过模拟推理延迟,显著降低计算成本并提升机器人任务执行性能。该方法无需修改模型架构,仅需少量代码实现,已在实际任务中验证有效性。
Evo-0模型通过隐式注入3D几何先验,提升机器人对三维空间的理解,成功率提高31%。该方法无需额外传感器,利用VGGT提取3D信息,显著增强空间感知,训练效率高,适用于多种机器人任务。
本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT,旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段,利用人类示范数据和一致性策略,解决了传统方法在真实环境中的挑战,增强了智能机械臂的精准性和泛化能力。
本研究提出了一种基于蒙特卡洛概率推理的学习控制方法(MC-PILCO),旨在提升复杂机器人任务的控制效率。研究表明,MC-PILCO在物理系统中优于传统方法,有效解决了控制欠驱动系统的问题。
本文提出了一种基于方向修正的框架,以解决机器人任务中的最优控制问题(OCP)设计挑战。该方法通过分析不理想解的成本组件与专家修正方向的一致性,优化OCP目标函数,提高解决方案的可行性。
本研究提出SAFER框架,旨在解决大语言模型在机器人任务规划中的安全性问题。通过引入安全代理和LLM评判者,实时评估风险并主动修正错误,从而显著降低安全违规,同时保持任务效率。
本研究提出了一种新方法,通过自监督强化学习提高非线性系统中李雅普诺夫函数的推导效率,结果表明其在机器人任务中收敛速度更快、近似精度更高。
本研究提出了一种新颖的离线算法,利用范德瓦尔斯力和功能奖励编码,显著提高机器人任务中的学习效率和稳定性,同时增强了多样性和处理非平稳奖励的能力。
本研究提出了一种新方法RND-DAgger,旨在减少专家介入频率。该方法通过状态基础的分布外测量,在3D游戏和机器人任务中优于传统模仿学习,显著降低了专家查询次数。
本研究提出了一种新的离线强化学习框架,解决信息路径规划中的风险和成本问题。通过批约束强化学习从预先收集的数据中学习,减少外推误差。实验表明,该方法在性能和速度上优于现有方法,展示了其在机器人任务中的应用潜力。
该研究综述了大型语言模型(LLMs)和多模态LLMs在机器人任务中的整合,并提出了利用多模态GPT-4V增强具身任务规划的框架。研究结果显示GPT-4V有效提升了机器人的表现。对LLMs和多模态LLMs在机器人任务中的调查和评估丰富了对具身智能的理解,并展望了人机环境交互的未来。
本研究提出了NAVINACT框架,解决了强化学习在真实机器人任务中的探索和泛化挑战。通过动态切换运动规划导航和强化学习策略学习,提高了样本效率,并利用模仿数据引导探索。研究表明,NAVINACT在多个任务中表现优越,提高了适应性和效率,并在复杂操作任务中取得成功。
最近的研究发现,大型语言模型(LLMs)在机器人任务中可能产生歧视性结果和不安全行为。研究人员对几个高评级的LLMs进行了歧视和安全评估,发现它们在面对多样性身份特征的人时会产生偏见输出,并且在自由语言输入环境中不能安全行动。需要对LLMs进行风险评估和保证,以确保机器人的安全和公正运行。
该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架,通过优化自监督学习算法,应用对比学习增强任务相关信息,抑制无关信息。实验证明该方法在机器人任务中的应用效果优于现有方法。
该研究综述了大型语言模型(LLMs)和多模态LLMs在机器人任务中的整合,并提出了一种利用多模态GPT-4V的框架。研究结果表明GPT-4V有效提升了机器人的表现。对LLMs和多模态LLMs在机器人任务中的调查和评估丰富了对具身智能的理解,并展望了人机环境交互的未来。
该研究探讨了大型语言模型(LLMs)和多模态LLMs在机器人任务中的整合,并提出了利用多模态GPT-4V增强具身任务规划的框架。研究结果显示GPT-4V有效提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在机器人任务中的调查和评估丰富了对具身智能的理解,并提供了关于人机环境交互的展望。
该文章介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但仍有改进空间。
完成下面两步后,将自动完成登录并继续当前操作。