小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

研究者提出了优势奖励建模(ARM)框架,以解决长时间跨度机器人任务中的稀疏奖励问题。ARM通过三态标注策略(前进、后退、停滞)降低人类标注负担,并自动生成进度标注。在毛巾折叠任务中,该方法实现了99.4%的成功率,显著提高了强化学习的效率和稳定性。

ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

结构之法 算法之道
结构之法 算法之道 · 2026-04-28T16:09:26Z
跨维智能DexWorldModel斩获榜首,世界模型真正的考场在机器人执行里

具身智能领域最近发布了GEN-1,成功率超过99%,速度提升2-3倍,微调成本降低至1/10。CEO Pete Florence强调,未来的世界模型应关注机器人任务的成功率,而非仅追求视觉质量。研究表明,高视觉质量与具身任务能力相关性较低,DexWorldModel通过改进表示、记忆、推理和数据引擎,提升了机器人在真实环境中的表现,展示了具身世界模型的潜力。

跨维智能DexWorldModel斩获榜首,世界模型真正的考场在机器人执行里

量子位
量子位 · 2026-04-21T00:06:39Z
GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA:通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

本文介绍了GigaBrain-0.5M*模型,该模型通过世界模型增强了视觉-语言-动作(VLA)系统的能力。GigaBrain-0.5M*在GigaBrain-0.5的基础上,采用了基于世界模型的强化学习方法RAMP,显著提升了机器人在复杂任务中的表现,尤其在长时程任务中的前瞻性规划能力。

GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA:通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

结构之法 算法之道
结构之法 算法之道 · 2026-02-16T04:11:48Z
Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作

自2023年大模型兴起以来,博客影响力迅速增长,吸引了国内外博士生的关注。PI公司提出的训练时实时分块(training-time RTC)方法,通过模拟推理延迟,显著降低计算成本并提升机器人任务执行性能。该方法无需修改模型架构,仅需少量代码实现,已在实际任务中验证有效性。

Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作

结构之法 算法之道
结构之法 算法之道 · 2025-12-13T14:52:40Z

Evo-0模型通过隐式注入3D几何先验,提升机器人对三维空间的理解,成功率提高31%。该方法无需额外传感器,利用VGGT提取3D信息,显著增强空间感知,训练效率高,适用于多种机器人任务。

机器人感知大升级!轻量化注入几何先验,成功率提升31%

量子位
量子位 · 2025-09-29T06:15:49Z

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT,旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段,利用人类示范数据和一致性策略,解决了传统方法在真实环境中的挑战,增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法:离线通过演示数据微调(结合Q损失和BC损失),后在线RL微调,且引入人工干预

结构之法 算法之道
结构之法 算法之道 · 2025-09-09T16:32:23Z

本研究提出了一种基于蒙特卡洛概率推理的学习控制方法(MC-PILCO),旨在提升复杂机器人任务的控制效率。研究表明,MC-PILCO在物理系统中优于传统方法,有效解决了控制欠驱动系统的问题。

Model-Based Reinforcement Learning for Global Control in Underactuated Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z
通过方向修正解释和改进最优控制问题

本文提出了一种基于方向修正的框架,以解决机器人任务中的最优控制问题(OCP)设计挑战。该方法通过分析不理想解的成本组件与专家修正方向的一致性,优化OCP目标函数,提高解决方案的可行性。

通过方向修正解释和改进最优控制问题

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-03T00:00:00Z

本研究提出SAFER框架,旨在解决大语言模型在机器人任务规划中的安全性问题。通过引入安全代理和LLM评判者,实时评估风险并主动修正错误,从而显著降低安全违规,同时保持任务效率。

Application of Safe Task Planning Based on Large Language Models in Robotics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究提出了一种新方法,通过自监督强化学习提高非线性系统中李雅普诺夫函数的推导效率,结果表明其在机器人任务中收敛速度更快、近似精度更高。

Neural Lyapunov Function Approximation Based on Self-Supervised Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究提出了一种新颖的离线算法,利用范德瓦尔斯力和功能奖励编码,显著提高机器人任务中的学习效率和稳定性,同时增强了多样性和处理非平稳奖励的能力。

双重力量:在模仿约束下增强离线多样性最大化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z

本研究提出了一种新方法RND-DAgger,旨在减少专家介入频率。该方法通过状态基础的分布外测量,在3D游戏和机器人任务中优于传统模仿学习,显著降低了专家查询次数。

基于随机网络蒸馏的高效主动模仿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本研究提出了一种新的离线强化学习框架,解决信息路径规划中的风险和成本问题。通过批约束强化学习从预先收集的数据中学习,减少外推误差。实验表明,该方法在性能和速度上优于现有方法,展示了其在机器人任务中的应用潜力。

离线RL基础的信息路径规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

该研究综述了大型语言模型(LLMs)和多模态LLMs在机器人任务中的整合,并提出了利用多模态GPT-4V增强具身任务规划的框架。研究结果显示GPT-4V有效提升了机器人的表现。对LLMs和多模态LLMs在机器人任务中的调查和评估丰富了对具身智能的理解,并展望了人机环境交互的未来。

基于大型多模态模型的机器人辅助协作任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本研究提出了NAVINACT框架,解决了强化学习在真实机器人任务中的探索和泛化挑战。通过动态切换运动规划导航和强化学习策略学习,提高了样本效率,并利用模仿数据引导探索。研究表明,NAVINACT在多个任务中表现优越,提高了适应性和效率,并在复杂操作任务中取得成功。

NAVINACT:将导航与模仿学习结合以引导强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-07T00:00:00Z

最近的研究发现,大型语言模型(LLMs)在机器人任务中可能产生歧视性结果和不安全行为。研究人员对几个高评级的LLMs进行了歧视和安全评估,发现它们在面对多样性身份特征的人时会产生偏见输出,并且在自由语言输入环境中不能安全行动。需要对LLMs进行风险评估和保证,以确保机器人的安全和公正运行。

LLM 驱动的机器人存在歧视、暴力和非法行为风险

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架,通过优化自监督学习算法,应用对比学习增强任务相关信息,抑制无关信息。实验证明该方法在机器人任务中的应用效果优于现有方法。

从视觉演示中学习偏好概念

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-25T00:00:00Z

该研究综述了大型语言模型(LLMs)和多模态LLMs在机器人任务中的整合,并提出了一种利用多模态GPT-4V的框架。研究结果表明GPT-4V有效提升了机器人的表现。对LLMs和多模态LLMs在机器人任务中的调查和评估丰富了对具身智能的理解,并展望了人机环境交互的未来。

利用大型语言模型生成的机器人计划树的整合以提高可靠性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-15T00:00:00Z

该研究探讨了大型语言模型(LLMs)和多模态LLMs在机器人任务中的整合,并提出了利用多模态GPT-4V增强具身任务规划的框架。研究结果显示GPT-4V有效提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在机器人任务中的调查和评估丰富了对具身智能的理解,并提供了关于人机环境交互的展望。

大型语言模型在机器人领域的应用:机遇、挑战与展望

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-09T00:00:00Z

该文章介绍了一个包含自然语言描述复杂机器人任务的数据集,旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型,但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但仍有改进空间。

同步辐射光束线虚拟科学伴侣:一个原型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码