小红花·文摘

$ARM——用于长时序操作的优势奖励建模：采用三态标注策略(前进/后退/停滞），实现对相对优势的估计(含SARM详解)$

ARM——用于长时序操作的优势奖励建模：采用三态标注策略(前进/后退/停滞），实现对相对优势的估计(含SARM详解)

结构之法算法之道 ·

跨维智能DexWorldModel斩获榜首，世界模型真正的考场在机器人执行里

量子位 ·

$GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA：通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略$

GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA：通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

结构之法算法之道 ·

$Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作)：消除推理阶段的计算开销，让π0.6完成箱子装配与咖啡制作$

Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作)：消除推理阶段的计算开销，让π0.6完成箱子装配与咖啡制作

结构之法算法之道 ·

Evo-0模型通过隐式注入3D几何先验，提升机器人对三维空间的理解，成功率提高31%。该方法无需额外传感器，利用VGGT提取3D信息，显著增强空间感知，训练效率高，适用于多种机器人任务。

机器人感知大升级！轻量化注入几何先验，成功率提升31%

量子位 ·

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT，旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段，利用人类示范数据和一致性策略，解决了传统方法在真实环境中的挑战，增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

结构之法算法之道 ·

本研究提出了一种基于蒙特卡洛概率推理的学习控制方法（MC-PILCO），旨在提升复杂机器人任务的控制效率。研究表明，MC-PILCO在物理系统中优于传统方法，有效解决了控制欠驱动系统的问题。

Model-Based Reinforcement Learning for Global Control in Underactuated Systems

BriefGPT - AI 论文速递 ·

通过方向修正解释和改进最优控制问题

Apple Machine Learning Research ·

本研究提出SAFER框架，旨在解决大语言模型在机器人任务规划中的安全性问题。通过引入安全代理和LLM评判者，实时评估风险并主动修正错误，从而显著降低安全违规，同时保持任务效率。

Application of Safe Task Planning Based on Large Language Models in Robotics

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过自监督强化学习提高非线性系统中李雅普诺夫函数的推导效率，结果表明其在机器人任务中收敛速度更快、近似精度更高。

Neural Lyapunov Function Approximation Based on Self-Supervised Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的离线算法，利用范德瓦尔斯力和功能奖励编码，显著提高机器人任务中的学习效率和稳定性，同时增强了多样性和处理非平稳奖励的能力。

双重力量：在模仿约束下增强离线多样性最大化

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法RND-DAgger，旨在减少专家介入频率。该方法通过状态基础的分布外测量，在3D游戏和机器人任务中优于传统模仿学习，显著降低了专家查询次数。

基于随机网络蒸馏的高效主动模仿学习

BriefGPT - AI 论文速递 ·

本研究提出了一种新的离线强化学习框架，解决信息路径规划中的风险和成本问题。通过批约束强化学习从预先收集的数据中学习，减少外推误差。实验表明，该方法在性能和速度上优于现有方法，展示了其在机器人任务中的应用潜力。

离线RL基础的信息路径规划

BriefGPT - AI 论文速递 ·

该研究综述了大型语言模型（LLMs）和多模态LLMs在机器人任务中的整合，并提出了利用多模态GPT-4V增强具身任务规划的框架。研究结果显示GPT-4V有效提升了机器人的表现。对LLMs和多模态LLMs在机器人任务中的调查和评估丰富了对具身智能的理解，并展望了人机环境交互的未来。

基于大型多模态模型的机器人辅助协作任务

BriefGPT - AI 论文速递 ·

本研究提出了NAVINACT框架，解决了强化学习在真实机器人任务中的探索和泛化挑战。通过动态切换运动规划导航和强化学习策略学习，提高了样本效率，并利用模仿数据引导探索。研究表明，NAVINACT在多个任务中表现优越，提高了适应性和效率，并在复杂操作任务中取得成功。

NAVINACT：将导航与模仿学习结合以引导强化学习

BriefGPT - AI 论文速递 ·

最近的研究发现，大型语言模型（LLMs）在机器人任务中可能产生歧视性结果和不安全行为。研究人员对几个高评级的LLMs进行了歧视和安全评估，发现它们在面对多样性身份特征的人时会产生偏见输出，并且在自由语言输入环境中不能安全行动。需要对LLMs进行风险评估和保证，以确保机器人的安全和公正运行。

LLM 驱动的机器人存在歧视、暴力和非法行为风险

BriefGPT - AI 论文速递 ·

该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架，通过优化自监督学习算法，应用对比学习增强任务相关信息，抑制无关信息。实验证明该方法在机器人任务中的应用效果优于现有方法。

从视觉演示中学习偏好概念

BriefGPT - AI 论文速递 ·

该研究综述了大型语言模型（LLMs）和多模态LLMs在机器人任务中的整合，并提出了一种利用多模态GPT-4V的框架。研究结果表明GPT-4V有效提升了机器人的表现。对LLMs和多模态LLMs在机器人任务中的调查和评估丰富了对具身智能的理解，并展望了人机环境交互的未来。

利用大型语言模型生成的机器人计划树的整合以提高可靠性

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型（LLMs）和多模态LLMs在机器人任务中的整合，并提出了利用多模态GPT-4V增强具身任务规划的框架。研究结果显示GPT-4V有效提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在机器人任务中的调查和评估丰富了对具身智能的理解，并提供了关于人机环境交互的展望。

大型语言模型在机器人领域的应用：机遇、挑战与展望

BriefGPT - AI 论文速递 ·

该文章介绍了一个包含自然语言描述复杂机器人任务的数据集，旨在提高机器人与人类之间的互动能力。研究人员测试了多种最先进的视觉和语言导航模型，但没有一个显示出有希望的结果。他们提出了一种新颖的交互式导航-指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但仍有改进空间。

同步辐射光束线虚拟科学伴侣：一个原型

BriefGPT - AI 论文速递 ·