本文探讨了觉-语言-动作(VLA)模型在机器人学习中的应用,提出了一种视频生成式价值模型(ViVa),通过预测未来状态来改进价值估计。ViVa结合预训练的视频生成模型、当前观测和本体感知,评估任务进展,提升机器人在复杂环境中的操作能力。研究表明,该方法在真实世界任务中表现优越,能够有效跟踪任务进度并处理新颖物体。
刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。
本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。
本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。
本文探讨了一种双执行体强化学习框架,结合人类反馈优化视觉-语言-动作(VLA)模型。通过“对话与微调”机制,机器人在长时域操作中实现高效学习,成功率达到100%。该方法在多任务设置中展现出良好的样本效率和训练稳定性,适用于复杂的机器人操作任务。
本文讨论了在 Mooncake 接入 RL 中的 local master 和统一内存池设计,通过整合数据平面减少数据拷贝,提高效率。提出了统一的内存分配、元数据管理和生命周期管理,确保数据高效访问和管理。强调 AI 在代码实现中的辅助作用,认为 Rust 语言更适合此类开发。
AReaL框架通过全异步强化学习训练,简化大模型开发,提升训练效率和系统可靠性。其核心优势在于解耦式Agentic RL和Single Controller架构,支持在昇腾平台高效运行,优化权重更新和显存使用,帮助开发者快速上手。
本文介绍了RL-100,一个结合模仿学习与强化学习的机器人学习框架。该框架通过模仿学习、离线强化学习和在线微调三个阶段提升机器人操作能力,旨在提高机器人在真实环境中的可靠性和效率,支持多种控制方式,并通过一致性蒸馏技术实现高频控制,以满足工业应用需求。
RISE是一个通过想象进行机器人强化学习的框架,旨在提升视觉-语言-动作模型在复杂任务中的鲁棒性。它结合动力学预测和价值估计,利用组合式世界模型生成高效学习信号,表现优于传统强化学习方法,能够有效应对动态适应性和精确性要求的任务。
GAPO方法通过精准过滤噪声和稳健估计优势值,解决了企业在复杂环境中AI编程的rollout噪声问题,显著提升了模型的准确性和效率,使真实数据成为模型优化的关键。
本文介绍了GigaBrain-0.5M*模型,该模型通过世界模型增强了视觉-语言-动作(VLA)系统的能力。GigaBrain-0.5M*在GigaBrain-0.5的基础上,采用了基于世界模型的强化学习方法RAMP,显著提升了机器人在复杂任务中的表现,尤其在长时程任务中的前瞻性规划能力。
本文介绍了MetaWorld,一个基于分层世界模型的机器人控制框架,旨在弥合高层语义理解与低层物理执行之间的鸿沟。该框架结合视觉-语言模型、模仿学习和强化学习的优势,通过分层架构进行任务解析和动作生成,提升机器人在动态环境中的适应性和泛化能力。
本文介绍了HumanoidPF(类人潜力场),一种用于人形机器人在杂乱室内场景中无碰撞穿越的技术。该方法通过编码人形体与障碍物的关系,提升机器人在复杂环境中的避障能力。研究者提出了一种混合场景生成策略,结合真实和程序化障碍物,增强训练效果。HumanoidPF被应用于Click-and-Traverse系统,实现高效遥操作导航,实验结果显示其在拥挤场景中表现优异,具有良好的泛化能力。
本文讨论了一种简化版的GRPO算法,结合REINFORCE特性,专注于GSM8K问题的强化学习。该方法不依赖于价值网络、KL正则化或PPO剪切,而是通过规则奖励进行优化。数据流包括生成回答、计算均值基线和优势,目标是最大化期望回报。整体设计旨在降低显存占用,但可能导致更大的梯度方差。
本文介绍了WholeBodyVLA框架,旨在提升人形机器人在复杂环境中的自主控制能力,解决行走与操作的协调问题,结合了潜在学习与强化学习策略。
Cal-QL(校准Q学习)是一种提高离线强化学习后在线微调效率的方法。它通过校准Q值,避免了传统方法中的“遗忘”现象,确保学习到的Q值不低于参考策略的价值,从而防止智能体在微调时误认为新动作更优,导致性能下降。该方法在离线预训练后,通过在线交互进行有效的策略微调,提升了样本效率和策略性能。
本文探讨了通过残差强化学习提升视觉-语言-动作模型的自我改进能力,提出了一种名为PLD的方法,包含在线专家获取、自动数据收集和监督微调三个阶段。该方法结合基础策略和强化学习专家,成功率超过99%。
本文探讨了视觉语言动作(VLA)与强化学习(RL)结合的必要性,提出了GR-RL框架,以提高机器人在长时域操作中的灵巧性和精确度。GR-RL通过离线RL过滤次优数据,增强动作并进行在线RL调整,解决了人类示范中的噪声和不匹配问题。尽管GR-RL在高精度任务中表现出色,但仍面临行为漂移等局限性。
SkyRL是一个专注于大语言模型训练与评估的模块化强化学习库,提供环境构建、训练和部署功能,旨在实现可重复的研究与工程。其主要特点包括模块化组件、高性能训练管道和丰富的环境套件,适用于多轮对话任务和算法评估。
NVIDIA NeMo RL是一个可扩展的后训练强化学习工具包,支持多种训练后端,提供模块化组件,适用于大语言模型和多模态模型的高效训练与评估。其主要功能包括后训练支持、多后端兼容性和可扩展架构,适合强化微调、大规模实验和研究教育。
完成下面两步后,将自动完成登录并继续当前操作。