PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。
Qwen系列模型最新升级为Qwen3-VL,在视觉理解和视频处理方面有显著提升。引入多维旋转位置编码(MRoPE)和DeepStack技术,增强了对复杂场景的推理能力,支持长文档和长视频处理,具备更高的上下文长度和精确的时间定位能力,推动多模态理解的进步。
本文讨论了Mooncake Store在统一内存池、local master和softpin语义方面的演进,强调了主动释放lease和故障注入的重要性,以提高系统性能和稳定性。整体设计旨在应对高并发场景下的挑战。
本文讨论了在真实世界中部署通用机器人策略的挑战,提出了一种名为“部署中学习”(LWD)的框架,通过车队规模的离线到在线强化学习(RL)实现策略的持续改进。该方法结合离线数据和在线交互,利用多样化的部署经验,优化策略以适应新任务和环境。作者提出的分布式隐式价值学习(DIVL)和带有伴随匹配的Q学习(QAM)技术,旨在提高策略的稳定性和泛化能力,实现高效的后训练。
本文探讨了觉-语言-动作(VLA)模型在机器人学习中的应用,提出了一种视频生成式价值模型(ViVa),通过预测未来状态来改进价值估计。ViVa结合预训练的视频生成模型、当前观测和本体感知,评估任务进展,提升机器人在复杂环境中的操作能力。研究表明,该方法在真实世界任务中表现优越,能够有效跟踪任务进度并处理新颖物体。
刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。
本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。
本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。
本文探讨了一种双执行体强化学习框架,结合人类反馈优化视觉-语言-动作(VLA)模型。通过“对话与微调”机制,机器人在长时域操作中实现高效学习,成功率达到100%。该方法在多任务设置中展现出良好的样本效率和训练稳定性,适用于复杂的机器人操作任务。
本文讨论了在 Mooncake 接入 RL 中的 local master 和统一内存池设计,通过整合数据平面减少数据拷贝,提高效率。提出了统一的内存分配、元数据管理和生命周期管理,确保数据高效访问和管理。强调 AI 在代码实现中的辅助作用,认为 Rust 语言更适合此类开发。
AReaL框架通过全异步强化学习训练,简化大模型开发,提升训练效率和系统可靠性。其核心优势在于解耦式Agentic RL和Single Controller架构,支持在昇腾平台高效运行,优化权重更新和显存使用,帮助开发者快速上手。
本文介绍了RL-100,一个结合模仿学习与强化学习的机器人学习框架。该框架通过模仿学习、离线强化学习和在线微调三个阶段提升机器人操作能力,旨在提高机器人在真实环境中的可靠性和效率,支持多种控制方式,并通过一致性蒸馏技术实现高频控制,以满足工业应用需求。
RISE是一个通过想象进行机器人强化学习的框架,旨在提升视觉-语言-动作模型在复杂任务中的鲁棒性。它结合动力学预测和价值估计,利用组合式世界模型生成高效学习信号,表现优于传统强化学习方法,能够有效应对动态适应性和精确性要求的任务。
GAPO方法通过精准过滤噪声和稳健估计优势值,解决了企业在复杂环境中AI编程的rollout噪声问题,显著提升了模型的准确性和效率,使真实数据成为模型优化的关键。
本文介绍了GigaBrain-0.5M*模型,该模型通过世界模型增强了视觉-语言-动作(VLA)系统的能力。GigaBrain-0.5M*在GigaBrain-0.5的基础上,采用了基于世界模型的强化学习方法RAMP,显著提升了机器人在复杂任务中的表现,尤其在长时程任务中的前瞻性规划能力。
本文介绍了MetaWorld,一个基于分层世界模型的机器人控制框架,旨在弥合高层语义理解与低层物理执行之间的鸿沟。该框架结合视觉-语言模型、模仿学习和强化学习的优势,通过分层架构进行任务解析和动作生成,提升机器人在动态环境中的适应性和泛化能力。
本文介绍了HumanoidPF(类人潜力场),一种用于人形机器人在杂乱室内场景中无碰撞穿越的技术。该方法通过编码人形体与障碍物的关系,提升机器人在复杂环境中的避障能力。研究者提出了一种混合场景生成策略,结合真实和程序化障碍物,增强训练效果。HumanoidPF被应用于Click-and-Traverse系统,实现高效遥操作导航,实验结果显示其在拥挤场景中表现优异,具有良好的泛化能力。
本文讨论了一种简化版的GRPO算法,结合REINFORCE特性,专注于GSM8K问题的强化学习。该方法不依赖于价值网络、KL正则化或PPO剪切,而是通过规则奖励进行优化。数据流包括生成回答、计算均值基线和优势,目标是最大化期望回报。整体设计旨在降低显存占用,但可能导致更大的梯度方差。
本文介绍了WholeBodyVLA框架,旨在提升人形机器人在复杂环境中的自主控制能力,解决行走与操作的协调问题,结合了潜在学习与强化学习策略。
Cal-QL(校准Q学习)是一种提高离线强化学习后在线微调效率的方法。它通过校准Q值,避免了传统方法中的“遗忘”现象,确保学习到的Q值不低于参考策略的价值,从而防止智能体在微调时误认为新动作更优,导致性能下降。该方法在离线预训练后,通过在线交互进行有效的策略微调,提升了样本效率和策略性能。
完成下面两步后,将自动完成登录并继续当前操作。