GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型,旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测,优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验,在机器人数据上进行预训练,以增强对交互动力学的鲁棒性。
本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。
本研究提出DISCO方法,旨在解决强化学习在不平衡数据集上的优化不足。通过领域和难度感知的奖励缩放,DISCO显著提升了策略学习的效率,实验结果表明其性能比现有方法提高了5%,并在多领域对齐基准上创下新纪录。
本研究提出了一种新颖的世界建模框架WM3C,旨在解决强化学习中智能体在未知动态环境下的泛化问题。实验结果表明,WM3C在适应新任务、识别潜在过程和改进策略学习方面显著优于现有方法。
本研究针对离线强化学习中的分布偏移问题,提出了离线机器人世界模型(RWM-O),以改进策略学习,增强泛化能力和安全性,推动基于真实数据的政策学习。
本研究提出了一种名为文本到决策智能体(T2DA)的新框架,旨在解决传统强化学习系统在未见任务中获取高质量监督信号的限制。该框架通过自然语言直接监督通用策略学习,实现了零样本文本到决策的生成,并在MuJoCo和Meta-World基准上表现优于多个基线方法。
本研究提出统一世界模型(UWM),通过结合视频和动作扩散,解决大规模机器人基础模型中模仿学习的扩展问题。UWM在统一变换器架构中整合这两种数据,显著提升了策略学习的通用性与鲁棒性。
本研究提出了一种新颖的备战棋策略学习方案,结合在线与离线方法,利用并行超级计算机的处理能力,实现了与顶尖玩家相当或更优的表现,推动了备战棋价值函数学习的进展。
本研究提出了一种名为FACTR的方法,旨在提升远程操作和策略学习中的力反馈利用。通过减少视觉干扰,该模型在未见对象的泛化能力上提高了43%。
本研究提出了一种三层次架构,通过自动发现宏动作来解决复杂高维任务中学习有效策略的挑战,从而提高了对新任务的快速适应能力,改善了样本效率和成功率。
该研究提出了一种新算法,通过降低置信度空间维度来解决部分观察马尔可夫决策过程(POMDPs),并成功应用于移动机器人导航等任务。研究还探讨了多智能体情境下的代理模型、粒子滤波算法及领域知识在POMDP策略学习中的应用,显著提高了解决效率和准确度。
本研究提出了一种回报增强决策变换器(RADT)方法,旨在利用源域数据提升目标域的策略学习。实验结果表明,该方法在非动态强化学习中优于动态规划。
研究比较了最短时间任务与密集奖励任务的奖励机制,发现最短时间任务能够学习更优策略并提升性能。初始策略的目标达成率是稀疏反馈下学习成功的早期指标。实验表明,在真实机器人平台上,使用常数负奖励可在两到三小时内学习基于像素的策略。
国防科技大学与深圳大学研究者提出了一种新策略学习方法,解决机器人灵巧手抓取任务的跨手转移问题。通过分离高层运动生成与低层关节控制,实现策略在不同灵巧手间的低成本迁移,保持抓取性能。采用基于Transformer的策略网络,提升模型的适应性和泛化能力。实验验证了该方法在多种灵巧手和物体上的优越性能。
本研究解决了离线多智体强化学习中的协调失败问题,并提出了一种基于数据的方法来缓解该问题。实验结果证明了该方法的有效性,并展示了从简化游戏中得出的见解如何转化为对更复杂环境有用的理论基础见解。
本文研究了离线多智体强化学习中的协调失败问题,并提出了一种基于数据的方法来缓解这个问题。实验结果表明该方法有效。作者认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域。
研究人员提出了一种名为FCSRL的新框架,用于在安全强化学习中增强策略学习和约束估计。实证评估表明,该方法在多种任务中能够学习到更好的安全感知嵌入并取得优越的性能。
通过学习动态感知奖励函数,可以提高偏好基础增强学习的采样效率。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数,可以实现更快的策略学习和更好的最终策略性能。在四足行走、行走者行走和猎豹奔跑中,通过50个偏好标签,性能与现有方法的500个偏好标签相同,并恢复了83%和66%的地面真实奖励策略性能,而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。
本论文研究了策略学习中的规划问题,通过建立关系性神经网络的电路复杂度分析与目标回归搜索之间的联系,证明了电路宽度和深度与物体数量和规划周期成正比,揭示了设计策略学习神经网络的实用性。
本研究评估了物体装配任务中视觉表示的鲁棒性,并发现从头开始训练的视觉编码器在双臂操纵设置中表现更好。研究还提出了旋转表示和相关损失函数,以提高策略学习效果,并提出了一种用于评估视觉运动策略学习进展的新型任务场景,特别关注提高复杂装配任务的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。