GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型,旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测,优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验,在机器人数据上进行预训练,以增强对交互动力学的鲁棒性。
本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。
本研究提出DISCO方法,旨在解决强化学习在不平衡数据集上的优化不足。通过领域和难度感知的奖励缩放,DISCO显著提升了策略学习的效率,实验结果表明其性能比现有方法提高了5%,并在多领域对齐基准上创下新纪录。
本研究提出了一种新颖的世界建模框架WM3C,旨在解决强化学习中智能体在未知动态环境下的泛化问题。实验结果表明,WM3C在适应新任务、识别潜在过程和改进策略学习方面显著优于现有方法。
本研究针对离线强化学习中的分布偏移问题,提出了离线机器人世界模型(RWM-O),以改进策略学习,增强泛化能力和安全性,推动基于真实数据的政策学习。
本研究提出了一种名为文本到决策智能体(T2DA)的新框架,旨在解决传统强化学习系统在未见任务中获取高质量监督信号的限制。该框架通过自然语言直接监督通用策略学习,实现了零样本文本到决策的生成,并在MuJoCo和Meta-World基准上表现优于多个基线方法。
本研究提出统一世界模型(UWM),通过结合视频和动作扩散,解决大规模机器人基础模型中模仿学习的扩展问题。UWM在统一变换器架构中整合这两种数据,显著提升了策略学习的通用性与鲁棒性。
本研究提出了一种新颖的备战棋策略学习方案,结合在线与离线方法,利用并行超级计算机的处理能力,实现了与顶尖玩家相当或更优的表现,推动了备战棋价值函数学习的进展。
本研究提出了一种名为FACTR的方法,旨在提升远程操作和策略学习中的力反馈利用。通过减少视觉干扰,该模型在未见对象的泛化能力上提高了43%。
本研究提出了一种三层次架构,通过自动发现宏动作来解决复杂高维任务中学习有效策略的挑战,从而提高了对新任务的快速适应能力,改善了样本效率和成功率。
该研究提出了一种新算法,通过降低置信度空间维度来解决部分观察马尔可夫决策过程(POMDPs),并成功应用于移动机器人导航等任务。研究还探讨了多智能体情境下的代理模型、粒子滤波算法及领域知识在POMDP策略学习中的应用,显著提高了解决效率和准确度。
本文探讨了通过人类遥操作游戏数据提取自我监督视觉模型的方法,结合策略学习和强化学习,实现机器人在复杂环境中的高效操作。研究提出了多种控制策略学习框架,并展示了其在不同操纵任务中的优越性,同时探讨了利用互联网视频训练视觉能力模型的方法,以提升机器人执行任务的能力。
本研究提出了一种回报增强决策变换器(RADT)方法,旨在利用源域数据提升目标域的策略学习。实验结果表明,该方法在非动态强化学习中优于动态规划。
本研究提出了一种基于蒙特卡洛树搜索的近似贝叶斯最优规划方法,显著提升了离线强化学习的性能。通过优化模型训练和策略学习,解决了数据分布漂移问题,并在多项基准测试中表现优异。此外,研究探讨了通过引导策略和反探索奖励改善模型基强化学习效果的方法。
本研究提出利用变分不等式技术改进多智能体强化学习中的策略学习,特别是通过Nested-Lookahead VI和Extragradient方法优化深度确定性策略梯度算法。实验证明,这些方法在多种基准环境中显著提升了性能和稳定性。
国防科技大学与深圳大学研究者提出了一种新策略学习方法,解决机器人灵巧手抓取任务的跨手转移问题。通过分离高层运动生成与低层关节控制,实现策略在不同灵巧手间的低成本迁移,保持抓取性能。采用基于Transformer的策略网络,提升模型的适应性和泛化能力。实验验证了该方法在多种灵巧手和物体上的优越性能。
本文提出了一种基于广义Bellman方程的多目标强化学习算法,旨在通过少量样本快速适应新任务并生成最优策略。该算法利用偏好指导更新网络参数,并采用新并行化方法提高采样效率,适用于连续机器人任务。同时,研究探讨了离线强化学习中的分布偏移问题,提出新方法以改善策略学习效果,并在多个基准任务上取得了先进结果。
该研究论文探讨了扩散模型在机器人和视觉强化学习中的应用,包括数据增强、策略学习和个性化能力提升。实验结果表明,这些方法在样本效率和性能上表现优异,验证了扩散模型在生成高质量样本和标签方面的有效性。
本文研究了离线多智体强化学习中的协调失败问题,并提出了一种基于数据的方法来缓解这个问题。实验结果表明该方法有效。作者认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域。
本文探讨了动态感知奖励函数在偏好基础增强学习中的应用,显著提高了采样效率和策略学习速度。在多种机器人任务中,使用50个偏好标签的性能与500个标签相当,并恢复了较高的真实奖励策略性能。此外,提出了通过人机交互和自训练方法来优化奖励模型,克服了偏好强化学习中的挑战,提升了学习效率和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。