本文探讨了强化学习中状态、动作和策略空间的结构,利用Banach收缩原理提高贝尔曼算子的收敛速度和性能,尤其在MountainCar、CartPole和Acrobot等环境中表现突出。研究表明,深入的数学理解能提升决策算法的有效性。
本文研究了多模态大型语言模型(MLLMs)在不同动作空间中的有效嵌入,以利用其多模态知识。通过统一架构和动作空间适配器,我们发现连续动作中的学习标记化提供了足够的建模精度,而离散动作与MLLM原生输出对齐效果最佳。研究涵盖了七种动作空间适配器在五个环境中的114个任务。
本文研究了机器人操纵器之间的控制策略转移,通过将机器人的状态和动作空间投影到共同的潜在空间,实现了跨机器人的策略转移。使用编码器、解码器和潜在空间控制策略进行训练,重构原始状态和动作。通过生成对抗训练,在目标领域中展示了策略转移的效果。
本文研究了机器人操纵器之间的控制策略转移,通过将机器人的状态和动作空间投影到共同的潜在空间,实现了策略的转移。使用编码器、解码器和潜在空间控制策略进行训练,重构原始状态和动作。通过生成对抗训练,展示了模拟环境到真实环境以及不同机器人之间的策略转移。
本文提出了一种通用的黑盒认证方法,能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励,并扩展了在动作空间上认证扰动的方法。通过求解凸优化问题确定认证边界,实验证明该方法提高了平均累积奖励的认证下界,且比最先进的技术更高效。
本文提出了一种通用的黑盒认证方法,能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励,并扩展了在动作空间上认证扰动的方法。实验结果表明,该方法提高了平均累积奖励的认证下界,且比最先进的技术更高效。
该研究提出了一种新的动作框架,将会话代理的动作空间视为潜在变量,并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明,该方法在 DealOrNoDeal 和 MultiWoz 对话上实现了更好的实证绩效改进。
该文介绍了一个高效的模型学习和规划框架,适用于具有连续状态和动作空间以及非高斯转移模型的随机域。该框架通过估计局部模型来解决规划问题,专注于最相关的状态和最有价值的动作。理论分析证明该方法有效且渐近最优。实验结果表明该算法在模拟的多模式推动问题上表现出了有效性。
完成下面两步后,将自动完成登录并继续当前操作。