本研究提出了一种高效的连续时间强化学习(CTRL)算法,解决了其在一般函数逼近环境下的理论不足。通过乐观的置信集,首次提供样本复杂性保证,证明该算法在连续控制任务中能显著减少策略更新和运行次数。
本研究提出了一种从稀疏安全反馈中学习安全度量的方法,解决了安全强化学习中安全定义不明确的问题。通过设计安全模型,估计每个决策步骤对整体安全的影响,实证结果表明其在满足未知安全定义方面的有效性,适用于多种连续控制任务。
本研究提出了SMOSE方法,旨在解决连续控制任务中的可解释性问题。SMOSE结合多个具有不同技能的可解释决策者和路由器,显著提高了解释便利性,并在多个基准环境中超越了现有可解释基线,缩小了与非可解释算法的差距。
本研究提出了一种基于扩散建模的模仿学习新方法,解决了传统对抗模仿学习的训练不稳定性问题。该方法通过扩散状态下的得分匹配,简化了学习过程,并在多个连续控制任务中表现优于传统方法。
本文介绍了Q-Prop,一种结合策略梯度与离线强化学习的深度强化学习方法,具有高效和稳定的特点。在MuJoCo环境中表现优于现有算法。研究探讨了多种策略梯度算法及其在连续控制任务中的应用,并提出了改进算法以解决收敛性和性能问题。
离线强化学习通过使用不同行为策略收集的转换来解决强化学习需要大量数据的问题。该方法基于对比预测编码,识别离线数据集中的非稳定性,并在训练和评估过程中进行预测。实验证明该方法在连续控制任务和高维运动任务中表现优于基线方法。
本文介绍了两种新的强化学习算法:期望延迟深度确定性策略梯度(ExpD3)和偏差利用 - 双延迟深度确定性策略梯度(BE-TD3)。这些算法在连续控制任务中表现出有效性,并超越了现有方法。
本研究提出了一种名为“可组合的原语”的方法,用于学习可重复使用的运动技能并将其组合为复杂行为。该方法将代理人的技能分解为基本元素,并通过乘法组合同时激活,使基本元素能够相互传输和重组,以适应新任务的需要。研究演示了该方法在模拟环境中提取可组合的技能并重用这些技能来解决连续控制任务的能力。
完成下面两步后,将自动完成登录并继续当前操作。