DreamSmooth是一种奖励平滑方法,通过学习预测时间上平滑的奖励来提高基于模型的强化学习的性能。实证结果表明,DreamSmooth在长时间范围的稀疏奖励任务上表现出最先进的性能,并在常见的基准测试中也表现良好。
通过结合具有示意性子目标的语言模型和模型回滚,我们提出了一种新的多模态的基于模型的强化学习方法,名为大语言模型梦境。该方法在具有挑战性任务中鼓励发现和达成目标,并在各种困难的、稀疏奖励的环境中进行了大量实验,显示出优于近期方法的性能提升。
该文章介绍了管理基于模型的强化学习中风险的方法,包括概率安全约束、不确定性处理和随机神经网络的平衡。实验证明,将不确定性分离对于在不确定和安全关键的控制环境中使用数据驱动的MPC方法表现良好是至关重要的。
该研究提出了一种基于物理学进展的新方法,能够在少量轨迹采样下实现基于模型的强化学习。实验结果显示该方法具有强泛化能力和性能表现,且需要较少真实物理系统轨迹。
该文介绍了一种基于模型的强化学习方法,用于制定保守化自适应策略。该方法通过预测人机交互模型来评估策略效果,并避免用户面临更高的成本。实证和模拟结果表明,该方法在自适应菜单的案例中表现更好。
完成下面两步后,将自动完成登录并继续当前操作。