基于分布风险的强化学习中的谨慎感知转移
发表于: 。本研究解决了强化学习转移过程中安全性不足的问题,提出了一种新型的谨慎感知转移学习框架(CAT),该框架优化了基于状态-行动占用测度的奖励回报和谨慎加权和。研究表明,CAT在不同风险条件下能够持续优于现有方法,提供更安全的策略,具有重要的实用价值。
本研究解决了强化学习转移过程中安全性不足的问题,提出了一种新型的谨慎感知转移学习框架(CAT),该框架优化了基于状态-行动占用测度的奖励回报和谨慎加权和。研究表明,CAT在不同风险条件下能够持续优于现有方法,提供更安全的策略,具有重要的实用价值。