Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种无模型的强化学习框架,解决了在处理Omega-正则规范时奖励信号与规范语义不匹配的问题。该方法将绝对活跃规范转化为平均奖励目标,能够在未知的通信马尔可夫决策过程中实现更好的学习效果和收敛性,无需周期重置。
🎯
关键要点
- 本研究提出了一种无模型的强化学习框架,解决了在处理Omega-正则规范时奖励信号与规范语义不匹配的问题。
- 该方法将绝对活跃规范转化为平均奖励目标。
- 研究表明,该方法在未知的通信马尔可夫决策过程中实现了更好的学习效果和收敛性,无需周期重置。
🏷️
标签
➡️