本文研究了在未知转移和对抗性奖励下的线性混合MDP动态遗憾问题,提出了一种新算法,结合占用测度与策略方法,有效应对动态环境,实现了近优性能。
研究了在未知转移和对抗性奖励下的线性混合MDP动态遗憾问题。
填补了目前方法在动态和非静态环境中的不足。
提出了一种新算法,结合了基于占用测度的方法和基于策略的方法。
该算法有效处理动态环境和未知转移。
研究表明,该算法在动态遗憾方面达到了近优的性能。
对相关领域具有重要的影响。
完成下面两步后,将自动完成登录并继续当前操作。