小红花·文摘

本研究提出了一种引导策略优化（GPO）框架，旨在解决部分可观察环境中强化学习的不确定性问题。该方法通过引导者与学习者的共同训练，理论上达到了与直接强化学习相当的最优性，并在多项任务中显著优于现有方法。