本研究提出逆事实经验增强(CEA)算法,旨在解决强化学习中的分布外和低效探索问题。CEA利用变分自编码器建模状态转移,并通过真实信息奖励信号提升学习效果,为强化学习开辟新方向。
完成下面两步后,将自动完成登录并继续当前操作。