MAD-TD:模型增强数据稳定高更新比强化学习
📝
内容提要
该研究解决了使用有限样本时深度强化学习中的不稳定性问题。通过引入模型增强数据的方法,直接利用从学习的世界模型生成的数据来稳定高更新比的训练过程,从而在DeepMind控制套件中实现竞争性能。研究表明,良好模型在数据生成中的重要性,以及MAD-TD在价值过度估计方面的对抗能力和持续学习的实际稳定性收益。
🏷️
标签
➡️