DDPG训练时如何判断有效收敛

DDPG训练时如何判断有效收敛

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍了有效收敛概念和DDPG算法,对比实验发现有效收敛的critic loss波动较大,无效收敛的反而很快收敛到0附近。作者认为这是因为critic和actor相互依赖,所以critic loss不应该收敛很快。

🎯

关键要点

  • 有效收敛是指模型收敛到与输入相关的状态,无效收敛则是收敛到与输入无关的状态。
  • DDPG算法的基本思想是交替训练critic和actor,类似于GAN的训练方式。
  • 在实验中发现,某些trick在特定任务中无效,重点在于对比有效和无效情况下的critic loss和actor loss。
  • 有效收敛的critic loss波动较大,而无效收敛的critic loss则快速收敛到0附近。
  • critic和actor互相依赖,因此critic loss不应快速收敛,快速收敛可能导致输出与输入无关的情况。
➡️

继续阅读