💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
本文介绍了作者在使用SAC模型测试停车环境时遇到的问题,以及通过研究stable-baselines3代码发现的两个SAC模型中的重要参数:log_prob和Squashed Gaussian Trick。作者提出了对于SAC模型,当预测的log_prob越大时,说明探索力度还不够,应该增大熵对reward的增益;反之,当输出action的概率较小时,说明探索的比较好,应该减小熵的增益。
🎯
关键要点
-
作者使用SAC模型测试停车环境时遇到问题,发现最大熵是模型的核心。
-
stable-baselines3使用可学习参数ent_coef作为最大熵的系数,效果显著。
-
log_prob是SAC模型中一个重要参数,影响探索力度和熵对reward的增益。
-
当log_prob较大时,探索力度不足,应增大熵的增益;反之,当log_prob较小时,探索较好,应减小熵的增益。
-
Squashed Gaussian Trick可能引发梯度问题,需进一步完善。
-
stable-baselines3的代码逻辑复杂,难以理解和修改,给作者带来困扰。
-
作者反思模型实现中的trick是否是模型的一部分,认为这些trick在模型训练中起到重要作用。
➡️