我有点酷-HuntZou的博客 ·

stable-baselines3中的SAC

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

本文介绍了作者在使用SAC模型测试停车环境时遇到的问题，以及通过研究stable-baselines3代码发现的两个SAC模型中的重要参数：log_prob和Squashed Gaussian Trick。作者提出了对于SAC模型，当预测的log_prob越大时，说明探索力度还不够，应该增大熵对reward的增益；反之，当输出action的概率较小时，说明探索的比较好，应该减小熵的增益。

🎯

关键要点

作者使用SAC模型测试停车环境时遇到问题，发现最大熵是模型的核心。
stable-baselines3使用可学习参数ent_coef作为最大熵的系数，效果显著。
log_prob是SAC模型中一个重要参数，影响探索力度和熵对reward的增益。
当log_prob较大时，探索力度不足，应增大熵的增益；反之，当log_prob较小时，探索较好，应减小熵的增益。
Squashed Gaussian Trick可能引发梯度问题，需进一步完善。
stable-baselines3的代码逻辑复杂，难以理解和修改，给作者带来困扰。
作者反思模型实现中的trick是否是模型的一部分，认为这些trick在模型训练中起到重要作用。

🏷️

stable-baselines3中的SAC

内容提要

关键要点

标签

继续阅读