策略梯度与主动重要性抽样
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化,结合防御性重要性采样,我们提供了一个迭代算法,理论上分析了该算法的收敛速度,并提供了经过数值验证的实际版本,展示了在策略梯度估计方差和学习速度方面的优势。
➡️