小红花·文摘

我们提出了一种新的分析方法，平滑学习目标，消除局部最优解，保留全局最优解。通过修改梯度估计和增加随机参数更新，提高最优策略的概率。实证研究突出了熵奖励的局限性，并为未来研究提供指导。