APART: 采用升序奖励和丢弃法的多样化技能发现
原文中文,约400字,阅读约需1分钟。发表于: 。在无奖励环境中研究多样化技能发现,使用内在奖励和一个通过轨迹预测技能的判别器进行技能的相互训练,通过使用所有对组合的判别器、新颖的内在奖励函数和辍学正则化技术的方式,取代了标准的一对多(softmax)判别器,所提出的组合方法命名为 APART,在简单的网格环境中比以前的方法大大减少了样本数量,研究探究了更简单的算法,通过改变 VIC、重新调整内在奖励和调整 softmax...
研究者提出了一种名为APART的组合方法,通过使用内在奖励和轨迹预测技能的判别器相互训练。他们发现这种方法在简单的网格环境中显著减少了样本数量。研究者通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能。这些研究结果揭示了强化学习中技能发现算法成功的关键因素。