聚变多样性:基于结果导向的课程强化学习与分歧的超出分布
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一种新的课程强化学习方法 D2C,该方法通过对目标条件分类器进行多样化,确保分类器对于来自分布之外的状态产生分歧,从而探索未知区域并定义一种任意目标条件内在奖励信号,从而产生适应性良好的中间目标序列,以自动探索并征服未知区域。实验结果表明,D2C 在定量和定性方面均优于之前的课程强化学习方法。
该文介绍了一种基于转移学习的强化学习智能体的方法,能够快速适应任务或转移动力学变化。该方法通过迭代学习一组策略,并受到所有先前策略下的不太可能解决方案的约束,避免了学习额外的新颖性检测模型,并将约束融入行动选择和优化步骤中,避免了任务和新颖性奖励信号的平衡。