FORM:学习表达性和可转移的第一阶逻辑奖励机器
📝
内容提要
本研究解决了传统奖励机器(RM)在应对非马尔可夫奖励时的表达能力不足问题,提出了一种新的第一阶奖励机器(FORM),利用第一阶逻辑标记边,从而实现更紧凑和可转移的RM。实验结果表明,FORM在学习速度和任务转移性方面显著优于传统RM,能够有效处理传统方法无法解决的复杂任务。
➡️
本研究解决了传统奖励机器(RM)在应对非马尔可夫奖励时的表达能力不足问题,提出了一种新的第一阶奖励机器(FORM),利用第一阶逻辑标记边,从而实现更紧凑和可转移的RM。实验结果表明,FORM在学习速度和任务转移性方面显著优于传统RM,能够有效处理传统方法无法解决的复杂任务。