FORM:学习表达性和可转移的第一阶逻辑奖励机器

📝

内容提要

本研究解决了传统奖励机器(RM)在应对非马尔可夫奖励时的表达能力不足问题,提出了一种新的第一阶奖励机器(FORM),利用第一阶逻辑标记边,从而实现更紧凑和可转移的RM。实验结果表明,FORM在学习速度和任务转移性方面显著优于传统RM,能够有效处理传统方法无法解决的复杂任务。

➡️

继续阅读