GRACE是一种可解释逆强化学习的语言模型框架,通过专家演示反向工程可解释的奖励函数。该方法结合大型语言模型和进化搜索,生成可执行的代码奖励函数,并在BabyAI和AndroidWorld基准上验证其有效性。GRACE能够在复杂的多任务环境中高效学习准确的奖励,并构建复杂的奖励API。
本研究提出了一种层次化强化学习方法,通过专家提供的抽象动态规划生成子目标,以提高复杂多任务环境中的决策效率。实验证明,该方法在样本效率、任务完成率和新场景泛化能力上优于现有方法,具有重要影响。
本文提出了一种新的马尔可夫决策过程任务规范语言,旨在改进奖励函数并独立于环境。研究结合深度强化学习与线性时间逻辑(LTL),展示了在多任务环境中提高指令跟随效率的优势,并通过新型框架和算法解决了稀疏奖励信号问题,显著提升了学习性能。
该研究探讨了多任务环境下的联邦迁移学习,发现使用任务特定和个性化的联邦模型进行迁移学习和训练可以获得类似或更高的准确性。
完成下面两步后,将自动完成登录并继续当前操作。