小红花·文摘

本研究提出了一种新的反向强化学习框架SWIRL，解决了传统方法无法捕捉动物历史依赖的问题。该模型结合时间变化和历史依赖的奖励函数，更准确地描述复杂的动物决策过程，并在多个数据集上优于传统模型。