本研究探讨了逆强化学习中智能体偏好建模的识别问题,特别是非指数折扣智能体的情况。研究发现,逆强化学习通常无法获取足够的信息来准确识别偏好函数,从而影响智能体的最优策略求解。
完成下面两步后,将自动完成登录并继续当前操作。