本研究提出了一种离线适应框架,旨在解决多目标强化学习中人工设定目标偏好的问题。该框架通过少量示例隐式指示期望偏好,并可扩展以满足安全目标的约束。实证结果表明,该框架能够推断出符合真实偏好的策略。
完成下面两步后,将自动完成登录并继续当前操作。