小红花·文摘

本研究提出了一种离线适应框架，旨在解决多目标强化学习中人工设定目标偏好的问题。该框架通过少量示例隐式指示期望偏好，并可扩展以满足安全目标的约束。实证结果表明，该框架能够推断出符合真实偏好的策略。