小红花·文摘

本研究提出了一种新方法，利用大型语言模型作为白盒搜索者，解决复杂自定义环境和多种需求下强化学习任务中奖励函数设计的挑战。该方法能够高效生成和优化奖励组件，提高多目标强化学习的效率。