本研究提出了一种新方法,利用大型语言模型作为白盒搜索者,解决复杂自定义环境和多种需求下强化学习任务中奖励函数设计的挑战。该方法能够高效生成和优化奖励组件,提高多目标强化学习的效率。
完成下面两步后,将自动完成登录并继续当前操作。