小红花·文摘

本研究提出了一种结合软演员评论家和事后重新标签的新方法，解决大型语言模型在复杂环境中在线强化学习的局限性。在多目标强化学习环境中，该方法优于传统策略，并为自主学习代理的发展提供理论支持。