小红花·文摘

研究人员通过技能集优化（SSO）方法提出了一种提高大型语言模型在交互环境中决策性能的方法。SSO通过构建和优化可迁移技能，提供给大型语言模型以加强高奖励行为，并通过删除不再产生高奖励的技能来进一步优化技能集。实证评估结果显示，在NetHack和ScienceWorld中，SSO的性能比基准提升了40%和35%。