小红花·文摘

通过探索扩展代理的合成任务生成

Apple Machine Learning Research ·

本研究提出了一种批评引导改进（CGI）框架，旨在解决大型语言模型在行动改进中的反馈不足问题。通过演员模型与批评模型的协作，CGI显著提升了决策效率，实验结果表明其在多种交互环境中优于现有基准。

语言的灯塔：通过批评引导改进增强大语言模型代理

BriefGPT - AI 论文速递 ·

本研究探讨基础模型在交互环境中信息收集的能力，提出了一个新框架以最大化信息增益。模型在识别单一奖励特征方面表现良好，但在多奖励特征任务中仍需改进。

Can Foundation Models Actively Collect Information in Interactive Environments to Test Hypotheses?

BriefGPT - AI 论文速递 ·

研究人员通过技能集优化（SSO）方法提出了一种提高大型语言模型在交互环境中决策性能的方法。SSO通过构建和优化可迁移技能，提供给大型语言模型以加强高奖励行为，并通过删除不再产生高奖励的技能来进一步优化技能集。实证评估结果显示，在NetHack和ScienceWorld中，SSO的性能比基准提升了40%和35%。

技能集优化：通过可转移技能强化语言模型行为

BriefGPT - AI 论文速递 ·