AutoPlay是一种可扩展的任务生成管道,通过探索交互环境生成多样的可执行任务,减少对人工标注的依赖。在Android和Ubuntu应用中分别生成了2万和1万任务,显著提高了成功率。
本研究提出了一种批评引导改进(CGI)框架,旨在解决大型语言模型在行动改进中的反馈不足问题。通过演员模型与批评模型的协作,CGI显著提升了决策效率,实验结果表明其在多种交互环境中优于现有基准。
本研究探讨基础模型在交互环境中信息收集的能力,提出了一个新框架以最大化信息增益。模型在识别单一奖励特征方面表现良好,但在多奖励特征任务中仍需改进。
研究人员通过技能集优化(SSO)方法提出了一种提高大型语言模型在交互环境中决策性能的方法。SSO通过构建和优化可迁移技能,提供给大型语言模型以加强高奖励行为,并通过删除不再产生高奖励的技能来进一步优化技能集。实证评估结果显示,在NetHack和ScienceWorld中,SSO的性能比基准提升了40%和35%。
完成下面两步后,将自动完成登录并继续当前操作。