本研究提出了LMAgent,一个基于多模态大语言模型的智能体系统,旨在解决多用户行为模拟中的真实模拟问题。研究表明,该系统通过自一致性提示和快速记忆机制提升决策性能,展现出与人类相似的行为指标,显示其在大规模社交行为模拟中的潜力。
本文研究了随机饲料成本对水产养殖的影响,利用大豆期货预测鲑鱼饲料的随机行为。通过深度神经网络优化决策规则,显著提升了鲑鱼捕捞的决策性能,且计算成本可忽略。
本研究提出了一种新方法CL2DC,旨在在人机协作分类中有效结合学习延迟与补充,以提升决策性能。通过特定预算评估系统表现,结果优于现有方法。
研究人员通过技能集优化(SSO)方法提出了一种提高大型语言模型在交互环境中决策性能的方法。SSO通过构建和优化可迁移技能,提供给大型语言模型以加强高奖励行为,并通过删除不再产生高奖励的技能来进一步优化技能集。实证评估结果显示,在NetHack和ScienceWorld中,SSO的性能比基准提升了40%和35%。
通过引入空间-时间相关推理等辅助任务,将深度强化学习框架与神经网络结合,提高智能代理在复杂场景中的决策性能和可解释性。
完成下面两步后,将自动完成登录并继续当前操作。