小红花·文摘

本研究针对LLM代理在未知环境中的行动与学习能力不足，提出了基于经济学的决策任务基准及新测量方法，以评估其在复杂经济问题中的表现。

经济评估：在未知环境中对LLM代理的基准和试金石测试

BriefGPT - AI 论文速递 ·

本研究提出了一种两阶段通用策略框架，结合扩散规划者和逆动力学模型，以解决智能体在多种决策任务中的适应性问题。实验结果显示，联合训练不同智能体的数据集可提高任务完成精度，最高提升42.20%。

Universalizing Generalist Policies

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在因果推理中的能力与局限性。研究发现，LLMs能够利用现有因果知识回答因果问题，但在发现新知识和高精度决策任务方面仍存在不足。未来的研究方向包括引入因果模块以提高模型的可靠性和效率，并提出基准测试以评估LLMs对因果关系的理解，强调因果推理在提升人工智能系统中的潜力。

大型语言模型在叙事因果推理中的失败模式

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在强化学习和决策任务中的应用，提出了新框架以提升战略决策能力，并强调了LLMs在多目标优化中的潜力和实际应用。

通过语言模型机制构建决策模型

BriefGPT - AI 论文速递 ·

本文介绍了一种结合探索和模仿学习的代理程序，该程序在文本游戏中表现优异。通过上下文行动语言模型（CALM）和强化学习，模型在未见过的游戏中实现了69%的得分提升。此外，研究探讨了语言代理在决策任务中的潜力，提出了自主复制和适应（ARA）概念，强调其对安全和监测的影响。

迈向自主代理：语言模型中的自适应规划、推理与行动

BriefGPT - AI 论文速递 ·

pydantic实现的LLM ReAct

plus studio ·