小红花·文摘

本研究提出了AutoLibra框架，解决了传统代理评估粗糙且依赖专家设计的问题。通过开放式人类反馈，AutoLibra能够生成细粒度评估指标，并在文本游戏任务中提升代理性能20%。

BriefGPT - AI 论文速递 ·

DEV Community ·

本研究提出了一个新基准——文本游戏，以评估大型语言模型在复杂问题解决中的推理和自我反思能力。结果表明，LLMs在简单和中等难度问题上表现良好，但在高难度任务中面临挑战，突显了推理能力的重要性。

BriefGPT - AI 论文速递 ·

DEV Community ·

本研究探讨了智能体在文本游戏中的复杂推理和适应性挑战，提出了一种新方法“Sweet”，旨在提升智能体在互动文本环境中的体验。

BriefGPT - AI 论文速递 ·

该文探讨了通过注入领域知识来改善文本游戏中智能代理的实现，提出了多种注入策略并在实验中验证其有效性。同时，研究分析了环境$Conan$中的主动推理，指出现有模型在积极探索和复杂场景理解方面的不足，旨在推动人工智能代理的进步。

BriefGPT - AI 论文速递 ·

本文提出了一种带有片段式探索机制的循环强化学习代理，旨在文本游戏中发现有效策略。研究表明，该代理能够在未见过的更难游戏中泛化，展示了在多样化任务中学习的潜力。此外，探讨了深度学习与时间逻辑结合的应用，提出了新型数位分解器和计数奖励自动机，提升了样本效率和任务完成能力。

BriefGPT - AI 论文速递 ·

本文介绍了多种基于大型语言模型（LLM）的代理框架，旨在提升文本游戏中的推理和决策能力。研究表明，结合图形表示和外部思考器模块的创新方法能有效改善代理表现，尤其在复杂游戏环境中。实验验证显示，该框架在推理、语音生成和在线游戏评估方面具有优越性，并贡献了大型社交推理游戏数据集。

BriefGPT - AI 论文速递 ·

本文介绍了一种结合探索和模仿学习的代理程序，该程序在文本游戏中表现优异。通过上下文行动语言模型（CALM）和强化学习，模型在未见过的游戏中实现了69%的得分提升。此外，研究探讨了语言代理在决策任务中的潜力，提出了自主复制和适应（ARA）概念，强调其对安全和监测的影响。

BriefGPT - AI 论文速递 ·

本文探讨了通过注入领域知识来改善基于文本游戏的智能代理实现，采用深度强化学习框架，结合知识图谱和输入编码策略。实验结果表明，该方法在游戏状态表示和行动策略学习上显著优于传统模型，提升了代理在文本游戏中的性能。

BriefGPT - AI 论文速递 ·

该论文探讨了大型语言模型（LLMs）在符号推理中的应用，提出了增强其推理能力的策略，并通过实验验证了其在文本游戏中的表现。研究发现LLMs在逻辑推理上存在缺陷，并提出了多种方法来提升其能力，强调了新策略和数据集的重要性，以缩小与人类推理的差距。

BriefGPT - AI 论文速递 ·