小红花·文摘

本研究提出了一种新型的两阶段策略增强规划框架，显著提升了基于大型语言模型的代理商在对手建模中的能力，实验结果表明在MicroRTS环境中的性能提高了85.35%。

通过对手利用增强策略进行大型语言模型规划

BriefGPT - AI 论文速递 ·

本研究提出ASTRA框架，旨在解决现有谈判代理在理性有限性、适应性不足和战略推理能力有限的问题。通过对对手建模和互惠原则，ASTRA实现了动态提议优化，显著提升了谈判效果和代理适应性，具有重要应用潜力。

ASTRA: A Negotiation Agent with Adaptive and Strategic Reasoning for Dynamic Offer Optimization

BriefGPT - AI 论文速递 ·

本研究探讨了对手建模和防御策略，提出了新方法以提高模型的准确性和防御效果。通过博弈理论和强化学习，优化了攻击与防御策略，并解决了计算复杂度问题。同时，分析了后门攻击的可行性，提出了后门检测的理论结果，强调了对敌手意识的重要性。

后门防御、可学习性与模糊化

BriefGPT - AI 论文速递 ·

这项研究提出了一个新的框架LLMArena，用于评估大型语言模型（LLM）在多主体环境中的推理和决策能力，涵盖七个游戏环境。研究发现，最强模型GPT-4与最弱模型Llama-2-70B之间存在三倍的能力差距，同时概率图模型能够提升所有模型的能力。此外，研究还揭示了LLM在对手建模和团队协作方面的不足，为未来研究指明了方向。

CRAB：跨环境多模态语言模型智能体的对比基准

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，通过在线模型选择算法整合大型语言模型（LLM）代理，显著提高决策效率并降低计算成本。研究表明，GPT-4在多代理动态环境中表现最佳，但在对手建模和团队协作能力方面仍需改进。引入LLMArena框架评估LLM在复杂环境中的表现，强调了进一步改进LLM代理设计的重要性。

大型语言模型评估顺序决策能力的 UNO 竞技场

BriefGPT - AI 论文速递 ·

本文介绍了LLMArena和AgentEval等新框架，用于评估大型语言模型（LLM）在多代理动态环境中的能力。研究表明，LLM在对手建模和团队协作方面仍需改进，并探讨了自主复制和适应（ARA）能力的潜在影响，以及在金融市场中应用自适应多智能体框架（MASA）的优势。

360°REA：面向多智能体系统的可重用经验积累与 360° 评估

BriefGPT - AI 论文速递 ·

本文介绍了多种评估智能代理性能的基准工具，如VisualWebArena和AndroidArena，指出大型语言模型（LLM）在复杂任务中的局限性，特别是在多代理环境中的对手建模和团队协作能力。WebVoyager展示了在真实网站上执行任务的成功率，强调了时间意识在语言代理开发中的重要性。

WorkArena: Web 代理在解决常见知识工作任务方面有多大能力？

BriefGPT - AI 论文速递 ·

最近的研究表明，大型语言模型（LLM）在实现人类级智能的自主代理方面具有潜力。引入了LLMArena框架来评估LLM在多代理动态环境中的能力。实验和人类评估发现，LLM在对手建模和团队协作方面仍有发展空间。希望LLMArena能指导未来研究，增强LLM的这些能力，实现更复杂和实用的应用。

LLMArena: 评估大型语言模型在动态多智能体环境中的能力

BriefGPT - AI 论文速递 ·