小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新型的两阶段策略增强规划框架,显著提升了基于大型语言模型的代理商在对手建模中的能力,实验结果表明在MicroRTS环境中的性能提高了85.35%。

通过对手利用增强策略进行大型语言模型规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出ASTRA框架,旨在解决现有谈判代理在理性有限性、适应性不足和战略推理能力有限的问题。通过对对手建模和互惠原则,ASTRA实现了动态提议优化,显著提升了谈判效果和代理适应性,具有重要应用潜力。

ASTRA: A Negotiation Agent with Adaptive and Strategic Reasoning for Dynamic Offer Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究探讨了对手建模和防御策略,提出了新方法以提高模型的准确性和防御效果。通过博弈理论和强化学习,优化了攻击与防御策略,并解决了计算复杂度问题。同时,分析了后门攻击的可行性,提出了后门检测的理论结果,强调了对敌手意识的重要性。

后门防御、可学习性与模糊化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

这项研究提出了一个新的框架LLMArena,用于评估大型语言模型(LLM)在多主体环境中的推理和决策能力,涵盖七个游戏环境。研究发现,最强模型GPT-4与最弱模型Llama-2-70B之间存在三倍的能力差距,同时概率图模型能够提升所有模型的能力。此外,研究还揭示了LLM在对手建模和团队协作方面的不足,为未来研究指明了方向。

CRAB:跨环境多模态语言模型智能体的对比基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

本文提出了一种新方法,通过在线模型选择算法整合大型语言模型(LLM)代理,显著提高决策效率并降低计算成本。研究表明,GPT-4在多代理动态环境中表现最佳,但在对手建模和团队协作能力方面仍需改进。引入LLMArena框架评估LLM在复杂环境中的表现,强调了进一步改进LLM代理设计的重要性。

大型语言模型评估顺序决策能力的 UNO 竞技场

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

本文介绍了LLMArena和AgentEval等新框架,用于评估大型语言模型(LLM)在多代理动态环境中的能力。研究表明,LLM在对手建模和团队协作方面仍需改进,并探讨了自主复制和适应(ARA)能力的潜在影响,以及在金融市场中应用自适应多智能体框架(MASA)的优势。

360°REA:面向多智能体系统的可重用经验积累与 360° 评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

本文介绍了多种评估智能代理性能的基准工具,如VisualWebArena和AndroidArena,指出大型语言模型(LLM)在复杂任务中的局限性,特别是在多代理环境中的对手建模和团队协作能力。WebVoyager展示了在真实网站上执行任务的成功率,强调了时间意识在语言代理开发中的重要性。

WorkArena: Web 代理在解决常见知识工作任务方面有多大能力?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

最近的研究表明,大型语言模型(LLM)在实现人类级智能的自主代理方面具有潜力。引入了LLMArena框架来评估LLM在多代理动态环境中的能力。实验和人类评估发现,LLM在对手建模和团队协作方面仍有发展空间。希望LLMArena能指导未来研究,增强LLM的这些能力,实现更复杂和实用的应用。

LLMArena: 评估大型语言模型在动态多智能体环境中的能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-26T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码