标签

 多智能体 

相关的文章:

本列表汇集了关于多智能体系统的前沿研究,涵盖优化策略、合作学习及可解释性等关键主题,助力理解智能体间的复杂交互与协作机制。

基于大型语言模型的多智能体知识视觉问答

原文中文,约200字,阅读约需1分钟。发表于:

本研究针对现有知识视觉问答(VQA)方法在自主使用外部工具和团队协作能力上的不足,提出了一种多智能体投票框架。该框架设计了三种基于大型语言模型的智能体,模拟团队中的不同职能层级,通过投票机制整合答案,从而显著提高了回答的准确性和有效性。

本研究提出了一种多智能体投票框架,旨在改善现有知识视觉问答方法的不足。通过设计三种基于大型语言模型的智能体,模拟团队协作,并利用投票机制提升回答的准确性和有效性。

相关推荐 去reddit讨论

基于投影扩散模型的连续空间中的多智能体路径规划

发表于:

本文解决了多智能体路径规划(MAPF)中,传统优化算法在连续空间中容易遇到的规模性挑战。通过将约束优化与扩散模型相结合,提出了一种新颖的方法,这种方法直接生成符合冲突避免和运动约束的可行多智能体轨迹。该方法在多种高维度模拟场景中有效地展示了其优越性。

相关推荐 去reddit讨论

不确定性感知的分层多智能体电动汽车充电控制的评论增强

发表于:

本研究解决了现有电动汽车充电策略未能充分考虑建筑和用户需求的问题。我们提出HUCA,一种新颖的实时充电控制方案,通过分层演员-评论网络动态调节电力需求,并引入评论增强以应对不确定的电动汽车离开情况。实验表明,HUCA在降低电力成本方面表现优异,并有效平衡建筑与电动汽车之间的能量供应。

相关推荐 去reddit讨论

基于多智能体的自动优化Agentic AI解决方案的框架,通过迭代细化和大型语言模型驱动反馈回路

原文中文,约200字,阅读约需1分钟。发表于:

本研究解决了Agentic AI系统优化过程中需要人工反复调整角色和任务的难题。提出了一种新的框架,通过自主生成和测试假设,利用大型语言模型的反馈回路,实现无需人工干预的最优性能。该方法在多个行业中展示了其显著的效果改进,尤其在动态环境中提升了可扩展性和适应性。

本研究提出了一种新框架,解决了Agentic AI系统在角色和任务调整中的优化问题。通过自主生成和测试假设,并利用大型语言模型的反馈,实现了无需人工干预的最优性能,显著提升了多个行业的效果,尤其在动态环境中。

相关推荐 去reddit讨论

多智能体采样:基于树搜索的智能协作扩展推理计算用于数据合成

发表于:

本研究针对多智能体系统推理计算的扩展法则不足的问题,提出了一种多智能体采样的方法,通过多个不同的语言模型生成合成响应。我们引入了基于树搜索的协调智能体,动态优化生成结构,以提高多智能体协作的效率,实验证明其在机器翻译及数学推理等任务上的表现显著优于单智能体采样,具有显著的计算效率和最佳的性能表现。

相关推荐 去reddit讨论

通过概念瓶颈的多智能体RAG实现可解释的放射学报告生成

发表于:

本研究解决了深度学习在胸部X光(CXR)分类中的可解释性挑战,通过使用概念瓶颈模型(CBMs)和多智能体检索增强生成(RAG)系统进行报告生成。研究表明,该模型能够以可解释的方式生成放射学报告,提高了临床相关性、可解释性和透明度,并在COVID-QU数据集上达到了81%的分类准确率。

相关推荐 去reddit讨论

AIR:在集体多智能体强化学习中统一个体与合作探索

发表于:

本研究解决了在合作性多智能体强化学习中缺乏明确策略带来的探索困难。提出的自适应探索通过身份识别(AIR)方法引入对抗组件,以适应性地调整探索模式和强度。实验证明,AIR在提高训练效率和有效性方面具有显著的贡献,对多个任务表现出色。

相关推荐 去reddit讨论

自适应信息选择的隐性学习用于合作多智能体强化学习

发表于:

本研究解决了多智能体强化学习中的两个关键挑战:智能体在合作任务中难以自主评估输入信息的相关性及在有限通信环境下的协作限制。我们提出了一种新的合作MARL框架,结合信息选择和隐性学习,使智能体能够在没有通信的情况下,仅凭局部信息逐渐建立隐性协调,从而显著提升了决策能力和整体性能。

相关推荐 去reddit讨论

减轻大型语言模型中的社会偏见:多目标和多智能体框架下的方法

发表于:

本研究针对大型语言模型(LLMs)在自然语言处理中的社会偏见问题,提出了一种多目标和多智能体框架(MOMA),以改进其输出而不显著损失性能。MOMA通过多个智能体对输入问题中与偏见相关的内容进行因果干预,从而有效减少偏见而保持准确性,实验结果显示偏见分数降低了高达87.7%。

相关推荐 去reddit讨论

多智能体强化学习中优化策略保留的代理-时间信用分配

原文中文,约300字,阅读约需1分钟。发表于:

本研究针对多智能体环境中代理因稀疏或延迟的全局奖励而难以学习最佳策略的问题,提出了一种新颖的方法——时间代理奖励再分配(TAR²)。该方法通过时间和代理之间的奖励再分配,解决了代理-时间信用分配问题,从理论和实证上证明,TAR² 加快了学习过程并稳定了学习效果,且在结合单代理强化学习算法时,其性能与传统的多代理强化学习方法相当或更佳。

本研究提出了一种新方法——时间代理奖励再分配(TAR²),旨在解决多智能体环境中因奖励稀疏或延迟导致的学习困难。TAR²通过再分配奖励加速学习过程,提升稳定性,表现优于传统的多代理强化学习方法。

相关推荐 去reddit讨论