本研究提出了虚幻多智能体游乐场(Unreal-MAP),这是一个基于虚幻引擎的多智能体强化学习平台,支持用户创建多智能体任务,并有效结合现有算法,推动MARL领域的发展。
本研究提出了一种分布式价值分解网络(DVDN),旨在解决部分可观测条件下的分布式训练问题。DVDN能够生成联合Q函数并将其分解为各个智能体的Q函数,适用于无法集中训练的场景。研究结果表明,DVDN在十个多智能体强化学习任务中表现出与集中训练相似的效果。
本文介绍了一种新型脉冲神经网络(SNN)架构,结合多层事件驱动聚类和时序差分调节,显著提升了强化学习性能。研究表明,SNN在边缘AI硬件上的表现优于传统递归神经网络,能效提升超过100倍。此外,提出的训练算法可替代标准反向传播,节省计算成本并提高学习稳定性。
多智能体强化学习(MARL)在优化多智能体共享资源中的系统性能方面具有潜力。研究者提出了一种基于事件驱动的公式和概率逻辑神经网络(PLNN)框架,用于处理分布式协作 MARL 智能体的决策制定。研究成果通过解决片上系统中的功率共享问题来展示。
我们提出了一种MARL的通用价值函数分解方法QFree,通过优势函数和混合网络结构满足等价分解,验证了其在复杂环境中的有效性和性能达到最新水平。
该文介绍了 QFree 方法,一种基于优势函数的 MARL 通用价值函数分解方法,使用混合网络结构满足等价分解,并将等价条件作为正则化项开发了一种新型损失函数。在非单调矩阵博弈场景和 SMAC 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。
本文提出了一种可完全扩展和去中心化的多智能体 A2C 算法,用于城市交通网络中的自适应交通信号控制。结果表明其优化性、鲁棒性和样本效率优于其他最先进的去中心化 MARL 算法。
完成下面两步后,将自动完成登录并继续当前操作。