本研究提出了SMAC-HARD基准,旨在解决多智能体强化学习中对手策略多样性不足的问题。通过支持可定制的对手策略和无监督自我对弈,增强了训练的鲁棒性,促进了多智能体强化学习算法的发展。
本研究提出了一种名为任务感知行为场(TAB-Fields)的方法,旨在解决自主代理在对抗场景中无法预测对手策略的问题。该方法通过计算最无偏概率分布,更好地表征对手状态分布,实验结果表明其性能优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。