本研究提出了一种PBL算法,用于协作游戏中的隐式信息传递,结合先验信仰和策略模块,通过辅助奖励激励代理传递信息。同时,研究探讨了在线学习中的探索成本分摊、双边撮合市场的稳定匹配算法、增强型多智能体系统训练框架PSRO及其在博弈中的应用,揭示了信息不对称下的学习局限性。
完成下面两步后,将自动完成登录并继续当前操作。