小红花·文摘

本研究提出了一种PBL算法，用于协作游戏中的隐式信息传递，结合先验信仰和策略模块，通过辅助奖励激励代理传递信息。同时，研究探讨了在线学习中的探索成本分摊、双边撮合市场的稳定匹配算法、增强型多智能体系统训练框架PSRO及其在博弈中的应用，揭示了信息不对称下的学习局限性。