小红花·文摘

本文介绍了一种基于模型的学习方式，通过多智能体合作完成任务，提高了多智能体控制的数据效率。通过扩展的价值函数实现了分散的基于模型的策略优化框架，并在智能交通系统的多项基准测试中展示了出色的数据效率和与真实模型的无模型方法匹配的性能。