离线多智能体强化å¦ä¹ çš„å事实ä¿å®ˆ Q å¦ä¹
我们提出了一个新颖的多智能体离线强化学习算法,名为 CounterFactual Conservative Q-Learning (CFCQL),通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响,并在多个环境中进行了实验验证。
该文介绍了置信度条件价值函数的学习方法,能够在训练时学习不同的保守程度,并在评估时动态地选择其中一种。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。