BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

离线多智能体强化学习的反事实保守 Q å­¦ä¹

我们提出了一个新颖的多智能体离线强化学习算法,名为 CounterFactual Conservative Q-Learning (CFCQL),通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响,并在多个环境中进行了实验验证。

该文介绍了置信度条件价值函数的学习方法,能够在训练时学习不同的保守程度,并在评估时动态地选择其中一种。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。

保守程度 动态选择 强化学习算法 离散控制领域 置信度条件价值函数

相关推荐 去reddit讨论

热榜 Top10

eolink
eolink
LigaAI
LigaAI
Dify.AI
Dify.AI
观测云
观测云

推荐或自荐