解耦的 Actor-Critic
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种名为 Decoupled Actor-Critic(DAC)的离策略算法,通过梯度反向传播学习两个不同的演员:一个保守的演员用于时序差分学习,一个乐观的演员用于探索。在 DeepMind Control 任务中,DAC 在低和高回放比例的情况下,并结合了多个设计选择,取得了最新的表现和样本效率。
该文介绍了一种新的演员临界值框架——价值分解演员临界值(VDACs),以提高多智能体强化学习的培训效率和算法性能。在 StarCraft II 微观管理任务测试平台上评估 VDACs,证明其改进了其他演员临界值方法的中位性能。