基于虚拟行动演员 - 评论家框架的探索
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入虚拟行动演员 - 评论家框架(VAAC),本文提出了一种用于强化学习中有效探索的新型演员 - 评论家框架,其灵感来自人类在不实际采取行动的情况下预想其潜在结果的能力。实验结果表明,VAAC 相比现有算法改善了探索性能。
该文介绍了一种新的演员临界值框架——价值分解演员临界值(VDACs),用于在多智能体强化学习中提高培训效率和算法性能。在 StarCraft II 微观管理任务测试平台上评估 VDACs,证明其改进了其他演员临界值方法的中位性能。