面对环境不确定性的高样本效率鲁棒多智能体强化学习
原文中文,约200字,阅读约需1分钟。发表于: 。为了解决强化学习中的模拟到实际之间的差距,学习策略必须对环境不确定性保持鲁棒性。本研究着重于多智能体环境中学习分布鲁棒马尔可夫博弈,提出基于模型的 DRNVI 算法来学习各种博弈论平衡的鲁棒变种,同时建立了信息论下界以确认 DRNVI 的近乎最优样本复杂度。
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一些稳定点,在数值实验中进一步验证了算法的鲁棒性。