面对环境不确定性的高样本效率鲁棒多智能体强化学习

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一些稳定点,在数值实验中进一步验证了算法的鲁棒性。

🎯

关键要点

  • 提出了一种基于样本的方法来估计未知的不确定性集。

  • 设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法。

  • 算法可以在线上和增量的情况下实现。

  • 证明了 Q 学习算法在不需要收敛性保证的情况下收敛到最优的鲁棒 Q 函数。

  • 证明了 TDC 算法渐近收敛到一些稳定点。

  • 通过数值实验验证了算法的鲁棒性。

🏷️

标签

➡️

继续阅读