小红花·文摘

DEV Community ·

文章讨论了矩阵游戏、马尔可夫游戏、部分可观测马尔可夫决策过程（POMDP）和概率状态响应（PSR），涵盖了强化学习基础、纳什均衡的存在性证明、极小极大定理、博弈论及拉格朗日对偶性。

Xihan Li ·