线性Q学习的收敛性:收敛速率至有界集合

📝

内容提要

本文解决了线性Q学习可能发生发散的问题,首次建立了其收敛至有界集合的$L^2$收敛速率。研究表明,使用自适应温度的$\epsilon$-softmax行为策略即可实现此收敛,无需对原算法进行修改或假设贝尔曼完整性。此研究的关键在于处理具有快速变化转移函数的马尔可夫噪声下的随机逼近理论,对Q学习领域具有重要影响。

➡️

继续阅读