基于不等式约束的零遗憾执行预测
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种状态相关的随机近似算法,用于解决表现性预测问题,并找到表现稳定解的固定点。研究证明了随机梯度可以通过受控Markov链驱动的有偏随机梯度建模,并提出了一种新的有限时间性能分析方法。数值实验验证了这些发现。
🎯
关键要点
-
本文研究表现性预测问题,优化随机损失函数。
-
代理提供适应于学习者和代理以前状态的样本。
-
提出了一种状态相关的随机近似算法,找到表现稳定解的固定点。
-
证明随机梯度可以通过受控Markov链驱动的有偏随机梯度建模。
-
提出新的有限时间性能分析方法,表现稳定解的期望平方距离与迭代次数的 $1/k$ 递减。
-
通过数值实验验证研究发现。
➡️