基于不等式约束的零遗憾执行预测

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种状态相关的随机近似算法,用于解决表现性预测问题,并找到表现稳定解的固定点。研究证明了随机梯度可以通过受控Markov链驱动的有偏随机梯度建模,并提出了一种新的有限时间性能分析方法。数值实验验证了这些发现。

🎯

关键要点

  • 本文研究表现性预测问题,优化随机损失函数。

  • 代理提供适应于学习者和代理以前状态的样本。

  • 提出了一种状态相关的随机近似算法,找到表现稳定解的固定点。

  • 证明随机梯度可以通过受控Markov链驱动的有偏随机梯度建模。

  • 提出新的有限时间性能分析方法,表现稳定解的期望平方距离与迭代次数的 $1/k$ 递减。

  • 通过数值实验验证研究发现。

➡️

继续阅读