聚类线性情境强化学习与背匠
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了一种集群上下文强化学习算法,具有亚线性遗憾和不需要访问所有臂的特点。通过结合计量经济学和约束条件强化学习,实现了最大化总回报的目标。
🎯
关键要点
- 本文提出了一种集群上下文强化学习算法,具有亚线性遗憾和不需要访问所有臂的特点。
- 算法研究了回报和资源消耗是集群特定线性模型的结果。
- 通过拉动一根臂在一个时间段内会产生回报和多个资源的消耗。
- 任何资源的总消耗超过约束条件会导致算法终止。
- 最大化总回报需要学习回报、资源消耗和集群成员关系的模型。
- 提出的算法在时间段的数量上具有亚线性的遗憾。
- 只需对随机选择的一部分臂执行一次聚类即可达到最大化总回报的结果。
- 结合了计量经济学和约束条件强化学习的文献中的技术。
➡️