聚类线性情境强化学习与背匠
原文约400字/词,阅读约需1分钟。发表于: 。本文研究了集群上下文强化学习,其中回报和资源消耗是集群特定线性模型的结果,算法无法知晓各个元素的集群成员关系。通过拉动一根臂在一个时间段内会产生回报和对于多个资源的消耗,并且任何资源的总消耗超过约束条件会导致算法终止。因此,最大化总回报需要学习回报、资源消耗和集群成员关系的模型。我们提出了一种算法,在时间段的数量上具有亚线性的遗憾,并且不需要访问所有的臂。特别地,我们证明只需对随机选择的一部...
本文提出了一种集群上下文强化学习算法,具有亚线性遗憾和不需要访问所有臂的特点。通过结合计量经济学和约束条件强化学习,实现了最大化总回报的目标。