悲观的脱机政策评估、选择和学习的对数平滑
原文中文,约400字,阅读约需1分钟。发表于: 。该研究调查了在线情境决策问题的离线公式化,其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界,我们超越了点估计器,引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般,覆盖了大多数现有的估计器,并为新估计器的开发铺平了道路。特别地,在类别中寻求最紧密的界的追求激发了一种新的估计器(L...
该研究探讨了在线情境决策问题的离线公式化,通过悲观主义原则构建了对策略最坏情况性能的上限界,并引入了新颖的重要性加权风险估计器。实验证明了该估计器的多样性和有利性能。