小红花·文摘

研究探讨了在预算限制下，机器学习模型如何适应连续任务中的决策变化。提出的上下文赌博机模型在理论上保证了适应性，并在实际数据集上表现出显著性能提升，减轻了专家决策负担，提高了自动决策的可靠性。

预算约束下的在线决策延迟

BriefGPT - AI 论文速递 ·

本文研究了上下文赌博机和表格强化学习中纯探索问题的非渐进样本复杂度。通过识别高概率下一组策略的ε最优策略，发现上下文赌博机中估计策略行为的差异可以识别出最佳策略，但在表格强化学习中不成立。然而，受此启发，证明只需要估计强化学习策略与一个参考策略的差异几乎足够，并开发了一个算法，得到了迄今为止对表格强化学习的样本复杂性的最紧密已知界限。

通过策略差异估计在表格强化学习中减少样本复杂度

BriefGPT - AI 论文速递 ·