小红花·文摘

本文介绍了一种针对隐式马尔科夫决策过程（LMDPs）中遗憾最小化问题的新样本高效算法，提出了局部保证的有效算法。研究表明，具有潜在上下文信息的LMDPs需要Ω(K^(2/3))的后悔，并提出了匹配上限的算法。这些结果对交互式学习问题具有重要意义。