本文介绍了一种针对隐式马尔科夫决策过程(LMDPs)中遗憾最小化问题的新样本高效算法,提出了局部保证的有效算法。研究表明,具有潜在上下文信息的LMDPs需要Ω(K^(2/3))的后悔,并提出了匹配上限的算法。这些结果对交互式学习问题具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。