小红花·文摘

本文提出了两种无模型强化学习算法，针对无限时间平均回报的马尔可夫决策过程（MDP）问题。第一种算法在弱通信MDP中简化为折扣回报，遗憾为O(T^(2/3))；第二种算法改进至O(sqrt(T))，但需要更强的遍历条件。这些算法在计算效率和遗憾最小化方面取得了显著进展。

BriefGPT - AI 论文速递 ·

本文介绍了一种基于多臂老虎机框架的决策模型，分析社交网络中的学习与决策过程。个体通过观察邻居行为来最小化后悔。研究提出多种算法，适用于不同网络结构和反馈情况，证明了在社交网络中实现近似纳什均衡的有效性。同时，探讨了延迟反馈和动态偏好下的遗憾最小化问题，提出新的算法和度量标准，具有重要应用价值。

BriefGPT - AI 论文速递 ·

本文探讨了在折扣无限时间马尔可夫决策过程中的强化学习算法，包括策略价值估计、离线强化学习方法、基于悲观主义的算法及混合强化学习算法Hy-Q。研究表明了批处理与在线学习的区别，并提出了新算法在样本效率和遗憾最小化方面的理论保证。

BriefGPT - AI 论文速递 ·

本文介绍了一种针对隐式马尔科夫决策过程（LMDPs）中遗憾最小化问题的新样本高效算法，提出了局部保证的有效算法。研究表明，具有潜在上下文信息的LMDPs需要Ω(K^(2/3))的后悔，并提出了匹配上限的算法。这些结果对交互式学习问题具有重要意义。

BriefGPT - AI 论文速递 ·

本文研究了多臂赌博机问题，提出了一种新算法以最小化遗憾，并展示了其在特定条件下的近似最优性。同时，研究探讨了攻击者如何通过干扰策略控制受害者行为，揭示了在线推荐系统中的安全隐患。

BriefGPT - AI 论文速递 ·

本文探讨了多臂赌博机问题的样本复杂性，提出了新算法和复杂度度量，研究了不同情况下的遗憾最小化策略，并展示了算法在信息检索和在线学习中的优越性。

BriefGPT - AI 论文速递 ·