本文提出了两种无模型强化学习算法,针对无限时间平均回报的马尔可夫决策过程(MDP)问题。第一种算法在弱通信MDP中简化为折扣回报,遗憾为O(T^(2/3));第二种算法改进至O(sqrt(T)),但需要更强的遍历条件。这些算法在计算效率和遗憾最小化方面取得了显著进展。
本文介绍了一种基于多臂老虎机框架的决策模型,分析社交网络中的学习与决策过程。个体通过观察邻居行为来最小化后悔。研究提出多种算法,适用于不同网络结构和反馈情况,证明了在社交网络中实现近似纳什均衡的有效性。同时,探讨了延迟反馈和动态偏好下的遗憾最小化问题,提出新的算法和度量标准,具有重要应用价值。
本文探讨了在折扣无限时间马尔可夫决策过程中的强化学习算法,包括策略价值估计、离线强化学习方法、基于悲观主义的算法及混合强化学习算法Hy-Q。研究表明了批处理与在线学习的区别,并提出了新算法在样本效率和遗憾最小化方面的理论保证。
本文介绍了一种针对隐式马尔科夫决策过程(LMDPs)中遗憾最小化问题的新样本高效算法,提出了局部保证的有效算法。研究表明,具有潜在上下文信息的LMDPs需要Ω(K^(2/3))的后悔,并提出了匹配上限的算法。这些结果对交互式学习问题具有重要意义。
本文研究了多臂赌博机问题,提出了一种新算法以最小化遗憾,并展示了其在特定条件下的近似最优性。同时,研究探讨了攻击者如何通过干扰策略控制受害者行为,揭示了在线推荐系统中的安全隐患。
本文探讨了多臂赌博机问题的样本复杂性,提出了新算法和复杂度度量,研究了不同情况下的遗憾最小化策略,并展示了算法在信息检索和在线学习中的优越性。
完成下面两步后,将自动完成登录并继续当前操作。