小红花·文摘

研究表明，小奖励的方差可以改善赌博问题中的遗憾界限。疏离维度在方差相关界限中很重要，方差信息在特定条件下能显著提升算法表现。

BriefGPT - AI 论文速递 ·

本文介绍了一种新型无投影算法用于在线凸优化，具有领先的遗憾保证。其遗憾界限为$ ilde{O}( ext{sqrt}(dT) + ext{kappa} d)$，主要项不受可行集非球面率$ ext{kappa}$影响，克服了传统方法的局限性，并在约束随机凸优化中实现了更快的收敛速度。

BriefGPT - AI 论文速递 ·

本文研究了在预算和时间限制下的上下文赌博问题，提出了多种高效算法以实现近似求解和动态适应。研究涵盖非参数上下文赌博、半参数问题及基于神经网络的算法，证明了算法的有效性和最优遗憾界限，并揭示了复杂性与遗憾之间的关系。

BriefGPT - AI 论文速递 ·

本文提出了多种无模型强化学习算法，旨在优化无限时间平均奖励的马尔可夫决策过程（MDP）。研究包括基于参考优势分解的在线算法、改进的遗憾界限以及处理模型不确定性的策略，提升了学习效率和计算性能，并通过数值实验验证了算法的有效性。

BriefGPT - AI 论文速递 ·

本文提出了一种新算法，解决高维稀疏特征的随机上下文赌博机问题。该算法无需先验知识，在温和条件下实现优越性能，并在数据稀缺情况下保持较低的遗憾界限。研究表明，该算法在处理稀疏性和结构属性时优于现有方法。

BriefGPT - AI 论文速递 ·

本文探讨了后验抽样算法在约束马尔可夫决策过程（CMDP）中的应用，提供了近最优的遗憾界限。研究表明，该算法在无限时间不折扣设置中有效平衡探索与开发，并在理论与实践中表现良好。此外，提出了用于最大化累积奖励的模型基础算法，确保成本平均值约束。

BriefGPT - AI 论文速递 ·

本文探讨了在线线性二次调节器（LQR）控制在动态干扰下的应用，提出了一种新的自适应控制算法，解决了未知线性系统和需求预测问题。研究表明，该算法在多种非线性控制任务中表现良好，并通过新策略降低了遗憾界限，确保了控制性能。

BriefGPT - AI 论文速递 ·

本文研究了在线控制下的线性动态系统，提出了两种高效的在线学习算法以优化遗憾界限，并改进了传统算法，提出了新的在线线性二次控制算法，增强了在敌对扰动下的性能。同时，分析了基于梯度的在线学习算法在非凸模型中的应用，展示了其在大规模机器学习中的竞争力。

BriefGPT - AI 论文速递 ·