研究表明,小奖励的方差可以改善赌博问题中的遗憾界限。疏离维度在方差相关界限中很重要,方差信息在特定条件下能显著提升算法表现。
本文介绍了一种新型无投影算法用于在线凸优化,具有领先的遗憾保证。其遗憾界限为$ ilde{O}( ext{sqrt}(dT) + ext{kappa} d)$,主要项不受可行集非球面率$ ext{kappa}$影响,克服了传统方法的局限性,并在约束随机凸优化中实现了更快的收敛速度。
本文研究了在预算和时间限制下的上下文赌博问题,提出了多种高效算法以实现近似求解和动态适应。研究涵盖非参数上下文赌博、半参数问题及基于神经网络的算法,证明了算法的有效性和最优遗憾界限,并揭示了复杂性与遗憾之间的关系。
本文提出了多种无模型强化学习算法,旨在优化无限时间平均奖励的马尔可夫决策过程(MDP)。研究包括基于参考优势分解的在线算法、改进的遗憾界限以及处理模型不确定性的策略,提升了学习效率和计算性能,并通过数值实验验证了算法的有效性。
本文提出了一种新算法,解决高维稀疏特征的随机上下文赌博机问题。该算法无需先验知识,在温和条件下实现优越性能,并在数据稀缺情况下保持较低的遗憾界限。研究表明,该算法在处理稀疏性和结构属性时优于现有方法。
本文探讨了后验抽样算法在约束马尔可夫决策过程(CMDP)中的应用,提供了近最优的遗憾界限。研究表明,该算法在无限时间不折扣设置中有效平衡探索与开发,并在理论与实践中表现良好。此外,提出了用于最大化累积奖励的模型基础算法,确保成本平均值约束。
本文探讨了在线线性二次调节器(LQR)控制在动态干扰下的应用,提出了一种新的自适应控制算法,解决了未知线性系统和需求预测问题。研究表明,该算法在多种非线性控制任务中表现良好,并通过新策略降低了遗憾界限,确保了控制性能。
本文研究了在线控制下的线性动态系统,提出了两种高效的在线学习算法以优化遗憾界限,并改进了传统算法,提出了新的在线线性二次控制算法,增强了在敌对扰动下的性能。同时,分析了基于梯度的在线学习算法在非凸模型中的应用,展示了其在大规模机器学习中的竞争力。
完成下面两步后,将自动完成登录并继续当前操作。