小红花·文摘

Apple Machine Learning Research ·

本文研究了在未知转移和对抗性奖励下的线性混合MDP动态遗憾问题，提出了一种新算法，结合占用测度与策略方法，有效应对动态环境，实现了近优性能。

BriefGPT - AI 论文速递 ·

实时互动网 ·

本文提出了一种在线凸优化算法，能够在动态环境中有效降低动态遗憾。该算法通过利用流畅性条件和问题相关的数量，自适应复杂度，优化在线学习器性能，并在强凸损失函数下实现几乎最优的动态遗憾率。

BriefGPT - AI 论文速递 ·

本文研究动态环境下的在线凸优化问题，提出自适应学习方法Ader，结合专家跟踪算法以最小化动态遗憾。通过改进传统算法，提出在新数据到达时遗忘历史的关键算法，确保鲁棒性。研究还探讨了在线学习中的动态比较基准及其在零和博弈中的应用，优化强凸损失函数的动态调参算法，展示了在非稳态环境中优异的动态后悔表现。

BriefGPT - AI 论文速递 ·