小红花·文摘

私有对抗性赌博机的更快速率

Apple Machine Learning Research ·

本文研究风险敏感强化学习，提出了Trajectory Q-Learning算法和RS-DisRL框架，分析了风险度量对策略有效性和样本复杂度的影响。通过创新的元算法和新颖的估计技术，推导出RSRL的遗憾上界，解决了模型泛化问题，并在多代理环境中提升了DMIX算法的性能，拓展了风险敏感强化学习的应用。

证明收敛性的风险敏感分布式强化学习的策略梯度方法

BriefGPT - AI 论文速递 ·

本文提出了多种改进的上下文强盗算法，包括基于广义线性模型的算法和Doubly-Robust Lasso Bandit算法，旨在提高计算效率和减少遗憾。这些新算法在对抗性环境中表现优越，提供了近似最优的遗憾上界，并为实际应用提供了理论指导。

从对抗性反馈中的上下文对决强盗问题的近乎最优算法

BriefGPT - AI 论文速递 ·

研究广义线性情境赌博问题，提出两种算法解决有限适应性模型，建立遗憾上界，消除关键参数依赖，实现较低的遗憾。

广义线性背景臂机情境下的有限适应度最优遗憾

BriefGPT - AI 论文速递 ·