我们设计了一种新的差分隐私算法,解决了对抗性赌博机和专家建议赌博机的问题。在对抗性赌博机中,我们将非隐私算法转化为隐私算法,并改进了遗憾上界。在专家建议赌博机中,我们首次提出了差分隐私算法,提供了多种遗憾上界,实现了不同情况下的亚线性遗憾。
本文研究风险敏感强化学习,提出了Trajectory Q-Learning算法和RS-DisRL框架,分析了风险度量对策略有效性和样本复杂度的影响。通过创新的元算法和新颖的估计技术,推导出RSRL的遗憾上界,解决了模型泛化问题,并在多代理环境中提升了DMIX算法的性能,拓展了风险敏感强化学习的应用。
本文提出了多种改进的上下文强盗算法,包括基于广义线性模型的算法和Doubly-Robust Lasso Bandit算法,旨在提高计算效率和减少遗憾。这些新算法在对抗性环境中表现优越,提供了近似最优的遗憾上界,并为实际应用提供了理论指导。
研究广义线性情境赌博问题,提出两种算法解决有限适应性模型,建立遗憾上界,消除关键参数依赖,实现较低的遗憾。
完成下面两步后,将自动完成登录并继续当前操作。