本文研究了基于线性奖励的鲁棒最佳臂识别问题(RBAI),提出了下界和赌博算法,并在实验中证明了其有效性。同时,还应用于糖尿病护理和胰岛素剂量建议。
该研究介绍了一种更强的性能度量方法,用于捕捉赌博算法的累积性能和即时性能。研究提供了实现近似最优统一最终迭代保证的消除算法和高概率对抗算法的积极结果,并指出乐观算法无法实现近似最优统一最终迭代保证。同时,提出了一种用于具有无限多手臂的线性赌博算法的高效算法,并获得统一最终迭代保证,具备优化预测功能。
本文介绍了一种新颖的组合性随机贪婪的赌博算法(SGB),用于解决多臂赌博问题。该算法通过观察每个时间步选择的一组臂的联合奖励,采用了优化的随机探索再确认的方法。实验证明,该算法在单调随机次模性奖励下,能够实现(1-1/e)的遗憾边界,并且在基数约束方面优于最先进的方法。同时,在在线受限社交影响最大化的背景下,该算法始终优于其他算法,并且随着基数的增长,性能差距也增大。
该研究提出了静态和自适应赌博算法,用于解决基于线性奖励的鲁棒最佳臂识别问题,并在糖尿病护理和胰岛素剂量建议方面进行了应用实验,证明了算法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。