应用于逐步强化学习和其他领域的组合多元多臂赌博机
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究提出了一种优化组合良带算法,通过新的触发概率和方差调节条件,降低了对后悔束缚的依赖性。实验结果显示该算法在不同领域具有优越性能。
🎯
关键要点
- 本研究探讨组合良带算法,优化其对后悔束缚的依赖性。
- 提出了一种新型触发概率和方差调节条件(TPVM)。
- 进行后悔分析,提出基于置信区间和方差的BCUCB-T算法。
- 将大小批次(K)的项降低至对数级别,并在非触发CMAB中完全去除。
- 实验结果显示该算法在不同领域具有优越性能。
➡️