本研究将内容探索任务视为多臂赌博问题,提出了一种预测延迟奖励的模型及相应算法,应用于播客推荐中,显著提升了用户满意度。
该研究提出了一种完全分散的鲁棒上置信界算法,用于分散合作多臂赌博中正常代理的表现提升。实验证实该算法在遗憾方面不劣于单代理UCB1算法,且所有正常代理的累积遗憾严格优于非合作情况。
完成下面两步后,将自动完成登录并继续当前操作。