该研究提出了一种基于双重乐观学习的算法来解决在线任务调度中的不确定性问题。该算法通过利用乐观估计奖励与成本比例和隐式学习任务到达分布,在不同不确定性环境下实现了有效的调度,并取得了比其他方法更好的累积奖励与成本比。
完成下面两步后,将自动完成登录并继续当前操作。