学习使用 Bandit 反馈调度在线任务
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种基于双重乐观学习的算法来解决在线任务调度中的不确定性问题。该算法通过利用乐观估计奖励与成本比例和隐式学习任务到达分布,在不同不确定性环境下实现了有效的调度,并取得了比其他方法更好的累积奖励与成本比。
🎯
关键要点
- 提出了一种基于双重乐观学习的Robbins-Monro算法。
- 该算法解决了在线任务调度中的不确定任务到达分布和未知奖励与成本问题。
- 通过乐观估计奖励与成本比例,DOL-RM算法实现了有效的调度。
- 在不同不确定性环境下,DOL-RM算法取得了更好的累积奖励与成本比。
- DOL-RM算法优于其他先进基准方法。
🏷️
标签
➡️