利用相邻相似性通过奖励样本转移提升多臂老虎机任务

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究在多臂赌博机环境中,通过知识传递提升在线多任务学习性能。提出了一种TS算法,经验分析显示其接近最优。在合成数据评估中,该算法优于基准和UCB算法。

🎯

关键要点

  • 研究针对相似但不完全相同的多臂赌博机环境中的在线多任务学习问题。
  • 通过知识的健壮传递提升学习器在多个相关任务上的整体性能。
  • 提出了一种TS类型算法,并进行了经验分析,证明其几乎最优。
  • 在合成数据上评估算法,TS类型算法在与基准算法和UCB算法比较中表现卓越。
➡️

继续阅读