图神经臂带

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的上下文强化学习算法NeuralBandit,它不需要对上下文和奖励的稳定性做出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。

🎯

关键要点

  • 提出了一种新的上下文强化学习算法NeuralBandit。

  • 该算法不需要对上下文和奖励的稳定性做出假设。

  • 使用多个神经网络来建模上下文的价值。

  • 提出了两种基于多专家方法的变体来选择多层感知器的参数。

  • 在大型数据集上进行了测试,包括奖励稳定和不稳定的情况。

  • 算法取得了成功的效果。

➡️

继续阅读