该研究提出了一种高效的在线近似贝叶斯推断算法,用于估计非线性函数的参数。该方法通过低秩加对角线分解实现线性成本与模型参数数量的关系。与基于随机变分推断的方法相比,该方法是完全确定性的,无需步长调整。实验表明,该方法学习速度更快,样本利用更高效,更快适应变化的分布,并在上下文强化学习算法中更快地积累奖励。
本文介绍了一种新的上下文强化学习算法NeuralBandit,它不需要对上下文和奖励的稳定性做出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。
完成下面两步后,将自动完成登录并继续当前操作。