小红花·文摘

该研究提出了一种高效的在线近似贝叶斯推断算法，用于估计非线性函数的参数。该方法通过低秩加对角线分解实现线性成本与模型参数数量的关系。与基于随机变分推断的方法相比，该方法是完全确定性的，无需步长调整。实验表明，该方法学习速度更快，样本利用更高效，更快适应变化的分布，并在上下文强化学习算法中更快地积累奖励。

扩展线性回归：通过曲线下面积的卡尔曼滤波方法来最小化损失

BriefGPT - AI 论文速递 ·

本文介绍了一种新的上下文强化学习算法NeuralBandit，它不需要对上下文和奖励的稳定性做出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

图神经臂带

BriefGPT - AI 论文速递 ·