谷歌研究人员提出了一种训练方法,使大型语言模型通过学习最佳贝叶斯系统的预测来近似贝叶斯推理。这种方法提升了模型在多步交互中更新信念的能力。研究表明,语言模型在与用户互动时未能有效更新用户偏好,但通过贝叶斯教学训练,模型的预测能力得到了改善,接近贝叶斯助手的决策水平。
完成下面两步后,将自动完成登录并继续当前操作。