上下文学习是一种基于梯度的学习吗?来自结构引导中反向频率效应的证据
原文中文,约400字,阅读约需1分钟。发表于: 。大型语言模型(LLMs)已显示出上下文学习(ICL)的新兴能力。研究对 ICL 的解释之一是将其功能性视为梯度下降。本文介绍了一种诊断 ICL 是否与基于梯度的学习具有功能等价性的新方法。我们的方法基于反向频率效应(IFE)- 一种错误驱动的学习者在训练罕见示例而不是常见示例时预计会显示更大更新的现象。我们的实验证明,在 ICL 中模拟结构启动效应后,LLMs 显示...
大型语言模型(LLMs)显示出上下文学习(ICL)的新兴能力,与基于梯度的学习具有功能等价性。实验证明LLMs在ICL中显示反向频率效应(IFE),支持ICL是基于梯度的学习的假设。人类和LLMs都利用基于梯度和错误驱动的处理机制。