重新审视大型语言模型中的上下文学习推理电路

本文解决了上下文学习（ICL）机制未被全面探讨的问题，提出了一种全面的推理电路模型以解释ICL的推理动态。研究表明，该电路能够有效捕捉ICL过程中观察到的现象，并且其关键操作步骤的失效会显著降低ICL表现，强调了该电路在推理过程中的主导作用。

大型语言模型在少样本学习中表现出色，通过上下文示例学习，无需更新权重。扩展的上下文窗口支持多样本学习，提升生成和判别任务性能。为解决人类示例不足，研究了增强和无监督多样本学习。增强方法用模型生成示例，无监督方法仅用领域问题提示。这些方法在复杂推理任务中有效，能覆盖预训练偏差。分析指出下一个标记预测损失的局限性。