自回归下一个单词预测器是通用学习耠
原文中文,约400字,阅读约需1分钟。发表于: 。大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力,使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明,即使是简单的模型,如线性的下一个标记预测器在 Chain-of-Thought(CoT)数据上训练,也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度,它衡量了实现某个目标函数所需的 CoT...
本文提出了一个理论框架来研究自回归的下一个标记预测器,证明了即使是简单的模型也能有效地近似于图灵机计算的任何函数。同时,引入了一个新的复杂度度量方法——长度复杂度,并分析了长度复杂度与其他复杂度概念之间的相互关系。最后,实验证明,简单的下一个标记预测器在文本生成和算术任务中显示出非平凡的性能,语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案。