研究表明,简单的线性预测模型在Chain-of-Thought数据上训练后,可以近似图灵机的计算功能。引入长度复杂度作为新度量方法,分析其与其他复杂度的关系。实验显示,自回归训练方案使简单模型在文本生成和算术任务中表现出色,而非依赖特定架构。
本文提出了一个理论框架来研究自回归的下一个标记预测器,证明了即使是简单的模型也能有效地近似于图灵机计算的任何函数。同时,引入了一个新的复杂度度量方法——长度复杂度,并分析了长度复杂度与其他复杂度概念之间的相互关系。最后,实验证明,简单的下一个标记预测器在文本生成和算术任务中显示出非平凡的性能,语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案。
完成下面两步后,将自动完成登录并继续当前操作。