LLMs as Markov Chain

LLMs as Markov Chain

💡 原文中文,约7900字,阅读约需19分钟。
📝

内容提要

本文探讨了Andrej Karpathy关于语言模型(LM)作为有限状态马尔可夫链的观点。LM通过固定长度的上下文输入预测下一个词,状态空间由上下文长度和词汇量决定。文章分析了LM的训练过程、稀疏性、状态数的指数增长及同构现象,强调了数据对模型转移概率的影响,并介绍了Prompt Engineering和In-Context Learning的原理,指出如何通过调整输入提高模型输出的准确性。

🎯

关键要点

  • Andrej Karpathy认为语言模型(LM)可以视为有限状态马尔可夫链(Markov Chain)。

  • LM通过固定长度的上下文输入预测下一个词,状态空间由上下文长度和词汇量决定。

  • LM的输入需要通过tokenizer将文字转换为token,tokenizer处理的字符集大小称为vocab_size。

  • 随着LM的vocab_size和context_length增大,马尔可夫链中的状态数呈指数增长,模型建模的难度增加。

  • LM的稀疏性意味着大部分状态之间几乎没有转移概率,影响模型在特定场景下的输出。

  • 同构现象在马尔可夫链中普遍存在,不同语言的相似语义可能导致相似的状态结构。

  • Prompt Engineering通过改变输入问题的状态集,提高模型输出的准确性。

  • In-Context Learning(ICL)通过指定输入和输出空间,使得LM在固定子图上游走,从而产生正确的输出。

  • Chain of Thought(CoT)提示词可以帮助模型沿着分解问题的思路解决逻辑推理类任务。

  • LM无法实现统计意义上的随机选择,但可以通过插件思想来解决随机选择的问题。

延伸问答

Andrej Karpathy如何看待语言模型的行为?

Andrej Karpathy认为语言模型可以视为有限状态的马尔可夫链,通过固定长度的上下文输入预测下一个词。

语言模型的状态空间是如何决定的?

语言模型的状态空间由上下文长度和词汇量决定,随着这两个参数的增大,状态数呈指数增长。

什么是Prompt Engineering,它如何提高模型输出的准确性?

Prompt Engineering是通过改变输入问题的状态集来提高模型输出的准确性,增加从问题状态到答案状态的转移概率。

In-Context Learning(ICL)是什么,它是如何工作的?

In-Context Learning是通过指定输入和输出空间,使得语言模型在固定子图上游走,从而产生正确的输出。

语言模型的稀疏性对训练有什么影响?

语言模型的稀疏性意味着大部分状态之间几乎没有转移概率,这影响了模型在特定场景下的输出能力。

同构现象在马尔可夫链中有什么意义?

同构现象指不同语言的相似语义可能导致相似的状态结构,这对模型训练和多语言处理有启发。

➡️

继续阅读