Fatescript ·

LLMs as Markov Chain

💡 原文中文，约7900字，阅读约需19分钟。

📝

内容提要

本文探讨了Andrej Karpathy关于语言模型（LM）作为有限状态马尔可夫链的观点。LM通过固定长度的上下文输入预测下一个词，状态空间由上下文长度和词汇量决定。文章分析了LM的训练过程、稀疏性、状态数的指数增长及同构现象，强调了数据对模型转移概率的影响，并介绍了Prompt Engineering和In-Context Learning的原理，指出如何通过调整输入提高模型输出的准确性。

🎯

关键要点

Andrej Karpathy认为语言模型（LM）可以视为有限状态马尔可夫链（Markov Chain）。
LM通过固定长度的上下文输入预测下一个词，状态空间由上下文长度和词汇量决定。
LM的输入需要通过tokenizer将文字转换为token，tokenizer处理的字符集大小称为vocab_size。
随着LM的vocab_size和context_length增大，马尔可夫链中的状态数呈指数增长，模型建模的难度增加。
LM的稀疏性意味着大部分状态之间几乎没有转移概率，影响模型在特定场景下的输出。
同构现象在马尔可夫链中普遍存在，不同语言的相似语义可能导致相似的状态结构。
Prompt Engineering通过改变输入问题的状态集，提高模型输出的准确性。
In-Context Learning（ICL）通过指定输入和输出空间，使得LM在固定子图上游走，从而产生正确的输出。
Chain of Thought（CoT）提示词可以帮助模型沿着分解问题的思路解决逻辑推理类任务。
LM无法实现统计意义上的随机选择，但可以通过插件思想来解决随机选择的问题。

🔎

延伸解读

马尔可夫链视角下的语言模型

将语言模型视作有限状态马尔可夫链，可以帮助我们更好地理解其行为。模型的状态空间由上下文长度和词汇量决定，随着这两个参数的增加，状态数呈指数增长，导致模型训练和推理的复杂性显著提升。理解这一点有助于在实际应用中合理配置模型参数，以提高性能。

稀疏性与模型输出

语言模型的稀疏性意味着大部分状态之间几乎没有转移概率，这对模型在特定场景下的输出产生影响。为了提高模型在特定任务中的表现，仅仅增加训练样本可能不足以解决问题，需考虑如何优化输入的上下文，以增强模型的输出准确性。

Prompt Engineering的实用性

Prompt Engineering通过调整输入问题的状态集，能够有效提高模型的输出质量。理解如何通过改变提示词来影响状态转移概率，可以帮助用户更好地利用语言模型，尤其是在处理复杂问题时，合理的提示词设计能够显著提升模型的表现。

❓

延伸问答

Andrej Karpathy如何看待语言模型的行为？

Andrej Karpathy认为语言模型可以视为有限状态的马尔可夫链，通过固定长度的上下文输入预测下一个词。

语言模型的状态空间是如何决定的？

语言模型的状态空间由上下文长度和词汇量决定，随着这两个参数的增大，状态数呈指数增长。

什么是Prompt Engineering，它如何提高模型输出的准确性？

Prompt Engineering是通过改变输入问题的状态集来提高模型输出的准确性，增加从问题状态到答案状态的转移概率。

In-Context Learning（ICL）是什么，它是如何工作的？

In-Context Learning是通过指定输入和输出空间，使得语言模型在固定子图上游走，从而产生正确的输出。

语言模型的稀疏性对训练有什么影响？

语言模型的稀疏性意味着大部分状态之间几乎没有转移概率，这影响了模型在特定场景下的输出能力。

同构现象在马尔可夫链中有什么意义？

同构现象指不同语言的相似语义可能导致相似的状态结构，这对模型训练和多语言处理有启发。

🏷️