gpt-finite-state.ipynb :一个带有两个标记0/1和上下文长度为3的小型GPT
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
本文介绍了一个带有两个标记0/1和上下文长度为3的小型GPT,将其视为有限状态马尔可夫链。在序列“111101111011110”上训练了50次迭代,通过修改Transformer的参数和架构,可以看到不同状态之间的过渡概率。
🎯
关键要点
- 训练微小的GPT模型可以直观地理解动态系统。
- 该模型使用两个标记0/1和上下文长度为3,视为有限状态马尔可夫链。
- 在序列'111101111011110'上进行了50次迭代的训练。
- 状态101在训练数据中确定地过渡到011,过渡概率为79%。
- 状态111转为111和110的概率各为50%,模型几乎学会了(45%,55%)。
- 状态000在训练过程中未遇到,但有73%的概率转到001,反映了转化器的归纳偏见。
🏷️
标签
➡️