gpt-finite-state.ipynb :一个带有两个标记0/1和上下文长度为3的小型GPT
原文中文,约500字,阅读约需1分钟。发表于: 。训练/研究微小的GPT很有趣,因为它变得很容易可视化,并对整个动态系统有一个直观的感觉。 这是一个带有两个标记0/1和上下文长度为3的小型GPT,将其视为有限状态马尔可夫链。它在序列“111101111011110”上训练了50次迭代。 Transformer的参数和 架构 修改箭头上的概率。 例如,我们可以看到,: -...
本文介绍了一个带有两个标记0/1和上下文长度为3的小型GPT,将其视为有限状态马尔可夫链。在序列“111101111011110”上训练了50次迭代,通过修改Transformer的参数和架构,可以看到不同状态之间的过渡概率。