本文介绍了一个带有两个标记0/1和上下文长度为3的小型GPT,将其视为有限状态马尔可夫链。在序列“111101111011110”上训练了50次迭代,通过修改Transformer的参数和架构,可以看到不同状态之间的过渡概率。
完成下面两步后,将自动完成登录并继续当前操作。