马尔可夫数据上的变压器:恒定深度即可
原文中文,约400字,阅读约需1分钟。发表于: 。通过对马尔可夫过程产生的数据进行观察,本研究发现在训练足够长的情况下,具有固定深度和每层一个头的 transformer 能够在来自 k 阶马尔可夫源的序列上实现低测试损失,其中低测试损失是通过 transformer 表示和学习上下文条件经验分布来实现的。
该研究通过改变Transformer的注意机制,控制漂移和扩散的尺度,防止深度注意模型的秩退化问题。研究展示了SDE对应的有限尺寸模型的描述,并将这些架构修改为形状变形器。