深入解析随机 Transformer [译]

原文约37000字，阅读约需89分钟。发表于：。

深入浅出地探索 Transformer 背后的数学原理，了解其工作原理。在本篇博客文章中，我们将详细展示一个 Transformer 模型在数学上的端对端（end-to-end）实例。我们的目标是彻底理解模型是如何运作的。为了让这个过程更加易于操作，我们将对模型进行大量简化。考虑到我们需要亲手进行不少数学计算，我们会减少模型的维度。比如说，我们不会使用 512 维的嵌入（embeddings），而是选用 4 维的嵌入。这样做可以让数学部分更容易理解！我们会使用随机生成的向量和矩阵，但你也可以用自己的数值来跟随实例。

本文介绍了解码器模块的工作原理，包括自注意力层、残差连接和层归一化、编码器-解码器注意力层和前馈层。解码器通过自回归方式生成输出序列的下一个token，并利用编码器的输出进行注意力互动。最后，通过线性层和softmax层将解码器的输出转换成概率，并使用贪婪解码选择最可能的下一个token。文章还提供了一个随机编码器-解码器Transformer的示例，并介绍了生成输出序列的过程。