Transformer 学习笔记

1. 为什么是 Transformer 全连接的自注意以往的 RNN 模型，每个单词只能和邻近的单词产生联系，而 Transformer 模型中的 Attention 机制，单词可以和任意位置的单词产生联系，这样就可以捕捉到全局的上下文信息。没有梯度消失问题 RNN 作用在同一个权值矩阵上，使得其最大的特征值小于 1 时，就会出现

Transformer模型具有全连接的自注意力、没有梯度消失问题和并行计算的优势。大模型中包含多个Transformer，每个Transformer由多个Encoder Layer和Decoder Layer组成。Encoder负责提取输入序列特征，Decoder用于生成输出序列。每个Encoder Layer包含注意力层和前馈全连接层，每个Decoder Layer包含自注意力层、编码器-解码器互注意力层和前馈全连接层。Word Embedding矩阵用于将单词符号转换为词向量。多头注意力机制可以提升模型表达能力，常用的头数为8或12。