Transformer 学习笔记
原文中文,约2600字,阅读约需7分钟。发表于: 。1. 为什么是 Transformer 全连接的自注意 以往的 RNN 模型,每个单词只能和邻近的单词产生联系,而 Transformer 模型中的 Attention 机制,单词可以和任意位置的单词产生联系,这样就可以捕捉到全局的上下文信息。 没有梯度消失问题 RNN 作用在同一个权值矩阵上,使得其最大的特征值小于 1 时,就会出现
Transformer模型具有全连接的自注意力、没有梯度消失问题和并行计算的优势。大模型中包含多个Transformer,每个Transformer由多个Encoder Layer和Decoder Layer组成。Encoder负责提取输入序列特征,Decoder用于生成输出序列。每个Encoder Layer包含注意力层和前馈全连接层,每个Decoder Layer包含自注意力层、编码器-解码器互注意力层和前馈全连接层。Word Embedding矩阵用于将单词符号转换为词向量。多头注意力机制可以提升模型表达能力,常用的头数为8或12。