Transformer 学习笔记
💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
Transformer模型具有全连接的自注意力、没有梯度消失问题和并行计算的优势。大模型中包含多个Transformer,每个Transformer由多个Encoder Layer和Decoder Layer组成。Encoder负责提取输入序列特征,Decoder用于生成输出序列。每个Encoder Layer包含注意力层和前馈全连接层,每个Decoder Layer包含自注意力层、编码器-解码器互注意力层和前馈全连接层。Word Embedding矩阵用于将单词符号转换为词向量。多头注意力机制可以提升模型表达能力,常用的头数为8或12。
🎯
关键要点
- Transformer模型具有全连接的自注意力机制,能够捕捉全局上下文信息。
- Transformer解决了RNN的梯度消失问题,支持并行计算,充分利用GPU能力。
- 大模型由多个Transformer组成,每个Transformer包含多个Encoder Layer和Decoder Layer。
- BERT模型由多个Transformer编码器堆叠构成,GPT-3模型由多个Transformer解码器堆叠组成。
- Encoder负责提取输入序列特征,Decoder用于生成输出序列。
- 每个Encoder Layer包含自注意力层和前馈全连接层,Decoder Layer包含自注意力层、编码器-解码器互注意力层和前馈全连接层。
- Word Embedding矩阵将单词符号转换为词向量,影响Self-Attention机制的计算。
- 多头注意力机制提升模型表达能力,常用头数为8或12,能够关注不同位置的语义信息。
➡️