Transformer温习整理
原文中文,约10800字,阅读约需26分钟。发表于: 。Transformer 是由谷歌于 2017 年在 Attention Is All You Need 中首次提出。Transformer的提出在很大程度上改变了自然语言处理领域的局面,取代了传统的循环神经网络和卷积神经网络在语言模型、机器翻译等任务中的地位。
Transformer是一种基于自注意力机制的神经网络架构,用于自然语言处理任务。它使用自注意力机制来捕捉输入数据内部元素之间的相关性,具有较好的特征抽取能力。Transformer的训练过程包括前向传播、计算损失、反向传播和参数更新。