本文总结了Transformer模型的结构,重点介绍了编码器和解码器的输入输出关系。编码器处理用户输入的token并生成中间层输出;解码器根据编码器的输出逐步生成新的token。讨论了Masked Multi-Head Attention的作用,强调其对解码过程中因果性的影响,并指出GPT与Transformer的区别,GPT仅包含解码器并应用masked机制。
完成下面两步后,将自动完成登录并继续当前操作。