从零实现Transformer的简易版与强大版:从300多行到3000多行
原文中文,约6000字,阅读约需15分钟。发表于: 。transformer强大到什么程度呢,基本是17年之后绝大部分有影响力模型的基础架构都基于的transformer(比如,有200来个,包括且不限于基于decode的GPT、基于encode的BERT、基于encode-decode的T5等等)通过博客内的这篇文章《》,我们已经详细了解了transformer的原理(如果忘了,建议先务必复习下再看本文)
本文介绍了从零实现transformer和通过transformer库微调LLM的方法,以及加速模型训练和调优的技巧。第一部分包括输入处理和transformer block,重点讲解了multi-head attention。第二部分介绍了Trainer类的关键方法和训练过程。第三部分还在更新中。