3分钟搞懂大模型的训练过程

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

大模型(如chatGPT)的训练是通过自监督学习进行的,自监督学习是一种无监督学习方式,通过伪标签进行训练。常见的自监督学习任务有掩码语言模型和因果语言模型。因果语言模型通过预测下一个词来学习文本的顺序结构和语言生成过程。通过自监督学习,模型可以学习到自然语言的结构和句式。

🎯

关键要点

  • 大模型(如chatGPT)的训练采用自监督学习,无需人工标注的标签。
  • 自监督学习通过伪标签进行训练,伪标签由模型根据规则自动生成。
  • 常见的自监督学习任务包括掩码语言模型(MLM)和因果语言模型(CLM)。
  • 掩码语言模型通过预测被掩码的词来学习词与上下文的关系。
  • 因果语言模型通过预测下一个词来学习文本的顺序结构和语言生成过程。
  • 在因果语言模型的训练中,模型根据输入词预测下一个词,并不断迭代。
  • 训练过程中,模型的输出与目标序列(伪标签)进行比较以计算损失。
  • 目标序列是输入序列向右移动一个位置的结果,模型通过大量数据学习自然语言结构。
➡️

继续阅读