3分钟搞懂大模型的训练过程

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

大模型(如chatGPT)的训练是通过自监督学习进行的,自监督学习是一种无监督学习方式,通过伪标签进行训练。常见的自监督学习任务有掩码语言模型和因果语言模型。因果语言模型通过预测下一个词来学习文本的顺序结构和语言生成过程。通过自监督学习,模型可以学习到自然语言的结构和句式。

🎯

关键要点

  • 大模型(如chatGPT)的训练采用自监督学习,无需人工标注的标签。
  • 自监督学习通过伪标签进行训练,伪标签由模型根据规则自动生成。
  • 常见的自监督学习任务包括掩码语言模型(MLM)和因果语言模型(CLM)。
  • 掩码语言模型通过预测被掩码的词来学习词与上下文的关系。
  • 因果语言模型通过预测下一个词来学习文本的顺序结构和语言生成过程。
  • 在因果语言模型的训练中,模型根据输入词预测下一个词,并不断迭代。
  • 训练过程中,模型的输出与目标序列(伪标签)进行比较以计算损失。
  • 目标序列是输入序列向右移动一个位置的结果,模型通过大量数据学习自然语言结构。

延伸问答

大模型的训练是通过什么方式进行的?

大模型的训练主要通过自监督学习进行,无需人工标注的标签。

自监督学习的伪标签是如何生成的?

自监督学习的伪标签是由模型根据一定规则自动生成的,而不是人工标注的。

掩码语言模型和因果语言模型有什么区别?

掩码语言模型通过预测被掩码的词来学习上下文关系,而因果语言模型通过预测下一个词来学习文本的顺序结构。

因果语言模型的训练过程是怎样的?

因果语言模型通过输入词预测下一个词,并不断迭代更新输入,直到完成训练。

在训练过程中如何计算损失?

损失通过比较模型的输出与目标序列(伪标签)计算得出。

大模型训练中使用的数据来源是什么?

大模型训练的数据样本主要来自互联网,通常不需要人工标注。

➡️

继续阅读