【Transformer 与注意力机制】30|预训练目标:BERT、GPT、T5 其实在学三种不同的事

💡 原文中文,约7900字,阅读约需19分钟。
📝

内容提要

本文探讨了预训练模型的三种主要目标:自回归语言建模(GPT)、掩码语言建模(BERT)和去噪序列到序列(T5/BART)。每种方法在训练任务上有所不同,导致模型在生成、理解和条件生成能力上的差异。GPT专注于续写,BERT擅长理解,而T5/BART兼顾生成与理解。最终,GPT因其统一接口和扩展性成为主流。

🎯

关键要点

  • 预训练模型的目标包括自回归语言建模(GPT)、掩码语言建模(BERT)和去噪序列到序列(T5/BART)。
  • 自回归语言建模(CLM)专注于预测下一个 token,适合生成任务。
  • 掩码语言建模(MLM)通过遮住部分 token 来学习双向理解,适合理解任务。
  • 去噪序列到序列(Denoising Seq2Seq)通过恢复被破坏的输入来进行条件生成。
  • GPT 的优势在于训练和推理一致,适合处理各种文本数据。
  • BERT 的双向理解能力强,但训练和生成接口不一致,限制了其生成能力。
  • T5/BART 兼顾生成与理解,但结构和工程复杂度较高。
  • GPT 路线因其统一接口和扩展性成为主流,适合多任务处理。
  • 不同预训练目标影响微调习惯,BERT 更适合挂任务头,GPT 更适合提示接口,Seq2Seq 更适合显式输入输出分离。
➡️

继续阅读