【Transformer 与注意力机制】30|预训练目标:BERT、GPT、T5 其实在学三种不同的事
💡
原文中文,约7900字,阅读约需19分钟。
📝
内容提要
本文探讨了预训练模型的三种主要目标:自回归语言建模(GPT)、掩码语言建模(BERT)和去噪序列到序列(T5/BART)。每种方法在训练任务上有所不同,导致模型在生成、理解和条件生成能力上的差异。GPT专注于续写,BERT擅长理解,而T5/BART兼顾生成与理解。最终,GPT因其统一接口和扩展性成为主流。
🎯
关键要点
- 预训练模型的目标包括自回归语言建模(GPT)、掩码语言建模(BERT)和去噪序列到序列(T5/BART)。
- 自回归语言建模(CLM)专注于预测下一个 token,适合生成任务。
- 掩码语言建模(MLM)通过遮住部分 token 来学习双向理解,适合理解任务。
- 去噪序列到序列(Denoising Seq2Seq)通过恢复被破坏的输入来进行条件生成。
- GPT 的优势在于训练和推理一致,适合处理各种文本数据。
- BERT 的双向理解能力强,但训练和生成接口不一致,限制了其生成能力。
- T5/BART 兼顾生成与理解,但结构和工程复杂度较高。
- GPT 路线因其统一接口和扩展性成为主流,适合多任务处理。
- 不同预训练目标影响微调习惯,BERT 更适合挂任务头,GPT 更适合提示接口,Seq2Seq 更适合显式输入输出分离。
➡️