大语言建模阅读清单
💡
原文中文,约2400字,阅读约需6分钟。
📝
内容提要
本文介绍了GPT、BERT、T5、GPT2和GPT3等语言模型及其应用,包括语言理解、迁移学习和问答任务。还提及了Chinchilla、LLaMA和HyDE等模型优化方法和技术。文章为语言模型提供了阅读清单。
🎯
关键要点
- GPT通过生成预训练提高语言理解,使用解码器。
- BERT用于语言理解的深度双向变压器预训练,使用编码器。
- T5探索迁移学习的局限性,使用统一的文本到文本转换器。
- GPT2是无监督的多任务学习者,依赖无监督预训练。
- GPT3是少样本学习者,结合无监督预训练和少量示例。
- 神经语言模型的缩放定律强调较大模型在较少数据上训练的优势。
- Chinchilla优化大型语言模型的训练计算,建议在更多数据上训练较小模型。
- LLaMA是开放且高效的基础语言模型,建议在公共数据上训练更长时间的Smoler模型。
- InstructGPT训练语言模型遵循人类反馈的指令,需少量标注数据。
- LoRA和QLoRA分别用于大型语言模型的低秩适应和高效微调。
- DPR和RAG用于开放域问答和知识密集型NLP任务的检索增强生成。
- RETRO通过检索改进语言模型,利用输入块和分块交叉注意力。
- HyDE实现无需相关标签的精确零样本密集检索。
- FlashAttention提供快速且内存高效的精确注意机制。
- Codex评估在代码上训练的大型语言模型,需微调。
- PPO是近端策略优化算法,优化代理函数。
- Llama 2是开放基础和微调聊天模型,需多种微调技术。
- RWKV重塑RNN以适应Transformer时代,强调线性注意力。
- CLIP从自然语言监督中学习可迁移的视觉模型。
- Chain-of-Note增强检索增强语言模型的鲁棒性。
- Llama Guard保护人类与人工智能对话的输入输出。
- REST使用语言模型扩展自我训练以解决问题。
➡️