大语言建模阅读清单

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

本文介绍了GPT、BERT、T5、GPT2和GPT3等语言模型及其应用,包括语言理解、迁移学习和问答任务。还提及了Chinchilla、LLaMA和HyDE等模型优化方法和技术。文章为语言模型提供了阅读清单。

🎯

关键要点

  • GPT通过生成预训练提高语言理解,使用解码器。
  • BERT用于语言理解的深度双向变压器预训练,使用编码器。
  • T5探索迁移学习的局限性,使用统一的文本到文本转换器。
  • GPT2是无监督的多任务学习者,依赖无监督预训练。
  • GPT3是少样本学习者,结合无监督预训练和少量示例。
  • 神经语言模型的缩放定律强调较大模型在较少数据上训练的优势。
  • Chinchilla优化大型语言模型的训练计算,建议在更多数据上训练较小模型。
  • LLaMA是开放且高效的基础语言模型,建议在公共数据上训练更长时间的Smoler模型。
  • InstructGPT训练语言模型遵循人类反馈的指令,需少量标注数据。
  • LoRA和QLoRA分别用于大型语言模型的低秩适应和高效微调。
  • DPR和RAG用于开放域问答和知识密集型NLP任务的检索增强生成。
  • RETRO通过检索改进语言模型,利用输入块和分块交叉注意力。
  • HyDE实现无需相关标签的精确零样本密集检索。
  • FlashAttention提供快速且内存高效的精确注意机制。
  • Codex评估在代码上训练的大型语言模型,需微调。
  • PPO是近端策略优化算法,优化代理函数。
  • Llama 2是开放基础和微调聊天模型,需多种微调技术。
  • RWKV重塑RNN以适应Transformer时代,强调线性注意力。
  • CLIP从自然语言监督中学习可迁移的视觉模型。
  • Chain-of-Note增强检索增强语言模型的鲁棒性。
  • Llama Guard保护人类与人工智能对话的输入输出。
  • REST使用语言模型扩展自我训练以解决问题。
➡️

继续阅读