大模型相关论文笔记

大模型相关论文笔记

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

LLaMA是一系列用更多token训练的大模型,其中LLaMA-13B超过了GPT3,LLaMA-65B与Chinchilla或PaLM-540B相当。文章详细介绍了LLaMA模型的预训练数据来源和分词方法,并对模型的架构和训练速度进行了优化。作者还介绍了训练LLaMA-65B模型所使用的硬件配置和训练时间。

🎯

关键要点

  • LLaMA是一系列用更多token训练的大模型,包含6.7B、13.0B、32.5B和65.2B参数。
  • LLaMA-13B的性能超过了GPT-3,LLaMA-65B与Chinchilla或PaLM-540B相当。
  • 预训练数据来源包括English CommonCrawl、C4、Github、Wikipedia、Gutenberg和Book3、ArXiv和Stack Exchange。
  • 分词方法采用BPE算法,训练集总共包含1.4T个token。
  • 模型架构基于transformer,进行了多项优化,包括预归一化、SwiGLU激活函数和旋转位置嵌入。
  • 训练速度优化措施包括随机多头注意力机制、减少反向传播中的重复计算和模型并行化。
  • LLaMA-65B模型的训练使用2048张A100 GPU,训练时间为21天,速度为380 tokens/sec/GPU。
➡️

继续阅读