Leaked Technical Details of GPT-4

Leaked Technical Details of GPT-4

💡 原文英文,约1300词,阅读约需5分钟。
📝

内容提要

GPT-4是一个泄露的模型,据信拥有1.8万亿个参数和120个层。它采用了16个专家的混合模型,每次前向推理只使用2800亿个参数和560 TFLOPs。GPT-4训练时使用了约13万亿个标记,批量大小为6000万,通过将其除以序列长度来计算实际批量大小。OpenAI使用了张量并行和流水线并行等并行策略。GPT-4的训练成本估计约为6300万美元。GPT-4有一个独立的视觉编码器,并使用额外的标记进行微调。GPT-4的推理中可能使用了推测解码。推理架构在128个GPU的集群上运行。OpenAI在获取高质量数据方面面临挑战。

🎯

关键要点

  • GPT-4的参数数量超过1.8万亿,分布在120层。
  • GPT-4采用专家混合模型,使用16个专家,每个专家约1110亿个参数。
  • 推理过程中每次前向传递仅使用约280亿个参数和560 TFLOPS。
  • GPT-4训练使用了约130万亿个标记,文本数据使用2个时期,代码数据使用4个时期。
  • GPT-4的预训练阶段使用了8000个上下文长度,32K版本基于对8K版本的微调。
  • 批量大小最终达到6000万,但每个专家实际处理的标记数量较少。
  • OpenAI采用8路张量并行和15路管道并行进行训练。
  • GPT-4的训练成本约为6300万美元,训练持续90至100天。
  • 在推理过程中,GPT-4的成本是1750亿参数的Davinci模型的3倍。
  • OpenAI使用了多查询注意力机制,减少了内存需求。
  • OpenAI实现了可变批量大小和连续批处理,以优化推理成本。
  • GPT-4引入了独立的视觉编码器,主要用于自主代理的图像和视频处理。
  • 推测解码可能在GPT-4的推理中使用,以提高效率。
  • 推理过程在128个GPU的集群上运行,采用8路张量并行和16路管道并行。
  • OpenAI在获取高质量数据方面面临挑战,可能需要训练更多的标记。
  • OpenAI的架构保密并非出于风险考虑,而是因为其可复制性。
➡️

继续阅读