💡
原文英文,约1300词,阅读约需5分钟。
📝
内容提要
GPT-4是一个泄露的模型,据信拥有1.8万亿个参数和120个层。它采用了16个专家的混合模型,每次前向推理只使用2800亿个参数和560 TFLOPs。GPT-4训练时使用了约13万亿个标记,批量大小为6000万,通过将其除以序列长度来计算实际批量大小。OpenAI使用了张量并行和流水线并行等并行策略。GPT-4的训练成本估计约为6300万美元。GPT-4有一个独立的视觉编码器,并使用额外的标记进行微调。GPT-4的推理中可能使用了推测解码。推理架构在128个GPU的集群上运行。OpenAI在获取高质量数据方面面临挑战。
🎯
关键要点
- GPT-4的参数数量超过1.8万亿,分布在120层。
- GPT-4采用专家混合模型,使用16个专家,每个专家约1110亿个参数。
- 推理过程中每次前向传递仅使用约280亿个参数和560 TFLOPS。
- GPT-4训练使用了约130万亿个标记,文本数据使用2个时期,代码数据使用4个时期。
- GPT-4的预训练阶段使用了8000个上下文长度,32K版本基于对8K版本的微调。
- 批量大小最终达到6000万,但每个专家实际处理的标记数量较少。
- OpenAI采用8路张量并行和15路管道并行进行训练。
- GPT-4的训练成本约为6300万美元,训练持续90至100天。
- 在推理过程中,GPT-4的成本是1750亿参数的Davinci模型的3倍。
- OpenAI使用了多查询注意力机制,减少了内存需求。
- OpenAI实现了可变批量大小和连续批处理,以优化推理成本。
- GPT-4引入了独立的视觉编码器,主要用于自主代理的图像和视频处理。
- 推测解码可能在GPT-4的推理中使用,以提高效率。
- 推理过程在128个GPU的集群上运行,采用8路张量并行和16路管道并行。
- OpenAI在获取高质量数据方面面临挑战,可能需要训练更多的标记。
- OpenAI的架构保密并非出于风险考虑,而是因为其可复制性。
➡️