Leaked Technical Details of GPT-4
原文英文,约1300词,阅读约需5分钟。发表于: 。From Twitter of Yam Peleg.
GPT-4是一个泄露的模型,据信拥有1.8万亿个参数和120个层。它采用了16个专家的混合模型,每次前向推理只使用2800亿个参数和560 TFLOPs。GPT-4训练时使用了约13万亿个标记,批量大小为6000万,通过将其除以序列长度来计算实际批量大小。OpenAI使用了张量并行和流水线并行等并行策略。GPT-4的训练成本估计约为6300万美元。GPT-4有一个独立的视觉编码器,并使用额外的标记进行微调。GPT-4的推理中可能使用了推测解码。推理架构在128个GPU的集群上运行。OpenAI在获取高质量数据方面面临挑战。