Enderfga's blog ·

Leaked Technical Details of GPT-4

💡 原文英文，约1300词，阅读约需5分钟。

📝

内容提要

GPT-4是一个泄露的模型，据信拥有1.8万亿个参数和120个层。它采用了16个专家的混合模型，每次前向推理只使用2800亿个参数和560 TFLOPs。GPT-4训练时使用了约13万亿个标记，批量大小为6000万，通过将其除以序列长度来计算实际批量大小。OpenAI使用了张量并行和流水线并行等并行策略。GPT-4的训练成本估计约为6300万美元。GPT-4有一个独立的视觉编码器，并使用额外的标记进行微调。GPT-4的推理中可能使用了推测解码。推理架构在128个GPU的集群上运行。OpenAI在获取高质量数据方面面临挑战。

🎯

关键要点

GPT-4的参数数量超过1.8万亿，分布在120层。
GPT-4采用专家混合模型，使用16个专家，每个专家约1110亿个参数。
推理过程中每次前向传递仅使用约280亿个参数和560 TFLOPS。
GPT-4训练使用了约130万亿个标记，文本数据使用2个时期，代码数据使用4个时期。
GPT-4的预训练阶段使用了8000个上下文长度，32K版本基于对8K版本的微调。
批量大小最终达到6000万，但每个专家实际处理的标记数量较少。
OpenAI采用8路张量并行和15路管道并行进行训练。
GPT-4的训练成本约为6300万美元，训练持续90至100天。
在推理过程中，GPT-4的成本是1750亿参数的Davinci模型的3倍。
OpenAI使用了多查询注意力机制，减少了内存需求。
OpenAI实现了可变批量大小和连续批处理，以优化推理成本。
GPT-4引入了独立的视觉编码器，主要用于自主代理的图像和视频处理。
推测解码可能在GPT-4的推理中使用，以提高效率。
推理过程在128个GPU的集群上运行，采用8路张量并行和16路管道并行。
OpenAI在获取高质量数据方面面临挑战，可能需要训练更多的标记。
OpenAI的架构保密并非出于风险考虑，而是因为其可复制性。

🏷️

继续阅读

一个GPT Plus会员的钱，够机器人跑一个月世界模型了
智在无界推出的Being-H-Flash隐式世界模型，月算力成本仅150元，能够在百TOPS级芯片上实现实时运行。该模型通过潜空间推理，降低了计算开销，提...
为GPT-Rosalind引入新功能
GPT-Rosalind系列模型更新，专为生命科学研究设计，提升了药物发现智能和工具使用能力。该模型在生物学、药物化学和基因组学等领域表现出显著提升，通过...
花100多块钱做了个极空间NAS监控屏，固件已开源！
熊猫分享了一个DIY NAS监控屏项目，使用ESP开发板和Docker获取NAS信息。项目包括多页UI显示、触摸屏操作和Web后台设置，硬件为5寸LCD触...
Qt Creator 20 RC版本发布
Qt Creator 20 RC版本已发布，用户可通过Qt在线安装程序获取。新版本包含改进和修复，所有用户均可免费升级。有关问题可在错误跟踪器中反馈，手册...
亚马逊开发了一款员工可以与之对话的仓库机器人
亚马逊推出新版本全自动仓库机器人Proteus，能够与员工通过语言互动，提升自动化水平。该机器人可在更大区域内工作，帮助搬运货物。亚马逊表示，这些机器人旨...
广和通联合立讯精密推出新一代5G Dongle解决方案
广和通与立讯精密在台北国际电脑展推出新一代5G Dongle解决方案，采用4nm制程，支持3GPP Release 16，具备高达2.5Gbps的下行速率...

Leaked Technical Details of GPT-4

内容提要

关键要点

标签

继续阅读