OpenAI「打死都不说」的 GPT-4 训练细节被传出,这是我的解读
原文中文,约5000字,阅读约需12分钟。发表于: 。Matrix首页推荐Matrix是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选Matrix最优质的文章,展示来自用户的最真实的体验和观点。文章代表作者个人观点 ...查看全文
Matrix是一个少数派的写作社区,主张分享真实的产品体验和有实用价值的经验和思考。一篇关于GPT-4模型的泄露的文章追溯了信息来源,并分析了传闻的可信度。根据传闻,GPT-4的模型参数量为1.8万亿,比GPT-3.5大10倍左右,模型层深为120层,模型构架为混合专家模型,共有16个专家,每个专家有1110亿参数量。训练数据共有13万亿个token,训练成本约为6300万美元。作者认为这些传闻有一定的可信度,并提出了一些分析和讨论。他认为私有模型的竞争将集中在并行能力上,而GPT-5的重点将在于多模态。作者还猜测OpenAI可能有意放出这些传闻,以便让竞争对手先复制GPT-4,而他们则继续研究GPT-5的多模态模型。