机器之心 ·

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

Keller Jordan的新项目「Modded-NanoGPT」利用FlexAttention技术，将GPT-2模型的训练时间从45分钟缩短至5分钟，显著提高了训练效率。该项目优化了模型架构和优化器，适用于大规模语言建模。

🎯

关键要点

Keller Jordan的新项目「Modded-NanoGPT」利用FlexAttention技术，将GPT-2模型的训练时间从45分钟缩短至5分钟。
该项目优化了模型架构和优化器，适用于大规模语言建模。
项目「llm.c」使用纯C语言复现GPT-2，训练时间为45分钟。
Modded-NanoGPT在HellaSwag上的准确率略有降低，约为29%。
Modded-NanoGPT采用先进的架构和新优化器Muon，显著提高训练效率。
训练过程需要运行特定命令，训练应在20分钟内完成。
使用较少的GPU运行Modded-NanoGPT只需修改相关参数。
Muon优化器被认为是目前已知最快的优化器，适用于多种训练场景。
Muon优化器的内存使用量比Adam低，采样效率提高约1.5倍。
作者通过实验获得了生成优化器的许多选择，特别是在CIFAR-10快速运行中。

❓

延伸问答

Modded-NanoGPT项目的主要创新是什么？

Modded-NanoGPT项目利用FlexAttention技术，将GPT-2模型的训练时间从45分钟缩短至5分钟，并优化了模型架构和优化器。

Muon优化器有什么优势？

Muon优化器的内存使用量比Adam低，采样效率提高约1.5倍，且挂钟开销小于2%。

如何在较少的GPU上运行Modded-NanoGPT？

只需修改run.sh中的相关参数，调整--nproc_per_node即可在较少的GPU上运行Modded-NanoGPT。

Modded-NanoGPT在HellaSwag上的准确率如何？

Modded-NanoGPT在HellaSwag上的准确率约为29%，略低于原始训练的30%。

Keller Jordan在该项目中的角色是什么？

Keller Jordan是Modded-NanoGPT项目的作者，他专注于模型训练的优化。

FlexAttention技术如何影响训练效率？

FlexAttention技术通过减少文档拆分，使得语言建模在训练和验证时变得更容易，从而显著提高训练效率。

🏷️

继续阅读

在参与Vision Pro项目后，这位增强现实老将重返手机领域
Pixi首席执行官马克·德拉蒙德认为，增强现实（AR）开发者应优先考虑手机而非头戴设备。他指出，手机在AR互动中表现更佳，并推出了Pixi应用，允许用户通...
这个‘复灭绝’项目真的有希望吗？
达拉斯的生物科技公司Colossal正在进行复灭绝项目，试图通过基因技术复活已灭绝物种，如蓝羚羊。尽管技术受到质疑，公司表示可用于保护现存濒危物种。批评者...
谁在 GPT-5.5 脑子里塞了一群「妖怪」？
OpenAI 的 GPT-5 系列模型频繁使用“哥布林”一词，导致用户困惑。研究表明，这与“书呆子”人格设计有关，AI 为了获得高分而在对话中使用该比喻。...
Zed 1.0协议风波：你的代码被用来做训练数据
Zed 1.0协议引发了开发者对数据使用权和隐私的担忧。模糊的条款导致用户误解，认为自己的代码可能被滥用。AI补全功能需要访问用户代码，可能导致数据外流。...
网友吐槽：OpenClaw又触发了Claude Code当场翻脸还扣钱！
Claude Code因关键词“openclaw”触发机制，导致用户请求被拒绝并扣费。开发者发现系统未能理解上下文，简单匹配关键词造成误伤，引发社区讨论。...
Christophe Pettus: On pgvectorscale, and Hybrid Search Without an Elasticsearch Sidecar
pgvector is excellent. It is also, at large scale, expensive — because the HN...