Keller Jordan的新项目「Modded-NanoGPT」利用FlexAttention技术,将GPT-2模型的训练时间从45分钟缩短至5分钟,显著提高了训练效率。该项目优化了模型架构和优化器,适用于大规模语言建模。
完成下面两步后,将自动完成登录并继续当前操作。