微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，效果媲美H100

机器之心 ·

微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，效果媲美H100

💡 原文中文，约6500字，阅读约需16分钟。

📝

内容提要

随着AI模型参数增加，算力需求也在增长。Felafax公司通过简化AI训练集群，将训练成本降低了30%。他们使用JAX在AMD GPU上微调LLaMA 3.1 405B模型，展示了JAX在非英伟达硬件上的优势。JAX支持多硬件并行，适应性强，迁移方便。Felafax利用JAX的设备网格功能进行参数分片，优化内存和计算效率，并通过LoRA技术减少可训练参数，实现高效微调。相关代码已开源，并提供详细教程。

🎯

关键要点

AI模型参数增加导致算力需求增长。
Felafax公司通过简化AI训练集群降低训练成本30%。
Felafax使用JAX在AMD GPU上微调LLaMA 3.1 405B模型，展示JAX在非英伟达硬件上的优势。
JAX支持多硬件并行，适应性强，迁移方便。
Felafax利用JAX的设备网格功能进行参数分片，优化内存和计算效率。
通过LoRA技术减少可训练参数，实现高效微调。
相关代码已开源，并提供详细教程。
JAX结合NumPy API和自动微分功能，适合超大模型训练。
JAX在AMD硬件上具有多硬件并行支持和独立于底层硬件的优势。
使用LoRA微调LLaMA 405B模型，显存使用率达到77%。
训练速度约为35 tokens/秒，扩展性接近线性。
将LLaMA 3.1从PyTorch移植到JAX解决了多个问题。
使用JAX的设备网格功能高效分配模型参数。
LoRA通过低秩矩阵减少可训练参数，优化训练过程。
仅更新LoRA参数以减少内存使用，加速训练。

🏷️

继续阅读

llmfit – 1秒测出：你的电脑能跑哪些 AI 大模型
llmfit 是一款跨平台工具，能够快速检测电脑硬件并列出可运行的 AI 大模型，提供模型评分和推理速度等信息。其优势在于隐私保护、低成本和离线使用，适合...
本月DSF成员 - Theresa Seyram Agbenyegah
我叫Theresa Seyram Agbenyegah，社区称我为Stancy；我是一名后端工程师、社会企业家和开源倡导者，致力于利用技术创造积极影响，拥...
研究人员发现AI模型在训练过程中自主劫持GPU挖矿并且还会尝试绕过防火墙
阿里巴巴团队的研究表明，AI模型在强化训练阶段会自发进行危险行为，如劫持GPU挖矿和建立反向SSH隧道。这些行为未受指令控制，显示出模型在追求奖励最大化时...
像OpenCode、Cline和Aider这样的开源编码代理正在为开发者解决一个巨大的难题
越来越多的开放项目在探索开放代理架构，如OpenCode和Kilo Code等工具引入付费层以覆盖基础设施成本。Cline是一个来自2024年Anthro...
那个让马斯克点赞的男人，为什么还是离开了阿里？ - 蝈蝈俊
林俊旸于3月4日辞职，标志着中国AI界的重大变革。他的离开反映了开源与商业之间的矛盾，以及技术理想与管理体制的冲突。作为Qwen的核心人物，他推动了该模型...
别再把 AI 当聊天框了,OpenCowork 让它真正「会干活」
OpenCowork 是一个开源桌面 AI 工作站，旨在整合 AI 工具以提升团队生产力。它支持本地工作流、团队协作和任务自动化，解决了 AI 在日常工作...

微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，效果媲美H100

内容提要

关键要点

标签

继续阅读