AMD 发布 AMD-135M:开源小语言模型

AMD 发布 AMD-135M:开源小语言模型

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

AMD 发布了首个小型语言模型 AMD-135M,完全开源,包括训练代码、数据集和权重。该模型基于 LLaMA2 架构,用 AMD Instinct MI250 加速器训练,处理了 6700 亿个令牌。AMD 鼓励在其硬件上进行 AI 开发。模型可在 HuggingFace 和 GitHub 获取。

🎯

关键要点

  • AMD 发布了首个小型语言模型 AMD-135M,完全开源。
  • AMD-135M 包括训练代码、数据集和权重,有助于其他 SLM 和 LLM 的开发。
  • 该模型使用 AMD Instinct MI250 加速器训练,处理了 6700 亿个令牌。
  • 训练耗时六天,使用了四个 MI250 节点。
  • AMD-135M 还包括一个变体 AMD-Llama-135M,拥有额外的 200 亿 token 代码数据。
  • 模型基于 LLaMA2 架构,AMD 鼓励在其硬件上进行 AI 开发。
  • AMD-135M 可在 HuggingFace 和 GitHub 上获取。
➡️

继续阅读