全球首个支持单任务千卡规模异构芯片混合训练平台,来自无问芯穹

全球首个支持单任务千卡规模异构芯片混合训练平台,来自无问芯穹

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

无问芯穹发布了大规模模型的异构分布式混合训练系统,支持多种异构芯片的混合训练。无问芯穹的Infini-AI云平台已集成大模型异构混训能力,支持多种芯片的大模型训练。无问芯穹的技术产品能让开发者们能够有效利用各类算力资源,专注于AI应用创新。

🎯

关键要点

  • 无问芯穹发布了大规模模型的异构分布式混合训练系统,支持多种异构芯片的混合训练。
  • Infini-AI云平台已集成大模型异构混训能力,支持包括AMD、华为昇腾、NVIDIA等六种异构芯片。
  • Infini-AI平台的算力利用率最高达97.6%,并已支持700亿参数规模的大模型训练。
  • 中国的模型层与芯片层表现出多样化,存在“生态竖井”问题,导致算力资源利用效率低下。
  • 无问芯穹通过构建高效整合异构算力资源的平台,解决了多芯片并行训练的技术挑战。
  • Infini-AI云平台由异构云管平台、一站式AI平台和大模型服务平台组成,提供便捷的算力使用接口。
  • Infini-AI已支持30多个模型和10余种计算卡,允许开发者自由组合模型与芯片。
  • 无问芯穹与清华、上交的联合研究团队发布了HETHUB,实现六种不同品牌芯片间的交叉混合训练。
  • 无问芯穹的千卡异构混合训练集群算力利用率行业领先,达到97.6%。
  • 未来无问芯穹将继续整合异构算力,推动大模型技术能力的提升。

延伸问答

无问芯穹的Infini-AI云平台支持哪些异构芯片?

Infini-AI云平台支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA等六种异构芯片。

Infini-AI云平台的算力利用率是多少?

Infini-AI云平台的算力利用率最高达97.6%。

无问芯穹如何解决异构芯片之间的兼容性问题?

无问芯穹通过建立通用集合通信库和提出非均匀拆分方案来解决异构芯片之间的兼容性问题。

Infini-AI云平台支持多大规模的大模型训练?

Infini-AI云平台已支持700亿参数规模的大模型训练。

无问芯穹的异构分布式混合训练系统有什么特点?

该系统是全球首个支持单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性。

无问芯穹与哪些机构合作开发了HETHUB?

无问芯穹与清华大学和上海交通大学的联合研究团队合作开发了HETHUB。

➡️

继续阅读