量子位 ·

蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

蚂蚁公司Ling模型研发负责人表示，国产GPU训练大模型的成本与英伟达相当或更低。近期技术论文显示，蚂蚁的MoE大模型在国产GPU上实现高效训练，受到广泛关注。张志强分享了训练过程中的经验，强调训练稳定性和成本优化的重要性，并指出国产加速卡的潜力。

🎯

关键要点

蚂蚁公司Ling模型研发负责人表示，国产GPU训练大模型的成本与英伟达相当或更低。
蚂蚁的MoE大模型在国产GPU上实现高效训练，受到广泛关注。
张志强分享了训练过程中的经验，强调训练稳定性和成本优化的重要性。
国产加速卡的潜力被指出，训练成本优化是无止境的。
Ling模型的训练过程展示了国产加速卡的训练成本与GPU相当甚至更低。
训练正确性对齐是大规模MoE LLM在多个算力平台上无缝切换训练的关键。
Router TP（Tensor Parallelism）bug修复是解决模型收敛问题的重要步骤。
NormHead的迁移和优化有助于保证训练的稳定性和loss收敛。
针对loss和grad的尖刺处理机制被设计以缓解训练不稳定问题。
成本计算方法基于学术界通行的标准，确保了训练单位token量的成本计算准确。
Ling模型的发布是一个里程碑，未来将继续改进并开源更多工作。

❓

延伸问答

国产GPU训练大模型的成本如何与英伟达相比？

国产GPU训练大模型的成本与英伟达相当或更低。

Ling模型的训练过程中有哪些关键经验？

训练正确性对齐、Router TP bug修复和训练稳定性是关键经验。

国产加速卡在训练大模型时的潜力如何？

国产加速卡的训练成本与GPU相当甚至更低，具有很大潜力。

Ling模型的发布有什么重要意义？

Ling模型的发布标志着国产大模型训练的一个里程碑，未来将继续改进并开源更多工作。

在训练过程中如何处理loss和grad的尖刺？

通过设计尖刺处理机制，监控loss和grad，异常时跳过训练步骤。

Ling模型的训练成本计算方法是什么？

成本计算基于学术界通行的标准，依据真实训练记录和单位时间成本进行计算。

🏷️

继续阅读

阿里视频模型 HappyHorse 开启灰测，悟空已率先接入
阿里推出的HappyHorse 1.0视频生成模型已开始灰测，面向企业用户进行客户共创。该模型支持文生视频、图生视频等多模态创作，能够快速生成高质量的图片...
作为 Snipaste 付费用户，试完 PixPin 3 我动摇了，就差最后一点细节
PixPin 3.1.4.0 版本推出，进行了界面重构，接入 AI 技术以提升识别与翻译能力，新增自动马赛克、贴图穿透和条码识别等功能。大部分功能免费，部...
AI真能搞钱了！这家公司把大模型玩成闭环赚钱机器
零犀科技通过自研因果大模型，专注于提升企业销售业绩，实现规模盈利与正现金流。其RaaS模式强调结果导向，帮助客户直接获得业务增量。后训练机制提升了AI的决...
MuleRun（骡子快跑）首发灰测HappyHorse模型，支持用户7×24小时调用
MuleRun推出了自进化个人AI，用户可以通过输入提示词调用阿里巴巴的HappyHorse 1.0视频生成模型，支持多种内容生产场景。该平台提供独立云端...
Claude Pro订阅无法再使用Opus系列模型？A社称过时信息忘记删除
关于Claude Pro订阅无法使用Opus系列模型的消息引发用户不满。A公司澄清这是过时信息，从2026年1月起，Claude Pro已支持在Claud...
OpenMOSS发布MOSS-Audio：一个用于语音、声音、音乐和时间感知音频推理的开源基础模型
MOSS-Audio是一个开源音频理解模型，集成了语音转录、情感分析和环境声音理解等功能。其模块化设计包括音频编码器和大型语言模型，采用DeepStack...