腾讯混元大模型负责人王迪:揭秘万亿 MoE 系统工程之道|智者访谈

腾讯混元大模型负责人王迪:揭秘万亿 MoE 系统工程之道|智者访谈

💡 原文中文,约17000字,阅读约需41分钟。
📝

内容提要

腾讯机器学习平台部总经理王迪表示,构建异构卡的集群是一个有潜力的方向,但需要解决卡间和机间互联问题,以及不同卡之间的编译环境和训练策略的统一。腾讯将持续增加在AI基础设施方面的投入,但百万卡的实现可能需要时间。未来的发展趋势是AI算力集群化和规模化,用户更关注计算能力和通信带宽。

🎯

关键要点

  • 王迪表示构建异构卡集群是有潜力的方向,但需解决卡间和机间互联问题。
  • 腾讯将持续增加在AI基础设施方面的投入,但实现百万卡可能需要时间。
  • 未来发展趋势是AI算力集群化和规模化,用户更关注计算能力和通信带宽。
  • 大模型是一项跨领域的系统工程,需要高效整合工程、算法、数据和业务应用。
  • 业务团队需明确模型能力边界,技术与业务紧密协作才能快速推出AI产品。
  • 腾讯的实践路径提供了大模型研发和工程的独特视角,包括基础设施构建和训练推理框架优化。
  • 小模型成为趋势,OpenAI发布小模型是需求导向,需保障小模型效果良好。
  • 腾讯选择自研大模型以探索底层技术,避免依赖开源模型的潜在问题。
  • 训练大模型需探索Scaling Law,确保在有限资源下高效整合各方面。
  • MoE架构的探索需解决训练效率和专家平衡问题,未来需优化训练过程。
  • 多模态和全模态的统一是行业关注的方向,腾讯积极布局相关技术。
  • 腾讯的模型训练需满足多业务需求,提供个性化优化以支持不同场景。
  • 混元大模型在公司内部支持近700个业务,推动全链路接入提升效率。
  • AI基础设施需解决训练稳定性和鲁棒性问题,腾讯通过监控和优化应对挑战。
  • 未来AI算力将走向集群化、规模化,用户关注计算Flops和通信带宽。
  • 腾讯对AI基础设施的投入将持续,目标是提供低成本、通用的AI算力云计算能力。
➡️

继续阅读