💡
原文中文,约17000字,阅读约需41分钟。
📝
内容提要
腾讯机器学习平台部总经理王迪表示,构建异构卡的集群是一个有潜力的方向,但需要解决卡间和机间互联问题,以及不同卡之间的编译环境和训练策略的统一。腾讯将持续增加在AI基础设施方面的投入,但百万卡的实现可能需要时间。未来的发展趋势是AI算力集群化和规模化,用户更关注计算能力和通信带宽。
🎯
关键要点
- 王迪表示构建异构卡集群是有潜力的方向,但需解决卡间和机间互联问题。
- 腾讯将持续增加在AI基础设施方面的投入,但实现百万卡可能需要时间。
- 未来发展趋势是AI算力集群化和规模化,用户更关注计算能力和通信带宽。
- 大模型是一项跨领域的系统工程,需要高效整合工程、算法、数据和业务应用。
- 业务团队需明确模型能力边界,技术与业务紧密协作才能快速推出AI产品。
- 腾讯的实践路径提供了大模型研发和工程的独特视角,包括基础设施构建和训练推理框架优化。
- 小模型成为趋势,OpenAI发布小模型是需求导向,需保障小模型效果良好。
- 腾讯选择自研大模型以探索底层技术,避免依赖开源模型的潜在问题。
- 训练大模型需探索Scaling Law,确保在有限资源下高效整合各方面。
- MoE架构的探索需解决训练效率和专家平衡问题,未来需优化训练过程。
- 多模态和全模态的统一是行业关注的方向,腾讯积极布局相关技术。
- 腾讯的模型训练需满足多业务需求,提供个性化优化以支持不同场景。
- 混元大模型在公司内部支持近700个业务,推动全链路接入提升效率。
- AI基础设施需解决训练稳定性和鲁棒性问题,腾讯通过监控和优化应对挑战。
- 未来AI算力将走向集群化、规模化,用户关注计算Flops和通信带宽。
- 腾讯对AI基础设施的投入将持续,目标是提供低成本、通用的AI算力云计算能力。
➡️