机器之心 ·

腾讯混元大模型负责人王迪：揭秘万亿 MoE 系统工程之道｜智者访谈

💡 原文中文，约17000字，阅读约需41分钟。

📝

内容提要

腾讯机器学习平台部总经理王迪表示，构建异构卡的集群是一个有潜力的方向，但需要解决卡间和机间互联问题，以及不同卡之间的编译环境和训练策略的统一。腾讯将持续增加在AI基础设施方面的投入，但百万卡的实现可能需要时间。未来的发展趋势是AI算力集群化和规模化，用户更关注计算能力和通信带宽。

🎯

关键要点

王迪表示构建异构卡集群是有潜力的方向，但需解决卡间和机间互联问题。
腾讯将持续增加在AI基础设施方面的投入，但实现百万卡可能需要时间。
未来发展趋势是AI算力集群化和规模化，用户更关注计算能力和通信带宽。
大模型是一项跨领域的系统工程，需要高效整合工程、算法、数据和业务应用。
业务团队需明确模型能力边界，技术与业务紧密协作才能快速推出AI产品。
腾讯的实践路径提供了大模型研发和工程的独特视角，包括基础设施构建和训练推理框架优化。
小模型成为趋势，OpenAI发布小模型是需求导向，需保障小模型效果良好。
腾讯选择自研大模型以探索底层技术，避免依赖开源模型的潜在问题。
训练大模型需探索Scaling Law，确保在有限资源下高效整合各方面。
MoE架构的探索需解决训练效率和专家平衡问题，未来需优化训练过程。
多模态和全模态的统一是行业关注的方向，腾讯积极布局相关技术。
腾讯的模型训练需满足多业务需求，提供个性化优化以支持不同场景。
混元大模型在公司内部支持近700个业务，推动全链路接入提升效率。
AI基础设施需解决训练稳定性和鲁棒性问题，腾讯通过监控和优化应对挑战。
未来AI算力将走向集群化、规模化，用户关注计算Flops和通信带宽。
腾讯对AI基础设施的投入将持续，目标是提供低成本、通用的AI算力云计算能力。

❓

延伸问答

腾讯在AI基础设施方面的未来发展趋势是什么？

腾讯未来将朝着AI算力集群化和规模化发展，用户更关注计算能力和通信带宽。

王迪提到的MoE架构面临哪些挑战？

MoE架构需解决训练效率和专家平衡问题，未来还需优化训练过程。

腾讯为何选择自研大模型而非使用开源模型？

腾讯希望探索底层技术，避免依赖开源模型的潜在问题，确保技术的掌控。

构建异构卡集群的潜力和挑战是什么？

异构卡集群有潜力提升算力，但需解决卡间互联和编译环境统一的问题。

腾讯的混元大模型支持了多少个业务？

混元大模型在公司内部支持近700个业务，推动全链路接入提升效率。

王迪如何看待小模型的趋势？

小模型成为趋势是需求导向，需保障小模型效果良好，适应不同应用场景。

🏷️

继续阅读

eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
刚刚，姚顺雨现身！公开回应腾讯AI落后了吗？
在腾讯云AI产业应用大会上，姚顺雨与汤道生讨论了AI的未来发展。姚顺雨指出，AI的“下半场”应聚焦于解决实际问题和寻找合适的应用场景。他认为腾讯的丰富产品...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
Mavrix在劳德代尔堡设立美国新总部
(全球TMT 2026年06月05日讯)Mavrix宣布，在佛罗里达州劳德代尔堡设立美国总部。该公司2026年 […]
与TorchRec KeyedJaggedTensor的同步
Efficiently Using TorchRec KeyedJaggedTensor In GPU Systems
SuperX首个美国AI推理云中心在丹佛投入运营
(全球TMT 2026年06月05日讯)全栈式AI基础设施解决方案提供商SuperX AI Technolog […]