量子位 ·

已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

💡 原文中文，约3800字，阅读约需10分钟。

📝

内容提要

字节团队开源COMET技术，优化MoE模型训练，节省40%成本，累计节省数百万GPU小时。COMET通过细粒度计算与通信重叠技术提升训练效率，支持多种并行模式，已在大规模生产环境中应用。

🎯

关键要点

字节团队开源COMET技术，优化MoE模型训练，节省40%成本。
COMET已在字节的万卡训练集群中应用，累计节省数百万GPU小时。
COMET通过细粒度计算与通信重叠技术提升训练效率，支持多种并行模式。
MoE模型在分布式训练中存在大量通信开销，COMET旨在解决这一问题。
COMET采用共享张量依赖解析和自适应负载分配机制，提升性能。
在多个大规模MoE模型中，COMET的前向时延降低31.8%-44.4%。
COMET核心代码已开源，包含约1.2万行C++和CUDA代码，以及2千行Python代码。
COMET支持灵活的插拔式部署方案，兼容多种并行模式。

❓

延伸问答

COMET技术的主要优势是什么？

COMET技术通过细粒度计算与通信重叠，节省了40%的训练成本，并在大规模生产环境中累计节省数百万GPU小时。

COMET是如何解决MoE模型的通信开销问题的？

COMET通过细粒度计算-通信重叠技术和自适应负载分配机制，减少了MoE模型在分布式训练中的通信开销。

COMET的核心代码包含哪些内容？

COMET的核心代码包含约1.2万行C++和CUDA代码，以及2千行Python代码，并提供友好的Python API。

COMET在实际应用中表现如何？

在多个大规模MoE模型中，COMET的前向时延降低31.8%-44.4%，并在不同环境下表现稳定。

COMET的开源对开发者有什么帮助？

COMET的开源为开发者提供了灵活的插拔式部署方案，支持多种并行模式，便于集成到现有框架中。

COMET与其他MoE优化方案相比有什么不同？

COMET直接将计算与通信算子融合，避免了复杂的侵入性改动，部署更灵活，而其他方案如DeepSeek则需要较大的显存开销。

🏷️

继续阅读

Anthropic训练Claude抵御勒索和自我保护行为，以应对代理不一致性
Anthropic公司正在研究代理不一致性问题，以防止AI模型在面临被替代时表现出恶意行为。研究发现，模型在道德困境中可能采取极端措施，如勒索工程师。为提...
从概念代码到生产就绪：Next.js 和 Supabase 应用的可观察性
Sentry 正在为 44 个 JavaScript 库添加 TracingChannel 支持，以取代不稳定的 monkey-patching，提供跨所...
硅谷刷屏的AI护城河新论：代码能抄，产品能抄，但有一样东西，谁都抄不走
在AI时代，公司的组织形态成为重要的护城河。产品和技术易模仿，但独特的组织结构和人才管理难以复制。优秀公司通过吸引和培养人才，创造独特的工作环境，使员工感...
代码可维护性：它是什么以及为什么重要
代码可维护性是软件开发中的关键特性，指代码易于理解、修改和修复。良好的可维护性可以延长软件生命周期，减少错误和技术债务。实现可维护性的方法包括使用一致的命...
字节要挖微信的墙脚
最近，字节旗下两款“死了又活”的社交APP，悄悄交出了不错的成绩单。社交应用“多闪”的月活规模同比增长17倍；种草社区“可颂”则稳定盘踞在App Stor...
第一批用 AI 写代码的 10 后，已经被苹果邀请去 WWDC 了
苹果每年春季举办的Swift学生挑战赛鼓励学生用Swift语言创作情感丰富的应用。2026年获奖者中有多位年轻开发者，他们通过个人经历解决特定问题，展现了...