InfoQ ·

Discord如何将其机器学习平台从单GPU工作流扩展到共享Ray集群

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Discord重建了机器学习平台，通过标准化Ray和Kubernetes实现分布式训练自动化，广告排名指标提升200%。Uber和Spotify也在进行类似转型，强调平台的可预测性和一致性。尽管有成功案例，但内部平台复杂性引发了设计与维护的权衡警示。

🎯

关键要点

Discord重建了机器学习平台，通过标准化Ray和Kubernetes实现分布式训练自动化。
广告排名指标提升200%，实现了大模型的每日重训练。
其他公司如Uber和Spotify也在进行类似转型，强调平台的可预测性和一致性。
Discord的转型始于团队独立创建Ray集群，导致配置漂移和不一致的GPU使用。
平台团队通过标准化集群创建和管理，使分布式机器学习变得可预测。
通过CLI，工程师可以高层次请求集群，系统自动生成所需的Kubernetes资源。
训练工作流程在Dagster中整合，集群生命周期由系统自动管理。
Discord还构建了X-Ray，一个显示活动集群、作业日志和资源使用情况的用户界面。
其他组织如Uber和Pinterest也报告了类似的转型和收益。
CloudKitchens警告内部机器学习平台的复杂性，可能导致维护问题。
这些案例表明，尽管共享机器学习平台可以加速迭代和可靠访问分布式计算，但也可能带来设计和维护的权衡。

❓

延伸问答

Discord是如何重建其机器学习平台的？

Discord通过标准化Ray和Kubernetes，实现分布式训练自动化，简化了集群创建和管理流程。

Discord的机器学习平台转型带来了哪些具体收益？

转型后，Discord实现了广告排名指标提升200%，并能够进行大模型的每日重训练。

其他公司在机器学习平台转型中有哪些类似的做法？

Uber、Pinterest和Spotify等公司也在进行类似转型，强调平台的可预测性和一致性。

Discord是如何解决GPU使用不一致的问题的？

Discord通过标准化集群创建和管理，消除了配置漂移，确保了GPU使用的一致性。

Discord的X-Ray用户界面有什么功能？

X-Ray用户界面显示活动集群、作业日志和资源使用情况，帮助工程师监控和管理集群。

内部机器学习平台可能面临哪些维护问题？

内部机器学习平台的复杂性可能导致维护问题，例如简单的ML作业启动时间过长。

🏷️

继续阅读

流媒体的未来：技术如何塑造观看体验
流媒体行业在过去十年经历了巨大变革，成为主要媒体消费方式。AI和机器学习提升了用户体验和内容创作效率，5G技术将进一步改善流媒体质量。尽管面临内容盗版和信...
Stripe如何在100毫秒内检测欺诈交易
Stripe通过机器学习模型在100毫秒内评估交易信号，成功检测99.9%的合法支付。其Radar系统经过多次架构升级，采用多分支神经网络以提高效率和准确...
深入探讨Lakebase的首个生产部署之一：LangGuard的自主工作流治理引擎
LangGuard是为企业自主AI代理工作流设计的控制基础设施，实时监控和执行政策，确保安全性。它利用Lakebase的无服务器架构，动态调整计算资源，支...
盛趣游戏《大航海时代：起源》今日全平台公测这次国服改动很走心
4月28日，由光荣特库摩正版授权、Line Games与Motif共同开发，世纪华通（002602.SZ）旗下盛趣游戏代理发行的多端互通航海RPG手游《大...
Qdrant Cloud现已推出：GPU索引、多可用区（Multi-AZ）和审计日志
Qdrant Cloud推出了GPU索引、多可用区（Multi-AZ）和审计日志功能。GPU索引可提高索引速度至4倍，适用于高写入工作负载。Multi-A...
平台团队的Kubernetes：利用k0s和k0rdent
本文探讨了如何通过结合k0s、k0rdent和托管控制平面（HCP）在OpenStack上高效管理多集群Kubernetes环境。HCP通过集中管理控制平...