阿里云云栖号 ·

深度学习弹性数据流水线系统 GoldMiner，大幅提升任务和集群效率

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

阿里云机器学习平台PAI与北京大学杨智老师团队合作的论文《GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning》被数据库领域顶会SIGMOD 2023接收。GoldMiner通过分离数据预处理流水线和模型训练部分，实现了高效的并行加速和弹性伸缩，解决了数据预处理瓶颈问题，提升训练性能。该论文通过自动计算图分析识别无状态的数据预处理计算，并利用无状态性实现了自动化的图切分和数据传递，提供了动态调整资源的data worker调度器。在真实推荐模型上的评测中，GoldMiner可为用户模型加速1.43倍，并削减13%的训练成本。

🎯

关键要点

阿里云机器学习平台PAI与北京大学杨智老师团队合作的论文《GoldMiner》被SIGMOD 2023接收。
GoldMiner通过分离数据预处理流水线和模型训练部分，实现高效并行加速和弹性伸缩。
GoldMiner解决了数据预处理瓶颈问题，提升训练性能，实验显示可提升训练性能达12.1倍。
数据预处理瓶颈影响训练性能和集群资源利用效率，尤其在云场景中更为严重。
将GPU训练和CPU数据预处理分离可以提高资源分配效率，缓解资源碎片问题。
现有技术在数据预处理分离执行方面存在计算切分效率、用户代码侵入性和集群调度结合等挑战。
GoldMiner使用data worker和training worker分别进行数据预处理和训练，自动识别无状态计算。
GoldMiner通过自动化图切分和动态资源调整，提升集群效率和资源利用率。
GoldMiner在真实推荐模型上评测显示可加速1.43倍，削减13%的训练成本。
GoldMiner的PyTorch版本即将与PAI-DLC集成，提供数据预处理加速能力。

🏷️

继续阅读

用 Amazon Quick 加速日常数据工作
Amazon Quick 是一款企业办公助手，利用自然语言处理技术提升数据处理效率。用户只需描述需求，Quick 即可自动分析、生成报告和执行工作流程，适...
Elly推出AI招聘助手，将对话式招聘和外联整合到一个招聘系统中
AI原生招聘平台Elly推出了AI Sourcer，旨在通过集成对话式人才搜寻和拓展工作流程，减少招聘过程中的人工工作量。该系统整合了电子邮件和Linke...
记一次 .NET 某注塑模具系统 CPU爆高分析 - 一线码农
最近一位朋友遇到CPU使用率飙升的问题，分析dump文件后发现程序仅使用两个核心，导致负载过高。调查显示，GC触发是由于大对象堆（LOH）满，主要原因是将...
DMIT宣布清退TYO EB系列产品(东京) 用户需在6月15日前备份数据和迁移业务
DMIT宣布东京TYO EB系列服务器将于2026年6月15日下线，用户需及时备份数据并迁移业务。为此，DMIT提供了多项补偿措施，包括升级到Pro系列享...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
GitHub Copilot基于使用量的计费系统已上线：您需要了解的事项
GitHub推出基于代币的Copilot计费系统，取代固定订阅模式。用户根据使用的代币数量收费，每月可获得GitHub AI积分。不同计划积分额度不同，C...

深度学习弹性数据流水线系统 GoldMiner，大幅提升任务和集群效率

内容提要

关键要点

标签

继续阅读