字节跳动基于 Hudi 的机器学习应用场景
💡
原文中文,约4000字,阅读约需10分钟。
📝
内容提要
本文介绍了火山引擎LAS团队自研的多场景样本离线存储技术,用于处理机器学习系统的离线数据流。文章揭秘了流批一体样本生成的过程,并分享了对Hudi内核的优化和改造,以及在数据处理领域的实际应用和效果。同时,还有新人优惠购福利等着读者。
🎯
关键要点
- 火山引擎LAS团队自研的多场景样本离线存储技术用于处理机器学习系统的离线数据流。
- 文章揭秘流批一体样本生成的过程,分享对Hudi内核的优化和改造。
- 离线数据流架构分为流式和批式两种类型,样本数据由特征和标签构成。
- 流式架构通过在线预估服务和实时行为采集服务生成样本,批式架构则补充批式特征和标签。
- 样本离线存储方案支持模型重新训练、样本数据迭代和OLAP查询。
- Hudi实现了ColumnFamily能力,减少读写放大,降低存储成本。
- 在线样本生成服务使用KV或BigTable类存储,结合Hudi降低在线存储使用成本。
- Hudi内核改造包括支持主键排序、并发写和Compaction服务,以满足业务需求。
- 湖仓一体分析服务LAS提供Serverless数据处理分析能力,支持EB级海量数据存储计算。
- 新人用户可享受LAS数据中台的特惠活动,1元秒杀等多重优惠。
➡️