字节跳动基于 Hudi 的机器学习应用场景
原文中文,约4000字,阅读约需10分钟。发表于: 。动手点关注干货不迷路本文为 Apache Hudi 技术社区分享会第十期嘉宾分享文章,主要介绍火山引擎 LAS 团队自研的多场景样本离线存储技术,用于处理机器学习系统的离线数据流。同时,还会为大家揭秘流批一体样本生成的过程,分享对 Hudi 内核所做出的优化和改造,探索其在数据处理领域的实际应用和效果。文末更有专属彩蛋,新人优惠购福利,等着你来解锁!本篇文章提纲如下:业务场景离线样本存储与迭代流批...
本文介绍了火山引擎LAS团队自研的多场景样本离线存储技术,用于处理机器学习系统的离线数据流。文章揭秘了流批一体样本生成的过程,并分享了对Hudi内核的优化和改造,以及在数据处理领域的实际应用和效果。同时,还有新人优惠购福利等着读者。