字节跳动基于 Hudi 的机器学习应用场景
💡
原文中文,约4000字,阅读约需10分钟。
📝
内容提要
本文介绍了火山引擎LAS团队自研的多场景样本离线存储技术,用于处理机器学习系统的离线数据流。文章揭秘了流批一体样本生成的过程,并分享了对Hudi内核的优化和改造,以及在数据处理领域的实际应用和效果。同时,还有新人优惠购福利等着读者。
➡️