字节跳动技术团队官方博客 ·

字节跳动基于 Hudi 的机器学习应用场景

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

本文介绍了火山引擎LAS团队自研的多场景样本离线存储技术，用于处理机器学习系统的离线数据流。文章揭秘了流批一体样本生成的过程，并分享了对Hudi内核的优化和改造，以及在数据处理领域的实际应用和效果。同时，还有新人优惠购福利等着读者。

🎯

关键要点

火山引擎LAS团队自研的多场景样本离线存储技术用于处理机器学习系统的离线数据流。
文章揭秘流批一体样本生成的过程，分享对Hudi内核的优化和改造。
离线数据流架构分为流式和批式两种类型，样本数据由特征和标签构成。
流式架构通过在线预估服务和实时行为采集服务生成样本，批式架构则补充批式特征和标签。
样本离线存储方案支持模型重新训练、样本数据迭代和OLAP查询。
Hudi实现了ColumnFamily能力，减少读写放大，降低存储成本。
在线样本生成服务使用KV或BigTable类存储，结合Hudi降低在线存储使用成本。
Hudi内核改造包括支持主键排序、并发写和Compaction服务，以满足业务需求。
湖仓一体分析服务LAS提供Serverless数据处理分析能力，支持EB级海量数据存储计算。
新人用户可享受LAS数据中台的特惠活动，1元秒杀等多重优惠。

🏷️

继续阅读

大模型推理资源需求计算及使用场景示例
博客自2016年成立以来，逐步接入CDN并添加功能，如音乐墙、动态和时光，至2021年更新了站点地图。
AI战争应用与中美安全困局
委内瑞拉和伊朗展示了人工智能在战争中的有效性。美军利用Claude大模型进行情报分析和作战规划，AI的应用给各国网络安全带来了巨大挑战。周鸿祎建议建立新的...
将AI应用从原型转向生产需要企业级Postgres基础设施
AI应用在数据库限制、集成复杂性和合规性方面面临挑战，尤其在金融和医疗等受监管行业。pgEdge推出企业级Postgres基础设施，以支持AI应用的安全性...
首个物理AI数据基座平台“无垠”落户浙江，专治机器人数据荒，家庭工业商业场景全覆盖
浙江推出首个物理AI数据基座平台“无垠”，旨在解决机器人数据短缺问题。该平台结合真实数据与虚拟仿真，提供高质量数据，支持具身智能的训练与应用，推动行业发展。
物理信息机器学习新突破！新型GNN架构可对复杂多体动力系统进行准确预测，赋能机器人/航空航天/材料科学
瑞士洛桑联邦理工学院提出的DYNAMI-CAL GraphNet结合物理规律与图神经网络，显著提高了多体动力系统的建模精度和稳定性，适用于机器人和航空航天等领域。
基于华为开发者空间鸿蒙云手机+MaaS的鸿蒙原生智能应用开发 - 翻译助手APP
本文介绍了基于华为鸿蒙云手机和MaaS平台的翻译助手APP开发案例。开发者需使用DevEco Studio和DevEco Testing工具，远程连接云手...

字节跳动基于 Hudi 的机器学习应用场景

内容提要

关键要点

标签

继续阅读