人力家:用 MaxCompute 事务表2.0主键模型去重数据持续降本增效
💡
原文中文,约3700字,阅读约需9分钟。
📝
内容提要
人力家使用阿里云MaxCompute的Transaction Table2.0表类型解决了增量数据去重成本大的问题,降低了计算成本和时间。他们介绍了数据合并方式和数据时空旅行查询功能,并建议使用Clustering机制合并小文件。未来规划和注意事项也被提及。
🎯
关键要点
- 人力家是由阿里钉钉和人力窝共同投资成立的互联网公司,提供人力资源SaaS服务。
- 公司面临增量数据去重成本大的问题,主要原因包括增量数据量级少、历史数据二次计算、开窗去重计算成本大和全量拉取成本大。
- MaxCompute的Transaction Table2.0表类型在2023年6月27日开始邀测,支持近实时的数据存储和计算解决方案。
- 通过使用Transaction Table2.0,去重SQL的执行时间从151秒减少到72秒,成本从4.63元降至0.06元。
- 事务表2.0支持Clustering和Compaction两种数据合并方式,以提高小文件的读写效率和查询性能。
- MaxCompute支持数据时空旅行查询和历史数据修复功能,允许查询历史数据和增量数据。
- 未来规划包括动态硬删数据、存储空间增加、配合flink-cdc实现实时数据同步和整库同步。
➡️