3. DDIA-派生数据-笔记

3. DDIA-派生数据-笔记

💡 原文中文,约3800字,阅读约需9分钟。
📝

内容提要

本文总结了批处理系统和流处理系统的特点和问题,包括UNIX工具、MapReduce与分布式文件系统的使用,流处理系统处理无界数据时需要考虑乱序和背压等问题,还介绍了数据库与流CDC的技术。未来的数据系统需要关注数据集成、分拆数据库和端到端的正确性。作者强调了对隐私的尊重和保护。

🎯

关键要点

  • 批处理系统假定基于有界的数据集,流处理系统面向有界和无界的数据集。

  • UNIX工具通过管道思想实现批处理,组件精简且专注。

  • MapReduce支持无假设输入数据的处理,但排序和合并操作可能昂贵。

  • Map Join优化了大表与小表的连接,减少了数据传输成本。

  • 流处理系统需要考虑乱序和背压问题,确保数据的顺序和消费速度。

  • CDC技术捕获数据库变更记录并转化为数据流。

  • 流处理与批处理的主要区别在于时间和容错处理的复杂性。

  • 数据集成演变为不同数据源间的同步能力,需具备简单的ETL功能。

  • 分拆数据库以满足不同需求,确保数据准确性而不依赖分布式事务。

  • 端到端的正确性可通过幂等性和唯一标识符实现,避免重复执行问题。

  • 在技术设计中应尊重用户隐私,确保数据的道德和法律合规性。

➡️

继续阅读