Ying’s Blog ·

3. DDIA-派生数据-笔记

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

本文总结了批处理系统和流处理系统的特点和问题，包括UNIX工具、MapReduce与分布式文件系统的使用，流处理系统处理无界数据时需要考虑乱序和背压等问题，还介绍了数据库与流CDC的技术。未来的数据系统需要关注数据集成、分拆数据库和端到端的正确性。作者强调了对隐私的尊重和保护。

🎯

关键要点

批处理系统假定基于有界的数据集，流处理系统面向有界和无界的数据集。
UNIX工具通过管道思想实现批处理，组件精简且专注。
MapReduce支持无假设输入数据的处理，但排序和合并操作可能昂贵。
Map Join优化了大表与小表的连接，减少了数据传输成本。
流处理系统需要考虑乱序和背压问题，确保数据的顺序和消费速度。
CDC技术捕获数据库变更记录并转化为数据流。
流处理与批处理的主要区别在于时间和容错处理的复杂性。
数据集成演变为不同数据源间的同步能力，需具备简单的ETL功能。
分拆数据库以满足不同需求，确保数据准确性而不依赖分布式事务。
端到端的正确性可通过幂等性和唯一标识符实现，避免重复执行问题。
在技术设计中应尊重用户隐私，确保数据的道德和法律合规性。

❓

延伸问答

批处理系统和流处理系统有什么主要区别？

批处理系统假定基于有界的数据集，而流处理系统则面向有界和无界的数据集。

MapReduce的优缺点是什么？

MapReduce的优点是无需对输入数据做假设，缺点是排序和合并操作可能非常昂贵。

流处理系统如何处理乱序和背压问题？

流处理系统需要通过特定的算法处理乱序，并采用背压机制来控制生产者的消息发送速度。

什么是CDC技术，它的作用是什么？

CDC技术用于捕获数据库变更记录并将其转化为数据流，便于实时数据处理。

如何确保数据系统的端到端正确性？

可以通过幂等性和唯一标识符来实现端到端的正确性，避免重复执行问题。

在数据系统设计中，如何处理用户隐私问题？

在技术设计中应尊重用户隐私，确保数据的道德和法律合规性。

🏷️

标签

分拆数据库批处理系统数据集成流处理系统隐私保护

➡️

继续阅读

数据显示：世界杯直播观看量比2022年增长473%
Everyone TV 公布的 Barb 收视数据显示，通过宽带观看 2026 年 FIFA 世界杯的人数显著增加，凸显了英国持续向互联网电视转型。 Ba...
涛思数据TDengine升级为AI原生工业数据平台
（全球TMT 2026年07月22日讯）涛思数据宣布TDengine产品重大升级，从高性能时序数据库正式演进为 […]
澳鹏数据已连续八届深度参与世界人工智能大会
(全球TMT 2026年07月21日讯)2026年7月17日至20日，2026世界人工智能大会暨人工智能全球治 […]
瀚高股份携新一代智能数据基座平台HigoBase参展WAIC 2026
(全球TMT 2026年07月21日讯)7月17日至20日，第八届世界人工智能大会（WAIC 2026）在上海 […]
AWS Billing Bug Shows Customers Trillion-Dollar Estimates While Its Own Cost Alarms Fail to Act
A configuration change in AWS's bill computation system showed customers ...
【公共云三十问之九】先进公共云的发展蓝图包括哪些方面？
等能力，高效聚合数据、算力、算法等智能要素，可靠转化为可调用、可扩展、可复用的智能服务，并广泛、便捷地触达产业、民生、科技和全球发展等关键应用场景，充分发...