MotherDuck:大数据已死
💡
原文中文,约4500字,阅读约需11分钟。
📝
内容提要
大数据时代已结束,现代云数据平台将存储和计算分开,数据量巨大的客户几乎不查询海量数据,数据的静止意味着数据工作集大小易于管理。应优化如何帮助人们从数据中获得所需的洞察力,与大小无关。文章提到了一些误导和部分正确的观点。
🎯
关键要点
- 大数据时代已结束,现代云数据平台将存储和计算分开。
- 客户通常不查询海量数据,数据静止使得数据工作集更易管理。
- 大多数使用大数据工具的客户并不真正拥有大数据。
- 客户数据大小服从幂律分布,许多客户的数据量远低于100GB。
- 大多数企业的数据仓库都小于1TB,100GB是合理的数据仓库规模。
- 数据的实际来源决定了大数据的稀缺性,许多企业难以产生海量数据。
- 现代云数据平台的存储和计算分离是数据架构的重要变化。
- 分析工作负载处理的数据量通常小于整体数据大小。
- 大多数数据很少被查询,历史数据的查询频率低。
- 数据的静止使得数据工作集大小更易于管理。
- 保留旧数据需要明确其价值和必要性。
- 大数据并非每个企业都需要关注,许多企业可以使用新一代数据工具。
- 大数据的存在是多样的,数据基础设施应优化以满足不同规模的数据需求。
- 对大数据的不同观点存在误导和部分正确的说法。
- 潜水与浮潜的类比说明了大数据工具与中小型数据工具的区别。
➡️