大数据列存储文件格式
原文中文,约9400字,阅读约需23分钟。发表于: 。文件存储格式,即数据在磁盘上是如何组织的,比如 leveldb 的 sst 文件由 DataBlock、FilterBlock、IndexBlock、Footer 等组成。这种格式的设计,适应了单机写多读少、读取新写入数据的场景。 1. 大数据为何偏爱列存储 Apache ORC、Apache Parquet 都是典型的列存储格式,大数据的场景,为何偏爱列存储?...
本文介绍了文件存储格式的设计和大数据为何偏爱列存储,列存储在IO效率、压缩技术、延迟物化和缓存性能方面具有优势。文章还介绍了Apache ORC和Apache Parquet的文件结构和代码示例,最后总结了ORC和Parquet的比较以及现代存储格式设计的局限性。