小红花·文摘

文章讨论了OLAP系统中的压缩技术，重点介绍了列存储的压缩方法。通过使用RLE、字典编码、位打包和增量编码等四种压缩编解码器，数据可以减少5-10倍。每种编码器根据数据类型自动选择，以实现最佳压缩效果，并介绍了压缩的实现细节和未来的开发计划。

OLAP – 第三阶段压缩

Kimserey Lam’s website, Software Development blog posts, videos and tutorials ·

OLAP数据库与OLTP数据库的主要区别在于数据存储方式。OLAP使用列存储，以提高分析查询速度。DuckDB的基础结构包括向量和数据块，每个向量最多可存2048个值，并使用有效性位掩码跟踪NULL值。数据块是列向量的集合，支持高效的数据处理和过滤。

OLAP – 第一阶段向量与数据块

Kimserey Lam’s website, Software Development blog posts, videos and tutorials ·

本文探讨了ClickHouse的列存储引擎MergeTree的架构与优势，强调其在OLAP场景下的高效性。列存储通过减少IO、优化压缩和向量化计算，显著提升查询性能。与行存和LSM存储相比，ClickHouse在处理分析负载时表现优越，适合高并发和大数据量的场景。文章还介绍了MergeTree的不同变种及其应用场景，强调了其在数据分析中的重要性。

【列存引擎内核】列存基础与 ClickHouse 架构

土法炼钢兴趣小组的博客 ·

本文讨论了ClickHouse的列存储压缩技术，包括专用编码（如Delta和Gorilla）与通用压缩（如LZ4和ZSTD）。不同数据类型适用不同的编码策略，压缩效果需通过实测来验证。建议根据数据特征选择合适的CODEC，以优化存储和查询性能。文章还提到与PostgreSQL的对比，以及在高并发环境下的插入策略和性能监控。

【列存引擎内核】压缩与编码

土法炼钢兴趣小组的博客 ·

本文探讨了ClickHouse的列存储架构及其向量化执行机制，强调了批量处理的优势。介绍了Block和IProcessor的结构，分析了数据读取、过滤和聚合的过程，并与PostgreSQL的执行器进行了对比，指出ClickHouse在OLAP场景中的高效性和优化设置。

【列存引擎内核】向量化执行引擎

土法炼钢兴趣小组的博客 ·

C++中的StringView优化了字符串比较，短字符串直接内联存储，避免了指针解引用；长字符串通过前缀检查减少堆访问。在随机访问场景中，StringView显著提高了性能，尤其在列存储中。尽管顺序访问时SimpleStr略快，但StringView的优势在大多数情况下依然明显。

DuckDB与ClickHouse Local：分析工作负载的比较分析

DEV Community ·

在PostgreSQL中处理数十亿行数据

Timescale Blog ·

Polars发布1.0版本，是一个基于列存储、多线程的查询引擎，支持Python、NodeJS、R、SQL和Rust。更新引入了GPU加速和新的流处理引擎，提升性能和内存效率。Meilisearch发布1.9版本，优化搜索结果的相关性和准确性。Rust中使用泛型函数的小技巧可以减少代码量。

【Rust日报】2024-07-02 Polars 发布 1.0 版本

Rust.cc ·

本文介绍了GaussDB(DWS)中的向量化执行引擎，该引擎采用一次一批元组的执行模式，能够减少遍历执行节点的开销，提高CPU的有效利用率。向量化引擎与列存储结合，能够在底层扫描节点装填向量化的列数据。文章还介绍了行执行器和列执行器的区别，以及向量化引擎的性能优势。最后，文章提到了GaussDB向量化引擎的演进过程，包括Sonic向量化引擎和Turbo向量化引擎的推出，以及对各种算子的进一步优化。