Databend 本周动态 #113

Databend 本周动态 #113

💡 原文英文,约700词,阅读约需3分钟。
📝

内容提要

Databend是一种云数据仓库,提供低成本和开源替代Snowflake的选择。该文章讨论了将数据加载到具有额外列的表中,并介绍了Parquet Reader的读取策略。Databend已经进行了改进,例如在查询日志中添加了溢出信息,并支持将数据卸载到压缩文件中。该团队正在积极修复SQLsmith检测到的问题,并鼓励社区参与。文章还提到了新的贡献者,并提供了完整的更改日志链接。

🎯

关键要点

  • Databend是一种现代云数据仓库,提供低成本和复杂度的解决方案,是Snowflake的开源替代品。
  • COPY INTO命令默认根据文件字段顺序将数据加载到表中,需确保数据对齐。
  • 如果表的列数多于文件,可以指定要加载数据的列。
  • 在CSV格式中,如果表的额外列在末尾,可以使用ERROR_ON_COLUMN_COUNT_MISMATCH选项加载数据。
  • 引入了Parquet Reader的读取策略以改善行组读取逻辑和数据块重用。
  • NoPrefetchPolicy:不进行预取阶段,直接读取和输出所需数据块。
  • PredicateAndTopkPolicy:在预取阶段预取所需列,并在最终阶段读取剩余列。
  • TopkOnlyPolicy:类似于PredicateAndTopkPolicy,但仅在预取阶段评估topk。
  • 新增了查询日志中的溢出信息,支持将数据卸载到压缩文件中。
  • 引入了HTTP API以查询后台任务,提供了过滤文件的示例。
  • SQLsmith发现了约40个bug,Databend Labs正在积极修复这些问题,鼓励社区参与。
  • 欢迎新贡献者,@zenus修复了COPY INTO执行时未检测到模式不匹配的问题。
  • 可以查看Databend Nightly的完整更改日志以了解最新进展。
➡️

继续阅读