💡
原文英文,约700词,阅读约需3分钟。
📝
内容提要
Databend是一种云数据仓库,提供低成本和开源替代Snowflake的选择。该文章讨论了将数据加载到具有额外列的表中,并介绍了Parquet Reader的读取策略。Databend已经进行了改进,例如在查询日志中添加了溢出信息,并支持将数据卸载到压缩文件中。该团队正在积极修复SQLsmith检测到的问题,并鼓励社区参与。文章还提到了新的贡献者,并提供了完整的更改日志链接。
🎯
关键要点
- Databend是一种现代云数据仓库,提供低成本和复杂度的解决方案,是Snowflake的开源替代品。
- COPY INTO命令默认根据文件字段顺序将数据加载到表中,需确保数据对齐。
- 如果表的列数多于文件,可以指定要加载数据的列。
- 在CSV格式中,如果表的额外列在末尾,可以使用ERROR_ON_COLUMN_COUNT_MISMATCH选项加载数据。
- 引入了Parquet Reader的读取策略以改善行组读取逻辑和数据块重用。
- NoPrefetchPolicy:不进行预取阶段,直接读取和输出所需数据块。
- PredicateAndTopkPolicy:在预取阶段预取所需列,并在最终阶段读取剩余列。
- TopkOnlyPolicy:类似于PredicateAndTopkPolicy,但仅在预取阶段评估topk。
- 新增了查询日志中的溢出信息,支持将数据卸载到压缩文件中。
- 引入了HTTP API以查询后台任务,提供了过滤文件的示例。
- SQLsmith发现了约40个bug,Databend Labs正在积极修复这些问题,鼓励社区参与。
- 欢迎新贡献者,@zenus修复了COPY INTO执行时未检测到模式不匹配的问题。
- 可以查看Databend Nightly的完整更改日志以了解最新进展。
🏷️
标签
➡️