过去五年,中国开源数据库产品如OceanBase和TiDB采用了不同的开源协议。OceanBase选择MulanPubL-2.0,旨在防止竞争并鼓励社区贡献;而TiDB则选择Apache 2.0,以便于国际化和云市场的集成。总体来看,Apache 2.0因其友好性和低法律风险,成为主流选择。
用Rust重写Apache Doris可能降低开发门槛,提高性能和安全性,同时改善内存管理和并发处理能力。
京东利用Apache Doris构建广告数据存储服务,提供实时报表和多维分析。随着数据量激增,存储资源成为瓶颈。通过冷热数据分层方案,优化存储和查询效率,降低成本。Doris 2.0支持冷数据存储于分布式系统,提升查询能力,存储成本降低约87%。
Apache Doris通过强大的SQL方言兼容性,构建了统一的数据查询生态系统,简化了多数据源整合,提高了数据分析效率,确保了业务连续性。
Apache Doris的索引系统包括前缀索引、倒排索引、ZoneMap索引和BloomFilter索引。前缀索引通过排序快速定位数据,倒排索引支持全文检索,ZoneMap索引利用统计信息跳过无关数据块,BloomFilter索引加速等值查询和LIKE查询。了解这些索引的原理和应用场景有助于优化查询性能。
我首次为Apache Doris开源项目贡献代码,修复了重复键警告和未使用的导入,优化了性能。在此过程中,我面临了代码理解、环境搭建和冲突解决等挑战。小修复同样重要,学习git对贡献至关重要,鼓励大家积极参与开源!
Apache Doris 2.1版本引入了Job Scheduler功能,提高了数据管理中的定时调度能力。该功能包括高效调度、灵活调度、事件池和高性能处理队列等特点,实现了数据导入的完整性和一致性。同时,基于Catalog和Job Scheduler的数据自动同步也得到了介绍。未来,Doris Job Scheduler还将支持UI界面查看任务分布情况和对导入任务、UPDATE、DELETE操作进行定时调度。
Apache Doris 2.1.1版本发布,修复了2.1.0版本的问题,提升了性能和稳定性。改变了Float类型字段返回值序列化方式,升级了Arrow Flight和ADBC版本。新增了默认开启列级权限、支持IP透传协议、增加系统表和指标等功能。优化了任务分布、查询性能、内存使用等方面。修复了多个Bug。
本文介绍了使用Flink CDC + Iceberg + Doris构建实时湖仓一体的联邦查询分析,展示了Doris和Iceberg的使用,介绍了Doris的架构和支持的外部表类型,演示了创建MySQL数据库表和初始化数据,创建Iceberg Catalog和Mysql CDC表,以及在Doris中创建Iceberg外表和查询Iceberg数据。文章指出Doris支持联合查询分析,提供统一的查询分析入口。
完成下面两步后,将自动完成登录并继续当前操作。