TiDB_PingCAP 的博客

TiDB_PingCAP 的博客 -

TiDB 7.5.0 LTS 高性能数据批处理方案

b. 在简单的数据导出场景,使用导出 csv 替换原本 limit 处理逻辑,应用将查询结果导出到一个共享 NFS/S3 对象存储中,再读取 NFS/S3 对象存储中的 CSV,进行结果的处理,极大的降低了数据库的压力,同时性能将比之前使用 limit 分批处理更高。如果使用 LOAD DATA 要获得比较高的性能,建议对单个文件进行拆分,同时 csv 中文件的顺序建议与目标表主键顺序一致,如一个 CSV 文件存储 20000 行,再通过多线程并行来写入,此时写入性能也比较高。

TiDB在批处理方面的能力不断演进,从TiDB 5.0开始支持MPP并行计算能力,TiDB 6.1引入了BATCH DML功能,7.1 LTS版本正式GA了TiFlash查询结果物化功能,7.5 LTS版本正式GA了IMPORT INTO功能。通过测试发现,使用JAVA程序处理时,StreamingResult流式读取+多并发写入方式能够获得非常好的性能;使用LOAD DATA方式要对单个文件进行拆分,同时csv中文件的顺序建议与目标表主键顺序一致;使用ETL+调度平台方式,使用SQL语句导出查询结果或使用IMPORT INTO导入CSV数据都能获得较高的性能。TiDB 7.5.0引入的IMPORT INTO功能让批处理更加简单高效。

BATCH DML IMPORT INTO MPP并行计算 TiDB 批处理 高性能

相关推荐 去reddit讨论

热榜 Top10

观测云
观测云
LigaAI
LigaAI
eolink
eolink
Dify.AI
Dify.AI

推荐或自荐